भाषण भावना और भावना विश्लेषण
AI-संचालित अंतर्दृष्टि के साथ स्मार्ट कॉल सेंटर को सक्षम बनाना
बेहतर ग्राहक सेवा के लिए वास्तविक समय में भावना और मनोभाव का पता लगाने के लिए ऑडियो डेटा संग्रहण और एनोटेशन में शैप की विशेषज्ञता का लाभ उठाना।
स्वचालित भाषण भावना और भावना विश्लेषण
क्लाइंट ने कॉल सेंटरों के लिए एक स्वचालित भाषण भावना और भावना विश्लेषण मॉडल विकसित करने के लिए शैप के साथ भागीदारी की। इस परियोजना में चार अंग्रेजी बोलियों - यूएस, यूके, ऑस्ट्रेलियाई और भारतीय में 250 घंटे के कॉल सेंटर ऑडियो डेटा को इकट्ठा करना और एनोटेट करना शामिल था। इसने क्लाइंट को वास्तविक समय के ग्राहक इंटरैक्शन में खुश, तटस्थ और गुस्से जैसी भावनाओं और असंतुष्ट और संतुष्ट जैसी भावनाओं का पता लगाने के लिए अपने AI मॉडल को बढ़ाने में सक्षम बनाया।
इस परियोजना ने व्यंग्य का पता लगाने, ऑडियो की लंबाई में भिन्नता, तथा असंतोष के सूक्ष्म मौखिक संकेतों जैसी चुनौतियों को पार करते हुए सटीक और मापनीय परिणाम दिए।
मुख्य आँकड़े
कॉल सेंटर ऑडियो डेटा को 4 अंग्रेजी बोलियों में एकत्रित और एनोटेट किया गया
250 घंटे
भाषाओं की संख्या
अमेरिकी अंग्रेजी, यूके अंग्रेजी, ऑस्ट्रेलियाई अंग्रेजी और भारतीय अंग्रेजी
बक्सों का इस्तेमाल करें
स्वचालित भाषण भावना और भावना विश्लेषण
परियोजना गुंजाइश
अंग्रेजी की चार बोलियों में 250 घंटों का कॉल सेंटर ऑडियो डेटा एकत्रित करें और उस पर टिप्पणी लिखें:
- अमेरिकी अंग्रेजी (30%)
- यूके अंग्रेजी (30%)
- ऑस्ट्रेलियाई अंग्रेजी (20%)
- भारतीय अंग्रेजी (20%)
दायरे में
इस परियोजना में तीन भाग हैं:
- मेटाडेटा सहित विशिष्ट इकाइयों वाला ऑडियो डेटा.
- विभाजन और समय-मुद्रण विवरण के साथ संगत प्रतिलेखित फ़ाइलें।
- भावना और संवेदना एनोटेशन:
- ऑडियो भावना: खुश, तटस्थ, क्रोधित
- प्रतिलेखन भावना: बेहद असंतुष्ट, असंतुष्ट, तटस्थ, संतुष्ट, बेहद संतुष्ट
चुनौतियां
बोलियों की विविधता
यह सुनिश्चित करना कि ऑडियो डेटा निर्दिष्ट बोलियों (यूएस, यूके, ऑस्ट्रेलियाई और भारतीय) का सटीक रूप से प्रतिनिधित्व करता है, चुनौतीपूर्ण हो सकता है। इन श्रेणियों के भीतर अलग-अलग क्षेत्रों में अलग-अलग शब्दावली, लहजे और उच्चारण का उपयोग किया जा सकता है।
विशेषज्ञता की आवश्यकता
भावना और संवेदना के लिए ऑडियो और प्रतिलेखन की व्याख्या करने के लिए प्रशिक्षित व्याख्याताओं की आवश्यकता होती है जो प्रत्येक बोली की सांस्कृतिक बारीकियों और भाषाई सूक्ष्मताओं से परिचित हों।
भावनाओं और संवेदनाओं की जटिलता
ऑडियो भावना और प्रतिलेखन भावना हमेशा संरेखित नहीं होती। उदाहरण के लिए, एक व्यक्ति गुस्से में लग सकता है लेकिन वास्तव में संतुष्टि व्यक्त करता है। उदाहरण के लिए, "ओह, अद्भुत, एक और व्यक्ति जो मेरी समस्या का समाधान नहीं कर सकता" जैसे व्यंग्यात्मक वाक्यांशों में व्यंग्यात्मक बातचीत को संभालना भावना और भावना के लिए सही ढंग से एनोटेट किया जाना चाहिए।
ऑडियो क्वालिटी
ऑडियो रिकॉर्डिंग की गुणवत्ता अलग-अलग हो सकती है, जिससे ट्रांसक्रिप्शन की सटीकता और भावना का पता लगाने पर असर पड़ता है। पृष्ठभूमि शोर, ओवरलैपिंग वार्तालाप और अलग-अलग रिकॉर्डिंग उपकरण महत्वपूर्ण चुनौतियां पैदा कर सकते हैं।
सटीक रूप से कैप्चर करना
भारी साँस छोड़ने या हताशा के अन्य संकेतों जैसे मौखिक संकेतों के माध्यम से असंतोष।
उपाय
उन्नत प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकों का लाभ उठाते हुए, निम्नलिखित समाधान कार्यान्वित किए गए:
डेटा संग्रहण
- 250 घंटे का ऑडियो डेटा बोली-विशिष्ट कोटा में विभाजित किया गया।
- अमेरिकी अंग्रेजी (30% या 75 घंटे)
- यूके अंग्रेजी (30% या 75 घंटे)
- ऑस्ट्रेलियाई अंग्रेजी (20% या 50 घंटे)
- भारतीय अंग्रेजी (20% या 50 घंटे)
- अमेरिका, ब्रिटेन, ऑस्ट्रेलिया और भारत के मूल उच्चारण वाले उपयोगकर्ता।
- विभिन्न स्वरों वाले भाषण नमूने, उन मामलों पर विशेष ध्यान देते हुए जहां आवाज की भावना गुस्से में है और पाठ की भावना असंतुष्ट या अत्यधिक असंतुष्ट है।
पाठ वर्गीकरण/टिप्पणी

- विशिष्ट श्रेणियों के आधार पर भावनाओं और संवेदनाओं का एनोटेशन:
- ऑडियो भावना: खुश, तटस्थ, क्रोधित.
- प्रतिलेखन भावना: अत्यंत असंतुष्ट, असंतुष्ट, तटस्थ, संतुष्ट, अत्यंत संतुष्ट।
- प्रत्येक ऑडियो खंड में केवल एक प्राथमिक भावना निहित थी।
- वार्तालाप के भीतर भिन्न-भिन्न विलंब खंड (2 से 30 सेकंड तक) लागू किए गए।
- प्रतिलेखन प्रारूप में JSON आउटपुट का अनुसरण किया गया, जिसमें बाएं और दाएं वक्ता की जानकारी, भावना टैग और अंतिम खंड की भावना शामिल थी।
क्वालिटी एश्योरेंस

प्रतिलेखन सटीकता:
- यह सुनिश्चित किया गया कि 250 घंटों का ऑडियो न्यूनतम रूप से वितरित किया जाए:
- 90% प्रतिलेखन त्रुटि दर (TER) सटीकता।
- 95% शब्द पहचान दर (WER) सटीकता।
क्यूए प्रक्रिया:
- डेटासेट से यादृच्छिक रूप से चयनित नमूनों का नियमित ऑडिट किया गया।
- डेटासेट में TER और WER को मापने के लिए स्वचालित उपकरणों का उपयोग किया गया।
- चिह्नित अनुभागों की मैन्युअल समीक्षा से यह सुनिश्चित हुआ कि सटीकता की सीमाएं पूरी हो गई हैं।
परिणाम
प्रशिक्षण डेटा एक स्वचालित भावना और भावना पहचान मॉडल के विकास का समर्थन करेगा, जो निम्नलिखित प्रदान करेगा:
- कॉल सेंटर इंटरैक्शन में वास्तविक समय भावना का पता लगाना।
- जटिल मामलों, जैसे व्यंग्य या असंतोष, को अधिक प्रभावी ढंग से निपटाना।
- भविष्य की परियोजनाओं के लिए मापनीयता, बढ़ी हुई डेटा मात्रा और अधिक भाषाओं के लिए आसानी से अनुकूलन।
वितरणयोग्य
- 250 घंटे की ऑडियो फ़ाइलें (8 kHz PCM WAV प्रारूप, मोनो में)
- ट्रांसक्रिप्शन फ़ाइलें (विभाजन, भावना टैग और वक्ता पहचानकर्ताओं के साथ)
- मेटाडेटा (ऑडियो अवधि, वक्ता विवरण, आदि)
हमारे कॉल सेंटर डेटा प्रोजेक्ट के लिए Shaip के साथ साझेदारी करना हमारे AI समाधानों को आगे बढ़ाने में एक महत्वपूर्ण मोड़ साबित हुआ है। उनकी टीम ने कुशलतापूर्वक चार प्रमुख अंग्रेज़ी बोलियों - अमेरिकी, ब्रिटिश, ऑस्ट्रेलियाई और भारतीय - में 250 घंटे का ऑडियो डेटा एकत्र और विश्लेषण किया, जिससे उच्चतम गुणवत्ता और सटीकता सुनिश्चित हुई। इन क्षेत्रों में भाषाई बारीकियों पर ध्यान देने से हमारे वाक् पहचान मॉडल की सटीकता में उल्लेखनीय सुधार हुआ। इसके अतिरिक्त, जटिल डेटा विश्लेषण परियोजनाओं को संभालने में Shaip की विशेषज्ञता ने हमें बड़े पैमाने पर विश्वसनीय और अनुरूप मॉडल बनाने में महत्वपूर्ण भूमिका निभाई है।