भाषण भावना और भावना विश्लेषण

AI-संचालित अंतर्दृष्टि के साथ स्मार्ट कॉल सेंटर को सक्षम बनाना

बेहतर ग्राहक सेवा के लिए वास्तविक समय में भावना और मनोभाव का पता लगाने के लिए ऑडियो डेटा संग्रहण और एनोटेशन में शैप की विशेषज्ञता का लाभ उठाना।

भाषण भावना और भावना विश्लेषण

स्वचालित भाषण भावना और भावना विश्लेषण

क्लाइंट ने कॉल सेंटरों के लिए एक स्वचालित भाषण भावना और भावना विश्लेषण मॉडल विकसित करने के लिए शैप के साथ भागीदारी की। इस परियोजना में चार अंग्रेजी बोलियों - यूएस, यूके, ऑस्ट्रेलियाई और भारतीय में 250 घंटे के कॉल सेंटर ऑडियो डेटा को इकट्ठा करना और एनोटेट करना शामिल था। इसने क्लाइंट को वास्तविक समय के ग्राहक इंटरैक्शन में खुश, तटस्थ और गुस्से जैसी भावनाओं और असंतुष्ट और संतुष्ट जैसी भावनाओं का पता लगाने के लिए अपने AI मॉडल को बढ़ाने में सक्षम बनाया।

इस परियोजना ने व्यंग्य का पता लगाने, ऑडियो की लंबाई में भिन्नता, तथा असंतोष के सूक्ष्म मौखिक संकेतों जैसी चुनौतियों को पार करते हुए सटीक और मापनीय परिणाम दिए।

स्वचालित भाषण भावना और भावना विश्लेषण

मुख्य आँकड़े

कॉल सेंटर ऑडियो डेटा को 4 अंग्रेजी बोलियों में एकत्रित और एनोटेट किया गया

250 घंटे

भाषाओं की संख्या

अमेरिकी अंग्रेजी, यूके अंग्रेजी, ऑस्ट्रेलियाई अंग्रेजी और भारतीय अंग्रेजी

बक्सों का इस्तेमाल करें

स्वचालित भाषण भावना और भावना विश्लेषण

परियोजना गुंजाइश

अंग्रेजी की चार बोलियों में 250 घंटों का कॉल सेंटर ऑडियो डेटा एकत्रित करें और उस पर टिप्पणी लिखें:

  • अमेरिकी अंग्रेजी (30%)
  • यूके अंग्रेजी (30%)
  • ऑस्ट्रेलियाई अंग्रेजी (20%)
  • भारतीय अंग्रेजी (20%)

दायरे में

इस परियोजना में तीन भाग हैं:

  • मेटाडेटा सहित विशिष्ट इकाइयों वाला ऑडियो डेटा.
  • विभाजन और समय-मुद्रण विवरण के साथ संगत प्रतिलेखित फ़ाइलें।
  • भावना और संवेदना एनोटेशन:
    • ऑडियो भावना: खुश, तटस्थ, क्रोधित
    • प्रतिलेखन भावना: बेहद असंतुष्ट, असंतुष्ट, तटस्थ, संतुष्ट, बेहद संतुष्ट

चुनौतियां

बोलियों की विविधता

यह सुनिश्चित करना कि ऑडियो डेटा निर्दिष्ट बोलियों (यूएस, यूके, ऑस्ट्रेलियाई और भारतीय) का सटीक रूप से प्रतिनिधित्व करता है, चुनौतीपूर्ण हो सकता है। इन श्रेणियों के भीतर अलग-अलग क्षेत्रों में अलग-अलग शब्दावली, लहजे और उच्चारण का उपयोग किया जा सकता है।

विशेषज्ञता की आवश्यकता

भावना और संवेदना के लिए ऑडियो और प्रतिलेखन की व्याख्या करने के लिए प्रशिक्षित व्याख्याताओं की आवश्यकता होती है जो प्रत्येक बोली की सांस्कृतिक बारीकियों और भाषाई सूक्ष्मताओं से परिचित हों।

भावनाओं और संवेदनाओं की जटिलता

ऑडियो भावना और प्रतिलेखन भावना हमेशा संरेखित नहीं होती। उदाहरण के लिए, एक व्यक्ति गुस्से में लग सकता है लेकिन वास्तव में संतुष्टि व्यक्त करता है। उदाहरण के लिए, "ओह, अद्भुत, एक और व्यक्ति जो मेरी समस्या का समाधान नहीं कर सकता" जैसे व्यंग्यात्मक वाक्यांशों में व्यंग्यात्मक बातचीत को संभालना भावना और भावना के लिए सही ढंग से एनोटेट किया जाना चाहिए।

ऑडियो क्वालिटी

ऑडियो रिकॉर्डिंग की गुणवत्ता अलग-अलग हो सकती है, जिससे ट्रांसक्रिप्शन की सटीकता और भावना का पता लगाने पर असर पड़ता है। पृष्ठभूमि शोर, ओवरलैपिंग वार्तालाप और अलग-अलग रिकॉर्डिंग उपकरण महत्वपूर्ण चुनौतियां पैदा कर सकते हैं।

सटीक रूप से कैप्चर करना

भारी साँस छोड़ने या हताशा के अन्य संकेतों जैसे मौखिक संकेतों के माध्यम से असंतोष।

उपाय

उन्नत प्राकृतिक भाषा प्रसंस्करण (एनएलपी) तकनीकों का लाभ उठाते हुए, निम्नलिखित समाधान कार्यान्वित किए गए:

डेटा संग्रहण

  • 250 घंटे का ऑडियो डेटा बोली-विशिष्ट कोटा में विभाजित किया गया।
    • अमेरिकी अंग्रेजी (30% या 75 घंटे)
    • यूके अंग्रेजी (30% या 75 घंटे)
    • ऑस्ट्रेलियाई अंग्रेजी (20% या 50 घंटे)
    • भारतीय अंग्रेजी (20% या 50 घंटे)
  • अमेरिका, ब्रिटेन, ऑस्ट्रेलिया और भारत के मूल उच्चारण वाले उपयोगकर्ता।
  • विभिन्न स्वरों वाले भाषण नमूने, उन मामलों पर विशेष ध्यान देते हुए जहां आवाज की भावना गुस्से में है और पाठ की भावना असंतुष्ट या अत्यधिक असंतुष्ट है।

पाठ वर्गीकरण/टिप्पणी

पाठ का वर्गीकरण

  • विशिष्ट श्रेणियों के आधार पर भावनाओं और संवेदनाओं का एनोटेशन:
    • ऑडियो भावना: खुश, तटस्थ, क्रोधित.
    • प्रतिलेखन भावना: अत्यंत असंतुष्ट, असंतुष्ट, तटस्थ, संतुष्ट, अत्यंत संतुष्ट।
  • प्रत्येक ऑडियो खंड में केवल एक प्राथमिक भावना निहित थी।
  • वार्तालाप के भीतर भिन्न-भिन्न विलंब खंड (2 से 30 सेकंड तक) लागू किए गए।
  • प्रतिलेखन प्रारूप में JSON आउटपुट का अनुसरण किया गया, जिसमें बाएं और दाएं वक्ता की जानकारी, भावना टैग और अंतिम खंड की भावना शामिल थी।

 

क्वालिटी एश्योरेंस

गुणता आश्वासन
प्रतिलेखन सटीकता:

  • यह सुनिश्चित किया गया कि 250 घंटों का ऑडियो न्यूनतम रूप से वितरित किया जाए:
    • 90% प्रतिलेखन त्रुटि दर (TER) सटीकता।
    • 95% शब्द पहचान दर (WER) सटीकता।

क्यूए प्रक्रिया:

  • डेटासेट से यादृच्छिक रूप से चयनित नमूनों का नियमित ऑडिट किया गया।
    • डेटासेट में TER और WER को मापने के लिए स्वचालित उपकरणों का उपयोग किया गया।
    • चिह्नित अनुभागों की मैन्युअल समीक्षा से यह सुनिश्चित हुआ कि सटीकता की सीमाएं पूरी हो गई हैं।

परिणाम

प्रशिक्षण डेटा एक स्वचालित भावना और भावना पहचान मॉडल के विकास का समर्थन करेगा, जो निम्नलिखित प्रदान करेगा:

  • कॉल सेंटर इंटरैक्शन में वास्तविक समय भावना का पता लगाना।
  • जटिल मामलों, जैसे व्यंग्य या असंतोष, को अधिक प्रभावी ढंग से निपटाना।
  • भविष्य की परियोजनाओं के लिए मापनीयता, बढ़ी हुई डेटा मात्रा और अधिक भाषाओं के लिए आसानी से अनुकूलन।

वितरणयोग्य

  • 250 घंटे की ऑडियो फ़ाइलें (8 kHz PCM WAV प्रारूप, मोनो में)
  • ट्रांसक्रिप्शन फ़ाइलें (विभाजन, भावना टैग और वक्ता पहचानकर्ताओं के साथ)
  • मेटाडेटा (ऑडियो अवधि, वक्ता विवरण, आदि)
उद्धरण चिह्न

हमारे कॉल सेंटर डेटा प्रोजेक्ट के लिए Shaip के साथ साझेदारी करना हमारे AI समाधानों को आगे बढ़ाने में एक महत्वपूर्ण मोड़ साबित हुआ है। उनकी टीम ने कुशलतापूर्वक चार प्रमुख अंग्रेज़ी बोलियों - अमेरिकी, ब्रिटिश, ऑस्ट्रेलियाई और भारतीय - में 250 घंटे का ऑडियो डेटा एकत्र और विश्लेषण किया, जिससे उच्चतम गुणवत्ता और सटीकता सुनिश्चित हुई। इन क्षेत्रों में भाषाई बारीकियों पर ध्यान देने से हमारे वाक् पहचान मॉडल की सटीकता में उल्लेखनीय सुधार हुआ। इसके अतिरिक्त, जटिल डेटा विश्लेषण परियोजनाओं को संभालने में Shaip की विशेषज्ञता ने हमें बड़े पैमाने पर विश्वसनीय और अनुरूप मॉडल बनाने में महत्वपूर्ण भूमिका निभाई है।

★ ★ ★ ★ ★
उद्धरण चिह्न