केस स्टडी: स्वचालित वाक् पहचान

8 हजार से अधिक ऑडियो घंटे एकत्र किए गए, बहुभाषी आवाज प्रौद्योगिकी के लिए 800 घंटे ट्रांसक्राइब किए गए

संवादात्मक ऐ

परिचय

भारत को एक ऐसे मंच की आवश्यकता है जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, क्लाइंट ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा को इकट्ठा करने और ट्रांसक्रिप्ट करने के लिए शेप के साथ साझेदारी की।

खंड

डेटा एकत्र करने के घंटे
10
एनोटेटेड पृष्ठों की संख्या
10 +
परियोजना अवधि
< 1 महीने

चुनौतियां

भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:

डेटा संग्रहण

  • भारत के दूरस्थ स्थानों से 8000 घंटे का प्रशिक्षण डेटा प्राप्त करें
  • आपूर्तिकर्ता 20-70 वर्ष के आयु समूहों से सहज भाषण एकत्र करेगा
  • उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
  • प्रत्येक ऑडियो रिकॉर्डिंग 16 बिट्स/सैंपल के साथ कम से कम 16kHz होनी चाहिए।
डेटा संग्रह

डेटा प्रतिलेखन

वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, पूंजीकरण, संक्षिप्तीकरण, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द और आरंभिक शब्द, अस्पष्ट भाषण, अस्पष्ट भाषण, गैर-लक्षित भाषाएं, गैर-भाषण के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।

डेटा प्रतिलेखन

गुणवत्ता जांच एवं प्रतिक्रिया

सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण रिकॉर्डिंग ही वितरित की जाएंगी

उपाय

संवादी एआई की हमारी गहरी समझ के साथ, हमने भारत के दूरदराज के हिस्सों से ऑडियो डेटा का बड़ा संग्रह बनाने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को ऑडियो डेटा एकत्र करने, ट्रांसक्रिप्ट करने में मदद की।

शेप के लिए काम का दायरा बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने, डेटा को ट्रांसक्रिप्ट करने और मेटाडेटा युक्त संबंधित JSON फ़ाइलों को वितरित करने तक सीमित नहीं था [स्पीकर और ट्रांसक्राइबर्स दोनों के लिए। प्रत्येक वक्ता के लिए, मेटाडेटा में एक अज्ञात स्पीकर आईडी, डिवाइस विवरण, लिंग, आयु और शिक्षा जैसी जनसांख्यिकीय जानकारी, साथ ही उनका पिनकोड, सामाजिक-आर्थिक स्थिति, बोली जाने वाली भाषाएं और उनके जीवन की अवधि का रिकॉर्ड शामिल होता है। प्रत्येक ट्रांसक्राइबर के लिए, डेटा में एक अज्ञात ट्रांसक्राइबर आईडी, वक्ताओं के समान जनसांख्यिकीय विवरण, उनके ट्रांसक्रिप्शन अनुभव की अवधि और उन भाषाओं का संपूर्ण विवरण शामिल होता है जिन्हें वे पढ़, लिख और बोल सकते हैं।

शाप एकत्र किया गया 8000 जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए बड़े पैमाने पर घंटों का ऑडियो डेटा / सहज भाषण और 800 घंटे तक प्रसारित किया गया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया। एकत्र किया गया/सहज भाषण विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित था। का 3500 तस्वीरें 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

डेटा संग्रहण

राज्य जिले ऑडियो घंटे प्रतिलेखन (घंटे)
बिहार सारण, पूर्वी चंपारण, गोपालगंज, सीतामढी, समस्तीपुर, दरभंगा, मधेपुरा, भागलपुर, गया, किशनगंज, वैशाली, लखीसराय, सहरसा, सुपौल, अररिया, बेगुसराय, जहानाबाद, पूर्णिया, मुजफ्फरपुर, जमुई 2000 200
उत्तर प्रदेश देवरिया, वाराणसी, गोरखपुर, ग़ाज़ीपुर, मुज़फ़्फ़रनगर, एटा, हमीरपुर, ज्योतिबा फुले नगर, बदायूँ, जालौन 1000 100
राजस्थान नागौर, चूरू 200 20
उत्तराखंड टेहरी गढ़वाल, उत्तरकाशी 200 20
छत्तीसगढ़ बिलासपुर, रायगढ़, कबीरधाम, सरगुजा, कोरबा, जशपुर, राजनांदगांव, बलरामपुर, बस्तर, सुकमा 1000 100
पश्चिम बंगाल पश्चिम मेदिनीपुर, मालदा, जलपाईगुड़ी, पुरुलिया, कोलकाता, झाड़ग्राम, उत्तर 24 परगना, दक्षिण दिनाजपुर 800 80
झारखंड साहेबगंज, जामताड़ा 200 20
आंध्र प्रदेश गुंटूर, चित्तूर, विशाखापत्तनम, कृष्णा, अनंतपुर, श्रीकाकुलम 600 60
तेलंगाना करीमनगर, नलगोंडा 200 20
गोवा उत्तर और दक्षिण गोवा 100 10
कर्नाटक दक्षिण कन्नड़, गुलबर्गा, धारवाड़, बेल्लारी, मैसूर, शिमोगा, बीजापुर, बेलगाम, रायचूर, चामराजनगर 1000 100
महाराष्ट्र सिंधुदुर्ग, धुले, नागपुर, पुणे, औरंगाबाद, चंद्रपुर, सोलापुर 700 70
कुल 8000 800

सामान्य दिशा - निर्देश

प्रारूप

  • 16 किलोहर्ट्ज़ पर ऑडियो, 16 बिट/नमूना।
  • एक चैनल।
  • ट्रांसकोडिंग के बिना कच्चा ऑडियो।

अंदाज

  • सहज भाषण.
  • विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित वाक्य। 3500 छवियों में से 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

रिकॉर्डिंग पृष्ठभूमि

  • शांत, प्रतिध्वनि-मुक्त वातावरण में रिकॉर्ड किया गया।
  • रिकॉर्डिंग के दौरान स्मार्टफोन में कोई गड़बड़ी (कंपन या नोटिफिकेशन) नहीं होगी।
  • कतरन या दूर-क्षेत्र प्रभाव जैसी कोई विकृति नहीं।
  • फ़ोन से कंपन अस्वीकार्य; यदि ऑडियो स्पष्ट है तो बाहरी कंपन सहनीय हैं।

स्पीकर की विशिष्टता

  • प्रति जिले संतुलित लिंग वितरण के साथ आयु सीमा 20-70 वर्ष तक।
  • प्रत्येक जिले में न्यूनतम 400 देशी वक्ता।
  • वक्ताओं को अपनी घरेलू भाषा/बोली का प्रयोग करना चाहिए।
  • सभी प्रतिभागियों के लिए सहमति प्रपत्र अनिवार्य है।

गुणवत्ता जांच एवं महत्वपूर्ण गुणवत्ता आश्वासन

QA प्रक्रिया ऑडियो रिकॉर्डिंग और ट्रांस्क्रिप्शन के लिए गुणवत्ता आश्वासन को प्राथमिकता देती है। ऑडियो मानक सटीक मौन, खंड अवधि, एकल-स्पीकर स्पष्टता और उम्र और सामाजिक-आर्थिक स्थिति सहित विस्तृत मेटाडेटा पर ध्यान केंद्रित करते हैं। प्रतिलेखन मानदंड टैग सटीकता, शब्द सत्यता और सही खंड विवरण पर जोर देते हैं। स्वीकृति बेंचमार्क तय करता है कि यदि 20% से अधिक ऑडियो बैच इन मानकों पर विफल रहता है, तो इसे अस्वीकार कर दिया जाता है। 20% से कम विसंगतियों के लिए, समान प्रोफाइल वाली प्रतिस्थापन रिकॉर्डिंग की आवश्यकता होती है।

डेटा प्रतिलेखन

प्रतिलेखन दिशानिर्देश सटीकता और शब्दशः प्रतिलेखन पर तभी जोर देते हैं जब शब्द स्पष्ट और समझने योग्य हों; मुद्दे के आधार पर अस्पष्ट शब्दों को [अस्पष्ट] या [अश्रव्य] के रूप में चिह्नित किया जाता है। लंबे ऑडियो में वाक्य की सीमाएँ चिह्नित की जाती हैं , और किसी भी व्याख्या या व्याकरण संबंधी त्रुटियों के सुधार की अनुमति नहीं है। शब्दशः प्रतिलेखन त्रुटियों, स्लैंग्स और दोहराव को कवर करता है लेकिन गलत शुरुआत, फिलर ध्वनियां और हकलाना छोड़ देता है। पृष्ठभूमि और अग्रभूमि शोर को वर्णनात्मक टैग के साथ प्रतिलेखित किया जाता है, जबकि उचित नाम, शीर्षक और संख्याएं विशिष्ट प्रतिलेखन नियमों का पालन करती हैं। प्रत्येक वाक्य के लिए स्पीकर लेबल का उपयोग किया जाता है, और अधूरे वाक्यों को इसके साथ दर्शाया जाता है।

प्रोजेक्ट वर्कफ़्लो

वर्कफ़्लो ऑडियो ट्रांसक्रिप्शन प्रक्रिया का वर्णन करता है। इसकी शुरुआत प्रतिभागियों को शामिल करने और प्रशिक्षण देने से होती है। वे एक ऐप का उपयोग करके ऑडियो रिकॉर्ड करते हैं, जिसे QA प्लेटफ़ॉर्म पर अपलोड किया जाता है। यह ऑडियो गुणवत्ता जांच और स्वचालित विभाजन से गुजरता है। फिर तकनीकी टीम प्रतिलेखन के लिए खंड तैयार करती है। मैन्युअल प्रतिलेखन के बाद, एक गुणवत्ता आश्वासन कदम है। प्रतिलेखन ग्राहक को वितरित किया जाता है, और यदि स्वीकार कर लिया जाता है, तो वितरण पूर्ण माना जाता है। यदि नहीं, तो ग्राहकों की प्रतिक्रिया के आधार पर संशोधन किए जाते हैं।

परियोजना कार्यप्रवाह

परिणाम

विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा हमारे ग्राहक को निर्धारित समय में विभिन्न बोलियों के साथ विभिन्न भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:

  • नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
  • डिजिटल गवर्नेंस को बढ़ावा देता है
  • भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
  • सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री
उद्धरण चिह्न

संवादात्मक एआई के क्षेत्र में शैप की विशेषज्ञता से हम बेहद प्रभावित हैं। 80 अलग-अलग जिलों से 8000 घंटे के ऑडियो डेटा और 800 घंटे के ट्रांसक्रिप्शन को संभालना एक बेहद चुनौतीपूर्ण कार्य था। इस क्षेत्र की जटिलताओं और बारीकियों की शैप की गहरी समझ ने ही इस चुनौतीपूर्ण परियोजना को सफलतापूर्वक पूरा करना संभव बनाया। इतनी बड़ी मात्रा में डेटा की जटिलताओं को सहजता से संभालते हुए उच्च गुणवत्ता सुनिश्चित करने की उनकी क्षमता वास्तव में सराहनीय है।

★ ★ ★ ★ ★
उद्धरण चिह्न

अपने संवादात्मक AI अनुप्रयोग विकास को 100% तक बढ़ाएँ