केस स्टडी: स्वचालित वाक् पहचान
परिचय
भारत को एक ऐसे मंच की आवश्यकता है जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, क्लाइंट ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा को इकट्ठा करने और ट्रांसक्रिप्ट करने के लिए शेप के साथ साझेदारी की।
खंड
चुनौतियां
भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:
डेटा संग्रहण
- भारत के दूरस्थ स्थानों से 8000 घंटे का प्रशिक्षण डेटा प्राप्त करें
- आपूर्तिकर्ता 20-70 वर्ष के आयु समूहों से सहज भाषण एकत्र करेगा
- उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
- प्रत्येक ऑडियो रिकॉर्डिंग 16 बिट्स/सैंपल के साथ कम से कम 16kHz होनी चाहिए।
डेटा प्रतिलेखन
वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, पूंजीकरण, संक्षिप्तीकरण, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द और आरंभिक शब्द, अस्पष्ट भाषण, अस्पष्ट भाषण, गैर-लक्षित भाषाएं, गैर-भाषण के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।
गुणवत्ता जांच एवं प्रतिक्रिया
सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण रिकॉर्डिंग ही वितरित की जाएंगी
उपाय
संवादी एआई की हमारी गहरी समझ के साथ, हमने भारत के दूरदराज के हिस्सों से ऑडियो डेटा का बड़ा संग्रह बनाने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को ऑडियो डेटा एकत्र करने, ट्रांसक्रिप्ट करने में मदद की।
शेप के लिए काम का दायरा बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने, डेटा को ट्रांसक्रिप्ट करने और मेटाडेटा युक्त संबंधित JSON फ़ाइलों को वितरित करने तक सीमित नहीं था [स्पीकर और ट्रांसक्राइबर्स दोनों के लिए। प्रत्येक वक्ता के लिए, मेटाडेटा में एक अज्ञात स्पीकर आईडी, डिवाइस विवरण, लिंग, आयु और शिक्षा जैसी जनसांख्यिकीय जानकारी, साथ ही उनका पिनकोड, सामाजिक-आर्थिक स्थिति, बोली जाने वाली भाषाएं और उनके जीवन की अवधि का रिकॉर्ड शामिल होता है। प्रत्येक ट्रांसक्राइबर के लिए, डेटा में एक अज्ञात ट्रांसक्राइबर आईडी, वक्ताओं के समान जनसांख्यिकीय विवरण, उनके ट्रांसक्रिप्शन अनुभव की अवधि और उन भाषाओं का संपूर्ण विवरण शामिल होता है जिन्हें वे पढ़, लिख और बोल सकते हैं।
शाप एकत्र किया गया 8000 जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए बड़े पैमाने पर घंटों का ऑडियो डेटा / सहज भाषण और 800 घंटे तक प्रसारित किया गया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया। एकत्र किया गया/सहज भाषण विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित था। का 3500 तस्वीरें 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।
डेटा संग्रहण
राज्य | जिले | ऑडियो घंटे | प्रतिलिपि (घंटे) |
बिहार | सारण, पूर्वी चंपारण, गोपालगंज, सीतामढी, समस्तीपुर, दरभंगा, मधेपुरा, भागलपुर, गया, किशनगंज, वैशाली, लखीसराय, सहरसा, सुपौल, अररिया, बेगुसराय, जहानाबाद, पूर्णिया, मुजफ्फरपुर, जमुई | 2000 | 200 |
उत्तर प्रदेश | देवरिया, वाराणसी, गोरखपुर, ग़ाज़ीपुर, मुज़फ़्फ़रनगर, एटा, हमीरपुर, ज्योतिबा फुले नगर, बदायूँ, जालौन | 1000 | 100 |
राजस्थान | नागौर, चूरू | 200 | 20 |
उत्तराखंड | टेहरी गढ़वाल, उत्तरकाशी | 200 | 20 |
छत्तीसगढ़ | बिलासपुर, रायगढ़, कबीरधाम, सरगुजा, कोरबा, जशपुर, राजनांदगांव, बलरामपुर, बस्तर, सुकमा | 1000 | 100 |
पश्चिम बंगाल | पश्चिम मेदिनीपुर, मालदा, जलपाईगुड़ी, पुरुलिया, कोलकाता, झाड़ग्राम, उत्तर 24 परगना, दक्षिण दिनाजपुर | 800 | 80 |
झारखंड | साहेबगंज, जामताड़ा | 200 | 20 |
AP | गुंटूर, चित्तूर, विशाखापत्तनम, कृष्णा, अनंतपुर, श्रीकाकुलम | 600 | 60 |
तेलंगाना | करीमनगर, नलगोंडा | 200 | 20 |
गोवा | उत्तर+दक्षिण गोवा | 100 | 10 |
कर्नाटक | दक्षिण कन्नड़, गुलबर्गा, धारवाड़, बेल्लारी, मैसूर, शिमोगा, बीजापुर, बेलगाम, रायचूर, चामराजनगर | 1000 | 100 |
महाराष्ट्र | सिंधुदुर्ग, धुले, नागपुर, पुणे, औरंगाबाद, चंद्रपुर, सोलापुर | 700 | 70 |
कुल | 8000 | 800 |
सामान्य दिशा - निर्देश
प्रारूप
- 16 किलोहर्ट्ज़ पर ऑडियो, 16 बिट/नमूना।
- एक चैनल।
- ट्रांसकोडिंग के बिना कच्चा ऑडियो।
अंदाज
- सहज भाषण.
- विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित वाक्य। 3500 छवियों में से 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।
रिकॉर्डिंग पृष्ठभूमि
- शांत, प्रतिध्वनि-मुक्त वातावरण में रिकॉर्ड किया गया।
- रिकॉर्डिंग के दौरान स्मार्टफोन में कोई गड़बड़ी (कंपन या नोटिफिकेशन) नहीं होगी।
- कतरन या दूर-क्षेत्र प्रभाव जैसी कोई विकृति नहीं।
- फ़ोन से कंपन अस्वीकार्य; यदि ऑडियो स्पष्ट है तो बाहरी कंपन सहनीय हैं।
स्पीकर की विशिष्टता
- प्रति जिले संतुलित लिंग वितरण के साथ आयु सीमा 20-70 वर्ष तक।
- प्रत्येक जिले में न्यूनतम 400 देशी वक्ता।
- वक्ताओं को अपनी घरेलू भाषा/बोली का प्रयोग करना चाहिए।
- सभी प्रतिभागियों के लिए सहमति प्रपत्र अनिवार्य है।
गुणवत्ता जांच एवं महत्वपूर्ण गुणवत्ता आश्वासन
QA प्रक्रिया ऑडियो रिकॉर्डिंग और ट्रांस्क्रिप्शन के लिए गुणवत्ता आश्वासन को प्राथमिकता देती है। ऑडियो मानक सटीक मौन, खंड अवधि, एकल-स्पीकर स्पष्टता और उम्र और सामाजिक-आर्थिक स्थिति सहित विस्तृत मेटाडेटा पर ध्यान केंद्रित करते हैं। प्रतिलेखन मानदंड टैग सटीकता, शब्द सत्यता और सही खंड विवरण पर जोर देते हैं। स्वीकृति बेंचमार्क तय करता है कि यदि 20% से अधिक ऑडियो बैच इन मानकों पर विफल रहता है, तो इसे अस्वीकार कर दिया जाता है। 20% से कम विसंगतियों के लिए, समान प्रोफाइल वाली प्रतिस्थापन रिकॉर्डिंग की आवश्यकता होती है।
डेटा प्रतिलेखन
प्रतिलेखन दिशानिर्देश सटीकता और शब्दशः प्रतिलेखन पर तभी जोर देते हैं जब शब्द स्पष्ट और समझने योग्य हों; मुद्दे के आधार पर अस्पष्ट शब्दों को [अस्पष्ट] या [अश्रव्य] के रूप में चिह्नित किया जाता है। लंबे ऑडियो में वाक्य की सीमाएँ चिह्नित की जाती हैं , और किसी भी व्याख्या या व्याकरण संबंधी त्रुटियों के सुधार की अनुमति नहीं है। शब्दशः प्रतिलेखन त्रुटियों, स्लैंग्स और दोहराव को कवर करता है लेकिन गलत शुरुआत, फिलर ध्वनियां और हकलाना छोड़ देता है। पृष्ठभूमि और अग्रभूमि शोर को वर्णनात्मक टैग के साथ प्रतिलेखित किया जाता है, जबकि उचित नाम, शीर्षक और संख्याएं विशिष्ट प्रतिलेखन नियमों का पालन करती हैं। प्रत्येक वाक्य के लिए स्पीकर लेबल का उपयोग किया जाता है, और अधूरे वाक्यों को इसके साथ दर्शाया जाता है।
प्रोजेक्ट वर्कफ़्लो
वर्कफ़्लो ऑडियो ट्रांसक्रिप्शन प्रक्रिया का वर्णन करता है। इसकी शुरुआत प्रतिभागियों को शामिल करने और प्रशिक्षण देने से होती है। वे एक ऐप का उपयोग करके ऑडियो रिकॉर्ड करते हैं, जिसे QA प्लेटफ़ॉर्म पर अपलोड किया जाता है। यह ऑडियो गुणवत्ता जांच और स्वचालित विभाजन से गुजरता है। फिर तकनीकी टीम प्रतिलेखन के लिए खंड तैयार करती है। मैन्युअल प्रतिलेखन के बाद, एक गुणवत्ता आश्वासन कदम है। प्रतिलेखन ग्राहक को वितरित किया जाता है, और यदि स्वीकार कर लिया जाता है, तो वितरण पूर्ण माना जाता है। यदि नहीं, तो ग्राहकों की प्रतिक्रिया के आधार पर संशोधन किए जाते हैं।
परिणाम
विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा हमारे ग्राहक को निर्धारित समय में विभिन्न बोलियों के साथ विभिन्न भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:
- नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
- डिजिटल गवर्नेंस को बढ़ावा देता है
- भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
- सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री
हम बातचीत संबंधी एआई क्षेत्र में शेप की विशेषज्ञता से आश्चर्यचकित हैं। 8000 विभिन्न जिलों में 800 घंटे के ट्रांसक्रिप्शन के साथ 80 घंटे के ऑडियो डेटा को संभालने का कार्य कम से कम इतना तो बहुत बड़ा था। यह इस क्षेत्र के जटिल विवरण और बारीकियों के बारे में शैप की गहरी समझ थी जिसने ऐसी चुनौतीपूर्ण परियोजना के सफल निष्पादन को संभव बनाया। सर्वोच्च गुणवत्ता सुनिश्चित करते हुए डेटा की इस विशाल मात्रा की जटिलताओं को सहजता से प्रबंधित करने और नेविगेट करने की उनकी क्षमता वास्तव में सराहनीय है।
अपने संवादात्मक AI अनुप्रयोग विकास को 100% तक बढ़ाएँ