संवादी एआई: स्वचालित वाक् पहचान

8 हजार से अधिक ऑडियो घंटे एकत्र किए गए, बहुभाषी आवाज प्रौद्योगिकी के लिए 800 घंटे ट्रांसक्राइब किए गए

परिचय

भारत को एक ऐसे मंच की आवश्यकता है जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, क्लाइंट ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा को इकट्ठा करने और ट्रांसक्रिप्ट करने के लिए शेप के साथ साझेदारी की।

खंड

डेटा एकत्र करने के घंटे

एनोटेटेड पृष्ठों की संख्या

10 +

परियोजना अवधि

< 1 महीने

चुनौतियां

भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:

डेटा संग्रहण

भारत के दूरस्थ स्थानों से 8000 घंटे का प्रशिक्षण डेटा प्राप्त करें
आपूर्तिकर्ता 20-70 वर्ष के आयु समूहों से सहज भाषण एकत्र करेगा
उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
प्रत्येक ऑडियो रिकॉर्डिंग 16 बिट्स/सैंपल के साथ कम से कम 16kHz होनी चाहिए।

डेटा प्रतिलेखन

वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, पूंजीकरण, संक्षिप्तीकरण, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द और आरंभिक शब्द, अस्पष्ट भाषण, अस्पष्ट भाषण, गैर-लक्षित भाषाएं, गैर-भाषण के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।

गुणवत्ता जांच एवं प्रतिक्रिया

सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण रिकॉर्डिंग ही वितरित की जाएंगी

उपाय

संवादी एआई की हमारी गहरी समझ के साथ, हमने भारत के दूरदराज के हिस्सों से ऑडियो डेटा का बड़ा संग्रह बनाने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को ऑडियो डेटा एकत्र करने, ट्रांसक्रिप्ट करने में मदद की।

शेप के लिए काम का दायरा बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने, डेटा को ट्रांसक्रिप्ट करने और मेटाडेटा युक्त संबंधित JSON फ़ाइलों को वितरित करने तक सीमित नहीं था [स्पीकर और ट्रांसक्राइबर्स दोनों के लिए। प्रत्येक वक्ता के लिए, मेटाडेटा में एक अज्ञात स्पीकर आईडी, डिवाइस विवरण, लिंग, आयु और शिक्षा जैसी जनसांख्यिकीय जानकारी, साथ ही उनका पिनकोड, सामाजिक-आर्थिक स्थिति, बोली जाने वाली भाषाएं और उनके जीवन की अवधि का रिकॉर्ड शामिल होता है। प्रत्येक ट्रांसक्राइबर के लिए, डेटा में एक अज्ञात ट्रांसक्राइबर आईडी, वक्ताओं के समान जनसांख्यिकीय विवरण, उनके ट्रांसक्रिप्शन अनुभव की अवधि और उन भाषाओं का संपूर्ण विवरण शामिल होता है जिन्हें वे पढ़, लिख और बोल सकते हैं।

शाप एकत्र किया गया 8000 जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए बड़े पैमाने पर घंटों का ऑडियो डेटा / सहज भाषण और 800 घंटे तक प्रसारित किया गया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया। एकत्र किया गया/सहज भाषण विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित था। का 3500 तस्वीरें 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

डेटा संग्रहण

राज्य	जिले	ऑडियो घंटे	प्रतिलिपि (घंटे)
बिहार	सारण, पूर्वी चंपारण, गोपालगंज, सीतामढी, समस्तीपुर, दरभंगा, मधेपुरा, भागलपुर, गया, किशनगंज, वैशाली, लखीसराय, सहरसा, सुपौल, अररिया, बेगुसराय, जहानाबाद, पूर्णिया, मुजफ्फरपुर, जमुई	2000	200
उत्तर प्रदेश	देवरिया, वाराणसी, गोरखपुर, ग़ाज़ीपुर, मुज़फ़्फ़रनगर, एटा, हमीरपुर, ज्योतिबा फुले नगर, बदायूँ, जालौन	1000	100
राजस्थान	नागौर, चूरू	200	20
उत्तराखंड	टेहरी गढ़वाल, उत्तरकाशी	200	20
छत्तीसगढ़	बिलासपुर, रायगढ़, कबीरधाम, सरगुजा, कोरबा, जशपुर, राजनांदगांव, बलरामपुर, बस्तर, सुकमा	1000	100
पश्चिम बंगाल	पश्चिम मेदिनीपुर, मालदा, जलपाईगुड़ी, पुरुलिया, कोलकाता, झाड़ग्राम, उत्तर 24 परगना, दक्षिण दिनाजपुर	800	80
झारखंड	साहेबगंज, जामताड़ा	200	20
AP	गुंटूर, चित्तूर, विशाखापत्तनम, कृष्णा, अनंतपुर, श्रीकाकुलम	600	60
तेलंगाना	करीमनगर, नलगोंडा	200	20
गोवा	उत्तर+दक्षिण गोवा	100	10
कर्नाटक	दक्षिण कन्नड़, गुलबर्गा, धारवाड़, बेल्लारी, मैसूर, शिमोगा, बीजापुर, बेलगाम, रायचूर, चामराजनगर	1000	100
महाराष्ट्र	सिंधुदुर्ग, धुले, नागपुर, पुणे, औरंगाबाद, चंद्रपुर, सोलापुर	700	70
कुल		8000	800

सामान्य दिशा - निर्देश

का गठन

- 16 किलोहर्ट्ज़ पर ऑडियो, 16 बिट/नमूना।
- एक चैनल।
- ट्रांसकोडिंग के बिना कच्चा ऑडियो।

अंदाज

- सहज भाषण.
- विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित वाक्य। 3500 छवियों में से 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

रिकॉर्डिंग पृष्ठभूमि

- शांत, प्रतिध्वनि-मुक्त वातावरण में रिकॉर्ड किया गया।
- रिकॉर्डिंग के दौरान स्मार्टफोन में कोई गड़बड़ी (कंपन या नोटिफिकेशन) नहीं होगी।
- कतरन या दूर-क्षेत्र प्रभाव जैसी कोई विकृति नहीं।
- फ़ोन से कंपन अस्वीकार्य; यदि ऑडियो स्पष्ट है तो बाहरी कंपन सहनीय हैं।

स्पीकर की विशिष्टता

- प्रति जिले संतुलित लिंग वितरण के साथ आयु सीमा 20-70 वर्ष तक।
- प्रत्येक जिले में न्यूनतम 400 देशी वक्ता।
- वक्ताओं को अपनी घरेलू भाषा/बोली का प्रयोग करना चाहिए।
- सभी प्रतिभागियों के लिए सहमति प्रपत्र अनिवार्य है।

गुणवत्ता जांच एवं महत्वपूर्ण गुणवत्ता आश्वासन

QA प्रक्रिया ऑडियो रिकॉर्डिंग और ट्रांस्क्रिप्शन के लिए गुणवत्ता आश्वासन को प्राथमिकता देती है। ऑडियो मानक सटीक मौन, खंड अवधि, एकल-स्पीकर स्पष्टता और उम्र और सामाजिक-आर्थिक स्थिति सहित विस्तृत मेटाडेटा पर ध्यान केंद्रित करते हैं। प्रतिलेखन मानदंड टैग सटीकता, शब्द सत्यता और सही खंड विवरण पर जोर देते हैं। स्वीकृति बेंचमार्क तय करता है कि यदि 20% से अधिक ऑडियो बैच इन मानकों पर विफल रहता है, तो इसे अस्वीकार कर दिया जाता है। 20% से कम विसंगतियों के लिए, समान प्रोफाइल वाली प्रतिस्थापन रिकॉर्डिंग की आवश्यकता होती है।

डेटा प्रतिलेखन

प्रतिलेखन दिशानिर्देश सटीकता और शब्दशः प्रतिलेखन पर तभी जोर देते हैं जब शब्द स्पष्ट और समझने योग्य हों; मुद्दे के आधार पर अस्पष्ट शब्दों को [अस्पष्ट] या [अश्रव्य] के रूप में चिह्नित किया जाता है। लंबे ऑडियो में वाक्य की सीमाएँ चिह्नित की जाती हैं , और किसी भी व्याख्या या व्याकरण संबंधी त्रुटियों के सुधार की अनुमति नहीं है। शब्दशः प्रतिलेखन त्रुटियों, स्लैंग्स और दोहराव को कवर करता है लेकिन गलत शुरुआत, फिलर ध्वनियां और हकलाना छोड़ देता है। पृष्ठभूमि और अग्रभूमि शोर को वर्णनात्मक टैग के साथ प्रतिलेखित किया जाता है, जबकि उचित नाम, शीर्षक और संख्याएं विशिष्ट प्रतिलेखन नियमों का पालन करती हैं। प्रत्येक वाक्य के लिए स्पीकर लेबल का उपयोग किया जाता है, और अधूरे वाक्यों को इसके साथ दर्शाया जाता है।

प्रोजेक्ट वर्कफ़्लो

वर्कफ़्लो ऑडियो ट्रांसक्रिप्शन प्रक्रिया का वर्णन करता है। इसकी शुरुआत प्रतिभागियों को शामिल करने और प्रशिक्षण देने से होती है। वे एक ऐप का उपयोग करके ऑडियो रिकॉर्ड करते हैं, जिसे QA प्लेटफ़ॉर्म पर अपलोड किया जाता है। यह ऑडियो गुणवत्ता जांच और स्वचालित विभाजन से गुजरता है। फिर तकनीकी टीम प्रतिलेखन के लिए खंड तैयार करती है। मैन्युअल प्रतिलेखन के बाद, एक गुणवत्ता आश्वासन कदम है। प्रतिलेखन ग्राहक को वितरित किया जाता है, और यदि स्वीकार कर लिया जाता है, तो वितरण पूर्ण माना जाता है। यदि नहीं, तो ग्राहकों की प्रतिक्रिया के आधार पर संशोधन किए जाते हैं।

परिणाम

विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा हमारे ग्राहक को निर्धारित समय में विभिन्न बोलियों के साथ विभिन्न भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:

नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
डिजिटल गवर्नेंस को बढ़ावा देता है
भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री

हम बातचीत संबंधी एआई क्षेत्र में शेप की विशेषज्ञता से आश्चर्यचकित हैं। 8000 विभिन्न जिलों में 800 घंटे के ट्रांसक्रिप्शन के साथ 80 घंटे के ऑडियो डेटा को संभालने का कार्य कम से कम इतना तो बहुत बड़ा था। यह इस क्षेत्र के जटिल विवरण और बारीकियों के बारे में शैप की गहरी समझ थी जिसने ऐसी चुनौतीपूर्ण परियोजना के सफल निष्पादन को संभव बनाया। सर्वोच्च गुणवत्ता सुनिश्चित करते हुए डेटा की इस विशाल मात्रा की जटिलताओं को सहजता से प्रबंधित करने और नेविगेट करने की उनकी क्षमता वास्तव में सराहनीय है।

अपने संवादी एआई को तेज़ करें
अनुप्रयोग विकास 100%

संवादी एआई: स्वचालित वाक् पहचान

8 हजार से अधिक ऑडियो घंटे एकत्र किए गए, बहुभाषी आवाज प्रौद्योगिकी के लिए 800 घंटे ट्रांसक्राइब किए गए

परिचय

खंड

चुनौतियां

डेटा संग्रहण

डेटा प्रतिलेखन

गुणवत्ता जांच एवं प्रतिक्रिया

उपाय

सामान्य दिशा - निर्देश

गुणवत्ता जांच एवं महत्वपूर्ण गुणवत्ता आश्वासन

डेटा प्रतिलेखन

प्रोजेक्ट वर्कफ़्लो

परिणाम

एआई डेटा सेवाएँ

स्पेशलिटी

उद्योग

उत्पाद

कंपनी

उपयुक्त संसाधन चुनें

संपर्क करें

हमें अपने बारे में और बताएं!