संवादी एआई: स्वचालित वाक् पहचान

8 हजार से अधिक ऑडियो घंटे एकत्र किए गए, बहुभाषी आवाज प्रौद्योगिकी के लिए 800 घंटे ट्रांसक्राइब किए गए

संवादात्मक ऐ

परिचय

भारत को एक ऐसे मंच की आवश्यकता है जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, क्लाइंट ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा को इकट्ठा करने और ट्रांसक्रिप्ट करने के लिए शेप के साथ साझेदारी की।

खंड

डेटा एकत्र करने के घंटे
10
एनोटेटेड पृष्ठों की संख्या
10 +
परियोजना अवधि
< 1 महीने

चुनौतियां

भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:

डेटा संग्रहण

  • भारत के दूरस्थ स्थानों से 8000 घंटे का प्रशिक्षण डेटा प्राप्त करें
  • आपूर्तिकर्ता 20-70 वर्ष के आयु समूहों से सहज भाषण एकत्र करेगा
  • उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
  • प्रत्येक ऑडियो रिकॉर्डिंग 16 बिट्स/सैंपल के साथ कम से कम 16kHz होनी चाहिए।
डेटा संग्रह

डेटा प्रतिलेखन

वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, पूंजीकरण, संक्षिप्तीकरण, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द और आरंभिक शब्द, अस्पष्ट भाषण, अस्पष्ट भाषण, गैर-लक्षित भाषाएं, गैर-भाषण के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।

डेटा प्रतिलेखन

गुणवत्ता जांच एवं प्रतिक्रिया

सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण रिकॉर्डिंग ही वितरित की जाएंगी

उपाय

संवादी एआई की हमारी गहरी समझ के साथ, हमने भारत के दूरदराज के हिस्सों से ऑडियो डेटा का बड़ा संग्रह बनाने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को ऑडियो डेटा एकत्र करने, ट्रांसक्रिप्ट करने में मदद की।

शेप के लिए काम का दायरा बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने, डेटा को ट्रांसक्रिप्ट करने और मेटाडेटा युक्त संबंधित JSON फ़ाइलों को वितरित करने तक सीमित नहीं था [स्पीकर और ट्रांसक्राइबर्स दोनों के लिए। प्रत्येक वक्ता के लिए, मेटाडेटा में एक अज्ञात स्पीकर आईडी, डिवाइस विवरण, लिंग, आयु और शिक्षा जैसी जनसांख्यिकीय जानकारी, साथ ही उनका पिनकोड, सामाजिक-आर्थिक स्थिति, बोली जाने वाली भाषाएं और उनके जीवन की अवधि का रिकॉर्ड शामिल होता है। प्रत्येक ट्रांसक्राइबर के लिए, डेटा में एक अज्ञात ट्रांसक्राइबर आईडी, वक्ताओं के समान जनसांख्यिकीय विवरण, उनके ट्रांसक्रिप्शन अनुभव की अवधि और उन भाषाओं का संपूर्ण विवरण शामिल होता है जिन्हें वे पढ़, लिख और बोल सकते हैं।

शाप एकत्र किया गया 8000 जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए बड़े पैमाने पर घंटों का ऑडियो डेटा / सहज भाषण और 800 घंटे तक प्रसारित किया गया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया। एकत्र किया गया/सहज भाषण विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित था। का 3500 तस्वीरें 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

डेटा संग्रहण

राज्यजिलेऑडियो घंटेप्रतिलिपि
(घंटे)
बिहारसारण, पूर्वी चंपारण, गोपालगंज, सीतामढी, समस्तीपुर, दरभंगा, मधेपुरा, भागलपुर, गया, किशनगंज, वैशाली, लखीसराय, सहरसा, सुपौल, अररिया, बेगुसराय, जहानाबाद, पूर्णिया, मुजफ्फरपुर, जमुई2000200
उत्तर प्रदेशदेवरिया, वाराणसी, गोरखपुर, ग़ाज़ीपुर, मुज़फ़्फ़रनगर, एटा, हमीरपुर, ज्योतिबा फुले नगर, बदायूँ, जालौन1000100
राजस्थाननागौर, चूरू20020
उत्तराखंडटेहरी गढ़वाल, उत्तरकाशी20020
छत्तीसगढ़बिलासपुर, रायगढ़, कबीरधाम, सरगुजा, कोरबा, जशपुर, राजनांदगांव, बलरामपुर, बस्तर, सुकमा1000100
पश्चिम बंगालपश्चिम मेदिनीपुर, मालदा, जलपाईगुड़ी, पुरुलिया, कोलकाता, झाड़ग्राम, उत्तर 24 परगना, दक्षिण दिनाजपुर80080
झारखंडसाहेबगंज, जामताड़ा20020
APगुंटूर, चित्तूर, विशाखापत्तनम, कृष्णा, अनंतपुर, श्रीकाकुलम60060
तेलंगानाकरीमनगर, नलगोंडा20020
गोवाउत्तर+दक्षिण गोवा10010
कर्नाटकदक्षिण कन्नड़, गुलबर्गा, धारवाड़, बेल्लारी, मैसूर, शिमोगा, बीजापुर, बेलगाम, रायचूर, चामराजनगर1000100
महाराष्ट्रसिंधुदुर्ग, धुले, नागपुर, पुणे, औरंगाबाद, चंद्रपुर, सोलापुर70070
कुल8000800

सामान्य दिशा - निर्देश

का गठन

    • 16 किलोहर्ट्ज़ पर ऑडियो, 16 बिट/नमूना।
    • एक चैनल।
    • ट्रांसकोडिंग के बिना कच्चा ऑडियो।

अंदाज

    • सहज भाषण.
    • विश्वविद्यालय द्वारा प्रदान की गई छवियों पर आधारित वाक्य। 3500 छवियों में से 1000 सामान्य हैं और 2500 जिला-विशिष्ट संस्कृति, त्योहारों आदि से संबंधित हैं। छवियां रेलवे स्टेशन, बाजार, मौसम और बहुत कुछ जैसे विभिन्न डोमेन को दर्शाती हैं।

रिकॉर्डिंग पृष्ठभूमि

    • शांत, प्रतिध्वनि-मुक्त वातावरण में रिकॉर्ड किया गया।
    • रिकॉर्डिंग के दौरान स्मार्टफोन में कोई गड़बड़ी (कंपन या नोटिफिकेशन) नहीं होगी।
    • कतरन या दूर-क्षेत्र प्रभाव जैसी कोई विकृति नहीं।
    • फ़ोन से कंपन अस्वीकार्य; यदि ऑडियो स्पष्ट है तो बाहरी कंपन सहनीय हैं।

स्पीकर की विशिष्टता

    • प्रति जिले संतुलित लिंग वितरण के साथ आयु सीमा 20-70 वर्ष तक।
    • प्रत्येक जिले में न्यूनतम 400 देशी वक्ता।
    • वक्ताओं को अपनी घरेलू भाषा/बोली का प्रयोग करना चाहिए।
    • सभी प्रतिभागियों के लिए सहमति प्रपत्र अनिवार्य है।


गुणवत्ता जांच एवं महत्वपूर्ण गुणवत्ता आश्वासन

QA प्रक्रिया ऑडियो रिकॉर्डिंग और ट्रांस्क्रिप्शन के लिए गुणवत्ता आश्वासन को प्राथमिकता देती है। ऑडियो मानक सटीक मौन, खंड अवधि, एकल-स्पीकर स्पष्टता और उम्र और सामाजिक-आर्थिक स्थिति सहित विस्तृत मेटाडेटा पर ध्यान केंद्रित करते हैं। प्रतिलेखन मानदंड टैग सटीकता, शब्द सत्यता और सही खंड विवरण पर जोर देते हैं। स्वीकृति बेंचमार्क तय करता है कि यदि 20% से अधिक ऑडियो बैच इन मानकों पर विफल रहता है, तो इसे अस्वीकार कर दिया जाता है। 20% से कम विसंगतियों के लिए, समान प्रोफाइल वाली प्रतिस्थापन रिकॉर्डिंग की आवश्यकता होती है।

डेटा प्रतिलेखन

प्रतिलेखन दिशानिर्देश सटीकता और शब्दशः प्रतिलेखन पर तभी जोर देते हैं जब शब्द स्पष्ट और समझने योग्य हों; मुद्दे के आधार पर अस्पष्ट शब्दों को [अस्पष्ट] या [अश्रव्य] के रूप में चिह्नित किया जाता है। लंबे ऑडियो में वाक्य की सीमाएँ चिह्नित की जाती हैं , और किसी भी व्याख्या या व्याकरण संबंधी त्रुटियों के सुधार की अनुमति नहीं है। शब्दशः प्रतिलेखन त्रुटियों, स्लैंग्स और दोहराव को कवर करता है लेकिन गलत शुरुआत, फिलर ध्वनियां और हकलाना छोड़ देता है। पृष्ठभूमि और अग्रभूमि शोर को वर्णनात्मक टैग के साथ प्रतिलेखित किया जाता है, जबकि उचित नाम, शीर्षक और संख्याएं विशिष्ट प्रतिलेखन नियमों का पालन करती हैं। प्रत्येक वाक्य के लिए स्पीकर लेबल का उपयोग किया जाता है, और अधूरे वाक्यों को इसके साथ दर्शाया जाता है।

प्रोजेक्ट वर्कफ़्लो

वर्कफ़्लो ऑडियो ट्रांसक्रिप्शन प्रक्रिया का वर्णन करता है। इसकी शुरुआत प्रतिभागियों को शामिल करने और प्रशिक्षण देने से होती है। वे एक ऐप का उपयोग करके ऑडियो रिकॉर्ड करते हैं, जिसे QA प्लेटफ़ॉर्म पर अपलोड किया जाता है। यह ऑडियो गुणवत्ता जांच और स्वचालित विभाजन से गुजरता है। फिर तकनीकी टीम प्रतिलेखन के लिए खंड तैयार करती है। मैन्युअल प्रतिलेखन के बाद, एक गुणवत्ता आश्वासन कदम है। प्रतिलेखन ग्राहक को वितरित किया जाता है, और यदि स्वीकार कर लिया जाता है, तो वितरण पूर्ण माना जाता है। यदि नहीं, तो ग्राहकों की प्रतिक्रिया के आधार पर संशोधन किए जाते हैं।

परिणाम

विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा हमारे ग्राहक को निर्धारित समय में विभिन्न बोलियों के साथ विभिन्न भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:

  • नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
  • डिजिटल गवर्नेंस को बढ़ावा देता है
  • भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
  • सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री

हम बातचीत संबंधी एआई क्षेत्र में शेप की विशेषज्ञता से आश्चर्यचकित हैं। 8000 विभिन्न जिलों में 800 घंटे के ट्रांसक्रिप्शन के साथ 80 घंटे के ऑडियो डेटा को संभालने का कार्य कम से कम इतना तो बहुत बड़ा था। यह इस क्षेत्र के जटिल विवरण और बारीकियों के बारे में शैप की गहरी समझ थी जिसने ऐसी चुनौतीपूर्ण परियोजना के सफल निष्पादन को संभव बनाया। सर्वोच्च गुणवत्ता सुनिश्चित करते हुए डेटा की इस विशाल मात्रा की जटिलताओं को सहजता से प्रबंधित करने और नेविगेट करने की उनकी क्षमता वास्तव में सराहनीय है।

गोल्डन-5-सितारा

अपने संवादी एआई को तेज़ करें
अनुप्रयोग विकास 100%