केस स्टडी: संवादी एआई
3 भारतीय भाषाओं में एएसआर बनाने के लिए 8 हजार घंटे से अधिक का डेटा एकत्रित, खंडित और प्रतिलेखित किया गया
भाषिनी, भारत का एआई-संचालित भाषा अनुवाद मंच, डिजिटल इंडिया पहल का एक महत्वपूर्ण हिस्सा है।
एमएसएमई, स्टार्टअप और स्वतंत्र इनोवेटर्स को आर्टिफिशियल इंटेलिजेंस (एआई) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) उपकरण प्रदान करने के लिए डिज़ाइन किया गया, भाषिनी प्लेटफॉर्म एक सार्वजनिक संसाधन के रूप में कार्य करता है। इसका लक्ष्य भारतीय नागरिकों को अपनी मूल भाषाओं में देश की डिजिटल पहलों के साथ बातचीत करने में सक्षम बनाकर डिजिटल समावेशन को बढ़ावा देना है।
इसके अतिरिक्त, इसका उद्देश्य भारतीय भाषाओं में इंटरनेट सामग्री की उपलब्धता का उल्लेखनीय रूप से विस्तार करना है। यह विशेष रूप से सार्वजनिक हित के क्षेत्रों जैसे शासन और नीति, विज्ञान और प्रौद्योगिकी आदि पर लक्षित है। नतीजतन, यह नागरिकों को अपनी भाषा में इंटरनेट का उपयोग करने के लिए प्रोत्साहित करेगा, जिससे उनकी सक्रिय भागीदारी को बढ़ावा मिलेगा।
भाषाई बाधाओं को पार करने के उद्देश्य से योगदानकर्ताओं, भागीदार संस्थाओं और नागरिकों के एक विविध पारिस्थितिकी तंत्र को सक्षम करने के लिए एनएलपी का उपयोग करें, जिससे डिजिटल समावेशन और सशक्तिकरण सुनिश्चित हो सके।
वास्तविक विश्व समाधान
डेटा के साथ स्थानीयकरण की शक्ति को उजागर करना
भारत को एक ऐसे मंच की आवश्यकता थी जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, भारतीय प्रौद्योगिकी संस्थान, मद्रास (आईआईटी मद्रास) ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा डेटासेट को इकट्ठा करने, विभाजित करने और ट्रांसक्राइब करने के लिए शेप के साथ साझेदारी की।
चुनौतियां
भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:
डेटा संग्रहण
- प्रति भाषा 3000 बोलियों के साथ 8 भारतीय भाषाओं में 4 घंटे का प्रशिक्षण डेटा प्राप्त करें।
- प्रत्येक भाषा के लिए, आपूर्तिकर्ता एक्सटेम्पोर स्पीच और एकत्र करेगा
18-60 वर्ष के आयु समूहों से संवादात्मक भाषण - उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
- विशिष्टताओं के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
- प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए
डेटा विभाजन
- 15 सेकंड के भाषण खंड बनाएं और प्रत्येक दिए गए स्पीकर, ध्वनि के प्रकार (भाषण, प्रलाप, संगीत, शोर), मोड़, उच्चारण और वार्तालाप में वाक्यांशों के लिए ऑडियो को मिलीसेकेंड पर टाइमस्टैम्प करें।
- आरंभ और अंत में 200-400 मिलीसेकंड पैडिंग के साथ उसके लक्षित ध्वनि संकेत के लिए प्रत्येक खंड बनाएं।
- सभी खंडों के लिए, निम्नलिखित वस्तुएं भरी जानी चाहिए अर्थात, प्रारंभ समय, समाप्ति समय, खंड आईडी, ध्वनि स्तर, ध्वनि प्रकार, भाषा कोड, स्पीकर आईडी, आदि।
डेटा प्रतिलेखन
- वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, बड़े अक्षर, संक्षिप्त रूप, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द, अस्पष्ट, भाषण, अस्पष्ट भाषण, गैर-लक्ष्य भाषाएं, गैर-भाषण आदि के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।
गुणवत्ता जांच एवं प्रतिक्रिया
- सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण ही दिया जाना है
उपाय
संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने 8 भारतीय भाषाओं में ऑडियो डेटासेट के बड़े संग्रह का निर्माण करने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को डेटा एकत्र करने, विभाजित करने और ट्रांसक्राइब करने में मदद की।
शेप के काम के दायरे में बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करना, ऑडियो रिकॉर्डिंग को कई भागों में विभाजित करना, डेटा को ट्रांसक्रिप्ट करना और मेटाडेटा [स्पीकर आईडी, आयु, लिंग, भाषा, बोली, शामिल] वाली संबंधित JSON फाइलें वितरित करना शामिल था, लेकिन यह इन्हीं तक सीमित नहीं था।
मातृभाषा, योग्यता, व्यवसाय, डोमेन, फ़ाइल प्रारूप, आवृत्ति, चैनल, ऑडियो का प्रकार, बोलने वालों की संख्या, विदेशी भाषाओं की संख्या, प्रयुक्त सेटअप, नैरोबैंड या वाइडबैंड ऑडियो, आदि]।
जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए शेप ने बड़े पैमाने पर 3000 घंटे का ऑडियो डेटा एकत्र किया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया।
1। डेटा संग्रहण
2. डेटा विभाजन
- एकत्र किए गए ऑडियो डेटा को प्रत्येक 15 सेकंड के भाषण खंडों में विभाजित किया गया था और बातचीत में प्रत्येक दिए गए वक्ता, ध्वनि के प्रकार, मोड़, उच्चारण और वाक्यांशों के लिए मिलीसेकंड में टाइमस्टैम्प किया गया था।
- ध्वनि सिग्नल के आरंभ और अंत में 200-400 मिलीसेकंड पैडिंग के साथ अपने लक्षित ध्वनि सिग्नल के लिए प्रत्येक खंड बनाया।
- सभी खंडों के लिए, निम्नलिखित ऑब्जेक्ट मौजूद थे और भरे हुए थे यानी, प्रारंभ समय, समाप्ति समय, खंड आईडी, ध्वनि स्तर (जोर से, सामान्य, शांत), प्राथमिक ध्वनि प्रकार (भाषण, प्रलाप, संगीत, शोर, ओवरलैप), भाषा कोड स्पीकर आईडी, प्रतिलेखन आदि।
3. गुणवत्ता जांच और प्रतिक्रिया
- सभी रिकॉर्डिंग की गुणवत्ता का मूल्यांकन किया गया और केवल 90% WER और 90% TER वाली मान्य भाषण रिकॉर्डिंग वितरित की गईं।
- गुणवत्ता जांच सूची का पालन किया गया:
» खंड की लंबाई अधिकतम 15 सेकंड
» विशिष्ट डोमेन से प्रतिलेखन, अर्थात्: मौसम, विभिन्न प्रकार के समाचार, स्वास्थ्य, कृषि, शिक्षा, नौकरी या वित्त
» कम पृष्ठभूमि शोर
»कोई ऑडियो क्लिप बंद नहीं - कोई विकृति नहीं
»प्रतिलेखन के लिए सही ऑडियो विभाजन
4. डेटा ट्रांस्क्रिप्शन
झिझक, पूरक शब्द, झूठी शुरुआत और अन्य मौखिक टिक्स सहित सभी बोले गए शब्द, प्रतिलेखन में सटीक रूप से कैप्चर किए गए थे। हमने कैपिटल और लोअरकेस अक्षरों, वर्तनी, कैपिटलाइज़ेशन, संक्षिप्तीकरण, संकुचन, संख्याओं के बारे में विवरण प्रतिलेखन दिशानिर्देशों का भी पालन किया।
विराम चिह्न, परिवर्णी शब्द, प्रभावशाली भाषण, गैर-भाषण शोर आदि। इसके अलावा संग्रह और प्रतिलेखन के लिए अपनाए जाने वाला कार्य प्रवाह इस प्रकार है:
परिणाम
विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा भारतीय प्रौद्योगिकी संस्थान-मद्रास को निर्धारित समय में विभिन्न बोलियों के साथ 8 भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:
- नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
- डिजिटल गवर्नेंस को बढ़ावा देता है
- भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
- सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री
हम संवादी एआई क्षेत्र में शैप की विशेषज्ञता से प्रभावित हुए। कड़े समयसीमा और दिशानिर्देशों के भीतर 8 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक प्रशिक्षण डेटा को सोर्सिंग, सेगमेंटिंग, ट्रांसक्रिप्टिंग और वितरित करने से उनकी समग्र परियोजना निष्पादन योग्यता; गुणवत्ता के स्वीकार्य मानक को अभी भी बनाए रखते हुए।”
विशेष रुप से प्रदर्शित ग्राहक
विश्व-अग्रणी एआई उत्पाद बनाने के लिए टीमों को सशक्त बनाना।