केस स्टडी: संवादी एआई
3 भारतीय भाषाओं में एएसआर बनाने के लिए 8 हजार घंटे से अधिक का डेटा एकत्रित, खंडित और प्रतिलेखित किया गया
भाषिनी, भारत का एआई-संचालित भाषा अनुवाद मंच, डिजिटल इंडिया पहल का एक महत्वपूर्ण हिस्सा है।
एमएसएमई, स्टार्टअप और स्वतंत्र इनोवेटर्स को आर्टिफिशियल इंटेलिजेंस (एआई) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) उपकरण प्रदान करने के लिए डिज़ाइन किया गया, भाषिनी प्लेटफॉर्म एक सार्वजनिक संसाधन के रूप में कार्य करता है। इसका लक्ष्य भारतीय नागरिकों को अपनी मूल भाषाओं में देश की डिजिटल पहलों के साथ बातचीत करने में सक्षम बनाकर डिजिटल समावेशन को बढ़ावा देना है।
इसके अतिरिक्त, इसका उद्देश्य भारतीय भाषाओं में इंटरनेट सामग्री की उपलब्धता का उल्लेखनीय रूप से विस्तार करना है। यह विशेष रूप से सार्वजनिक हित के क्षेत्रों जैसे शासन और नीति, विज्ञान और प्रौद्योगिकी आदि पर लक्षित है। नतीजतन, यह नागरिकों को अपनी भाषा में इंटरनेट का उपयोग करने के लिए प्रोत्साहित करेगा, जिससे उनकी सक्रिय भागीदारी को बढ़ावा मिलेगा।
भाषाई बाधाओं को पार करने के उद्देश्य से योगदानकर्ताओं, भागीदार संस्थाओं और नागरिकों के एक विविध पारिस्थितिकी तंत्र को सक्षम करने के लिए एनएलपी का उपयोग करें, जिससे डिजिटल समावेशन और सशक्तिकरण सुनिश्चित हो सके।
वास्तविक विश्व समाधान
डेटा के साथ स्थानीयकरण की शक्ति को उजागर करना
भारत को एक ऐसे मंच की आवश्यकता थी जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, भारतीय प्रौद्योगिकी संस्थान, मद्रास (आईआईटी मद्रास) ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा डेटासेट को इकट्ठा करने, विभाजित करने और ट्रांसक्राइब करने के लिए शेप के साथ साझेदारी की।
चुनौतियां
भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:
डेटा संग्रहण
- प्रति भाषा 3000 बोलियों के साथ 8 भारतीय भाषाओं में 4 घंटे का प्रशिक्षण डेटा प्राप्त करें।
- प्रत्येक भाषा के लिए, आपूर्तिकर्ता एक्सटेम्पोर स्पीच और एकत्र करेगा
18-60 वर्ष के आयु समूहों से संवादात्मक भाषण - उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
- विशिष्टताओं के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
- प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए
डेटा विभाजन
- 15 सेकंड के भाषण खंड बनाएं और प्रत्येक दिए गए स्पीकर, ध्वनि के प्रकार (भाषण, प्रलाप, संगीत, शोर), मोड़, उच्चारण और वार्तालाप में वाक्यांशों के लिए ऑडियो को मिलीसेकेंड पर टाइमस्टैम्प करें।
- आरंभ और अंत में 200-400 मिलीसेकंड पैडिंग के साथ उसके लक्षित ध्वनि संकेत के लिए प्रत्येक खंड बनाएं।
- सभी खंडों के लिए, निम्नलिखित वस्तुएं भरी जानी चाहिए अर्थात, प्रारंभ समय, समाप्ति समय, खंड आईडी, ध्वनि स्तर, ध्वनि प्रकार, भाषा कोड, स्पीकर आईडी, आदि।
डेटा प्रतिलेखन
- वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, बड़े अक्षर, संक्षिप्त रूप, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द, अस्पष्ट, भाषण, अस्पष्ट भाषण, गैर-लक्ष्य भाषाएं, गैर-भाषण आदि के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।
गुणवत्ता जांच एवं प्रतिक्रिया
- सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण ही दिया जाना है
उपाय
संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने 8 भारतीय भाषाओं में ऑडियो डेटासेट के बड़े संग्रह का निर्माण करने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को डेटा एकत्र करने, विभाजित करने और ट्रांसक्राइब करने में मदद की।
शेप के काम के दायरे में बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करना, ऑडियो रिकॉर्डिंग को कई भागों में विभाजित करना, डेटा को ट्रांसक्रिप्ट करना और मेटाडेटा [स्पीकर आईडी, आयु, लिंग, भाषा, बोली, शामिल] वाली संबंधित JSON फाइलें वितरित करना शामिल था, लेकिन यह इन्हीं तक सीमित नहीं था।
मातृभाषा, योग्यता, व्यवसाय, डोमेन, फ़ाइल प्रारूप, आवृत्ति, चैनल, ऑडियो का प्रकार, बोलने वालों की संख्या, विदेशी भाषाओं की संख्या, प्रयुक्त सेटअप, नैरोबैंड या वाइडबैंड ऑडियो, आदि]।
जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए शेप ने बड़े पैमाने पर 3000 घंटे का ऑडियो डेटा एकत्र किया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया।
1। डेटा संग्रहण