केस स्टडी: संवादी एआई

3 भारतीय भाषाओं में एएसआर बनाने के लिए 8 हजार घंटे से अधिक का डेटा एकत्रित, खंडित और प्रतिलेखित किया गया

कथन संग्रह
सरकार का लक्ष्य भाषिनी परियोजना के माध्यम से अपने नागरिकों को उनकी मूल भाषा में इंटरनेट और डिजिटल सेवाओं तक आसान पहुंच प्रदान करना है।

भाषिनी, भारत का एआई-संचालित भाषा अनुवाद मंच, डिजिटल इंडिया पहल का एक महत्वपूर्ण हिस्सा है।

एमएसएमई, स्टार्टअप और स्वतंत्र इनोवेटर्स को आर्टिफिशियल इंटेलिजेंस (एआई) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) उपकरण प्रदान करने के लिए डिज़ाइन किया गया, भाषिनी प्लेटफॉर्म एक सार्वजनिक संसाधन के रूप में कार्य करता है। इसका लक्ष्य भारतीय नागरिकों को अपनी मूल भाषाओं में देश की डिजिटल पहलों के साथ बातचीत करने में सक्षम बनाकर डिजिटल समावेशन को बढ़ावा देना है।

इसके अतिरिक्त, इसका उद्देश्य भारतीय भाषाओं में इंटरनेट सामग्री की उपलब्धता का उल्लेखनीय रूप से विस्तार करना है। यह विशेष रूप से सार्वजनिक हित के क्षेत्रों जैसे शासन और नीति, विज्ञान और प्रौद्योगिकी आदि पर लक्षित है। नतीजतन, यह नागरिकों को अपनी भाषा में इंटरनेट का उपयोग करने के लिए प्रोत्साहित करेगा, जिससे उनकी सक्रिय भागीदारी को बढ़ावा मिलेगा।

भाषाई बाधाओं को पार करने के उद्देश्य से योगदानकर्ताओं, भागीदार संस्थाओं और नागरिकों के एक विविध पारिस्थितिकी तंत्र को सक्षम करने के लिए एनएलपी का उपयोग करें, जिससे डिजिटल समावेशन और सशक्तिकरण सुनिश्चित हो सके।

वास्तविक विश्व समाधान

डेटा के साथ स्थानीयकरण की शक्ति को उजागर करना

भारत को एक ऐसे मंच की आवश्यकता थी जो भारतीय भाषाओं में डिजिटल सेवाएं प्रदान करने के लिए बहुभाषी डेटासेट और एआई-आधारित भाषा प्रौद्योगिकी समाधान बनाने पर ध्यान केंद्रित करे। इस पहल को शुरू करने के लिए, भारतीय प्रौद्योगिकी संस्थान, मद्रास (आईआईटी मद्रास) ने बहुभाषी भाषण मॉडल बनाने के लिए भारतीय भाषा डेटासेट को इकट्ठा करने, विभाजित करने और ट्रांसक्राइब करने के लिए शेप के साथ साझेदारी की।

चुनौतियां

भारतीय भाषाओं के लिए अपने भाषण प्रौद्योगिकी भाषण रोडमैप के साथ ग्राहक की सहायता करने के लिए, टीम को एआई मॉडल बनाने के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने, विभाजित करने और ट्रांसक्रिप्ट करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएँ थीं:

डेटा संग्रहण

  • प्रति भाषा 3000 बोलियों के साथ 8 भारतीय भाषाओं में 4 घंटे का प्रशिक्षण डेटा प्राप्त करें।
  • प्रत्येक भाषा के लिए, आपूर्तिकर्ता एक्सटेम्पोर स्पीच और एकत्र करेगा
    18-60 वर्ष के आयु समूहों से संवादात्मक भाषण
  • उम्र, लिंग, शिक्षा और बोलियों के आधार पर बोलने वालों का विविध मिश्रण सुनिश्चित करें
  • विशिष्टताओं के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
  • प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए

डेटा विभाजन

  • 15 सेकंड के भाषण खंड बनाएं और प्रत्येक दिए गए स्पीकर, ध्वनि के प्रकार (भाषण, प्रलाप, संगीत, शोर), मोड़, उच्चारण और वार्तालाप में वाक्यांशों के लिए ऑडियो को मिलीसेकेंड पर टाइमस्टैम्प करें।
  • आरंभ और अंत में 200-400 मिलीसेकंड पैडिंग के साथ उसके लक्षित ध्वनि संकेत के लिए प्रत्येक खंड बनाएं।
  • सभी खंडों के लिए, निम्नलिखित वस्तुएं भरी जानी चाहिए अर्थात, प्रारंभ समय, समाप्ति समय, खंड आईडी, ध्वनि स्तर, ध्वनि प्रकार, भाषा कोड, स्पीकर आईडी, आदि।

डेटा प्रतिलेखन

  • वर्ण और विशेष चिह्न, वर्तनी और व्याकरण, बड़े अक्षर, संक्षिप्त रूप, संकुचन, व्यक्तिगत बोले गए अक्षर, संख्याएं, विराम चिह्न, परिवर्णी शब्द, अस्पष्ट, भाषण, अस्पष्ट भाषण, गैर-लक्ष्य भाषाएं, गैर-भाषण आदि के बारे में विवरण प्रतिलेखन दिशानिर्देशों का पालन करें।

गुणवत्ता जांच एवं प्रतिक्रिया

  • सभी रिकॉर्डिंग को गुणवत्ता मूल्यांकन और सत्यापन से गुजरना होगा, केवल मान्य भाषण ही दिया जाना है

उपाय

संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने 8 भारतीय भाषाओं में ऑडियो डेटासेट के बड़े संग्रह का निर्माण करने के लिए विशेषज्ञ संग्राहकों, भाषाविदों और एनोटेटर्स की एक टीम के साथ क्लाइंट को डेटा एकत्र करने, विभाजित करने और ट्रांसक्राइब करने में मदद की।

शेप के काम के दायरे में बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करना, ऑडियो रिकॉर्डिंग को कई भागों में विभाजित करना, डेटा को ट्रांसक्रिप्ट करना और मेटाडेटा [स्पीकर आईडी, आयु, लिंग, भाषा, बोली, शामिल] वाली संबंधित JSON फाइलें वितरित करना शामिल था, लेकिन यह इन्हीं तक सीमित नहीं था।
मातृभाषा, योग्यता, व्यवसाय, डोमेन, फ़ाइल प्रारूप, आवृत्ति, चैनल, ऑडियो का प्रकार, बोलने वालों की संख्या, विदेशी भाषाओं की संख्या, प्रयुक्त सेटअप, नैरोबैंड या वाइडबैंड ऑडियो, आदि]। 

जटिल परियोजनाओं के लिए भाषण प्रौद्योगिकी को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए शेप ने बड़े पैमाने पर 3000 घंटे का ऑडियो डेटा एकत्र किया। प्रत्येक प्रतिभागी से स्पष्ट सहमति प्रपत्र लिया गया।

1। डेटा संग्रहण

2. डेटा विभाजन

  • एकत्र किए गए ऑडियो डेटा को प्रत्येक 15 सेकंड के भाषण खंडों में विभाजित किया गया था और बातचीत में प्रत्येक दिए गए वक्ता, ध्वनि के प्रकार, मोड़, उच्चारण और वाक्यांशों के लिए मिलीसेकंड में टाइमस्टैम्प किया गया था।
  • ध्वनि सिग्नल के आरंभ और अंत में 200-400 मिलीसेकंड पैडिंग के साथ अपने लक्षित ध्वनि सिग्नल के लिए प्रत्येक खंड बनाया।
  • सभी खंडों के लिए, निम्नलिखित ऑब्जेक्ट मौजूद थे और भरे हुए थे यानी, प्रारंभ समय, समाप्ति समय, खंड आईडी, ध्वनि स्तर (जोर से, सामान्य, शांत), प्राथमिक ध्वनि प्रकार (भाषण, प्रलाप, संगीत, शोर, ओवरलैप), भाषा कोड स्पीकर आईडी, प्रतिलेखन आदि।

3. गुणवत्ता जांच और प्रतिक्रिया

  • सभी रिकॉर्डिंग की गुणवत्ता का मूल्यांकन किया गया और केवल 90% WER और 90% TER वाली मान्य भाषण रिकॉर्डिंग वितरित की गईं।
  • गुणवत्ता जांच सूची का पालन किया गया:
       » खंड की लंबाई अधिकतम 15 सेकंड
       » विशिष्ट डोमेन से प्रतिलेखन, अर्थात्: मौसम, विभिन्न प्रकार के समाचार, स्वास्थ्य, कृषि, शिक्षा, नौकरी या वित्त
       » कम पृष्ठभूमि शोर
       »कोई ऑडियो क्लिप बंद नहीं - कोई विकृति नहीं
       »प्रतिलेखन के लिए सही ऑडियो विभाजन

4. डेटा ट्रांस्क्रिप्शन
झिझक, पूरक शब्द, झूठी शुरुआत और अन्य मौखिक टिक्स सहित सभी बोले गए शब्द, प्रतिलेखन में सटीक रूप से कैप्चर किए गए थे। हमने कैपिटल और लोअरकेस अक्षरों, वर्तनी, कैपिटलाइज़ेशन, संक्षिप्तीकरण, संकुचन, संख्याओं के बारे में विवरण प्रतिलेखन दिशानिर्देशों का भी पालन किया।
विराम चिह्न, परिवर्णी शब्द, प्रभावशाली भाषण, गैर-भाषण शोर आदि। इसके अलावा संग्रह और प्रतिलेखन के लिए अपनाए जाने वाला कार्य प्रवाह इस प्रकार है:

परिणाम

विशेषज्ञ भाषाविदों का उच्च-गुणवत्ता वाला ऑडियो डेटा भारतीय प्रौद्योगिकी संस्थान-मद्रास को निर्धारित समय में विभिन्न बोलियों के साथ 8 भारतीय भाषाओं में बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने और बनाने में सक्षम करेगा। वाक् पहचान मॉडल का उपयोग इसके लिए किया जा सकता है:

  • नागरिकों को उनकी अपनी मातृभाषा में पहल से जोड़कर डिजिटल समावेशन के लिए भाषा संबंधी बाधा को दूर करना।
  • डिजिटल गवर्नेंस को बढ़ावा देता है
  • भारतीय भाषाओं में सेवाओं और उत्पादों के लिए एक पारिस्थितिकी तंत्र बनाने के लिए उत्प्रेरक
  • सार्वजनिक हित, विशेष रूप से शासन और नीति के क्षेत्रों में अधिक स्थानीयकृत डिजिटल सामग्री
गोल्डन-5-सितारा

हम संवादी एआई क्षेत्र में शैप की विशेषज्ञता से प्रभावित हुए। कड़े समयसीमा और दिशानिर्देशों के भीतर 8 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक प्रशिक्षण डेटा को सोर्सिंग, सेगमेंटिंग, ट्रांसक्रिप्टिंग और वितरित करने से उनकी समग्र परियोजना निष्पादन योग्यता; गुणवत्ता के स्वीकार्य मानक को अभी भी बनाए रखते हुए।”

अपने संवादी एआई को तेज़ करें
अनुप्रयोग विकास 100%

विशेष रुप से प्रदर्शित ग्राहक

विश्व-अग्रणी एआई उत्पाद बनाने के लिए टीमों को सशक्त बनाना।