भारत जैसे सांस्कृतिक रूप से विविधतापूर्ण और भाषाई रूप से समृद्ध देश में समावेशी AI का निर्माण प्रतिनिधि, उच्च-गुणवत्ता वाले डेटासेट एकत्र करने से शुरू होता है। इसके पीछे यही दृष्टि है प्रोजेक्ट वाणी—एक बड़े पैमाने पर, ओपन-सोर्स पहल जिसका नेतृत्व किया गया आर्टपार्क, आईआईएससी बेंगलुरु, तथा गूगलइसका उद्देश्य प्रत्येक भारतीय भाषा और बोली को आवाज देना है।
महत्वाकांक्षी लक्ष्य? 150,000+ घंटे का भाषण और 15,000+ घंटे का प्रतिलेखन से 1 लाख लोग के पार 773 जिलों भारत की।
इस राष्ट्रीय मिशन के प्रमुख विक्रेताओं में से एक के रूप में, शेप देना स्वतःस्फूर्त भाषण डेटा, प्रतिलेखन और मेटाडेटा संग्रह को व्यवस्थित करने में महत्वपूर्ण भूमिका निभाई - न्यायसंगत आवाज प्रौद्योगिकियों के लिए आधार तैयार किया जो वास्तव में वास्तविक भारत का प्रतिनिधित्व करते हैं।
प्रोजेक्ट वाणी के पीछे का दृष्टिकोण
प्रोजेक्ट वाणी को एआई समावेशन अंतर को पाटने के लिए डिज़ाइन किया गया है सबसे बड़ा मल्टीमॉडल, बहुभाषी, ओपन-सोर्स डेटासेट भारत में। यह डेटा मूल भारतीय भाषाओं में सटीक भाषण पहचान, अनुवाद और जनरेटिव एआई सिस्टम विकसित करने के लिए आधारभूत है - जिनमें से कई वैश्विक तकनीकी पारिस्थितिकी प्रणालियों में कम प्रतिनिधित्व करते हैं।
दीर्घकालिक दृष्टिकोण निम्नलिखित क्षेत्रों में प्रभावशाली अनुप्रयोगों को सशक्त बनाना है:
- हेल्थकेयर – आवाज आधारित टेलीमेडिसिन
- शिक्षा – स्थानीय भाषा सीखने के प्लेटफॉर्म
- शासन – नागरिक सेवाओं के लिए संवादात्मक इंटरफेस
- आसान इस्तेमाल – दिव्यांग उपयोगकर्ताओं के लिए वॉयस टूल
- आपदा प्रतिक्रिया – स्थानीय बोलियों में वास्तविक समय संचार
शैप ने प्रोजेक्ट वाणी के लिए भारत का सबसे बड़ा ओपन-सोर्स स्पीच डेटासेट बनाने में कैसे मदद की
शैप को संग्रह का कार्य सौंपा गया था 8,000 घंटे का स्वतःस्फूर्त भाषण और 800 घंटे तक मैन्युअल रूप से सत्यापित प्रतिलेखनहमारी जिम्मेदारी में स्पीकर ऑनबोर्डिंग, ऑडियो कैप्चर, मेटाडेटा टैगिंग, ट्रांसक्रिप्शन समन्वय और गुणवत्ता नियंत्रण शामिल थे।
8,000 घंटे स्वतःस्फूर्त ऑडियो डेटा का
रिकॉर्डिंग्स प्रति जिला 400+ मूल वक्ता, विविध आयु समूहों, लिंगों और बोलियों का प्रतिनिधित्व करना
80 जिले, कवर
छवि-आधारित संकेत सुनिश्चित करने के लिए स्वाभाविक, प्रासंगिक भाषण
हमारा दृष्टिकोण अद्वितीय क्यों है, यह नीचे बताया गया है:
जिला-स्तरीय विविधता
हमने बिहार, उत्तर प्रदेश, कर्नाटक, पश्चिम बंगाल और महाराष्ट्र जैसे राज्यों के 80 जिलों से रिकॉर्डिंग प्राप्त की। प्रत्येक जिले ने 100 घंटे का ऑडियो डेटा दिया, जिससे क्षेत्रीय संतुलन सुनिश्चित हुआ। हमने स्थानीय वक्ताओं को शामिल किया, ताकि मुख्यधारा के AI डेटासेट में अक्सर नज़रअंदाज़ किए जाने वाले क्षेत्रीय लहजे और बोलियों का प्रतिनिधित्व सुनिश्चित किया जा सके।
भाषाई एवं जनसांख्यिकीय प्रतिनिधित्व
हमने बिहार, उत्तर प्रदेश, कर्नाटक, पश्चिम बंगाल और महाराष्ट्र जैसे राज्यों के 80 जिलों से रिकॉर्डिंग प्राप्त की। प्रत्येक जिले ने 100 घंटे का ऑडियो डेटा दिया, जिससे क्षेत्रीय संतुलन सुनिश्चित हुआ। हमने स्थानीय वक्ताओं को शामिल किया, ताकि मुख्यधारा के AI डेटासेट में अक्सर नज़रअंदाज़ किए जाने वाले क्षेत्रीय लहजे और बोलियों का प्रतिनिधित्व सुनिश्चित किया जा सके।
चित्र-प्रेरित भाषण
सहज और स्वाभाविक शब्दावली को प्रोत्साहित करने के लिए, प्रतिभागियों को प्रति सत्र 45-90 चित्र दिखाए गए और उनका वर्णन करने के लिए कहा गया। प्रतिभागियों को सांस्कृतिक प्रतीकों से लेकर रोज़मर्रा की वस्तुओं तक की विविध छवियों का उपयोग करने के लिए प्रेरित किया गया ताकि वे अपनी मूल भाषा में स्वाभाविक, सहज प्रतिक्रियाएँ प्राप्त कर सकें। इससे यह सुनिश्चित हुआ कि रिकॉर्डिंग वास्तविक दुनिया, प्रासंगिक भाषण को प्रतिबिंबित करती है - जो उन्नत एनएलपी प्रणालियों के प्रशिक्षण के लिए आवश्यक है।
उच्च गुणवत्ता वाले प्रतिलेखन मानक
भाषण डेटा का केवल 10% ही प्रतिलेखित किया गया था - जो कि 800 घंटों के बराबर है। प्रतिलेखन वक्ता के 20-50 किलोमीटर के दायरे में स्थानीय भाषाविदों द्वारा किया गया था, जिससे बोलियों और बारीकियों से परिचित होना सुनिश्चित हुआ। दूसरी परत की जाँच ने <5% शब्द त्रुटि दर (WER) सुनिश्चित की।
सख्त गुणवत्ता आश्वासन
ऑडियो डेटा को उच्च मानकों को पूरा करना था: कोई पृष्ठभूमि शोर, प्रतिध्वनि, फ़ोन कंपन या विकृति नहीं होनी चाहिए। ऑडियो को शांत, प्रतिध्वनि-मुक्त वातावरण में रिकॉर्ड किया गया था। भाषण स्पष्टता, शोर के स्तर, मेटाडेटा सटीकता और स्पीकर सत्यापन के लिए दिशानिर्देशों को पूरा करने के लिए फ़ाइलों की कठोर समीक्षा की गई। मेटाडेटा टैगिंग सभी फ़ाइलों में सटीक होनी चाहिए, और सभी रिकॉर्डिंग को स्पीकर और स्थान संरेखण के लिए जाँचा जाना चाहिए।
चुनौतियाँ जिन्हें हमने हल किया
- दूरस्थ रसद – 80 जिलों में टीमों का प्रबंधन
- वक्ता विविधता – दूरदराज के स्थानों पर 32,000 से अधिक सत्यापित वक्ताओं को शामिल करना
- सांस्कृतिक संवेदनशीलता – स्थानीय रीति-रिवाजों और बोलियों का सम्मान करना
- डेटा अखंडता – गुणवत्ता और अनुपालन मानकों को पूरा करना
- गुणवत्ता नियंत्रण – विभिन्न भाषाई और सांस्कृतिक संदर्भों में
हमारी सफलता सावधानीपूर्वक योजना, प्रौद्योगिकी-संचालित सत्यापन, तथा स्थानीय टीमों के साथ साझेदारी के कारण संभव हुई, जो प्रत्येक क्षेत्र की सांस्कृतिक बारीकियों को समझती थीं।
प्रभाव और अनुप्रयोग
शैप के योगदान ने न केवल प्रोजेक्ट वाणी की प्रगति को गति दी है, बल्कि भारत में समावेशी एआई की नींव भी रखी है। क्यूरेटेड स्पीच डेटासेट का उपयोग पहले से ही एआई मॉडल बनाने और उसे बेहतर बनाने के लिए किया जा रहा है:
- स्थानीय भाषा के वॉयस असिस्टेंट
- क्षेत्रीय अनुवाद इंजन
- दृष्टिबाधित व्यक्तियों के लिए सुलभ संचार उपकरण
- ग्रामीण छात्रों के लिए एआई-संचालित एडटेक प्लेटफॉर्म
- ग्रामीण टेलीमेडिसिन
- आवाज़ आधारित नागरिक सेवाएँ
- वास्तविक समय अनुवाद और प्रतिलेखन
निष्कर्ष
प्रोजेक्ट वाणी समावेशी, सुलभ एआई की दिशा में एक साहसिक कदम है - और शैप को इसमें आधारभूत भूमिका निभाने का सम्मान प्राप्त है। प्रोजेक्ट वाणी पर शैप का कार्य विविधता और प्रतिनिधित्व पर आधारित नैतिक, समावेशी एआई प्रणालियों के निर्माण के प्रति हमारी प्रतिबद्धता की पुष्टि करता है। 8,000 घंटों से अधिक भाषण संग्रहित करने और 800 घंटों की लिप्यंतरण प्रक्रिया के साथ, हमें भारत की सबसे दूरदर्शी डिजिटल समावेशन परियोजनाओं में से एक में भूमिका निभाने पर गर्व है।
जैसे-जैसे प्रोजेक्ट वाणी 150,000+ घंटे के डेटा के अपने बड़े लक्ष्य की ओर बढ़ रहा है, हम एआई नवाचार के अगले मोर्चे का समर्थन करने के लिए तैयार हैं जो हर भारतीय से बात करता है।
क्या आप हमारे साथ मिलकर ऐसी AI का निर्माण करना चाहते हैं जो वास्तविक दुनिया को समझ सके? www.shaip.com