केस स्टडी: कथन संग्रह
7 भाषाओं में बहुभाषी डिजिटल सहायक बनाने के लिए 13M+ कथन दिए
वास्तविक विश्व समाधान
डेटा जो वैश्विक बातचीत को शक्ति प्रदान करता है
उच्चारण प्रशिक्षण की आवश्यकता इसलिए उत्पन्न होती है क्योंकि सभी ग्राहक बातचीत करते समय या स्क्रिप्टेड प्रारूप में अपने वॉयस असिस्टेंट से प्रश्न पूछते समय सटीक शब्दों या वाक्यांशों का उपयोग नहीं करते हैं। इसलिए विशिष्ट ध्वनि अनुप्रयोगों को सहज वाक् डेटा पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, "निकटतम अस्पताल कहाँ स्थित है?" "मेरे पास एक अस्पताल खोजें" या "क्या कोई अस्पताल पास है?" सभी एक ही खोज अभिप्राय का संकेत देते हैं लेकिन अलग-अलग वाक्यांश हैं।
मुसीबत
दुनिया भर की भाषाओं के लिए ग्राहकों के डिजिटल असिस्टेंट के स्पीच रोडमैप को निष्पादित करने के लिए, टीम को स्पीच रिकग्निशन एआई मॉडल के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएं थीं:
- 3 वैश्विक भाषाओं में भाषण पहचान सेवाओं के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करें (एक वक्ता उच्चारण 30-13 सेकंड से अधिक लंबा नहीं है)
- प्रत्येक भाषा के लिए, आपूर्तिकर्ता रिकॉर्ड करने के लिए वक्ताओं के लिए पाठ संकेत उत्पन्न करेगा (जब तक कि
क्लाइंट आपूर्ति) और परिणामी ऑडियो को ट्रांसक्राइब करें। - संबंधित JSON फ़ाइलों के साथ रिकॉर्ड किए गए कथनों का ऑडियो डेटा और ट्रांसक्रिप्शन प्रदान करें
सभी रिकॉर्डिंग के लिए मेटाडेटा युक्त। - आयु, लिंग, शिक्षा और बोली के अनुसार वक्ताओं का विविध मिश्रण सुनिश्चित करें
- विनिर्देशों के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
- प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए
"कई विक्रेताओं का मूल्यांकन करने के बाद, क्लाइंट ने संवादी एआई परियोजनाओं में उनकी विशेषज्ञता के कारण शैप को चुना। हम शैप की परियोजना निष्पादन क्षमता, 13 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक कथनों को स्रोत, प्रतिलेखन और सख्त समयसीमा के भीतर और आवश्यक गुणवत्ता के साथ वितरित करने की उनकी विशेषज्ञता से प्रभावित थे।"
उपाय
संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने क्लाइंट को उनके एआई-संचालित स्पीच प्रोसेसिंग मल्टीलिंगुअल वॉयस सूट को प्रशिक्षित करने के लिए विशेषज्ञ भाषाविदों और व्याख्याकारों की एक टीम के साथ डेटा एकत्र करने, ट्रांसक्राइब करने और एनोटेट करने में मदद की।
शैप के लिए काम का दायरा शामिल है लेकिन यह वाक् पहचान के लिए बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने तक सीमित नहीं था, हमारे टीयर 1 और टीयर 2 भाषा रोडमैप पर सभी भाषाओं के लिए कई भाषाओं में ऑडियो रिकॉर्डिंग को ट्रांसक्राइब करना और संबंधित डिलीवर करना JSON मेटाडेटा वाली फ़ाइलें। Shaip ने जटिल परियोजनाओं के लिए ML मॉडल को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए पैमाने पर 3-30 सेकंड के उच्चारण एकत्र किए।
- ऑडियो एकत्रित, लिखित और एनोटेट: 22,250 घंटे
- समर्थित भाषाएँ: 13 (डेनिश, कोरियाई, सऊदी अरब अरबी, डच, मुख्यभूमि और ताइवान चीनी, फ्रेंच कनाडाई, मैक्सिकन स्पेनिश, तुर्की, हिंदी, पोलिश, जापानी, रूसी)
- कथनों की संख्या: 7M +
- समयरेखा: 7 - 8 महीने

16 किलोहर्ट्ज़ पर ऑडियो उच्चारण एकत्र करते समय, हमने विभिन्न रिकॉर्डिंग वातावरणों में आयु, लिंग, शिक्षा और बोलियों द्वारा वक्ताओं का एक स्वस्थ मिश्रण सुनिश्चित किया।
परिणाम
विशेषज्ञ भाषाविदों के उच्च-गुणवत्ता वाले उच्चारण ऑडियो डेटा ने ग्राहक को 13 वैश्विक स्तर 1 और 2 भाषाओं में अपने बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने के लिए सशक्त बनाया। स्वर्ण-मानक प्रशिक्षण डेटासेट के साथ, ग्राहक भविष्य की वास्तविक दुनिया की समस्याओं को हल करने के लिए बुद्धिमान और मजबूत डिजिटल सहायता प्रदान कर सकता है।
हमारी विशेषज्ञता
अनुशंसित संसाधन
क्रेता गाइड
क्रेता गाइड: संवादी एआई
आपने जिस चैटबॉट के साथ बातचीत की, वह एक उन्नत संवादी AI सिस्टम पर चलता है, जिसे प्रशिक्षित, परीक्षण और टन वाक् पहचान डेटासेट का उपयोग करके बनाया गया है।
ब्लॉग
कन्वर्सेशनल एआई 2025 की स्थिति
कन्वर्सेशनल एआई 2025 इन्फोग्राफिक्स कन्वर्सेशनल एआई क्या है, इसके विकास, प्रकार, क्षेत्र के अनुसार कन्वर्सेशनल एआई मार्केट, उपयोग के मामले, चुनौतियां आदि के बारे में बात करते हैं।
ब्लॉग
सिरी और एलेक्सा कैसे समझती हैं कि आप क्या कह रहे हैं?
आवाज सहायक ये शांत, मुख्य रूप से महिला आवाजें हो सकती हैं जो निकटतम रेस्तरां या मॉल के सबसे छोटे मार्ग को खोजने के आपके अनुरोधों का जवाब देती हैं।