केस स्टडी: कथन संग्रह
7 भाषाओं में बहुभाषी डिजिटल सहायक बनाने के लिए 13M+ कथन दिए
वास्तविक विश्व समाधान
डेटा जो वैश्विक बातचीत को शक्ति प्रदान करता है
उच्चारण प्रशिक्षण की आवश्यकता इसलिए उत्पन्न होती है क्योंकि सभी ग्राहक बातचीत करते समय या स्क्रिप्टेड प्रारूप में अपने वॉयस असिस्टेंट से प्रश्न पूछते समय सटीक शब्दों या वाक्यांशों का उपयोग नहीं करते हैं। इसलिए विशिष्ट ध्वनि अनुप्रयोगों को सहज वाक् डेटा पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, "निकटतम अस्पताल कहाँ स्थित है?" "मेरे पास एक अस्पताल खोजें" या "क्या कोई अस्पताल पास है?" सभी एक ही खोज अभिप्राय का संकेत देते हैं लेकिन अलग-अलग वाक्यांश हैं।

मुसीबत
दुनिया भर की भाषाओं के लिए ग्राहकों के डिजिटल असिस्टेंट के स्पीच रोडमैप को निष्पादित करने के लिए, टीम को स्पीच रिकग्निशन एआई मॉडल के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएं थीं:
- 3 वैश्विक भाषाओं में भाषण पहचान सेवाओं के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करें (एक वक्ता उच्चारण 30-13 सेकंड से अधिक लंबा नहीं है)
- प्रत्येक भाषा के लिए, आपूर्तिकर्ता रिकॉर्ड करने के लिए वक्ताओं के लिए पाठ संकेत उत्पन्न करेगा (जब तक कि
क्लाइंट आपूर्ति) और परिणामी ऑडियो को ट्रांसक्राइब करें। - संबंधित JSON फ़ाइलों के साथ रिकॉर्ड किए गए कथनों का ऑडियो डेटा और ट्रांसक्रिप्शन प्रदान करें
सभी रिकॉर्डिंग के लिए मेटाडेटा युक्त। - आयु, लिंग, शिक्षा और बोली के अनुसार वक्ताओं का विविध मिश्रण सुनिश्चित करें
- विनिर्देशों के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
- प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए
"कई विक्रेताओं का मूल्यांकन करने के बाद, क्लाइंट ने बातचीत करने वाली एआई परियोजनाओं में उनकी विशेषज्ञता के कारण शैप को चुना। हम शैप की परियोजना निष्पादन क्षमता, सख्त समयसीमा के भीतर और आवश्यक गुणवत्ता के साथ 13 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक कथनों को स्रोत, लिप्यंतरण और वितरित करने में उनकी विशेषज्ञता से प्रभावित थे।
उपाय
संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने क्लाइंट को उनके एआई-संचालित स्पीच प्रोसेसिंग मल्टीलिंगुअल वॉयस सूट को प्रशिक्षित करने के लिए विशेषज्ञ भाषाविदों और व्याख्याकारों की एक टीम के साथ डेटा एकत्र करने, ट्रांसक्राइब करने और एनोटेट करने में मदद की।
शैप के लिए काम का दायरा शामिल है लेकिन यह वाक् पहचान के लिए बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने तक सीमित नहीं था, हमारे टीयर 1 और टीयर 2 भाषा रोडमैप पर सभी भाषाओं के लिए कई भाषाओं में ऑडियो रिकॉर्डिंग को ट्रांसक्राइब करना और संबंधित डिलीवर करना JSON मेटाडेटा वाली फ़ाइलें। Shaip ने जटिल परियोजनाओं के लिए ML मॉडल को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए पैमाने पर 3-30 सेकंड के उच्चारण एकत्र किए।
- ऑडियो एकत्रित, लिखित और एनोटेट: 22,250 घंटे
- समर्थित भाषाएँ: 13 (डेनिश, कोरियाई, सऊदी अरब अरबी, डच, मुख्यभूमि और ताइवान चीनी, फ्रेंच कनाडाई, मैक्सिकन स्पेनिश, तुर्की, हिंदी, पोलिश, जापानी, रूसी)
- कथनों की संख्या: 7M +
- समयरेखा: 7 - 8 महीने
16 किलोहर्ट्ज़ पर ऑडियो उच्चारण एकत्र करते समय, हमने विभिन्न रिकॉर्डिंग वातावरणों में आयु, लिंग, शिक्षा और बोलियों द्वारा वक्ताओं का एक स्वस्थ मिश्रण सुनिश्चित किया।
परिणाम
विशेषज्ञ भाषाविदों के उच्च-गुणवत्ता वाले उच्चारण ऑडियो डेटा ने ग्राहक को 13 वैश्विक स्तर 1 और 2 भाषाओं में अपने बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने के लिए सशक्त बनाया। स्वर्ण-मानक प्रशिक्षण डेटासेट के साथ, ग्राहक भविष्य की वास्तविक दुनिया की समस्याओं को हल करने के लिए बुद्धिमान और मजबूत डिजिटल सहायता प्रदान कर सकता है।
हमारी विशेषज्ञता
अनुशंसित संसाधन
क्रेता गाइड
क्रेता गाइड: संवादी एआई
आपने जिस चैटबॉट के साथ बातचीत की, वह एक उन्नत संवादी AI सिस्टम पर चलता है, जिसे प्रशिक्षित, परीक्षण और टन वाक् पहचान डेटासेट का उपयोग करके बनाया गया है।
ब्लॉग
कन्वर्सेशनल एआई 2021 की स्थिति
कन्वर्सेशनल एआई 2021 इन्फोग्राफिक्स कन्वर्सेशनल एआई क्या है, इसके विकास, प्रकार, क्षेत्र के अनुसार कन्वर्सेशनल एआई मार्केट, उपयोग के मामले, चुनौतियां आदि के बारे में बात करते हैं।
ब्लॉग
3 संवादी एआई के विकास में बाधाएं
शेप 50+ भाषाओं में आवश्यक एनोटेटेड ऑडियो डेटा की पेशकश करके ग्राहक सहभागिता उपकरण के रूप में संवादात्मक एआई के विकास की शुरुआत कर रहा है।
हमें बताएं कि हम आपकी अगली एआई पहल में कैसे मदद कर सकते हैं।