केस स्टडी: कथन संग्रह

7 भाषाओं में बहुभाषी डिजिटल सहायक बनाने के लिए 13M+ कथन दिए

कथन संग्रह

वास्तविक विश्व समाधान

डेटा जो वैश्विक बातचीत को शक्ति प्रदान करता है

उच्चारण प्रशिक्षण की आवश्यकता इसलिए उत्पन्न होती है क्योंकि सभी ग्राहक बातचीत करते समय या स्क्रिप्टेड प्रारूप में अपने वॉयस असिस्टेंट से प्रश्न पूछते समय सटीक शब्दों या वाक्यांशों का उपयोग नहीं करते हैं। इसलिए विशिष्ट ध्वनि अनुप्रयोगों को सहज वाक् डेटा पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, "निकटतम अस्पताल कहाँ स्थित है?" "मेरे पास एक अस्पताल खोजें" या "क्या कोई अस्पताल पास है?" सभी एक ही खोज अभिप्राय का संकेत देते हैं लेकिन अलग-अलग वाक्यांश हैं।

कथन संग्रह1

मुसीबत

दुनिया भर की भाषाओं के लिए ग्राहकों के डिजिटल असिस्टेंट के स्पीच रोडमैप को निष्पादित करने के लिए, टीम को स्पीच रिकग्निशन एआई मॉडल के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएं थीं:

  • 3 वैश्विक भाषाओं में भाषण पहचान सेवाओं के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करें (एक वक्ता उच्चारण 30-13 सेकंड से अधिक लंबा नहीं है)
  • प्रत्येक भाषा के लिए, आपूर्तिकर्ता रिकॉर्ड करने के लिए वक्ताओं के लिए पाठ संकेत उत्पन्न करेगा (जब तक कि
    क्लाइंट आपूर्ति) और परिणामी ऑडियो को ट्रांसक्राइब करें।
  • संबंधित JSON फ़ाइलों के साथ रिकॉर्ड किए गए कथनों का ऑडियो डेटा और ट्रांसक्रिप्शन प्रदान करें
    सभी रिकॉर्डिंग के लिए मेटाडेटा युक्त।
  • आयु, लिंग, शिक्षा और बोली के अनुसार वक्ताओं का विविध मिश्रण सुनिश्चित करें
  • विनिर्देशों के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
  • प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए

अपने संवादी एआई को तेज़ करें
अनुप्रयोग विकास 100%

"कई विक्रेताओं का मूल्यांकन करने के बाद, क्लाइंट ने बातचीत करने वाली एआई परियोजनाओं में उनकी विशेषज्ञता के कारण शैप को चुना। हम शैप की परियोजना निष्पादन क्षमता, सख्त समयसीमा के भीतर और आवश्यक गुणवत्ता के साथ 13 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक कथनों को स्रोत, लिप्यंतरण और वितरित करने में उनकी विशेषज्ञता से प्रभावित थे।

उपाय

संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने क्लाइंट को उनके एआई-संचालित स्पीच प्रोसेसिंग मल्टीलिंगुअल वॉयस सूट को प्रशिक्षित करने के लिए विशेषज्ञ भाषाविदों और व्याख्याकारों की एक टीम के साथ डेटा एकत्र करने, ट्रांसक्राइब करने और एनोटेट करने में मदद की।

शैप के लिए काम का दायरा शामिल है लेकिन यह वाक् पहचान के लिए बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने तक सीमित नहीं था, हमारे टीयर 1 और टीयर 2 भाषा रोडमैप पर सभी भाषाओं के लिए कई भाषाओं में ऑडियो रिकॉर्डिंग को ट्रांसक्राइब करना और संबंधित डिलीवर करना JSON मेटाडेटा वाली फ़ाइलें। Shaip ने जटिल परियोजनाओं के लिए ML मॉडल को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए पैमाने पर 3-30 सेकंड के उच्चारण एकत्र किए।

  • ऑडियो एकत्रित, लिखित और एनोटेट: 22,250 घंटे
  • समर्थित भाषाएँ: 13 (डेनिश, कोरियाई, सऊदी अरब अरबी, डच, मुख्यभूमि और ताइवान चीनी, फ्रेंच कनाडाई, मैक्सिकन स्पेनिश, तुर्की, हिंदी, पोलिश, जापानी, रूसी)
  • कथनों की संख्या: 7M +
  • समयरेखा: 7 - 8 महीने

एआई-संचालित वाक् प्रसंस्करण बहुभाषी वॉयस सुइट

16 किलोहर्ट्ज़ पर ऑडियो उच्चारण एकत्र करते समय, हमने विभिन्न रिकॉर्डिंग वातावरणों में आयु, लिंग, शिक्षा और बोलियों द्वारा वक्ताओं का एक स्वस्थ मिश्रण सुनिश्चित किया।

परिणाम

विशेषज्ञ भाषाविदों के उच्च-गुणवत्ता वाले उच्चारण ऑडियो डेटा ने ग्राहक को 13 वैश्विक स्तर 1 और 2 भाषाओं में अपने बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने के लिए सशक्त बनाया। स्वर्ण-मानक प्रशिक्षण डेटासेट के साथ, ग्राहक भविष्य की वास्तविक दुनिया की समस्याओं को हल करने के लिए बुद्धिमान और मजबूत डिजिटल सहायता प्रदान कर सकता है।

उच्च गुणवत्ता वाले उच्चारण ऑडियो डेटा

हमारी विशेषज्ञता

भाषण के घंटे एकत्रित
0 +
वॉयस डेटा कलेक्टरों की टीम
0
पीआईआई अनुपालन
0 %
कूल नंबर
0 +
डेटा स्वीकृति और सटीकता
> 0
फॉर्च्यून 500 क्लाइंट
0 +

हमें बताएं कि हम आपकी अगली एआई पहल में कैसे मदद कर सकते हैं।