केस स्टडी: कथन संग्रह

7 भाषाओं में बहुभाषी डिजिटल सहायक बनाने के लिए 13M+ कथन दिए

कथन संग्रह

वास्तविक विश्व समाधान

डेटा जो वैश्विक बातचीत को शक्ति प्रदान करता है

उच्चारण प्रशिक्षण की आवश्यकता इसलिए उत्पन्न होती है क्योंकि सभी ग्राहक बातचीत करते समय या स्क्रिप्टेड प्रारूप में अपने वॉयस असिस्टेंट से प्रश्न पूछते समय सटीक शब्दों या वाक्यांशों का उपयोग नहीं करते हैं। इसलिए विशिष्ट ध्वनि अनुप्रयोगों को सहज वाक् डेटा पर प्रशिक्षित किया जाना चाहिए। उदाहरण के लिए, "निकटतम अस्पताल कहाँ स्थित है?" "मेरे पास एक अस्पताल खोजें" या "क्या कोई अस्पताल पास है?" सभी एक ही खोज अभिप्राय का संकेत देते हैं लेकिन अलग-अलग वाक्यांश हैं।

कथन संग्रह1

मुसीबत

दुनिया भर की भाषाओं के लिए ग्राहकों के डिजिटल असिस्टेंट के स्पीच रोडमैप को निष्पादित करने के लिए, टीम को स्पीच रिकग्निशन एआई मॉडल के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करने की आवश्यकता थी। ग्राहक की महत्वपूर्ण आवश्यकताएं थीं:

  • 3 वैश्विक भाषाओं में भाषण पहचान सेवाओं के लिए बड़ी मात्रा में प्रशिक्षण डेटा प्राप्त करें (एक वक्ता उच्चारण 30-13 सेकंड से अधिक लंबा नहीं है)
  • प्रत्येक भाषा के लिए, आपूर्तिकर्ता रिकॉर्ड करने के लिए वक्ताओं के लिए पाठ संकेत उत्पन्न करेगा (जब तक कि
    क्लाइंट आपूर्ति) और परिणामी ऑडियो को ट्रांसक्राइब करें।
  • संबंधित JSON फ़ाइलों के साथ रिकॉर्ड किए गए कथनों का ऑडियो डेटा और ट्रांसक्रिप्शन प्रदान करें
    सभी रिकॉर्डिंग के लिए मेटाडेटा युक्त।
  • आयु, लिंग, शिक्षा और बोली के अनुसार वक्ताओं का विविध मिश्रण सुनिश्चित करें
  • विनिर्देशों के अनुसार रिकॉर्डिंग वातावरण का विविध मिश्रण सुनिश्चित करें।
  • प्रत्येक ऑडियो रिकॉर्डिंग कम से कम 16kHz लेकिन अधिमानतः 44kHz होनी चाहिए

"कई विक्रेताओं का मूल्यांकन करने के बाद, क्लाइंट ने संवादी एआई परियोजनाओं में उनकी विशेषज्ञता के कारण शैप को चुना। हम शैप की परियोजना निष्पादन क्षमता, 13 भाषाओं में विशेषज्ञ भाषाविदों से आवश्यक कथनों को स्रोत, प्रतिलेखन और सख्त समयसीमा के भीतर और आवश्यक गुणवत्ता के साथ वितरित करने की उनकी विशेषज्ञता से प्रभावित थे।"

उपाय

संवादात्मक एआई की हमारी गहरी समझ के साथ, हमने क्लाइंट को उनके एआई-संचालित स्पीच प्रोसेसिंग मल्टीलिंगुअल वॉयस सूट को प्रशिक्षित करने के लिए विशेषज्ञ भाषाविदों और व्याख्याकारों की एक टीम के साथ डेटा एकत्र करने, ट्रांसक्राइब करने और एनोटेट करने में मदद की।

शैप के लिए काम का दायरा शामिल है लेकिन यह वाक् पहचान के लिए बड़ी मात्रा में ऑडियो प्रशिक्षण डेटा प्राप्त करने तक सीमित नहीं था, हमारे टीयर 1 और टीयर 2 भाषा रोडमैप पर सभी भाषाओं के लिए कई भाषाओं में ऑडियो रिकॉर्डिंग को ट्रांसक्राइब करना और संबंधित डिलीवर करना JSON मेटाडेटा वाली फ़ाइलें। Shaip ने जटिल परियोजनाओं के लिए ML मॉडल को प्रशिक्षित करने के लिए आवश्यक गुणवत्ता के वांछित स्तर को बनाए रखते हुए पैमाने पर 3-30 सेकंड के उच्चारण एकत्र किए।

  • ऑडियो एकत्रित, लिखित और एनोटेट: 22,250 घंटे
  • समर्थित भाषाएँ: 13 (डेनिश, कोरियाई, सऊदी अरब अरबी, डच, मुख्यभूमि और ताइवान चीनी, फ्रेंच कनाडाई, मैक्सिकन स्पेनिश, तुर्की, हिंदी, पोलिश, जापानी, रूसी)
  • कथनों की संख्या: 7M +
  • समयरेखा: 7 - 8 महीने

एआई-संचालित वाक् प्रसंस्करण बहुभाषी वॉयस सुइट

16 किलोहर्ट्ज़ पर ऑडियो उच्चारण एकत्र करते समय, हमने विभिन्न रिकॉर्डिंग वातावरणों में आयु, लिंग, शिक्षा और बोलियों द्वारा वक्ताओं का एक स्वस्थ मिश्रण सुनिश्चित किया।

परिणाम

विशेषज्ञ भाषाविदों के उच्च-गुणवत्ता वाले उच्चारण ऑडियो डेटा ने ग्राहक को 13 वैश्विक स्तर 1 और 2 भाषाओं में अपने बहुभाषी भाषण पहचान मॉडल को सटीक रूप से प्रशिक्षित करने के लिए सशक्त बनाया। स्वर्ण-मानक प्रशिक्षण डेटासेट के साथ, ग्राहक भविष्य की वास्तविक दुनिया की समस्याओं को हल करने के लिए बुद्धिमान और मजबूत डिजिटल सहायता प्रदान कर सकता है।

उच्च गुणवत्ता वाले उच्चारण ऑडियो डेटा

हमारी विशेषज्ञता

भाषण के घंटे एकत्रित
0 +
वॉयस डेटा कलेक्टरों की टीम
0
पीआईआई अनुपालन
0 %
कूल नंबर
0 +
डेटा स्वीकृति और सटीकता
> 0
फॉर्च्यून 500 क्लाइंट
0 +

हमें बताएं कि हम आपकी अगली एआई पहल में कैसे मदद कर सकते हैं।