अब प्राप्त करें 50% की छूट* on Conversational AI Off-the-Shelf Datasets

Speech & Audio dataset for chatbots, voice assistants, speech-enabled devices.

*Limited Period Offer

  • पंजीकरण करके, मैं शैप से सहमत हूं Privacy Policy और सेवा की शर्तें और Shaip से B2B मार्केटिंग संचार प्राप्त करने के लिए अपनी सहमति प्रदान करता/करती हूँ।

उद्योग जगत के नेताओं द्वारा विश्वसनीय

विवरणOff-the-shelf Language DatasetCall Center Conversations 8khz*Generic Conversations 8khz*Media & Podcasts 16khz*Utterance/ Scripted Monologue 16khz*Total Volume in HoursDialects coveredऑडियो प्रारूपText Transcription Formatउदाहरणस्रोतCTA
भाषणअफ्रीकीAfrikaans Audio Dataset6009001500Afrikaans spoken in Africaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणअरबी भाषाArabic Audio Dataset80015002300Arabic from Gulf countriesवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणचैनीस Chinese Audio Dataset20002000Chinese from Chinaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणडेनिशDanish Audio Dataset40060020003000Danish from Denmarkवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणडचDutch Audio Dataset20002000Dutch from Netherlandवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - AAVE AccentEnglish - AAVE (African American Vernacular English) Audio Dataset5005001000The vernacular variety (sometimes known as AAVE, typically spoken by the vast majority of working- and middle-class African Americans) and the more standard variety (typically spoken by middle-class African Americans in formal and public situations) but with a stronger emphasis on the vernacular.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Boston/New York AccentEnglish - Boston/New York Audio Dataset225225350800This is a collection of several regional accents spoken in and around the cities of Boston, New York, and Philadelphia. These accents might sound similar to non-locals, but distinct from other American accents. Despite some local vocabulary that is different from other parts of the English-speaking world, these accents are mutually intelligible with English spoken elsewhere.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Chinese AccentEnglish - Chinese Accented Audio Dataset150300450Speakers who speak Chinese as their first language and who moved/immigrated to the United States as teenagers/adults and learned English as their second language.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Deep South AccentEnglish - Deep South Audio Dataset2752754501000Speakers from (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Hispanic AccentEnglish - Hispanic Accented Audio Dataset400400800Hispanic English refers to the varieties of US English spoken by Hispanic Americans of diverse national heritage. The main focus was on Mexican Americans, speakers of different national origins (e.g. Mexico, Puerto Rico, Dominican Republic, Ecuador, Cuba, etc) and from different regions (e.g. California, New York, Florida) as well. Speakers included were who speak Spanish as a first language as well as speakers of Hispanic origin who speak Spanish has a heritage language.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - New Zealand AccentEnglish - New Zealand Audio Dataset2507501000Speakers on both islands, including a mix of younger speakers (<40 years old) and older speakers (>40 years old) in equal proportions.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Singapore AccentEnglish - Singapore Audio Dataset4006001000Both Standard Singapore English and Colloquial Singapore English. Singaporeans of different ethnic backgrounds (e.g. Chinese, Malay, Indian, etc) and of different educational levels.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - South Africa AccentEnglish - South Africa Audio Dataset4006001000Representatives from various socioeconomic classes and ethnological backgrounds (e.g. South Africans of European, African, Indian, or mixed background).वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Irish AccentEnglish - Irish Audio Dataset500500English spoken in Irelandवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Scottish AccentEnglish - Scottish Audio Dataset800800English spoken by Scottishवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणEnglish - Welsh AccentEnglish - Welsh Audio Dataset800800वेल्श अंग्रेजीवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणफ्रेंच कैनेडियनFrench Canadian Audio Dataset10001000कनाडाई फ्रेंचवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणयहूदीHebrew Audio Dataset7507501500Hebrew in Israelवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणइन्डोनेशियाईIndonesian Audio Dataset100010002000बहासा इन्डोनेशियाईवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणजापानीJapanese Audio Dataset20002000Japanese from Japanवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणकोरियाईKorean Audio Dataset10020015001800Speakers spread throughout South Korea.वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणमलायीMalay Audio Dataset5005001000Malay in Malaysiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणमैक्सिकन स्पेनिशMexican Spanish Audio Dataset12501250Mexican from Mexicoवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणपोलिशPolish Audio Dataset25020002250Polish from Polandवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणरूसीRussian Audio Dataset20002000Russian from Russiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणस्वाहिलीSwahili Audio Dataset3506501000South African and Kenyan Swahiliवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणस्वीडिशSwedish Audio Dataset3506501000Swedish in Swedenवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणताइवान चीनीTaiwan Chinese Audio Dataset10001000Chinese from Taiwanवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणथाईThai Audio Dataset350450800An informal register used between friends,वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणतुर्कीTurkish Audio Dataset20002000Turkish from Turkeyवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणवियतनामीVietnamese Audio Dataset6004001000Northern (e.g.,Hanoi), Central, and Southern (e.g., Ho Chi Minh City).वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणहिंदीHindi Audio Dataset80020002800Hindi in India specifically in North, East and West regionsवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणहिंग्लिशIndian English Audio Dataset300500800Collected from urban Indian cities that are financial hubs of the country due to growing economic opportunities. Such places can be Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad, etcवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणअंग्रेज़ीEnglish Audio Dataset700700वेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणकन्नड़Kannada Audio Dataset6010040200Kannada from Karnataka, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणमलयालमMalayalam Audio Dataset6010040200Malayalam from Kerala, Lakshadweep and Puducherryवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणउड़ियाOriya Audio Dataset6010040200Oriya from parts of Odisha, West Bengal, Jharkhand and Chhattisgarhवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणपंजाबीPunjabi Audio Dataset6010040200Punjabi from Punjab, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणतामिलTamil Audio Dataset60100240400Tamil from Tamil Nadu, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणतेलुगुTelugu Audio Dataset1009509502000Telugu from Andhra Pradesh, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणबंगालीBengali Audio Dataset6010040200Bengali from West Bengal, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणगुजरातीGujarati Audio Dataset6010040200Gujarati from Gujarat, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणमराठीMarathi Audio Dataset6010040200Marathi from Maharashtra, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना
भाषणअसमीAssamese Audio Dataset6010040200Assamese from Asssam, Indiaवेवफ़ॉर्म.jsonएएसआर, वर्चुअल असिस्टेंट, चैटबॉट, कन्वर्सेशनल एआई, स्पीच एनालिटिक्स, टीटीएस, लैंग्वेज मॉडलिंगशेप देना

कन्वर्सेशनल एआई में गहरी विशेषज्ञता

संवादी एआई या चैटबॉट्स या वर्चुअल/डिजिटल असिस्टेंट केवल उतने ही स्मार्ट हैं जितने कि उनके पीछे की तकनीक और डेटा। शैप में, हम आपको प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए विविध ऑडियो डेटासेट का एक व्यापक सेट प्रदान करते हैं जो वास्तविक लोगों के साथ बातचीत की नकल करता है जिससे आप अपने एआई को जीवन में ला सकते हैं। अपनी गहरी समझ के साथ, हम दुनिया भर से कई भाषाओं में समृद्ध और संरचित डेटासेट के साथ अत्यधिक सटीकता के साथ एआई-सक्षम भाषण मॉडल बनाने और स्थानीय बनाने में आपकी सहायता करते हैं। हम आपकी आवश्यकता के आधार पर बहुभाषी ऑडियो संग्रह, ऑडियो ट्रांसक्रिप्शन और ऑडियो एनोटेशन सेवाएं प्रदान करते हैं, जबकि वांछित इरादे, उच्चारण और जनसांख्यिकीय वितरण को पूरी तरह से अनुकूलित करते हैं।

लिखित भाषण संग्रह

सहज भाषण संग्रह

ऑडियो डेटा ट्रांस्क्रिप्शन

डेटा लेबलिंग और एनोटेशन

Shaip आपको अपने संवादी AI प्लेटफ़ॉर्म को सटीक रूप से प्रशिक्षित करने देता है ताकि यह कर सके:

  • कई चैनलों पर निर्बाध रूप से बात करें, टेक्स्ट करें और चैट करें।
  • चैट, वॉयस ट्रांसक्रिप्ट, लेन-देन आदि के रूप में मौजूदा बातचीत से सीखें और इन सीखों के आधार पर सुझाव दें और बातचीत करें।
  • मानव भाषण के पीछे की मंशा को समझें और मानव भाषा को समझने में अस्पष्टता को दूर करें।
  • आपके साथ आमने-सामने बातचीत करते हैं और उन्हें उपयोगकर्ताओं की पहचान करने और पिछली बातचीत को याद रखने के लिए प्रशिक्षित किया जा सकता है।

संवादी एआई प्रशिक्षण डेटा में एक विश्व नेता

100+ भाषाओं में घंटों का ऑडियो डेटा - स्रोत, प्रतिलेखित और एनोटेट

वाक् डेटा लाइसेंसिंग

20+ भाषाओं और बोलियों में 40k+ घंटे का स्पीच डेटा विभिन्न डोमेन से 55+ विषयों की एक श्रृंखला को कवर करता है, जैसे कॉल-सेंटर, वाद-विवाद, सामान्य बातचीत, भाषण, पॉडकास्ट, आदि।

भाषण डेटा संग्रह

दुनिया भर से 2 से अधिक भाषाओं में ऑडियो और स्पीच डेटा (मोनोलॉग, 100-व्यक्ति वार्तालाप, मानव-बॉट चैट) एकत्र करें, जो आपकी एआई आवश्यकता के अनुसार अनुकूलित है।

भाषण डेटा प्रतिलेखन

Cost-effective audio transcription or audio annotation through a strong workforce of 30,000 collaborators with guaranteed TAT, accuracy, and savings

ऑडियो संग्रह और ऑडियो एनोटेशन सेवाओं के साथ अपने संवादात्मक एआई ऐप के विकास में तेजी लाएं

द शेप एडवांटेज

Scale​

हम आपकी आवश्यकताओं के आधार पर दुनिया भर से कई भाषाओं और बोलियों में ऑडियो डेटा का स्रोत, स्केल और वितरण कर सकते हैं।

विशेषज्ञता

हमारे पास सटीक और निष्पक्ष डेटा संग्रह, प्रतिलेखन और स्वर्ण-मानक एनोटेशन के संबंध में सही विशेषज्ञता है।

नेटवर्क

30,000+ योग्य योगदानकर्ताओं का एक नेटवर्क, जिन्हें एआई प्रशिक्षण मॉडल और स्केल-अप सेवाओं के निर्माण के लिए डेटा संग्रह कार्य जल्दी से सौंपा जा सकता है।

टेक्नोलॉजी

हमारे पास चौबीसों घंटे वर्कफ़्लो प्रबंधन का लाभ उठाने के लिए मालिकाना उपकरण और प्रक्रियाओं के साथ पूरी तरह से एआई-आधारित प्लेटफ़ॉर्म है।

चपलता

We adapt to changes in customer requirements very fast and help in accelerating AI development with quality speech data 5-10x faster than competition.

सुरक्षा

हम डेटा सुरक्षा और गोपनीयता को अत्यधिक महत्व देते हैं और अत्यधिक विनियमित संवेदनशील डेटा को संभालने के लिए प्रमाणित भी हैं।

हम सबसे अच्छा क्या करते हैं

प्रशिक्षण जानकारी

समय के एक अंश में उच्चतम गुणवत्ता लेबल वाला डेटा प्राप्त करें। यह प्रदर्शन के उच्चतम स्तर को प्राप्त करने के लिए आपके एआई और एमएल मॉडल को प्रशिक्षित करने के लिए स्वर्ण-मानक, विश्वसनीय और तैयार है।

और पढ़ें

डेटा संग्रह, लेबलिंग और एनोटेशन

Shaip के साथ आपको गुणवत्ता डेटा एकत्र करने, उसका लिप्यंतरण करने और व्याख्या करने में 15+ वर्ष की सिद्ध विशेषज्ञता प्राप्त होती है। हमारे वैश्विक श्रम बल के साथ हम दुनिया भर से डेटा एकत्र कर सकते हैं, फिर आपके डेटा के लिए आवश्यक कौशल स्तर और विशेषज्ञता के साथ लेबलिंग और एनोटेशन सेवाएं प्रदान कर सकते हैं।

और पढ़ें

डेटा कैटलॉग और लाइसेंसिंग

लाखों डेटासेट की हमारी विशाल सूची के साथ आप आवश्यकतानुसार एकत्रित और व्यवस्थित कर सकते हैं। फिर हम उस गुणवत्ता डेटा को आपके विशिष्ट AI और ML उपयोग आवश्यकताओं के लिए लाइसेंस दे सकते हैं। साथ ही, यह डेटा लागत के एक अंश पर उपलब्ध है यदि आप इसे स्वयं बनाते हैं।

और पढ़ें

क्या आप अपना स्वयं का डेटा सेट बनाना चाहते हैं?

यह जानने के लिए अभी हमसे संपर्क करें कि हम आपके अद्वितीय एआई समाधान के लिए कस्टम डेटा सेट कैसे एकत्र कर सकते हैं।