डेटासेट खोलें
ओपन सोर्स डेटासेट खोजें जो आपको एमएल मॉडल को प्रशिक्षित करने में मदद करता है
एआई/एमएल मॉडल के साथ शुरुआत करने के लिए ओपन सोर्स डेटासेट
आपके एआई और एमएल मॉडल का आउटपुट उतना ही अच्छा है जितना डेटा आप इसे प्रशिक्षित करने के लिए उपयोग करते हैं - इसलिए डेटा एकत्रीकरण और उस डेटा की टैगिंग और पहचान पर आप जो सटीकता लागू करते हैं वह महत्वपूर्ण है!
इसलिए यदि आप एक नई एआई/एमएल पहल शुरू करना चाहते हैं और अब आप जल्दी से महसूस कर रहे हैं कि उच्च-गुणवत्ता वाला प्रशिक्षण डेटा ढूंढना आपके प्रोजेक्ट के अधिक चुनौतीपूर्ण पहलुओं में से एक होगा क्योंकि उच्च-गुणवत्ता वाले डेटासेट वह ईंधन हैं जो एआई/ को बनाए रखते हैं। एमएल इंजन चल रहा है। हमने खुले डेटासेट की एक सूची जमा की है जो भविष्य के आपके एआई/एमएल मॉडल का उपयोग और प्रशिक्षण करने के लिए निःशुल्क हैं।
| विशेषज्ञता | डाटा प्रकार | डेटासेट का नाम | उद्योग/विभाग | एनोटेशन/उपयोग मामला | संपर्क |
|---|---|---|---|---|---|
| +एनएलपी | टेक्स्ट | अमेज़न समीक्षा | ई - कॉमर्स | भावनाओं का विश्लेषण | संपर्क |
| विवरण | उपयोगकर्ता और उत्पाद विवरण के साथ सादे पाठ में पिछले 35 वर्षों में 18 मिलियन समीक्षाओं और रेटिंग का एक सेट। | ||||
| +एनएलपी | टेक्स्ट | विकिपीडिया लिंक डेटा | सामान्य जानकारी | संपर्क | |
| विवरण | विकिपीडिया से 1.9 अरब शब्दों वाले 4 मिलियन से ज़्यादा लेख। प्रत्येक लेख में संबंधित इकाई के लिए हाइपरलिंक शामिल हैं। | ||||
| +एनएलपी | टेक्स्ट | स्टैंडफोर्ड सेंटीमेंट ट्रीबैंक | मनोरंजन | भावनाओं का विश्लेषण | संपर्क |
| विवरण | 10,000 से ज़्यादा रॉटन टोमाटोज़ फ़िल्म समीक्षा वाक्यों के लिए सेंटीमेंट एनोटेशन डेटासेट। वाक्यांश स्तर पर उपलब्ध - प्रत्येक वाक्य को पेन ट्रीबैंक फ़ॉर्मेट में पार्स ट्री को बाइनरी करके उप-वाक्यांशों में पार्स किया जाता है। | ||||
| +एनएलपी | टेक्स्ट | ट्विटर यूएस एयरलाइन भावना | एयरलाइन | भावनाओं का विश्लेषण | संपर्क |
| विवरण | 2015 में अमेरिकी एयरलाइंस पर ट्वीट सकारात्मक, तटस्थ और नकारात्मक भावनाओं में विभाजित हो गए। | ||||
| +CV | छवि | इमेजनेट | सामान्य जानकारी | संपर्क | |
| विवरण | विभिन्न फ़ाइल स्वरूपों में 14 मिलियन से अधिक छवियों वाला डेटासेट, लगभग 21,000 सिनसेट्स पर मैप किया गया है। सिनसेट्स, पर्यायवाची शब्द होते हैं जिनमें संबंधित इकाइयाँ एक छवि के रूप में मौजूद होती हैं। 1 मिलियन छवियों में बाउंडिंग बॉक्स होते हैं और 1 मिलियन से अधिक छवियों में SIFT विशेषताएँ होती हैं। | ||||
| +CV | छवि | Google की खुली छवियां | सामान्य जानकारी | संपर्क | |
| विवरण | इमेजनेट जैसा एक डेटासेट जिसमें 600 श्रेणियां हैं। विकास, सत्यापन और प्रशिक्षण में उपलब्ध। कुछ छवियों में बाउंडिंग बॉक्स और दृश्य संबंध भी शामिल होते हैं। | ||||
| +एनएलपी | टेक्स्ट | कॉर्नेल मूवी संवाद | मनोरंजन | संवाद | संपर्क |
| विवरण | पात्रों और फिल्मों के मेटाडेटा के साथ काल्पनिक वार्तालापों का एक संग्रह। प्रत्येक पंक्ति प्रश्न-उत्तर प्रारूप में दो लोगों के बीच संवाद है। | ||||
| विवरण | अप्रैल 2007 और अक्टूबर 2007 के बीच याहू उत्तर पोर्टल से प्राप्त प्रश्नों और उत्तरों का एक प्रश्न-उत्तर डेटासेट। | ||||
| +एनएलपी | टेक्स्ट | एमएस मार्को | सामान्य जानकारी | प्रश्न उत्तर देना | संपर्क |
| विवरण | बिंग के वेब सर्च लॉग से एनोटेशन सहित एक प्रश्न-उत्तर डेटासेट। प्रत्येक प्रश्न में एक उपयोगकर्ता द्वारा दिया गया उत्तर और साथ ही उस उत्तर वाले वेब अंश शामिल होते हैं। | ||||
| +एनएलपी | टेक्स्ट | प्राकृतिक प्रश्न डेटासेट | सामान्य जानकारी | प्रश्न उत्तर देना | संपर्क |
| विवरण | गूगल द्वारा जारी इस डेटासेट में विकिपीडिया लेखों से वास्तविक उपयोगकर्ता प्रश्न और उत्तर शामिल हैं। | ||||
| +एनएलपी | टेक्स्ट | डीबीपीडिया | सामान्य जानकारी | ज्ञान ग्राफ | संपर्क |
| विवरण | विकिपीडिया का एक संरचित प्रतिपादन, जिसमें संस्थाओं और संबंधों को ज्ञान ग्राफ के रूप में निकाला गया है। | ||||
| +एनएलपी | टेक्स्ट | यागो | सामान्य जानकारी | ज्ञान ग्राफ | संपर्क |
| विवरण | विकिपीडिया, वर्डनेट और जियोनेम्स से संस्थाओं और संबंधों वाला एक ज्ञान ग्राफ। | ||||
| +एनएलपी | टेक्स्ट | फ्रीबेस | सामान्य जानकारी | ज्ञान ग्राफ | संपर्क |
| विवरण | संस्थाओं और संबंधों से युक्त एक भीड़-स्रोत ज्ञान आधार, अब गूगल ज्ञान ग्राफ में शामिल किया गया है। | ||||
| +एनएलपी | टेक्स्ट | ओन्टोनोट्स | सामान्य जानकारी | अर्थपूर्ण भूमिका लेबलिंग | संपर्क |
| विवरण | CoNLL साझा कार्यों में प्रयुक्त वाक्यविन्यास, अर्थगत और प्रवचन-स्तरीय एनोटेशन वाला एक कोष। | ||||
| विवरण | व्यक्ति, संगठन और स्थान जैसी नामित संस्थाओं के लिए एनोटेट किया गया अंग्रेजी डेटासेट। | ||||
| +CV | छवि | नारियल | सामान्य जानकारी | ऑब्जेक्ट डिटेक्शन | संपर्क |
| विवरण | संदर्भ में सामान्य वस्तुएं: वस्तु पहचान, विभाजन और कैप्शनिंग के लिए एक समृद्ध एनोटेटेड डेटासेट। | ||||
| +CV | छवि | पास्कल वीओसी | सामान्य जानकारी | ऑब्जेक्ट डिटेक्शन | संपर्क |
| विवरण | ऑब्जेक्ट डिटेक्शन और सेगमेंटेशन चुनौतियों के लिए एक बेंचमार्क डेटासेट। | ||||
| +CV | छवि | शहरों को | स्वायत्त ड्राइविंग | शब्दार्थ विभाजन | संपर्क |
| विवरण | 30 वर्गों के लिए पिक्सेल-स्तरीय एनोटेशन के साथ शहरी दृश्य समझ के लिए डेटासेट। | ||||
| +CV | छवि | Mnist | सामान्य जानकारी | अंक वर्गीकरण | संपर्क |
| विवरण | 28x28 पिक्सल के 60,000 प्रशिक्षण और 10,000 परीक्षण चित्रों के साथ हस्तलिखित अंक डेटासेट। | ||||
| +CV | छवि | फ़ैशन-MNIST | खुदरा | छवि वर्गीकरण | संपर्क |
| विवरण | ज़ालैंडो के लेख की छवियों का डेटासेट, MNIST के समान प्रारूप में, बेंचमार्किंग के लिए ड्रॉप-इन प्रतिस्थापन के रूप में उपयोग किया जाता है। | ||||
| +एनएलपी | ऑडियो | लिबरीस्पीच | सामान्य जानकारी | ASR | संपर्क |
| विवरण | ऑडियोबुक से प्राप्त अंग्रेजी भाषण का एक संग्रह, जिसमें 1000 घंटे का भाषण और संबंधित पाठ शामिल हैं। | ||||
| +एनएलपी | ऑडियो | टेड-लियम | सामान्य जानकारी | ASR | संपर्क |
| विवरण | वाक् पहचान अनुसंधान के लिए ऑडियो और संरेखित प्रतिलेखन के साथ TED वार्ता का प्रतिलेखन। | ||||
| +एनएलपी | ऑडियो | टिमित | सामान्य जानकारी | ध्वनि पहचान | संपर्क |
| विवरण | अमेरिकी अंग्रेजी बोलने वालों की ध्वन्यात्मक रूप से लिखित वाणी, जिसका व्यापक रूप से ध्वनि पहचान कार्यों के लिए उपयोग किया जाता है। | ||||
| +एनएलपी | ऑडियो | आम आवाज | सामान्य जानकारी | ASR | संपर्क |
| विवरण | विश्व भर के स्वयंसेवकों द्वारा योगदान किए गए पठन भाषण का एक बहुभाषी संग्रह। | ||||
| +एनएलपी | ऑडियो | वोक्ससेलेब | सामान्य जानकारी | स्पीकर की मान्यता | संपर्क |
| विवरण | यूट्यूब वीडियो से एकत्रित बड़े पैमाने पर स्पीकर पहचान डेटासेट। | ||||
| +एनएलपी | टेक्स्ट | विकिपीडिया डंप | सामान्य जानकारी | भाषा मॉडलिंग | संपर्क |
| विवरण | विकिपीडिया लेखों के पूर्ण पाठ डंप, नियमित रूप से अद्यतन किए जाते हैं, जिनका उपयोग भाषा मॉडलों के पूर्व प्रशिक्षण के लिए किया जाता है। | ||||
| +एनएलपी | टेक्स्ट | गीगावर्ड | समाचार | भाषा मॉडलिंग | संपर्क |
| विवरण | अनेक समाचार एजेंसियों से प्राप्त न्यूज़वायर पाठ्य डेटा का एक व्यापक संग्रह। | ||||
| +एनएलपी | टेक्स्ट | IMDB समीक्षा | मनोरंजन | भावनाओं का विश्लेषण | संपर्क |
| विवरण | बाइनरी भावना वर्गीकरण के लिए बड़ा मूवी समीक्षा डेटासेट। | ||||
| +CV | वीडियो | कैनेटीक्स-700 | सामान्य जानकारी | क्रिया पहचान | संपर्क |
| विवरण | 700 मानव क्रिया वर्गों को कवर करने वाले यूट्यूब वीडियो क्लिप का एक बड़े पैमाने पर, उच्च गुणवत्ता वाला डेटासेट। | ||||
| +CV | वीडियो | यूसीएफ101 | सामान्य जानकारी | क्रिया पहचान | संपर्क |
| विवरण | 101 एक्शन श्रेणियों के साथ यथार्थवादी एक्शन वीडियो का डेटासेट। | ||||
| +CV | वीडियो | एचएमडीबी51 | सामान्य जानकारी | क्रिया पहचान | संपर्क |
| विवरण | 51 क्रिया श्रेणियों वाला एक विशाल मानव गति वीडियो डेटाबेस। | ||||
| विवरण | चेहरे की तस्वीरों का एक डेटाबेस, जिसे अप्रतिबंधित चेहरा पहचान के अध्ययन के लिए डिज़ाइन किया गया है। | ||||
| +CV | छवि | CASIA-वेबफेस | सामान्य जानकारी | चेहरा पहचान | संपर्क |
| विवरण | गहन चेहरा पहचान मॉडलों के प्रशिक्षण के लिए लाखों चेहरे की छवियों वाला एक डेटासेट। | ||||
| +एनएलपी | टेक्स्ट | दस्ता | सामान्य जानकारी | समझबूझ कर पढ़ना | संपर्क |
| विवरण | स्टैनफोर्ड प्रश्न उत्तर डेटासेट: विकिपीडिया लेखों के एक सेट पर क्राउडवर्कर्स द्वारा पूछे गए प्रश्न। | ||||
| विवरण | सीएनएन समाचार लेखों पर आधारित प्रश्न और उत्तरों के साथ एक मशीन समझ डेटासेट। | ||||
| +एनएलपी | टेक्स्ट | मल्टीएनएलआई | सामान्य जानकारी | प्राकृतिक भाषा अनुमान | संपर्क |
| विवरण | विभिन्न शैलियों में वाक्य-युग्म प्राकृतिक भाषा अनुमान के लिए एक डेटासेट। | ||||
| +एनएलपी | टेक्स्ट | एसएनएलआई | सामान्य जानकारी | प्राकृतिक भाषा अनुमान | संपर्क |
| विवरण | स्टैनफोर्ड प्राकृतिक भाषा अनुमान कॉर्पस जिसमें वाक्य युग्मों को निहितार्थ, विरोधाभास, या तटस्थ के रूप में लेबल किया गया है। | ||||
| विवरण | विकिपीडिया पर सत्यापित अच्छे और विशेष लेखों के सेट से निकाले गए 100 मिलियन से अधिक टोकन का संग्रह। | ||||
| विवरण | 196 श्रेणियों की कारों की 16,185 छवियों का डेटासेट। | ||||
| +CV | छवि | ऑक्सफोर्ड फूल 102 | बॉटनी | सूक्ष्म-कणीय वर्गीकरण | संपर्क |
| विवरण | यूनाइटेड किंगडम में सामान्यतः 102 फूल श्रेणियां पाई जाती हैं। | ||||
| +CV | छवि | सीआईएफएआर-10 | सामान्य जानकारी | छवि वर्गीकरण | संपर्क |
| विवरण | 10 वर्गों की छवियाँ: हवाई जहाज, ऑटोमोबाइल, पक्षी, बिल्ली, हिरण, कुत्ता, मेंढक, घोड़ा, जहाज और ट्रक। | ||||
| +CV | छवि | सीआईएफएआर-100 | सामान्य जानकारी | छवि वर्गीकरण | संपर्क |
| विवरण | CIFAR-10 के समान एक डेटासेट, लेकिन 100 सूक्ष्म वर्गों के साथ। | ||||
| +CV | छवि | VOC व्यक्ति लेआउट | सामान्य जानकारी | अनुमान लगाएं | संपर्क |
| विवरण | PASCAL VOC का एक भाग जो व्यक्ति लेआउट एनोटेशन जैसे सिर, हाथ और पैर पर ध्यान केंद्रित करता है। | ||||
| +CV | छवि | एमपीआईआई मानव मुद्रा | सामान्य जानकारी | अनुमान लगाएं | संपर्क |
| विवरण | लगभग 25,000 चित्र जिनमें 40,000 से अधिक लोगों के शरीर के जोड़ों के चिह्न अंकित हैं। | ||||
| विवरण | पाठ वर्गीकरण अनुसंधान के लिए रॉयटर्स न्यूज़वायर लेखों का संग्रह। | ||||
| +एनएलपी | टेक्स्ट | 20 समाचार समूह | सामान्य जानकारी | पाठ वर्गीकरण | संपर्क |
| विवरण | 20,000 समाचार समूह दस्तावेजों का संग्रह 20 विभिन्न समाचार समूहों में विभाजित। | ||||