एमएल के लिए एनएलपी डेटासेट

आपके मशीन लर्निंग मॉडल को सुपरचार्ज करने के लिए शीर्ष एनएलपी डेटासेट

एनएलपी क्या है?

एनएलपी (नेचुरल लैंग्वेज प्रोसेसिंग) कंप्यूटर को मानव भाषा समझने में मदद करता है। यह कंप्यूटर को मनुष्यों की तरह टेक्स्ट और भाषण को पढ़ना, समझना और उस पर प्रतिक्रिया करना सिखाने जैसा है।

एनएलपी क्या कर सकता है?

  • अव्यवस्थित टेक्स्ट को व्यवस्थित डेटा में बदलें
  • समझें कि टिप्पणियाँ सकारात्मक हैं या नकारात्मक
  • भाषाओं के बीच अनुवाद करें
  • लंबे पाठों का सारांश बनाएँ
  • और भी बहुत कुछ!
  • एनएलपी के साथ शुरुआत करना:

अच्छे NLP सिस्टम बनाने के लिए, आपको उन्हें प्रशिक्षित करने के लिए बहुत सारे उदाहरणों की आवश्यकता होती है - ठीक वैसे ही जैसे मनुष्य अधिक अभ्यास के साथ बेहतर सीखते हैं। अच्छी खबर यह है कि ऐसे कई मुफ़्त संसाधन हैं जहाँ आप ये उदाहरण पा सकते हैं: गले लगना, Kaggle और GitHub

एनएलपी बाजार का आकार और विकास:

2023 तक, नेचुरल लैंग्वेज प्रोसेसिंग (NLP) बाजार का मूल्य लगभग 26 बिलियन डॉलर था। 30 से 2023 तक लगभग 2030% की चक्रवृद्धि वार्षिक वृद्धि दर (CAGR) के साथ इसमें उल्लेखनीय वृद्धि होने की उम्मीद है। यह वृद्धि स्वास्थ्य सेवा, वित्त और ग्राहक सेवा जैसे उद्योगों में NLP अनुप्रयोगों की बढ़ती मांग से प्रेरित है।

एक अच्छा एनएलपी डेटासेट कैसे चुनें, निम्नलिखित कारकों पर विचार करें:

  • प्रासंगिकता: सुनिश्चित करें कि डेटासेट आपके विशिष्ट कार्य या डोमेन के अनुरूप है।
  • आकारबड़े डेटासेट आमतौर पर मॉडल के प्रदर्शन को बेहतर बनाते हैं, लेकिन आकार और गुणवत्ता में संतुलन बनाए रखते हैं।
  • विविधतामॉडल की मजबूती बढ़ाने के लिए विभिन्न भाषा शैलियों और संदर्भों वाले डेटासेट की तलाश करें।
  • गुणवत्तात्रुटियों से बचने के लिए अच्छी तरह से लेबल किए गए और सटीक डेटा की जांच करें।
  • अभिगम्यता: सुनिश्चित करें कि डेटासेट उपयोग के लिए उपलब्ध है और किसी भी लाइसेंसिंग प्रतिबंध पर विचार करें।
  • preprocessing: निर्धारित करें कि क्या डेटासेट को महत्वपूर्ण सफाई या प्रीप्रोसेसिंग की आवश्यकता है।
  • समुदाय का समर्थनलोकप्रिय डेटासेट में अक्सर अधिक संसाधन और सामुदायिक समर्थन होता है, जो मददगार हो सकता है।

इन कारकों का मूल्यांकन करके, आप एक डेटासेट चुन सकते हैं जो आपकी परियोजना की ज़रूरतों के लिए सबसे उपयुक्त हो

एनएलपी के लिए शीर्ष 33 अवश्य देखे जाने वाले खुले डेटासेट

सामान्य जानकारी

  • यूसीआई का स्पैमबेस (संपर्क)

    हेवलेट-पैकार्ड लैब्स में बनाए गए स्पैमबेस में उपयोगकर्ताओं द्वारा स्पैम ईमेल का संग्रह है, जिसका लक्ष्य व्यक्तिगत स्पैम फ़िल्टर विकसित करना है। इसमें ईमेल संदेशों के 4600 से अधिक अवलोकन हैं, जिनमें से 1820 के करीब स्पैम हैं।

  • एनरॉन डेटासेट (संपर्क)

    एनरॉन डेटासेट में लोगों के मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए अज्ञात 'वास्तविक' ईमेल का एक विशाल संग्रह उपलब्ध है। इसमें 150 से अधिक उपयोगकर्ताओं के आधे मिलियन से अधिक ईमेल हैं, मुख्यतः एनरॉन के वरिष्ठ प्रबंधन। यह डेटासेट संरचित और असंरचित दोनों स्वरूपों में उपयोग के लिए उपलब्ध है। असंरचित डेटा को विकसित करने के लिए, आपको डेटा प्रोसेसिंग तकनीकों को लागू करना होगा।

  • सिफारिशकर्ता सिस्टम डेटासेट (संपर्क)

    रिकमेंडर्स सिस्टम डेटासेट विभिन्न डेटासेट्स का एक विशाल संग्रह है जिसमें विभिन्न विशेषताएं हैं, जैसे,

    • उत्पाद की समीक्षा
    • स्टार रेटिंग
    • फिटनेस ट्रैकिंग
    • गीत डेटा
    • सामाजिक नेटवर्क
    • मुहर
    • उपयोगकर्ता/आइटम इंटरैक्शन
    • जीपीएस डेटा
  • पेन ट्रीबैंक (संपर्क)

    वॉल स्ट्रीट जर्नल का यह कोष अनुक्रम लेबलिंग मॉडलों के परीक्षण के लिए लोकप्रिय है।

  • एनएलटीके (संपर्क)

    यह पायथन लाइब्रेरी NLP के लिए 100 से ज़्यादा कॉर्पोरा और लेक्सिकल संसाधनों तक पहुँच प्रदान करती है। इसमें NLTK पुस्तक भी शामिल है, जो लाइब्रेरी का उपयोग करने के लिए एक प्रशिक्षण पाठ्यक्रम है।

  • सार्वभौमिक निर्भरता (संपर्क)

    यूडी व्याकरण की व्याख्या करने का एक सुसंगत तरीका प्रदान करता है, जिसमें 100 से अधिक भाषाओं में संसाधन, 200 ट्रीबैंक और 300 से अधिक समुदाय के सदस्यों का समर्थन शामिल है।

भावनाओं का विश्लेषण

  • फिल्मों और वित्त के लिए शब्दकोश (संपर्क)

    भावनाओं का विश्लेषण
    फिल्मों और वित्त डाटासेट के लिए शब्दकोश वित्त भरने और फिल्म समीक्षा में सकारात्मक या नकारात्मक ध्रुवीयता के लिए डोमेन-विशिष्ट शब्दकोश प्रदान करता है। ये शब्दकोश IMDb और US फॉर्म-8 भरावों से तैयार किए गए हैं।

  • भावना 140 (संपर्क)

    सेंटीमेंट 140 में 160,000 अलग-अलग क्षेत्रों में वर्गीकृत विभिन्न इमोटिकॉन्स के साथ 6 से अधिक ट्वीट हैं: ट्वीट की तारीख, ध्रुवीयता, पाठ, उपयोगकर्ता नाम, आईडी और क्वेरी। यह डेटासेट आपके लिए किसी ब्रांड, उत्पाद, या यहाँ तक कि ट्विटर गतिविधि पर आधारित विषय की भावना का पता लगाना संभव बनाता है। चूंकि यह डेटासेट स्वचालित रूप से बनाया गया है, अन्य मानव-एनोटेटेड ट्वीट्स के विपरीत, यह सकारात्मक भावनाओं और नकारात्मक भावनाओं वाले ट्वीट्स को प्रतिकूल के रूप में वर्गीकृत करता है।

  • मल्टी-डोमेन सेंटीमेंट डेटासेट (संपर्क)

    यह मल्टी-डोमेन सेंटिमेंट डेटासेट विभिन्न उत्पादों के लिए अमेज़ॅन समीक्षाओं का भंडार है। कुछ उत्पाद श्रेणियों, जैसे कि किताबें, की हजारों में समीक्षाएँ चल रही हैं, जबकि अन्य में केवल कुछ सौ समीक्षाएँ हैं। इसके अलावा, स्टार रेटिंग वाली समीक्षाओं को बाइनरी लेबल में बदला जा सकता है।

  • स्टैनफोर्ड सेंटीमेंट ट्रीबैंक (संपर्क)

    रॉटेन टोमाटोज़ के इस एनएलपी डेटासेट में लंबे वाक्यांश और अधिक विस्तृत पाठ उदाहरण शामिल हैं।

  • ब्लॉग लेखकत्व संग्रह (संपर्क)

    इस संग्रह में लगभग 1.4 मिलियन शब्दों वाले ब्लॉग पोस्ट हैं, प्रत्येक ब्लॉग एक अलग डेटासेट है।

  • ओपिनरैंक डेटासेट (संपर्क)

    एडमंड्स और ट्रिपएडवाइजर की 300,000 समीक्षाएं, कार मॉडल या यात्रा गंतव्य और होटल के आधार पर व्यवस्थित।

टेक्स्ट

  • विकी क्यूए कॉर्पस (संपर्क)

    ओपन-डोमेन प्रश्न और उत्तर शोध में सहायता के लिए बनाया गया, विकी क्यूए कॉर्पस सार्वजनिक रूप से उपलब्ध सबसे व्यापक डेटासेट में से एक है। बिंग सर्च इंजन क्वेरी लॉग से संकलित, यह सवाल-जवाब जोड़े के साथ आता है। इसमें 3000 से अधिक प्रश्न और 1500 लेबल वाले उत्तर वाक्य हैं।

  • कानूनी मामला रिपोर्ट डेटासेट (संपर्क)

    लीगल केस रिपोर्ट्स डेटासेट में 4000 कानूनी मामलों का संग्रह है और इसका उपयोग स्वचालित पाठ सारांश और उद्धरण विश्लेषण के लिए प्रशिक्षित करने के लिए किया जा सकता है। प्रत्येक दस्तावेज़, कैचफ्रेज़, उद्धरण वर्ग, उद्धरण कैचफ्रेज़, और बहुत कुछ का उपयोग किया जाता है।

  • ख़तरा (संपर्क)

    खतरे का डेटासेट 200,000 से अधिक प्रश्नों का एक संग्रह है, जो रेडिट उपयोगकर्ता द्वारा एक साथ लाए गए लोकप्रिय क्विज़ टीवी शो में दिखाया गया है। प्रत्येक डेटा बिंदु को उसकी प्रसारित तिथि, एपिसोड संख्या, मूल्य, दौर और प्रश्न/उत्तर द्वारा वर्गीकृत किया जाता है।

  • 20 समाचार समूह (संपर्क)

    20,000 दस्तावेजों का संग्रह 20 समाचार समूहों और विषयों को शामिल करता है, जिसमें धर्म से लेकर लोकप्रिय खेलों तक के विषयों का विवरण दिया गया है।

  • रॉयटर्स समाचार डेटासेट (संपर्क)

    1987 में पहली बार सामने आए इस डेटासेट को मशीन लर्निंग उद्देश्यों के लिए लेबल, अनुक्रमित और संकलित किया गया है।

  • arXiv (संपर्क)

    इस विशाल 270 जीबी डेटासेट में सभी arXiv शोध पत्रों का संपूर्ण पाठ शामिल है।

  • यूरोपीय संसद की कार्यवाही समानांतर कॉर्पस (संपर्क)

    संसद की कार्यवाही के वाक्य युग्मों में 21 यूरोपीय भाषाओं की प्रविष्टियाँ शामिल हैं, जिनमें मशीन लर्निंग कॉर्पोरा के लिए कुछ कम सामान्य भाषाएँ भी शामिल हैं।

  • बिलियन वर्ड बेंचमार्क (संपर्क)

    WMT 2011 न्यूज क्रॉल से प्राप्त इस भाषा मॉडलिंग डेटासेट में नवीन भाषा मॉडलिंग तकनीकों के परीक्षण के लिए लगभग एक अरब शब्द शामिल हैं।

ऑडियो भाषण

  • स्पोकन विकिपीडिया कॉर्पोरा (संपर्क)

    ऑडियो भाषण यह डेटासेट अंग्रेजी भाषा से परे जाने के इच्छुक सभी लोगों के लिए एकदम सही है। इस डेटासेट में डच और जर्मन और अंग्रेजी में बोले जाने वाले लेखों का संग्रह है। इसमें विविध प्रकार के विषय और स्पीकर सेट हैं जो सैकड़ों घंटों में चलते हैं।

  • 2000 हब5 अंग्रेजी (संपर्क)

    2000 HUB5 अंग्रेजी डेटासेट में अंग्रेजी भाषा में 40 टेलीफोन वार्तालाप प्रतिलेख हैं। डेटा राष्ट्रीय मानक और प्रौद्योगिकी संस्थान द्वारा प्रदान किया जाता है, और इसका मुख्य ध्यान संवादात्मक भाषण को पहचानने और भाषण को पाठ में परिवर्तित करने पर है।

  • लिबरीस्पीच (संपर्क)

    LibriSpeech डेटासेट लगभग 1000 घंटे के अंग्रेजी भाषण का एक संग्रह है जिसे ऑडियो पुस्तकों से अध्यायों में विषयों द्वारा ठीक से विभाजित किया गया है, जिससे यह प्राकृतिक भाषा प्रसंस्करण के लिए एक आदर्श उपकरण बन गया है।

  • मुफ़्त स्पोकन डिजिट डेटासेट (संपर्क)

    इस एनएलपी डेटासेट में अंग्रेजी में बोले गए अंकों की 1,500 से अधिक रिकॉर्डिंग शामिल हैं।

  • एम-एआई लैब्स स्पीच डेटासेट (संपर्क)

    यह डेटासेट लगभग 1,000 घंटों का ऑडियो ट्रांस्क्रिप्शन के साथ उपलब्ध कराता है, जिसमें कई भाषाएं शामिल हैं और इसे पुरुष, महिला और मिश्रित आवाजों के आधार पर वर्गीकृत किया गया है।

  • शोरगुल से भरा भाषण डेटाबेस (संपर्क)

    इस डाटासेट में समानांतर शोर और स्वच्छ भाषण रिकॉर्डिंग शामिल हैं, जिसका उद्देश्य भाषण संवर्धन सॉफ्टवेयर विकास के लिए है, लेकिन चुनौतीपूर्ण परिस्थितियों में भाषण पर प्रशिक्षण के लिए भी फायदेमंद है।

समीक्षाएँ

  • Yelp समीक्षाएं (संपर्क)

    Yelp डेटासेट में 8.5 से अधिक व्यवसायों की लगभग 160,000 मिलियन समीक्षाओं, उनकी समीक्षाओं और उपयोगकर्ता डेटा का विशाल संग्रह है। भावनाओं के विश्लेषण पर अपने मॉडलों को प्रशिक्षित करने के लिए समीक्षाओं का उपयोग किया जा सकता है। इसके अलावा, इस डेटासेट में आठ महानगरीय स्थानों को शामिल करते हुए 200,000 से अधिक चित्र भी हैं।

  • IMDB समीक्षा (संपर्क)

    आईएमडीबी समीक्षा सबसे लोकप्रिय डेटासेट में से एक है जिसमें 50 हजार से अधिक फिल्मों के लिए कास्ट जानकारी, रेटिंग, विवरण और शैली शामिल है। इस डेटासेट का उपयोग आपके मशीन लर्निंग मॉडल का परीक्षण और प्रशिक्षण करने के लिए किया जा सकता है।

  • अमेज़न समीक्षा और रेटिंग डेटासेट (संपर्क)

    अमेज़ॅन समीक्षा और रेटिंग डेटासेट में 1996 से 2014 तक एकत्र किए गए अमेज़ॅन के विभिन्न उत्पादों की मेटाडेटा और समीक्षाओं का एक मूल्यवान संग्रह है - लगभग 142.8 मिलियन रिकॉर्ड। मेटाडेटा में मूल्य, उत्पाद विवरण, ब्रांड, श्रेणी और बहुत कुछ शामिल होता है, जबकि समीक्षाओं में पाठ की गुणवत्ता, पाठ की उपयोगिता, रेटिंग और बहुत कुछ होता है।

प्रश्न और उत्तर

  • स्टैनफोर्ड प्रश्न और उत्तर डेटासेट (SQuAD) (संपर्क)

    इस पठन बोध डेटासेट में 100,000 उत्तर योग्य प्रश्न और 50,000 अनुत्तरित प्रश्न हैं, जो सभी विकिपीडिया क्राउड वर्कर्स द्वारा बनाए गए हैं।

  • प्राकृतिक प्रश्न (संपर्क)

    इस प्रशिक्षण सेट में 300,000 से अधिक प्रशिक्षण उदाहरण, 7,800 विकास उदाहरण और 7,800 परीक्षण उदाहरण हैं, जिनमें से प्रत्येक में एक गूगल क्वेरी और एक मिलान वाला विकिपीडिया पृष्ठ है।

  • सामान्य ज्ञान (संपर्क)

    इस चुनौतीपूर्ण प्रश्न सेट में 950,000 QA जोड़े हैं, जिनमें मानव-सत्यापित और मशीन-जनित दोनों उपसमूह शामिल हैं।

  • CLEVR (रचनात्मक भाषा और प्राथमिक दृश्य तर्क) (संपर्क)

    इस दृश्य प्रश्न उत्तर डेटासेट में 3D रेंडर की गई वस्तुएं और दृश्य दृश्य के बारे में विवरण के साथ हजारों प्रश्न शामिल हैं।

तो, आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कौन सा डेटासेट चुना है?

जैसे ही हम जाते हैं, हम आपको एक के साथ छोड़ देंगे प्रो टिप।

अपनी आवश्यकताओं के लिए एनएलपी डेटासेट चुनने से पहले रीडमे फ़ाइल को अच्छी तरह से पढ़ना सुनिश्चित करें। डेटासेट में आपके लिए आवश्यक सभी आवश्यक जानकारी शामिल होगी, जैसे डेटासेट की सामग्री, विभिन्न पैरामीटर जिन पर डेटा को वर्गीकृत किया गया है, और डेटासेट के संभावित उपयोग के मामले।

आप चाहे जो भी मॉडल बनाएं, हमारी मशीनों को हमारे जीवन के साथ और अधिक निकटता से और आंतरिक रूप से एकीकृत करने की एक रोमांचक संभावना है। एनएलपी के साथ, व्यवसाय, फ़िल्म, भाषण पहचान, वित्त और बहुत कुछ के लिए संभावनाएँ कई गुना बढ़ जाती हैं।

सामाजिक शेयर