एमएल के लिए एनएलपी डेटासेट

आपको प्राकृतिक भाषा प्रसंस्करण मॉडल प्रशिक्षित करने के लिए 15 सर्वश्रेष्ठ एनएलपी डेटासेट

मशीन लर्निंग कवच में प्राकृतिक भाषा प्रसंस्करण एक महत्वपूर्ण हिस्सा है। हालांकि, मॉडल को अच्छी तरह से काम करने के लिए भारी मात्रा में डेटा और प्रशिक्षण की आवश्यकता होती है। एनएलपी के साथ महत्वपूर्ण मुद्दों में से एक प्रशिक्षण डेटासेट की कमी है जो डोमेन के भीतर रुचि के विशाल क्षेत्रों को कवर कर सकता है।

यदि आप इस विशाल क्षेत्र में शुरुआत कर रहे हैं, तो आपको अपने डेटासेट बनाने के लिए यह चुनौतीपूर्ण और व्यावहारिक रूप से बेमानी लग सकता है। खासकर जब गुणवत्ता हो एनएलपी आपके मशीन लर्निंग मॉडल को उनके उद्देश्य के आधार पर प्रशिक्षित करने के लिए उपलब्ध डेटासेट।

एनएलपी बाजार 11.7 और 2018 के दौरान 2026% की सीएजीआर से बढ़ने की उम्मीद है। 28.6 तक $ 2026 बिलियन. एनएलपी और मशीन लर्निंग की बढ़ती मांग के लिए धन्यवाद, अब यह संभव है कि आप गुणवत्तापूर्ण डेटासेट प्राप्त कर सकें, जो भावना विश्लेषण, समीक्षा, प्रश्न और उत्तर विश्लेषण और भाषण विश्लेषण डेटासेट को पूरा करता है।

मशीन लर्निंग के लिए एनएलपी डेटासेट जिस पर आप भरोसा कर सकते हैं

चूंकि अनगिनत डेटासेट - विभिन्न आवश्यकताओं पर ध्यान केंद्रित करते हुए - लगभग हर दिन जारी किए जा रहे हैं, गुणवत्ता, विश्वसनीय और सर्वोत्तम डेटासेट तक पहुंचना चुनौतीपूर्ण हो सकता है। यहां, हमने आपके लिए काम को आसान बना दिया है, क्योंकि हमने आपको उनके द्वारा प्रदान की जाने वाली श्रेणियों के आधार पर अलग-अलग क्यूरेटेड डेटासेट प्रस्तुत किए हैं।

सामान्य जानकारी

हेवलेट-पैकार्ड लैब्स में बनाए गए स्पैमबेस में उपयोगकर्ताओं द्वारा स्पैम ईमेल का संग्रह है, जिसका लक्ष्य व्यक्तिगत स्पैम फ़िल्टर विकसित करना है। इसमें ईमेल संदेशों के 4600 से अधिक अवलोकन हैं, जिनमें से 1820 के करीब स्पैम हैं।

एनरॉन डेटासेट में लोगों के मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए अज्ञात 'वास्तविक' ईमेल का एक विशाल संग्रह उपलब्ध है। इसमें 150 से अधिक उपयोगकर्ताओं के आधे मिलियन से अधिक ईमेल हैं, मुख्यतः एनरॉन के वरिष्ठ प्रबंधन। यह डेटासेट संरचित और असंरचित दोनों स्वरूपों में उपयोग के लिए उपलब्ध है। असंरचित डेटा को विकसित करने के लिए, आपको डेटा प्रोसेसिंग तकनीकों को लागू करना होगा।

रिकमेंडर्स सिस्टम डेटासेट विभिन्न डेटासेट्स का एक विशाल संग्रह है जिसमें विभिन्न विशेषताएं हैं, जैसे,

  • उत्पाद की समीक्षा
  • स्टार रेटिंग
  • फिटनेस ट्रैकिंग
  • गीत डेटा
  • सामाजिक नेटवर्क
  • मुहर
  • उपयोगकर्ता/आइटम इंटरैक्शन
  • जीपीएस डेटा

भावनाओं का विश्लेषण

  • फिल्मों और वित्त के लिए शब्दकोश (संपर्क)

भावनाओं का विश्लेषण
फिल्मों और वित्त डाटासेट के लिए शब्दकोश वित्त भरने और फिल्म समीक्षा में सकारात्मक या नकारात्मक ध्रुवीयता के लिए डोमेन-विशिष्ट शब्दकोश प्रदान करता है। ये शब्दकोश IMDb और US फॉर्म-8 भरावों से तैयार किए गए हैं।

सेंटीमेंट 140 में 160,000 अलग-अलग क्षेत्रों में वर्गीकृत विभिन्न इमोटिकॉन्स के साथ 6 से अधिक ट्वीट हैं: ट्वीट की तारीख, ध्रुवीयता, पाठ, उपयोगकर्ता नाम, आईडी और क्वेरी। यह डेटासेट आपके लिए किसी ब्रांड, उत्पाद, या यहाँ तक कि ट्विटर गतिविधि पर आधारित विषय की भावना का पता लगाना संभव बनाता है। चूंकि यह डेटासेट स्वचालित रूप से बनाया गया है, अन्य मानव-एनोटेटेड ट्वीट्स के विपरीत, यह सकारात्मक भावनाओं और नकारात्मक भावनाओं वाले ट्वीट्स को प्रतिकूल के रूप में वर्गीकृत करता है।

  • मल्टी-डोमेन सेंटीमेंट डेटासेट (संपर्क)

यह मल्टी-डोमेन सेंटिमेंट डेटासेट विभिन्न उत्पादों के लिए अमेज़ॅन समीक्षाओं का भंडार है। कुछ उत्पाद श्रेणियों, जैसे कि किताबें, की हजारों में समीक्षाएँ चल रही हैं, जबकि अन्य में केवल कुछ सौ समीक्षाएँ हैं। इसके अलावा, स्टार रेटिंग वाली समीक्षाओं को बाइनरी लेबल में बदला जा सकता है।

आइए आज आपकी एआई प्रशिक्षण डेटा आवश्यकता पर चर्चा करें।

टेक्स्ट

ओपन-डोमेन प्रश्न और उत्तर शोध में सहायता के लिए बनाया गया, विकी क्यूए कॉर्पस सार्वजनिक रूप से उपलब्ध सबसे व्यापक डेटासेट में से एक है। बिंग सर्च इंजन क्वेरी लॉग से संकलित, यह सवाल-जवाब जोड़े के साथ आता है। इसमें 3000 से अधिक प्रश्न और 1500 लेबल वाले उत्तर वाक्य हैं।

लीगल केस रिपोर्ट्स डेटासेट में 4000 कानूनी मामलों का संग्रह है और इसका उपयोग स्वचालित पाठ सारांश और उद्धरण विश्लेषण के लिए प्रशिक्षित करने के लिए किया जा सकता है। प्रत्येक दस्तावेज़, कैचफ्रेज़, उद्धरण वर्ग, उद्धरण कैचफ्रेज़, और बहुत कुछ का उपयोग किया जाता है।

खतरे का डेटासेट 200,000 से अधिक प्रश्नों का एक संग्रह है, जो रेडिट उपयोगकर्ता द्वारा एक साथ लाए गए लोकप्रिय क्विज़ टीवी शो में दिखाया गया है। प्रत्येक डेटा बिंदु को उसकी प्रसारित तिथि, एपिसोड संख्या, मूल्य, दौर और प्रश्न/उत्तर द्वारा वर्गीकृत किया जाता है।

ऑडियो भाषण

ऑडियो भाषण यह डेटासेट अंग्रेजी भाषा से परे जाने के इच्छुक सभी लोगों के लिए एकदम सही है। इस डेटासेट में डच और जर्मन और अंग्रेजी में बोले जाने वाले लेखों का संग्रह है। इसमें विविध प्रकार के विषय और स्पीकर सेट हैं जो सैकड़ों घंटों में चलते हैं।

2000 HUB5 अंग्रेजी डेटासेट में अंग्रेजी भाषा में 40 टेलीफोन वार्तालाप प्रतिलेख हैं। डेटा राष्ट्रीय मानक और प्रौद्योगिकी संस्थान द्वारा प्रदान किया जाता है, और इसका मुख्य ध्यान संवादात्मक भाषण को पहचानने और भाषण को पाठ में परिवर्तित करने पर है।

LibriSpeech डेटासेट लगभग 1000 घंटे के अंग्रेजी भाषण का एक संग्रह है जिसे ऑडियो पुस्तकों से अध्यायों में विषयों द्वारा ठीक से विभाजित किया गया है, जिससे यह प्राकृतिक भाषा प्रसंस्करण के लिए एक आदर्श उपकरण बन गया है।

समीक्षा

Yelp डेटासेट में 8.5 से अधिक व्यवसायों की लगभग 160,000 मिलियन समीक्षाओं, उनकी समीक्षाओं और उपयोगकर्ता डेटा का विशाल संग्रह है। भावनाओं के विश्लेषण पर अपने मॉडलों को प्रशिक्षित करने के लिए समीक्षाओं का उपयोग किया जा सकता है। इसके अलावा, इस डेटासेट में आठ महानगरीय स्थानों को शामिल करते हुए 200,000 से अधिक चित्र भी हैं।

आईएमडीबी समीक्षा सबसे लोकप्रिय डेटासेट में से एक है जिसमें 50 हजार से अधिक फिल्मों के लिए कास्ट जानकारी, रेटिंग, विवरण और शैली शामिल है। इस डेटासेट का उपयोग आपके मशीन लर्निंग मॉडल का परीक्षण और प्रशिक्षण करने के लिए किया जा सकता है।

  • अमेज़न समीक्षा और रेटिंग डेटासेट (संपर्क)

अमेज़ॅन समीक्षा और रेटिंग डेटासेट में 1996 से 2014 तक एकत्र किए गए अमेज़ॅन के विभिन्न उत्पादों की मेटाडेटा और समीक्षाओं का एक मूल्यवान संग्रह है - लगभग 142.8 मिलियन रिकॉर्ड। मेटाडेटा में मूल्य, उत्पाद विवरण, ब्रांड, श्रेणी और बहुत कुछ शामिल होता है, जबकि समीक्षाओं में पाठ की गुणवत्ता, पाठ की उपयोगिता, रेटिंग और बहुत कुछ होता है।

तो, आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कौन सा डेटासेट चुना है?

जैसे ही हम जाते हैं, हम आपको एक के साथ छोड़ देंगे प्रो टिप। 

अपनी आवश्यकताओं के लिए एनएलपी डेटासेट चुनने से पहले रीडमे फ़ाइल को अच्छी तरह से पढ़ना सुनिश्चित करें। डेटासेट में आपके लिए आवश्यक सभी आवश्यक जानकारी शामिल होगी, जैसे डेटासेट की सामग्री, विभिन्न पैरामीटर जिन पर डेटा को वर्गीकृत किया गया है, और डेटासेट के संभावित उपयोग के मामले।

आपके द्वारा बनाए गए मॉडल के बावजूद, हमारी मशीनों को हमारे जीवन के साथ अधिक निकटता और आंतरिक रूप से एकीकृत करने की एक रोमांचक संभावना है। एनएलपी के साथ, व्यापार, फिल्म, वाक् पहचान, वित्त, और बहुत कुछ की संभावनाएं कई गुना बढ़ जाती हैं। यदि आप ऐसे और डेटासेट की तलाश कर रहे हैं यहां क्लिक करें.

सामाजिक शेयर

आपको यह भी पसंद आ सकता हैं