मशीन लर्निंग कवच में प्राकृतिक भाषा प्रसंस्करण एक महत्वपूर्ण हिस्सा है। हालांकि, मॉडल को अच्छी तरह से काम करने के लिए भारी मात्रा में डेटा और प्रशिक्षण की आवश्यकता होती है। एनएलपी के साथ महत्वपूर्ण मुद्दों में से एक प्रशिक्षण डेटासेट की कमी है जो डोमेन के भीतर रुचि के विशाल क्षेत्रों को कवर कर सकता है।
यदि आप इस विशाल क्षेत्र में शुरुआत कर रहे हैं, तो आपको अपने डेटासेट बनाने के लिए यह चुनौतीपूर्ण और व्यावहारिक रूप से बेमानी लग सकता है। खासकर जब गुणवत्ता हो एनएलपी आपके मशीन लर्निंग मॉडल को उनके उद्देश्य के आधार पर प्रशिक्षित करने के लिए उपलब्ध डेटासेट।
एनएलपी बाजार 11.7 और 2018 के दौरान 2026% की सीएजीआर से बढ़ने की उम्मीद है। 28.6 तक $ 2026 बिलियन. एनएलपी और मशीन लर्निंग की बढ़ती मांग के लिए धन्यवाद, अब यह संभव है कि आप गुणवत्तापूर्ण डेटासेट प्राप्त कर सकें, जो भावना विश्लेषण, समीक्षा, प्रश्न और उत्तर विश्लेषण और भाषण विश्लेषण डेटासेट को पूरा करता है।
मशीन लर्निंग के लिए एनएलपी डेटासेट जिस पर आप भरोसा कर सकते हैं
चूंकि अनगिनत डेटासेट - विभिन्न आवश्यकताओं पर ध्यान केंद्रित करते हुए - लगभग हर दिन जारी किए जा रहे हैं, गुणवत्ता, विश्वसनीय और सर्वोत्तम डेटासेट तक पहुंचना चुनौतीपूर्ण हो सकता है। यहां, हमने आपके लिए काम को आसान बना दिया है, क्योंकि हमने आपको उनके द्वारा प्रदान की जाने वाली श्रेणियों के आधार पर अलग-अलग क्यूरेटेड डेटासेट प्रस्तुत किए हैं।
सामान्य जानकारी
यूसीआई का स्पैमबेस (संपर्क)
हेवलेट-पैकार्ड लैब्स में बनाए गए स्पैमबेस में उपयोगकर्ताओं द्वारा स्पैम ईमेल का संग्रह है, जिसका लक्ष्य व्यक्तिगत स्पैम फ़िल्टर विकसित करना है। इसमें ईमेल संदेशों के 4600 से अधिक अवलोकन हैं, जिनमें से 1820 के करीब स्पैम हैं।
एनरॉन डेटासेट (संपर्क)
एनरॉन डेटासेट में लोगों के मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए अज्ञात 'वास्तविक' ईमेल का एक विशाल संग्रह उपलब्ध है। इसमें 150 से अधिक उपयोगकर्ताओं के आधे मिलियन से अधिक ईमेल हैं, मुख्यतः एनरॉन के वरिष्ठ प्रबंधन। यह डेटासेट संरचित और असंरचित दोनों स्वरूपों में उपयोग के लिए उपलब्ध है। असंरचित डेटा को विकसित करने के लिए, आपको डेटा प्रोसेसिंग तकनीकों को लागू करना होगा।
सिफारिशकर्ता सिस्टम डेटासेट (संपर्क)
रिकमेंडर्स सिस्टम डेटासेट विभिन्न डेटासेट्स का एक विशाल संग्रह है जिसमें विभिन्न विशेषताएं हैं, जैसे,
- उत्पाद की समीक्षा
- स्टार रेटिंग
- फिटनेस ट्रैकिंग
- गीत डेटा
- सामाजिक नेटवर्क
- मुहर
- उपयोगकर्ता/आइटम इंटरैक्शन
- जीपीएस डेटा
भावनाओं का विश्लेषण
फिल्मों और वित्त के लिए शब्दकोश (संपर्क)
फिल्मों और वित्त डाटासेट के लिए शब्दकोश वित्त भरने और फिल्म समीक्षा में सकारात्मक या नकारात्मक ध्रुवीयता के लिए डोमेन-विशिष्ट शब्दकोश प्रदान करता है। ये शब्दकोश IMDb और US फॉर्म-8 भरावों से तैयार किए गए हैं।
भावना 140 (संपर्क)
सेंटीमेंट 140 में 160,000 अलग-अलग क्षेत्रों में वर्गीकृत विभिन्न इमोटिकॉन्स के साथ 6 से अधिक ट्वीट हैं: ट्वीट की तारीख, ध्रुवीयता, पाठ, उपयोगकर्ता नाम, आईडी और क्वेरी। यह डेटासेट आपके लिए किसी ब्रांड, उत्पाद, या यहाँ तक कि ट्विटर गतिविधि पर आधारित विषय की भावना का पता लगाना संभव बनाता है। चूंकि यह डेटासेट स्वचालित रूप से बनाया गया है, अन्य मानव-एनोटेटेड ट्वीट्स के विपरीत, यह सकारात्मक भावनाओं और नकारात्मक भावनाओं वाले ट्वीट्स को प्रतिकूल के रूप में वर्गीकृत करता है।
मल्टी-डोमेन सेंटीमेंट डेटासेट (संपर्क)
यह मल्टी-डोमेन सेंटिमेंट डेटासेट विभिन्न उत्पादों के लिए अमेज़ॅन समीक्षाओं का भंडार है। कुछ उत्पाद श्रेणियों, जैसे कि किताबें, की हजारों में समीक्षाएँ चल रही हैं, जबकि अन्य में केवल कुछ सौ समीक्षाएँ हैं। इसके अलावा, स्टार रेटिंग वाली समीक्षाओं को बाइनरी लेबल में बदला जा सकता है।
टेक्स्ट
विकी क्यूए कॉर्पस (संपर्क)
ओपन-डोमेन प्रश्न और उत्तर शोध में सहायता के लिए बनाया गया, विकी क्यूए कॉर्पस सार्वजनिक रूप से उपलब्ध सबसे व्यापक डेटासेट में से एक है। बिंग सर्च इंजन क्वेरी लॉग से संकलित, यह सवाल-जवाब जोड़े के साथ आता है। इसमें 3000 से अधिक प्रश्न और 1500 लेबल वाले उत्तर वाक्य हैं।
कानूनी मामला रिपोर्ट डेटासेट (संपर्क)
लीगल केस रिपोर्ट्स डेटासेट में 4000 कानूनी मामलों का संग्रह है और इसका उपयोग स्वचालित पाठ सारांश और उद्धरण विश्लेषण के लिए प्रशिक्षित करने के लिए किया जा सकता है। प्रत्येक दस्तावेज़, कैचफ्रेज़, उद्धरण वर्ग, उद्धरण कैचफ्रेज़, और बहुत कुछ का उपयोग किया जाता है।
ख़तरा (संपर्क)
खतरे का डेटासेट 200,000 से अधिक प्रश्नों का एक संग्रह है, जो रेडिट उपयोगकर्ता द्वारा एक साथ लाए गए लोकप्रिय क्विज़ टीवी शो में दिखाया गया है। प्रत्येक डेटा बिंदु को उसकी प्रसारित तिथि, एपिसोड संख्या, मूल्य, दौर और प्रश्न/उत्तर द्वारा वर्गीकृत किया जाता है।
ऑडियो भाषण
स्पोकन विकिपीडिया कॉर्पोरा (संपर्क)
यह डेटासेट अंग्रेजी भाषा से परे जाने के इच्छुक सभी लोगों के लिए एकदम सही है। इस डेटासेट में डच और जर्मन और अंग्रेजी में बोले जाने वाले लेखों का संग्रह है। इसमें विविध प्रकार के विषय और स्पीकर सेट हैं जो सैकड़ों घंटों में चलते हैं।
2000 हब5 अंग्रेजी (संपर्क)
2000 HUB5 अंग्रेजी डेटासेट में अंग्रेजी भाषा में 40 टेलीफोन वार्तालाप प्रतिलेख हैं। डेटा राष्ट्रीय मानक और प्रौद्योगिकी संस्थान द्वारा प्रदान किया जाता है, और इसका मुख्य ध्यान संवादात्मक भाषण को पहचानने और भाषण को पाठ में परिवर्तित करने पर है।
लिबरीस्पीच (संपर्क)
LibriSpeech डेटासेट लगभग 1000 घंटे के अंग्रेजी भाषण का एक संग्रह है जिसे ऑडियो पुस्तकों से अध्यायों में विषयों द्वारा ठीक से विभाजित किया गया है, जिससे यह प्राकृतिक भाषा प्रसंस्करण के लिए एक आदर्श उपकरण बन गया है।
समीक्षा
Yelp समीक्षाएं (संपर्क)
Yelp डेटासेट में 8.5 से अधिक व्यवसायों की लगभग 160,000 मिलियन समीक्षाओं, उनकी समीक्षाओं और उपयोगकर्ता डेटा का विशाल संग्रह है। भावनाओं के विश्लेषण पर अपने मॉडलों को प्रशिक्षित करने के लिए समीक्षाओं का उपयोग किया जा सकता है। इसके अलावा, इस डेटासेट में आठ महानगरीय स्थानों को शामिल करते हुए 200,000 से अधिक चित्र भी हैं।
IMDB समीक्षा (संपर्क)
आईएमडीबी समीक्षा सबसे लोकप्रिय डेटासेट में से एक है जिसमें 50 हजार से अधिक फिल्मों के लिए कास्ट जानकारी, रेटिंग, विवरण और शैली शामिल है। इस डेटासेट का उपयोग आपके मशीन लर्निंग मॉडल का परीक्षण और प्रशिक्षण करने के लिए किया जा सकता है।
अमेज़न समीक्षा और रेटिंग डेटासेट (संपर्क)
अमेज़ॅन समीक्षा और रेटिंग डेटासेट में 1996 से 2014 तक एकत्र किए गए अमेज़ॅन के विभिन्न उत्पादों की मेटाडेटा और समीक्षाओं का एक मूल्यवान संग्रह है - लगभग 142.8 मिलियन रिकॉर्ड। मेटाडेटा में मूल्य, उत्पाद विवरण, ब्रांड, श्रेणी और बहुत कुछ शामिल होता है, जबकि समीक्षाओं में पाठ की गुणवत्ता, पाठ की उपयोगिता, रेटिंग और बहुत कुछ होता है।
तो, आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कौन सा डेटासेट चुना है?
जैसे ही हम जाते हैं, हम आपको एक के साथ छोड़ देंगे प्रो टिप।
अपनी आवश्यकताओं के लिए एनएलपी डेटासेट चुनने से पहले रीडमे फ़ाइल को अच्छी तरह से पढ़ना सुनिश्चित करें। डेटासेट में आपके लिए आवश्यक सभी आवश्यक जानकारी शामिल होगी, जैसे डेटासेट की सामग्री, विभिन्न पैरामीटर जिन पर डेटा को वर्गीकृत किया गया है, और डेटासेट के संभावित उपयोग के मामले।
आपके द्वारा बनाए गए मॉडल के बावजूद, हमारी मशीनों को हमारे जीवन के साथ अधिक निकटता और आंतरिक रूप से एकीकृत करने की एक रोमांचक संभावना है। एनएलपी के साथ, व्यापार, फिल्म, वाक् पहचान, वित्त, और बहुत कुछ की संभावनाएं कई गुना बढ़ जाती हैं। यदि आप ऐसे और डेटासेट की तलाश कर रहे हैं यहां क्लिक करें.