एनएलपी क्या है?
एनएलपी (नेचुरल लैंग्वेज प्रोसेसिंग) कंप्यूटर को मानव भाषा समझने में मदद करता है। यह कंप्यूटर को मनुष्यों की तरह टेक्स्ट और भाषण को पढ़ना, समझना और उस पर प्रतिक्रिया करना सिखाने जैसा है।
एनएलपी क्या कर सकता है?
- अव्यवस्थित टेक्स्ट को व्यवस्थित डेटा में बदलें
- समझें कि टिप्पणियाँ सकारात्मक हैं या नकारात्मक
- भाषाओं के बीच अनुवाद करें
- लंबे पाठों का सारांश बनाएँ
- और भी बहुत कुछ!
- एनएलपी के साथ शुरुआत करना:
अच्छे NLP सिस्टम बनाने के लिए, आपको उन्हें प्रशिक्षित करने के लिए बहुत सारे उदाहरणों की आवश्यकता होती है - ठीक वैसे ही जैसे मनुष्य अधिक अभ्यास के साथ बेहतर सीखते हैं। अच्छी खबर यह है कि ऐसे कई मुफ़्त संसाधन हैं जहाँ आप ये उदाहरण पा सकते हैं: गले लगना, Kaggle और GitHub
एनएलपी बाजार का आकार और विकास:
2023 तक, नेचुरल लैंग्वेज प्रोसेसिंग (NLP) बाजार का मूल्य लगभग 26 बिलियन डॉलर था। 30 से 2023 तक लगभग 2030% की चक्रवृद्धि वार्षिक वृद्धि दर (CAGR) के साथ इसमें उल्लेखनीय वृद्धि होने की उम्मीद है। यह वृद्धि स्वास्थ्य सेवा, वित्त और ग्राहक सेवा जैसे उद्योगों में NLP अनुप्रयोगों की बढ़ती मांग से प्रेरित है।
एक अच्छा एनएलपी डेटासेट कैसे चुनें, निम्नलिखित कारकों पर विचार करें:
- प्रासंगिकता: सुनिश्चित करें कि डेटासेट आपके विशिष्ट कार्य या डोमेन के अनुरूप है।
- आकारबड़े डेटासेट आमतौर पर मॉडल के प्रदर्शन को बेहतर बनाते हैं, लेकिन आकार और गुणवत्ता में संतुलन बनाए रखते हैं।
- विविधतामॉडल की मजबूती बढ़ाने के लिए विभिन्न भाषा शैलियों और संदर्भों वाले डेटासेट की तलाश करें।
- गुणवत्तात्रुटियों से बचने के लिए अच्छी तरह से लेबल किए गए और सटीक डेटा की जांच करें।
- अभिगम्यता: सुनिश्चित करें कि डेटासेट उपयोग के लिए उपलब्ध है और किसी भी लाइसेंसिंग प्रतिबंध पर विचार करें।
- preprocessing: निर्धारित करें कि क्या डेटासेट को महत्वपूर्ण सफाई या प्रीप्रोसेसिंग की आवश्यकता है।
- समुदाय का समर्थनलोकप्रिय डेटासेट में अक्सर अधिक संसाधन और सामुदायिक समर्थन होता है, जो मददगार हो सकता है।
इन कारकों का मूल्यांकन करके, आप एक डेटासेट चुन सकते हैं जो आपकी परियोजना की ज़रूरतों के लिए सबसे उपयुक्त हो
एनएलपी के लिए शीर्ष 33 अवश्य देखे जाने वाले खुले डेटासेट
सामान्य जानकारी
यूसीआई का स्पैमबेस (संपर्क)
हेवलेट-पैकार्ड लैब्स में बनाए गए स्पैमबेस में उपयोगकर्ताओं द्वारा स्पैम ईमेल का संग्रह है, जिसका लक्ष्य व्यक्तिगत स्पैम फ़िल्टर विकसित करना है। इसमें ईमेल संदेशों के 4600 से अधिक अवलोकन हैं, जिनमें से 1820 के करीब स्पैम हैं।
एनरॉन डेटासेट (संपर्क)
एनरॉन डेटासेट में लोगों के मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए अज्ञात 'वास्तविक' ईमेल का एक विशाल संग्रह उपलब्ध है। इसमें 150 से अधिक उपयोगकर्ताओं के आधे मिलियन से अधिक ईमेल हैं, मुख्यतः एनरॉन के वरिष्ठ प्रबंधन। यह डेटासेट संरचित और असंरचित दोनों स्वरूपों में उपयोग के लिए उपलब्ध है। असंरचित डेटा को विकसित करने के लिए, आपको डेटा प्रोसेसिंग तकनीकों को लागू करना होगा।
सिफारिशकर्ता सिस्टम डेटासेट (संपर्क)
रिकमेंडर्स सिस्टम डेटासेट विभिन्न डेटासेट्स का एक विशाल संग्रह है जिसमें विभिन्न विशेषताएं हैं, जैसे,
- उत्पाद की समीक्षा
- स्टार रेटिंग
- फिटनेस ट्रैकिंग
- गीत डेटा
- सामाजिक नेटवर्क
- मुहर
- उपयोगकर्ता/आइटम इंटरैक्शन
- जीपीएस डेटा
पेन ट्रीबैंक (संपर्क)
वॉल स्ट्रीट जर्नल का यह कोष अनुक्रम लेबलिंग मॉडलों के परीक्षण के लिए लोकप्रिय है।
एनएलटीके (संपर्क)
यह पायथन लाइब्रेरी NLP के लिए 100 से ज़्यादा कॉर्पोरा और लेक्सिकल संसाधनों तक पहुँच प्रदान करती है। इसमें NLTK पुस्तक भी शामिल है, जो लाइब्रेरी का उपयोग करने के लिए एक प्रशिक्षण पाठ्यक्रम है।
सार्वभौमिक निर्भरता (संपर्क)
यूडी व्याकरण की व्याख्या करने का एक सुसंगत तरीका प्रदान करता है, जिसमें 100 से अधिक भाषाओं में संसाधन, 200 ट्रीबैंक और 300 से अधिक समुदाय के सदस्यों का समर्थन शामिल है।
भावनाओं का विश्लेषण
फिल्मों और वित्त के लिए शब्दकोश (संपर्क)
फिल्मों और वित्त डाटासेट के लिए शब्दकोश वित्त भरने और फिल्म समीक्षा में सकारात्मक या नकारात्मक ध्रुवीयता के लिए डोमेन-विशिष्ट शब्दकोश प्रदान करता है। ये शब्दकोश IMDb और US फॉर्म-8 भरावों से तैयार किए गए हैं।भावना 140 (संपर्क)
सेंटीमेंट 140 में 160,000 अलग-अलग क्षेत्रों में वर्गीकृत विभिन्न इमोटिकॉन्स के साथ 6 से अधिक ट्वीट हैं: ट्वीट की तारीख, ध्रुवीयता, पाठ, उपयोगकर्ता नाम, आईडी और क्वेरी। यह डेटासेट आपके लिए किसी ब्रांड, उत्पाद, या यहाँ तक कि ट्विटर गतिविधि पर आधारित विषय की भावना का पता लगाना संभव बनाता है। चूंकि यह डेटासेट स्वचालित रूप से बनाया गया है, अन्य मानव-एनोटेटेड ट्वीट्स के विपरीत, यह सकारात्मक भावनाओं और नकारात्मक भावनाओं वाले ट्वीट्स को प्रतिकूल के रूप में वर्गीकृत करता है।
मल्टी-डोमेन सेंटीमेंट डेटासेट (संपर्क)
यह मल्टी-डोमेन सेंटिमेंट डेटासेट विभिन्न उत्पादों के लिए अमेज़ॅन समीक्षाओं का भंडार है। कुछ उत्पाद श्रेणियों, जैसे कि किताबें, की हजारों में समीक्षाएँ चल रही हैं, जबकि अन्य में केवल कुछ सौ समीक्षाएँ हैं। इसके अलावा, स्टार रेटिंग वाली समीक्षाओं को बाइनरी लेबल में बदला जा सकता है।
स्टैनफोर्ड सेंटीमेंट ट्रीबैंक (संपर्क)
रॉटेन टोमाटोज़ के इस एनएलपी डेटासेट में लंबे वाक्यांश और अधिक विस्तृत पाठ उदाहरण शामिल हैं।
ब्लॉग लेखकत्व संग्रह (संपर्क)
इस संग्रह में लगभग 1.4 मिलियन शब्दों वाले ब्लॉग पोस्ट हैं, प्रत्येक ब्लॉग एक अलग डेटासेट है।
ओपिनरैंक डेटासेट (संपर्क)
एडमंड्स और ट्रिपएडवाइजर की 300,000 समीक्षाएं, कार मॉडल या यात्रा गंतव्य और होटल के आधार पर व्यवस्थित।
टेक्स्ट
-
विकी क्यूए कॉर्पस (संपर्क)
ओपन-डोमेन प्रश्न और उत्तर शोध में सहायता के लिए बनाया गया, विकी क्यूए कॉर्पस सार्वजनिक रूप से उपलब्ध सबसे व्यापक डेटासेट में से एक है। बिंग सर्च इंजन क्वेरी लॉग से संकलित, यह सवाल-जवाब जोड़े के साथ आता है। इसमें 3000 से अधिक प्रश्न और 1500 लेबल वाले उत्तर वाक्य हैं।
-
कानूनी मामला रिपोर्ट डेटासेट (संपर्क)
लीगल केस रिपोर्ट्स डेटासेट में 4000 कानूनी मामलों का संग्रह है और इसका उपयोग स्वचालित पाठ सारांश और उद्धरण विश्लेषण के लिए प्रशिक्षित करने के लिए किया जा सकता है। प्रत्येक दस्तावेज़, कैचफ्रेज़, उद्धरण वर्ग, उद्धरण कैचफ्रेज़, और बहुत कुछ का उपयोग किया जाता है।
-
ख़तरा (संपर्क)
खतरे का डेटासेट 200,000 से अधिक प्रश्नों का एक संग्रह है, जो रेडिट उपयोगकर्ता द्वारा एक साथ लाए गए लोकप्रिय क्विज़ टीवी शो में दिखाया गया है। प्रत्येक डेटा बिंदु को उसकी प्रसारित तिथि, एपिसोड संख्या, मूल्य, दौर और प्रश्न/उत्तर द्वारा वर्गीकृत किया जाता है।
-
20 समाचार समूह (संपर्क)
20,000 दस्तावेजों का संग्रह 20 समाचार समूहों और विषयों को शामिल करता है, जिसमें धर्म से लेकर लोकप्रिय खेलों तक के विषयों का विवरण दिया गया है।
-
रॉयटर्स समाचार डेटासेट (संपर्क)
1987 में पहली बार सामने आए इस डेटासेट को मशीन लर्निंग उद्देश्यों के लिए लेबल, अनुक्रमित और संकलित किया गया है।
-
arXiv (संपर्क)
इस विशाल 270 जीबी डेटासेट में सभी arXiv शोध पत्रों का संपूर्ण पाठ शामिल है।
-
यूरोपीय संसद की कार्यवाही समानांतर कॉर्पस (संपर्क)
संसद की कार्यवाही के वाक्य युग्मों में 21 यूरोपीय भाषाओं की प्रविष्टियाँ शामिल हैं, जिनमें मशीन लर्निंग कॉर्पोरा के लिए कुछ कम सामान्य भाषाएँ भी शामिल हैं।
-
बिलियन वर्ड बेंचमार्क (संपर्क)
WMT 2011 न्यूज क्रॉल से प्राप्त इस भाषा मॉडलिंग डेटासेट में नवीन भाषा मॉडलिंग तकनीकों के परीक्षण के लिए लगभग एक अरब शब्द शामिल हैं।
ऑडियो भाषण
-
स्पोकन विकिपीडिया कॉर्पोरा (संपर्क)
-
2000 हब5 अंग्रेजी (संपर्क)
2000 HUB5 अंग्रेजी डेटासेट में अंग्रेजी भाषा में 40 टेलीफोन वार्तालाप प्रतिलेख हैं। डेटा राष्ट्रीय मानक और प्रौद्योगिकी संस्थान द्वारा प्रदान किया जाता है, और इसका मुख्य ध्यान संवादात्मक भाषण को पहचानने और भाषण को पाठ में परिवर्तित करने पर है।
-
लिबरीस्पीच (संपर्क)
LibriSpeech डेटासेट लगभग 1000 घंटे के अंग्रेजी भाषण का एक संग्रह है जिसे ऑडियो पुस्तकों से अध्यायों में विषयों द्वारा ठीक से विभाजित किया गया है, जिससे यह प्राकृतिक भाषा प्रसंस्करण के लिए एक आदर्श उपकरण बन गया है।
-
मुफ़्त स्पोकन डिजिट डेटासेट (संपर्क)
इस एनएलपी डेटासेट में अंग्रेजी में बोले गए अंकों की 1,500 से अधिक रिकॉर्डिंग शामिल हैं।
-
एम-एआई लैब्स स्पीच डेटासेट (संपर्क)
यह डेटासेट लगभग 1,000 घंटों का ऑडियो ट्रांस्क्रिप्शन के साथ उपलब्ध कराता है, जिसमें कई भाषाएं शामिल हैं और इसे पुरुष, महिला और मिश्रित आवाजों के आधार पर वर्गीकृत किया गया है।
-
शोरगुल से भरा भाषण डेटाबेस (संपर्क)
इस डाटासेट में समानांतर शोर और स्वच्छ भाषण रिकॉर्डिंग शामिल हैं, जिसका उद्देश्य भाषण संवर्धन सॉफ्टवेयर विकास के लिए है, लेकिन चुनौतीपूर्ण परिस्थितियों में भाषण पर प्रशिक्षण के लिए भी फायदेमंद है।
समीक्षाएँ
-
Yelp समीक्षाएं (संपर्क)
Yelp डेटासेट में 8.5 से अधिक व्यवसायों की लगभग 160,000 मिलियन समीक्षाओं, उनकी समीक्षाओं और उपयोगकर्ता डेटा का विशाल संग्रह है। भावनाओं के विश्लेषण पर अपने मॉडलों को प्रशिक्षित करने के लिए समीक्षाओं का उपयोग किया जा सकता है। इसके अलावा, इस डेटासेट में आठ महानगरीय स्थानों को शामिल करते हुए 200,000 से अधिक चित्र भी हैं।
-
IMDB समीक्षा (संपर्क)
आईएमडीबी समीक्षा सबसे लोकप्रिय डेटासेट में से एक है जिसमें 50 हजार से अधिक फिल्मों के लिए कास्ट जानकारी, रेटिंग, विवरण और शैली शामिल है। इस डेटासेट का उपयोग आपके मशीन लर्निंग मॉडल का परीक्षण और प्रशिक्षण करने के लिए किया जा सकता है।
-
अमेज़न समीक्षा और रेटिंग डेटासेट (संपर्क)
अमेज़ॅन समीक्षा और रेटिंग डेटासेट में 1996 से 2014 तक एकत्र किए गए अमेज़ॅन के विभिन्न उत्पादों की मेटाडेटा और समीक्षाओं का एक मूल्यवान संग्रह है - लगभग 142.8 मिलियन रिकॉर्ड। मेटाडेटा में मूल्य, उत्पाद विवरण, ब्रांड, श्रेणी और बहुत कुछ शामिल होता है, जबकि समीक्षाओं में पाठ की गुणवत्ता, पाठ की उपयोगिता, रेटिंग और बहुत कुछ होता है।
प्रश्न और उत्तर
-
स्टैनफोर्ड प्रश्न और उत्तर डेटासेट (SQuAD) (संपर्क)
इस पठन बोध डेटासेट में 100,000 उत्तर योग्य प्रश्न और 50,000 अनुत्तरित प्रश्न हैं, जो सभी विकिपीडिया क्राउड वर्कर्स द्वारा बनाए गए हैं।
-
प्राकृतिक प्रश्न (संपर्क)
इस प्रशिक्षण सेट में 300,000 से अधिक प्रशिक्षण उदाहरण, 7,800 विकास उदाहरण और 7,800 परीक्षण उदाहरण हैं, जिनमें से प्रत्येक में एक गूगल क्वेरी और एक मिलान वाला विकिपीडिया पृष्ठ है।
-
सामान्य ज्ञान (संपर्क)
इस चुनौतीपूर्ण प्रश्न सेट में 950,000 QA जोड़े हैं, जिनमें मानव-सत्यापित और मशीन-जनित दोनों उपसमूह शामिल हैं।
-
CLEVR (रचनात्मक भाषा और प्राथमिक दृश्य तर्क) (संपर्क)
इस दृश्य प्रश्न उत्तर डेटासेट में 3D रेंडर की गई वस्तुएं और दृश्य दृश्य के बारे में विवरण के साथ हजारों प्रश्न शामिल हैं।
तो, आपने अपने मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए कौन सा डेटासेट चुना है?
जैसे ही हम जाते हैं, हम आपको एक के साथ छोड़ देंगे प्रो टिप।
अपनी आवश्यकताओं के लिए एनएलपी डेटासेट चुनने से पहले रीडमे फ़ाइल को अच्छी तरह से पढ़ना सुनिश्चित करें। डेटासेट में आपके लिए आवश्यक सभी आवश्यक जानकारी शामिल होगी, जैसे डेटासेट की सामग्री, विभिन्न पैरामीटर जिन पर डेटा को वर्गीकृत किया गया है, और डेटासेट के संभावित उपयोग के मामले।
आप चाहे जो भी मॉडल बनाएं, हमारी मशीनों को हमारे जीवन के साथ और अधिक निकटता से और आंतरिक रूप से एकीकृत करने की एक रोमांचक संभावना है। एनएलपी के साथ, व्यवसाय, फ़िल्म, भाषण पहचान, वित्त और बहुत कुछ के लिए संभावनाएँ कई गुना बढ़ जाती हैं।