परिभाषा
दस्तावेज़ वर्गीकरण, मशीन लर्निंग या नियम-आधारित विधियों का उपयोग करके टेक्स्ट दस्तावेज़ों को पूर्वनिर्धारित वर्गों में वर्गीकृत करने की प्रक्रिया है। वर्गों में विषय, स्पैम पहचान या भावनाएँ शामिल हो सकती हैं।
उद्देश्य
इसका उद्देश्य बड़ी मात्रा में टेक्स्ट को कुशलतापूर्वक व्यवस्थित और फ़िल्टर करना है। यह खोज, सामग्री मॉडरेशन और स्वचालित वर्कफ़्लो का समर्थन करता है।
महत्व
- वर्गीकरण को स्वचालित करके समय की बचत होती है।
- ईमेल स्पैम फ़िल्टरिंग, कानूनी खोज और ज्ञान प्रबंधन के लिए कुंजी।
- त्रुटियों के कारण दस्तावेज़ छूट सकते हैं या गलत वर्गीकृत हो सकते हैं।
- भावना विश्लेषण जैसे एनएलपी कार्यों से संबंधित।
यह कैसे काम करता है:
- पाठ्य दस्तावेज़ों को एकत्रित करें और उनका पूर्व-प्रसंस्करण करें।
- पाठ को विशेषताओं के साथ प्रस्तुत करें (उदाहरणार्थ, TF-IDF, एम्बेडिंग)।
- वर्गीकरण मॉडल (एसवीएम, तंत्रिका नेटवर्क) को प्रशिक्षित करें।
- लेबल किए गए परीक्षण सेटों पर मॉडल सटीकता को मान्य करें।
- नये दस्तावेज़ों को वर्गीकृत करने के लिए क्लासिफायर तैनात करें।
उदाहरण (वास्तविक दुनिया)
- जीमेल स्पैम फ़िल्टर: ईमेल को स्पैम और गैर-स्पैम में वर्गीकृत करता है।
- समाचार एग्रीगेटर: लेखों को विषय के आधार पर वर्गीकृत करते हैं।
- कानूनी तकनीक: खोज और अनुपालन के लिए दस्तावेजों को वर्गीकृत करती है।
संदर्भ / आगे पढ़ने के लिए
- मैनिंग एट अल. सूचना पुनर्प्राप्ति का परिचय. कैम्ब्रिज यूनिवर्सिटी प्रेस.
- जुराफस्की और मार्टिन, भाषण और भाषा प्रसंस्करण, स्टैनफोर्ड।
- नॉलेज और डेटा इंजीनियरिंग पर आईईईई ट्राजैक्शन्स।