परिभाषा
नामित इकाई पहचान (NER) एक NLP कार्य है जो पाठ में संस्थाओं की पहचान और वर्गीकरण करता है, जैसे कि लोग, संगठन, स्थान, दिनांक या उत्पाद।
उद्देश्य
इसका उद्देश्य प्रमुख इकाइयों को निकालकर असंरचित पाठ को संरचित करना है। यह खोज, सूचना निष्कर्षण और ज्ञान ग्राफ़ निर्माण का समर्थन करता है।
महत्व
- सूचना पुनर्प्राप्ति और एनएलपी पाइपलाइनों के लिए मौलिक।
- त्रुटियाँ डाउनस्ट्रीम अनुप्रयोगों तक फैलती हैं।
- डोमेन-विशिष्ट NER (जैसे, चिकित्सा, कानूनी) के लिए कस्टम डेटासेट की आवश्यकता होती है।
- इकाई लिंकिंग और संबंध निष्कर्षण जैसे कार्यों से संबंधित।
यह कैसे काम करता है:
- पाठ एकत्रित करें और उसका पूर्वप्रसंस्करण करें.
- डेटासेट को इकाई श्रेणियों के साथ एनोटेट करें.
- लेबल किए गए उदाहरणों (सीआरएफ, ट्रांसफार्मर) पर मॉडल को प्रशिक्षित करें।
- अदृश्य पाठ में संस्थाओं का पूर्वानुमान लगाएं.
- परीक्षण डेटा के साथ सटीकता को मान्य करें.
उदाहरण (वास्तविक दुनिया)
- spaCy: अंतर्निर्मित NER के साथ ओपन-सोर्स NLP लाइब्रेरी।
- स्टैनफोर्ड कोरएनएलपी: नामित इकाई पहचान उपकरण प्रदान करता है।
- वित्तीय एनएलपी: रिपोर्टों से कंपनी के नाम निकालता है।
संदर्भ / आगे पढ़ने के लिए
- जुराफस्की और मार्टिन, भाषण और भाषा प्रसंस्करण, स्टैनफोर्ड।
- लैम्पल एट अल. “नामांकित इकाई पहचान के लिए तंत्रिका वास्तुकला।” एसीएल।
- गले लगाने वाला चेहरा ट्रांसफॉर्मर एनईआर मॉडल.
- नामित इकाई पहचान (NER) क्या है?