परिभाषा
टोकनाइजेशन, पाठ को छोटी इकाइयों (टोकन) जैसे शब्दों, उपशब्दों या वर्णों में विभाजित करने की प्रक्रिया है, जो भाषा मॉडल के लिए इनपुट के रूप में काम करते हैं।
उद्देश्य
इसका उद्देश्य एलएलएम में प्रशिक्षण और अनुमान के लिए पाठ को प्रबंधनीय घटकों में मानकीकृत करना है।
महत्व
- एनएलपी में मौलिक प्रीप्रोसेसिंग चरण।
- शब्दावली के आकार और दक्षता पर प्रभाव पड़ता है।
- टोकनाइजेशन विकल्प सटीकता और प्रदर्शन को प्रभावित करते हैं।
- एम्बेडिंग और मॉडल प्रशिक्षण से संबंधित।
यह कैसे काम करता है:
- टोकनाइजेशन योजना (शब्द, उपशब्द, वर्ण) को परिभाषित करें।
- इनपुट टेक्स्ट पर टोकेनाइजर लागू करें।
- टोकन को संख्यात्मक आईडी से मैप करें.
- प्रसंस्करण के लिए मॉडल में टोकन फीड करें।
- आउटपुट टोकन को वापस टेक्स्ट में बदलें.
उदाहरण (वास्तविक दुनिया)
- बाइट पेयर एनकोडिंग (BPE) का उपयोग GPT मॉडल में किया जाता है।
- वर्डपीस का उपयोग BERT में किया गया।
- बहुभाषी एनएलपी में प्रयुक्त वाक्य-टुकड़ा।
संदर्भ / आगे पढ़ने के लिए
- सेनरिच एट अल. “सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद।” एसीएल।
- गूगल सेंटेंसपीस दस्तावेज़ीकरण.
- जुराफस्की और मार्टिन: भाषण और भाषा प्रसंस्करण।