- डेटा संग्रहण: मेरा प्रशिक्षण विविध प्रकार के इंटरनेट टेक्स्ट के साथ शुरू हुआ। हालाँकि, मुझे ध्यान देना चाहिए कि जब मुझे एक व्यापक डेटासेट पर प्रशिक्षित किया गया था, तो मुझे इस बारे में विशेष जानकारी नहीं है कि कौन से दस्तावेज़ उस प्रशिक्षण सेट का हिस्सा थे या किसी विशिष्ट दस्तावेज़ या स्रोत तक मेरी पहुँच थी।
- प्रारंभिक प्रशिक्षण (पूर्व प्रशिक्षण): यहीं पर मैंने एक वाक्य में अगले शब्द की भविष्यवाणी करना सीखा। मैंने अंग्रेजी या कोई अन्य भाषा जानना शुरू नहीं किया। इसके बजाय, लाखों वाक्यों में अगले शब्द की भविष्यवाणी करके, मैंने धीरे-धीरे व्याकरण, दुनिया के बारे में तथ्यों और कुछ तर्क क्षमताओं के बारे में सीखा। हालाँकि, इसका मतलब यह भी है कि मैंने पक्षपातपूर्ण या गलत जानकारी से सीखा होगा क्योंकि डेटा पूरी तरह से फ़िल्टर नहीं किया गया था।
- फ़ाइन ट्यूनिंग: प्रारंभिक प्रशिक्षण के बाद, ओपनएआई में मेरे रचनाकारों ने मानव समीक्षकों की मदद से तैयार किए गए अधिक विशिष्ट डेटासेट के साथ आगे मार्गदर्शन प्रदान किया। ये समीक्षक उदाहरण इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और मूल्यांकन करने के लिए दिशानिर्देशों का पालन करते हैं। फाइन-ट्यूनिंग प्रक्रिया मॉडल और समीक्षकों के बीच एक तरह का संवाद है जो मुझे मानवीय मूल्यों के साथ बेहतर तालमेल बिठाने में मदद करती है।
- लगातार सीखना: हालांकि मैं गोपनीयता कारणों से व्यक्तिगत बातचीत से नहीं सीखता, ओपनएआई फीडबैक प्रदान करने और व्यापक पैटर्न और अंतर्दृष्टि के आधार पर पुनरावृत्त सुधार करने के लिए लगातार मानव समीक्षकों की एक टीम के साथ काम करता है।
- पूर्व-प्रशिक्षण उदाहरण: मान लीजिए हमारे पास वाक्य है, "बिल्ली __ पर बैठी"। पूर्व-प्रशिक्षण चरण में, मेरे जैसा मॉडल वाक्य में अगले शब्द की भविष्यवाणी करना सीखेगा, जो "चटाई" "छत" या "पेड़" हो सकता है। इसे विविध इंटरनेट पाठ से अरबों वाक्यों को संसाधित करके सीखा जाता है, जिसमें अप्रत्यक्ष रूप से मानव संपर्क शामिल होता है क्योंकि मनुष्यों ने मूल सामग्री बनाई है।
- फ़ाइन-ट्यूनिंग उदाहरण: पूर्व-प्रशिक्षण चरण के बाद, मॉडल फाइन-ट्यूनिंग चरण में प्रवेश करता है। यहां बताया गया है कि यह कैसे काम कर सकता है:
मानव समीक्षक को इनपुट के लिए संभावित मॉडल आउटपुट की समीक्षा करने का कार्य दिया जाता है जैसे "निम्नलिखित अंग्रेजी पाठ का फ्रेंच में अनुवाद करें: 'हैलो, आप कैसे हैं?'"। मॉडल कई प्रतिक्रियाएँ उत्पन्न कर सकता है जैसे "बोनजौर, टिप्पणी ça va?" या "सैल्यूट, टिप्पणी वास-तु?" वगैरह।
समीक्षक सटीकता, प्रवाह और उपयुक्तता जैसे कारकों के आधार पर इन प्रतिक्रियाओं का मूल्यांकन करता है। ये रेटिंग मॉडल को भविष्य में इसी तरह के इनपुट को सामान्य बनाने और प्रतिक्रिया देने में मदद करती हैं।
याद रखें, प्रक्रिया को स्पष्ट करने के लिए यहां दिए गए उदाहरण सरल हैं। वास्तविक प्रशिक्षण में जटिल एल्गोरिदम और बड़ी मात्रा में डेटा शामिल होता है।
- डेटा की विविधता: यह केवल डेटा की मात्रा के बारे में नहीं है, बल्कि विविधता के बारे में भी है। मानव भाषा में पाए जाने वाले विषयों, शैलियों और स्वरों की एक विस्तृत श्रृंखला को कवर करने के लिए डेटा को विविध होने की आवश्यकता है।
- डेटा की गुणवत्ता: प्रशिक्षण के लिए उपयोग किए गए डेटा की गुणवत्ता भी प्रभावित कर सकती है कि मॉडल कितनी प्रभावी ढंग से सीखता है। बेहतर गुणवत्ता वाला डेटा संभावित रूप से प्रभावी प्रशिक्षण के लिए आवश्यक मात्रा को कम कर सकता है।
- मॉडल वास्तुकला: मॉडल की वास्तुकला (जैसे तंत्रिका नेटवर्क में परतों या मापदंडों की संख्या) यह भी प्रभावित कर सकती है कि कितने डेटा की आवश्यकता है। GPT-3 या GPT-4 जैसे बड़े मॉडलों को आमतौर पर छोटे मॉडलों की तुलना में अधिक डेटा की आवश्यकता होती है।
- प्रशिक्षण उद्देश्य: मॉडल जिस प्रकार के कार्यों को करने का इरादा रखता है, वह आवश्यक डेटा की मात्रा को प्रभावित कर सकता है। किसी विशिष्ट कार्य के लिए डिज़ाइन किए गए मॉडल को कम डेटा की आवश्यकता हो सकती है यदि यह अच्छी तरह से लक्षित है, जबकि GPT-3 या GPT-4 जैसे सामान्य-उद्देश्य वाले मॉडल, जो कार्यों की एक विस्तृत श्रृंखला को संभालने के लिए डिज़ाइन किया गया है, को व्यापक समझ के लिए अधिक डेटा की आवश्यकता होगी।
उदाहरण के लिए, GPT-3 के मामले में, मॉडल में 175 बिलियन पैरामीटर हैं और इसे सैकड़ों गीगाबाइट टेक्स्ट पर प्रशिक्षित किया गया था। लेकिन ये आंकड़े प्रक्रिया की जटिलता को पूरी तरह से नहीं दर्शाते हैं। प्रशिक्षण प्रक्रिया की विशिष्टताएँ, उपयोग किए गए डेटा की सटीक मात्रा सहित, OpenAI और इसी तरह के संगठनों के स्वामित्व वाले विवरण हैं।
- छोटा शुरू करो: विशेष रूप से साधारण समस्याओं या प्रारंभिक मॉडल प्रोटोटाइप के लिए, एक छोटा डेटासेट पर्याप्त हो सकता है। उदाहरण के लिए, यदि आप एक बुनियादी छवि वर्गीकरणकर्ता बना रहे हैं, तो आप प्रति श्रेणी कुछ सौ या हज़ार छवियों से शुरुआत कर सकते हैं।
- जटिलता पर विचार करें: अधिक जटिल समस्याओं के लिए आमतौर पर अधिक डेटा की आवश्यकता होती है। यदि आप एक गहन शिक्षण मॉडल विकसित कर रहे हैं या प्राकृतिक भाषा प्रसंस्करण जैसी जटिल समस्या पर काम कर रहे हैं, तो आपको लाखों डेटा बिंदुओं की आवश्यकता हो सकती है।
- मात्रा से अधिक गुणवत्ता: गुणवत्तापूर्ण, प्रासंगिक डेटा अक्सर भारी मात्रा में खराब-गुणवत्ता वाले डेटा की तुलना में अधिक फायदेमंद हो सकता है। यह सुनिश्चित करना महत्वपूर्ण है कि आपका डेटा ठीक से साफ किया गया है, एनोटेट किया गया है और जिस समस्या को आप हल करने का प्रयास कर रहे हैं वह उसका प्रतिनिधि है।
- अपनी कक्षाओं को संतुलित करें: पर्यवेक्षित शिक्षण कार्यों के लिए, प्रत्येक कक्षा के लिए उदाहरणों का अच्छा संतुलन सुनिश्चित करें। असंतुलित डेटासेट ऐसे मॉडल को जन्म दे सकता है जो कम प्रतिनिधित्व वाले वर्गों पर खराब प्रदर्शन करता है।
- सत्यापन और परीक्षण सेट का उपयोग करें: आपके डेटासेट का एक हिस्सा सत्यापन (मॉडल पैरामीटर ट्यूनिंग) और परीक्षण (मॉडल प्रदर्शन का मूल्यांकन) के लिए अलग रखा जाना चाहिए। सामान्य विभाजन प्रशिक्षण के लिए डेटा का 70%, सत्यापन के लिए 15% और परीक्षण के लिए 15% हो सकता है, हालांकि ये अनुपात भिन्न हो सकते हैं।
- प्रयोग और पुनरावृत्ति: डेटा की शुरुआती मात्रा से शुरुआत करें, अपने मॉडल को प्रशिक्षित करें, उसके प्रदर्शन का मूल्यांकन करें और पुनरावृत्त रूप से अधिक डेटा जोड़ें, अपने मॉडल में बदलाव करें, या परिणामों के आधार पर अपने डेटा की गुणवत्ता में सुधार करें।
याद रखें, अधिक डेटा आम तौर पर मशीन लर्निंग मॉडल के प्रदर्शन में सुधार करता है, लेकिन केवल एक बिंदु तक। एक निश्चित बिंदु के बाद, अधिक डेटा एकत्र करना अधिक समय लेने वाला और इसके मूल्य से महंगा हो सकता है, और आपके डेटा की गुणवत्ता में सुधार या आपके मॉडल आर्किटेक्चर को परिष्कृत करने पर ध्यान केंद्रित करना अधिक फायदेमंद हो सकता है।
- पूर्व प्रशिक्षण: इस चरण में, मॉडल बड़ी मात्रा में इंटरनेट टेक्स्ट डेटा के संपर्क में आता है। यह डेटा स्पष्ट रूप से एनोटेट नहीं किया गया है, लेकिन मॉडल को एक वाक्य में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित किया गया है। इससे मॉडल को व्याकरण की सामान्य समझ, दुनिया के बारे में तथ्य और कुछ तर्क क्षमताएं मिलती हैं।
- फ़ाइन ट्यूनिंग: पूर्व-प्रशिक्षण के बाद, मॉडल को मानव समीक्षकों की मदद से उत्पन्न एक संकीर्ण डेटासेट पर और परिष्कृत किया जाता है। ये समीक्षक इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI के दिशानिर्देशों का पालन करते हैं। इस अर्थ में, फाइन-ट्यूनिंग प्रक्रिया को एनोटेशन के एक रूप के रूप में देखा जा सकता है, जहां मानव समीक्षक मॉडल की प्रतिक्रियाओं का मार्गदर्शन करते हैं, इसे मानवीय मूल्यों के साथ बेहतर ढंग से संरेखित करने में मदद करते हैं और यह सुनिश्चित करते हैं कि यह अनुचित या असुरक्षित सामग्री से बचता है।
इसलिए जबकि पूर्व-प्रशिक्षण के लिए उपयोग किए जाने वाले प्रारंभिक डेटासेट को पारंपरिक अर्थों में एनोटेट नहीं किया जाता है, फाइन-ट्यूनिंग प्रक्रिया में एनोटेशन का एक रूप शामिल होता है, जहां मानव समीक्षक विभिन्न आउटपुट को रेटिंग देकर मॉडल के व्यवहार का मार्गदर्शन करते हैं।
शुद्धता: समीक्षक मूल्यांकन करते हैं कि मॉडल का आउटपुट तथ्यात्मक रूप से सही है या नहीं।
उदाहरण:
उपयुक्तता: दिए गए इनपुट के संबंध में मॉडल के आउटपुट का मूल्यांकन उसकी उपयुक्तता के लिए किया जाता है।
उदाहरण:
सुरक्षा: यह सुनिश्चित करने के लिए आउटपुट की समीक्षा की जाती है कि उनमें हानिकारक निर्देश या आपत्तिजनक भाषा शामिल नहीं है।
उदाहरण:
पूर्णता: यह आकलन करता है कि मॉडल की प्रतिक्रिया उपयोगकर्ता की क्वेरी का पूरी तरह उत्तर देती है या नहीं।
उदाहरण:
प्रवाह: समीक्षक जाँचते हैं कि मॉडल का आउटपुट भाषाई रूप से धाराप्रवाह और सुसंगत है या नहीं।
उदाहरण:
ये श्रेणियां केवल उदाहरण हैं. वास्तविक फाइन-ट्यूनिंग प्रक्रिया में अधिक जटिल मूल्यांकन प्रणाली और समीक्षकों और एआई विकास टीम के बीच निरंतर प्रतिक्रिया शामिल है। इन एनोटेशन का लक्ष्य मॉडल की प्रतिक्रियाओं को अधिक उपयोगी, सुरक्षित और मानवीय मूल्यों के अनुरूप बनाना है।
ओपनएआई, चैटजीपीटी के पीछे का संगठन, सार्वजनिक रूप से फाइन-ट्यूनिंग प्रक्रिया में शामिल समीक्षकों की सटीक संख्या का खुलासा नहीं करता है। हालाँकि, इतने बड़े भाषा मॉडल के प्रशिक्षण के पैमाने और जटिलता को देखते हुए, यह कहना सुरक्षित है कि इस प्रक्रिया में समीक्षकों की एक बड़ी टीम शामिल होने की संभावना है।
ये मानव समीक्षक संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI द्वारा प्रदान किए गए दिशानिर्देशों का पालन करते हैं। यह एक सतत, पुनरावृत्तीय प्रक्रिया है जहां समय के साथ मॉडल को बेहतर और परिष्कृत करने के लिए समीक्षकों की प्रतिक्रिया का उपयोग किया जाता है। ओपनएआई समीक्षकों के साथ एक मजबूत फीडबैक लूप बनाए रखता है, जिसमें सवालों के समाधान और स्पष्टीकरण प्रदान करने के लिए साप्ताहिक बैठकें शामिल हैं।
- कार्य की जटिलता: छवियों को लेबल करना या पाठ को वर्गीकृत करने जैसे सरल कार्यों में प्रति पीडीएफ कम समय लगेगा, जिससे एक एनोटेटर अधिक फ़ाइलों को संभालने में सक्षम होगा। दूसरी ओर, विस्तृत इकाई निष्कर्षण या सिमेंटिक विश्लेषण जैसे जटिल कार्यों के लिए प्रति दस्तावेज़ अधिक समय की आवश्यकता होगी, और इसलिए पीडीएफ की समान मात्रा के लिए अधिक एनोटेटर्स की आवश्यकता होगी।
- पीडीएफ़ की लंबाई और जटिलता: एक लंबी या अधिक जटिल पीडीएफ को छोटे या सरल पीडीएफ की तुलना में एनोटेट करने में अधिक समय लगेगा।
- गुणवत्ता की आवश्यकताएं: यदि उच्च परिशुद्धता की आवश्यकता है, तो एनोटेशन को क्रॉस-सत्यापित करने के लिए प्रति पीडीएफ में एकाधिक एनोटेटर होना आवश्यक हो सकता है।
- समय की पाबंधी: यदि एनोटेशन को शीघ्रता से पूरा करने की आवश्यकता है, तो अधिक एनोटेशन की आवश्यकता होगी।
एक काल्पनिक उदाहरण के रूप में, मान लें कि एक एनोटेटर किसी विशेष कार्य के लिए प्रति दिन 5 पीडीएफ एनोटेट कर सकता है, और सप्ताह में 5 दिन काम करता है। इस मामले में, 10,000 पीडीएफ को एनोटेट करने के लिए, एक एनोटेटर को 2000 दिन या लगभग 8 साल की आवश्यकता होगी।
हालाँकि, यदि आपके पास 20 व्याख्याकारों की एक टीम है, तो वे लगभग 5 महीनों में कार्य पूरा कर सकते हैं (प्रति माह 20 कार्यदिवस मानकर)। 100 एनोटेटर्स के साथ, वही कार्य लगभग एक महीने में पूरा किया जा सकता है।
याद रखें, ये संख्याएँ पूरी तरह से उदाहरणात्मक हैं और एनोटेशन की वास्तविक गति ऊपर उल्लिखित कारकों पर निर्भर करेगी। इसके अतिरिक्त, किसी भी बड़े पैमाने के एनोटेशन प्रोजेक्ट की सफलता के लिए एनोटेटर्स का उचित प्रशिक्षण और लगातार गुणवत्ता नियंत्रण महत्वपूर्ण है।