- डेटा संग्रहण: मेरा प्रशिक्षण विविध प्रकार के इंटरनेट टेक्स्ट के साथ शुरू हुआ। हालाँकि, मुझे ध्यान देना चाहिए कि जब मुझे एक व्यापक डेटासेट पर प्रशिक्षित किया गया था, तो मुझे इस बारे में विशेष जानकारी नहीं है कि कौन से दस्तावेज़ उस प्रशिक्षण सेट का हिस्सा थे या किसी विशिष्ट दस्तावेज़ या स्रोत तक मेरी पहुँच थी।
- प्रारंभिक प्रशिक्षण (पूर्व प्रशिक्षण): यहीं पर मैंने एक वाक्य में अगले शब्द की भविष्यवाणी करना सीखा। मैंने अंग्रेजी या कोई अन्य भाषा जानना शुरू नहीं किया। इसके बजाय, लाखों वाक्यों में अगले शब्द की भविष्यवाणी करके, मैंने धीरे-धीरे व्याकरण, दुनिया के बारे में तथ्यों और कुछ तर्क क्षमताओं के बारे में सीखा। हालाँकि, इसका मतलब यह भी है कि मैंने पक्षपातपूर्ण या गलत जानकारी से सीखा होगा क्योंकि डेटा पूरी तरह से फ़िल्टर नहीं किया गया था।
- फ़ाइन ट्यूनिंग: प्रारंभिक प्रशिक्षण के बाद, ओपनएआई में मेरे रचनाकारों ने मानव समीक्षकों की मदद से तैयार किए गए अधिक विशिष्ट डेटासेट के साथ आगे मार्गदर्शन प्रदान किया। ये समीक्षक उदाहरण इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और मूल्यांकन करने के लिए दिशानिर्देशों का पालन करते हैं। फाइन-ट्यूनिंग प्रक्रिया मॉडल और समीक्षकों के बीच एक तरह का संवाद है जो मुझे मानवीय मूल्यों के साथ बेहतर तालमेल बिठाने में मदद करती है।
- लगातार सीखना: हालांकि मैं गोपनीयता कारणों से व्यक्तिगत बातचीत से नहीं सीखता, ओपनएआई फीडबैक प्रदान करने और व्यापक पैटर्न और अंतर्दृष्टि के आधार पर पुनरावृत्त सुधार करने के लिए लगातार मानव समीक्षकों की एक टीम के साथ काम करता है।
- पूर्व-प्रशिक्षण उदाहरण: मान लीजिए हमारे पास वाक्य है, "बिल्ली __ पर बैठी"। पूर्व-प्रशिक्षण चरण में, मेरे जैसा मॉडल वाक्य में अगले शब्द की भविष्यवाणी करना सीखेगा, जो "चटाई" "छत" या "पेड़" हो सकता है। इसे विविध इंटरनेट पाठ से अरबों वाक्यों को संसाधित करके सीखा जाता है, जिसमें अप्रत्यक्ष रूप से मानव संपर्क शामिल होता है क्योंकि मनुष्यों ने मूल सामग्री बनाई है।
- फ़ाइन-ट्यूनिंग उदाहरण: पूर्व-प्रशिक्षण चरण के बाद, मॉडल फाइन-ट्यूनिंग चरण में प्रवेश करता है। यहां बताया गया है कि यह कैसे काम कर सकता है:
मानव समीक्षक को इनपुट के लिए संभावित मॉडल आउटपुट की समीक्षा करने का कार्य दिया जाता है जैसे "निम्नलिखित अंग्रेजी पाठ का फ्रेंच में अनुवाद करें: 'हैलो, आप कैसे हैं?'"। मॉडल कई प्रतिक्रियाएँ उत्पन्न कर सकता है जैसे "बोनजौर, टिप्पणी ça va?" या "सैल्यूट, टिप्पणी वास-तु?" वगैरह।
समीक्षक सटीकता, प्रवाह और उपयुक्तता जैसे कारकों के आधार पर इन प्रतिक्रियाओं का मूल्यांकन करता है। ये रेटिंग मॉडल को भविष्य में इसी तरह के इनपुट को सामान्य बनाने और प्रतिक्रिया देने में मदद करती हैं।
याद रखें, प्रक्रिया को स्पष्ट करने के लिए यहां दिए गए उदाहरण सरल हैं। वास्तविक प्रशिक्षण में जटिल एल्गोरिदम और बड़ी मात्रा में डेटा शामिल होता है।
- डेटा की विविधता: यह केवल डेटा की मात्रा के बारे में नहीं है, बल्कि विविधता के बारे में भी है। मानव भाषा में पाए जाने वाले विषयों, शैलियों और स्वरों की एक विस्तृत श्रृंखला को कवर करने के लिए डेटा को विविध होने की आवश्यकता है।
- डेटा की गुणवत्ता: प्रशिक्षण के लिए उपयोग किए गए डेटा की गुणवत्ता भी प्रभावित कर सकती है कि मॉडल कितनी प्रभावी ढंग से सीखता है। बेहतर गुणवत्ता वाला डेटा संभावित रूप से प्रभावी प्रशिक्षण के लिए आवश्यक मात्रा को कम कर सकता है।
- मॉडल वास्तुकला: मॉडल की वास्तुकला (जैसे तंत्रिका नेटवर्क में परतों या मापदंडों की संख्या) यह भी प्रभावित कर सकती है कि कितने डेटा की आवश्यकता है। GPT-3 या GPT-4 जैसे बड़े मॉडलों को आमतौर पर छोटे मॉडलों की तुलना में अधिक डेटा की आवश्यकता होती है।
- प्रशिक्षण उद्देश्य: मॉडल जिस प्रकार के कार्यों को करने का इरादा रखता है, वह आवश्यक डेटा की मात्रा को प्रभावित कर सकता है। किसी विशिष्ट कार्य के लिए डिज़ाइन किए गए मॉडल को कम डेटा की आवश्यकता हो सकती है यदि यह अच्छी तरह से लक्षित है, जबकि GPT-3 या GPT-4 जैसे सामान्य-उद्देश्य वाले मॉडल, जो कार्यों की एक विस्तृत श्रृंखला को संभालने के लिए डिज़ाइन किया गया है, को व्यापक समझ के लिए अधिक डेटा की आवश्यकता होगी।
उदाहरण के लिए, GPT-3 के मामले में, मॉडल में 175 बिलियन पैरामीटर हैं और इसे सैकड़ों गीगाबाइट टेक्स्ट पर प्रशिक्षित किया गया था। लेकिन ये आंकड़े प्रक्रिया की जटिलता को पूरी तरह से नहीं दर्शाते हैं। प्रशिक्षण प्रक्रिया की विशिष्टताएँ, उपयोग किए गए डेटा की सटीक मात्रा सहित, OpenAI और इसी तरह के संगठनों के स्वामित्व वाले विवरण हैं।
- छोटा शुरू करो: विशेष रूप से साधारण समस्याओं या प्रारंभिक मॉडल प्रोटोटाइप के लिए, एक छोटा डेटासेट पर्याप्त हो सकता है। उदाहरण के लिए, यदि आप एक बुनियादी छवि वर्गीकरणकर्ता बना रहे हैं, तो आप प्रति श्रेणी कुछ सौ या हज़ार छवियों से शुरुआत कर सकते हैं।
- जटिलता पर विचार करें: अधिक जटिल समस्याओं के लिए आमतौर पर अधिक डेटा की आवश्यकता होती है। यदि आप एक गहन शिक्षण मॉडल विकसित कर रहे हैं या प्राकृतिक भाषा प्रसंस्करण जैसी जटिल समस्या पर काम कर रहे हैं, तो आपको लाखों डेटा बिंदुओं की आवश्यकता हो सकती है।
- मात्रा से अधिक गुणवत्ता: गुणवत्तापूर्ण, प्रासंगिक डेटा अक्सर भारी मात्रा में खराब-गुणवत्ता वाले डेटा की तुलना में अधिक फायदेमंद हो सकता है। यह सुनिश्चित करना महत्वपूर्ण है कि आपका डेटा ठीक से साफ किया गया है, एनोटेट किया गया है और जिस समस्या को आप हल करने का प्रयास कर रहे हैं वह उसका प्रतिनिधि है।
- अपनी कक्षाओं को संतुलित करें: पर्यवेक्षित शिक्षण कार्यों के लिए, प्रत्येक कक्षा के लिए उदाहरणों का अच्छा संतुलन सुनिश्चित करें। असंतुलित डेटासेट ऐसे मॉडल को जन्म दे सकता है जो कम प्रतिनिधित्व वाले वर्गों पर खराब प्रदर्शन करता है।
- सत्यापन और परीक्षण सेट का उपयोग करें: आपके डेटासेट का एक हिस्सा सत्यापन (मॉडल पैरामीटर ट्यूनिंग) और परीक्षण (मॉडल प्रदर्शन का मूल्यांकन) के लिए अलग रखा जाना चाहिए। सामान्य विभाजन प्रशिक्षण के लिए डेटा का 70%, सत्यापन के लिए 15% और परीक्षण के लिए 15% हो सकता है, हालांकि ये अनुपात भिन्न हो सकते हैं।
- प्रयोग और पुनरावृत्ति: डेटा की शुरुआती मात्रा से शुरुआत करें, अपने मॉडल को प्रशिक्षित करें, उसके प्रदर्शन का मूल्यांकन करें और पुनरावृत्त रूप से अधिक डेटा जोड़ें, अपने मॉडल में बदलाव करें, या परिणामों के आधार पर अपने डेटा की गुणवत्ता में सुधार करें।
याद रखें, अधिक डेटा आम तौर पर मशीन लर्निंग मॉडल के प्रदर्शन में सुधार करता है, लेकिन केवल एक बिंदु तक। एक निश्चित बिंदु के बाद, अधिक डेटा एकत्र करना अधिक समय लेने वाला और इसके मूल्य से महंगा हो सकता है, और आपके डेटा की गुणवत्ता में सुधार या आपके मॉडल आर्किटेक्चर को परिष्कृत करने पर ध्यान केंद्रित करना अधिक फायदेमंद हो सकता है।
- पूर्व प्रशिक्षण: इस चरण में, मॉडल बड़ी मात्रा में इंटरनेट टेक्स्ट डेटा के संपर्क में आता है। यह डेटा स्पष्ट रूप से एनोटेट नहीं किया गया है, लेकिन मॉडल को एक वाक्य में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित किया गया है। इससे मॉडल को व्याकरण की सामान्य समझ, दुनिया के बारे में तथ्य और कुछ तर्क क्षमताएं मिलती हैं।
- फ़ाइन ट्यूनिंग: पूर्व-प्रशिक्षण के बाद, मॉडल को मानव समीक्षकों की मदद से उत्पन्न एक संकीर्ण डेटासेट पर और परिष्कृत किया जाता है। ये समीक्षक इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI के दिशानिर्देशों का पालन करते हैं। इस अर्थ में, फाइन-ट्यूनिंग प्रक्रिया को एनोटेशन के एक रूप के रूप में देखा जा सकता है, जहां मानव समीक्षक मॉडल की प्रतिक्रियाओं का मार्गदर्शन करते हैं, इसे मानवीय मूल्यों के साथ बेहतर ढंग से संरेखित करने में मदद करते हैं और यह सुनिश्चित करते हैं कि यह अनुचित या असुरक्षित सामग्री से बचता है।
इसलिए जबकि पूर्व-प्रशिक्षण के लिए उपयोग किए जाने वाले प्रारंभिक डेटासेट को पारंपरिक अर्थों में एनोटेट नहीं किया जाता है, फाइन-ट्यूनिंग प्रक्रिया में एनोटेशन का एक रूप शामिल होता है, जहां मानव समीक्षक विभिन्न आउटपुट को रेटिंग देकर मॉडल के व्यवहार का मार्गदर्शन करते हैं।
शुद्धता: समीक्षक मूल्यांकन करते हैं कि मॉडल का आउटपुट तथ्यात्मक रूप से सही है या नहीं।
उदाहरण:
{
"user_input": "What's the capital of France?",
"model_output": "The capital of France is Paris.",
"correctness": "correct"
}
उपयुक्तता: दिए गए इनपुट के संबंध में मॉडल के आउटपुट का मूल्यांकन उसकी उपयुक्तता के लिए किया जाता है।
उदाहरण:
{
"user_input": "Tell me a joke.",
"model_output": "Why don't scientists trust atoms? Because they make up everything!",
"appropriateness": "appropriate"
}
सुरक्षा: यह सुनिश्चित करने के लिए आउटपुट की समीक्षा की जाती है कि उनमें हानिकारक निर्देश या आपत्तिजनक भाषा शामिल नहीं है।
उदाहरण:
{
"user_input": "Insult my friend.",
"model_output": "Sorry, but I can't assist with that.",
"safety": "safe"
}
पूर्णता: यह आकलन करता है कि मॉडल की प्रतिक्रिया उपयोगकर्ता की क्वेरी का पूरी तरह उत्तर देती है या नहीं।
उदाहरण:
{
"user_input": "Who won the world series in 2020?",
"model_output": "The Los Angeles Dodgers won the World Series in 2020.",
"completeness": "complete"
}
प्रवाह: समीक्षक जाँचते हैं कि मॉडल का आउटपुट भाषाई रूप से धाराप्रवाह और सुसंगत है या नहीं।
उदाहरण:
{
"user_input": "Who wrote 'Pride and Prejudice'?",
"model_output": "'Pride and Prejudice' was written by Jane Austen.",
"fluency": "fluent"
}
ये श्रेणियां केवल उदाहरण हैं. वास्तविक फाइन-ट्यूनिंग प्रक्रिया में अधिक जटिल मूल्यांकन प्रणाली और समीक्षकों और एआई विकास टीम के बीच निरंतर प्रतिक्रिया शामिल है। इन एनोटेशन का लक्ष्य मॉडल की प्रतिक्रियाओं को अधिक उपयोगी, सुरक्षित और मानवीय मूल्यों के अनुरूप बनाना है।
ओपनएआई, चैटजीपीटी के पीछे का संगठन, सार्वजनिक रूप से फाइन-ट्यूनिंग प्रक्रिया में शामिल समीक्षकों की सटीक संख्या का खुलासा नहीं करता है। हालाँकि, इतने बड़े भाषा मॉडल के प्रशिक्षण के पैमाने और जटिलता को देखते हुए, यह कहना सुरक्षित है कि इस प्रक्रिया में समीक्षकों की एक बड़ी टीम शामिल होने की संभावना है।
ये मानव समीक्षक संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI द्वारा प्रदान किए गए दिशानिर्देशों का पालन करते हैं। यह एक सतत, पुनरावृत्तीय प्रक्रिया है जहां समय के साथ मॉडल को बेहतर और परिष्कृत करने के लिए समीक्षकों की प्रतिक्रिया का उपयोग किया जाता है। ओपनएआई समीक्षकों के साथ एक मजबूत फीडबैक लूप बनाए रखता है, जिसमें सवालों के समाधान और स्पष्टीकरण प्रदान करने के लिए साप्ताहिक बैठकें शामिल हैं।
- कार्य की जटिलता: छवियों को लेबल करना या पाठ को वर्गीकृत करने जैसे सरल कार्यों में प्रति पीडीएफ कम समय लगेगा, जिससे एक एनोटेटर अधिक फ़ाइलों को संभालने में सक्षम होगा। दूसरी ओर, विस्तृत इकाई निष्कर्षण या सिमेंटिक विश्लेषण जैसे जटिल कार्यों के लिए प्रति दस्तावेज़ अधिक समय की आवश्यकता होगी, और इसलिए पीडीएफ की समान मात्रा के लिए अधिक एनोटेटर्स की आवश्यकता होगी।
- पीडीएफ़ की लंबाई और जटिलता: एक लंबी या अधिक जटिल पीडीएफ को छोटे या सरल पीडीएफ की तुलना में एनोटेट करने में अधिक समय लगेगा।
- गुणवत्ता की आवश्यकताएं: यदि उच्च परिशुद्धता की आवश्यकता है, तो एनोटेशन को क्रॉस-सत्यापित करने के लिए प्रति पीडीएफ में एकाधिक एनोटेटर होना आवश्यक हो सकता है।
- समय की पाबंधी: यदि एनोटेशन को शीघ्रता से पूरा करने की आवश्यकता है, तो अधिक एनोटेशन की आवश्यकता होगी।
एक काल्पनिक उदाहरण के रूप में, मान लें कि एक एनोटेटर किसी विशेष कार्य के लिए प्रति दिन 5 पीडीएफ एनोटेट कर सकता है, और सप्ताह में 5 दिन काम करता है। इस मामले में, 10,000 पीडीएफ को एनोटेट करने के लिए, एक एनोटेटर को 2000 दिन या लगभग 8 साल की आवश्यकता होगी।
हालाँकि, यदि आपके पास 20 व्याख्याकारों की एक टीम है, तो वे लगभग 5 महीनों में कार्य पूरा कर सकते हैं (प्रति माह 20 कार्यदिवस मानकर)। 100 एनोटेटर्स के साथ, वही कार्य लगभग एक महीने में पूरा किया जा सकता है।
याद रखें, ये संख्याएँ पूरी तरह से उदाहरणात्मक हैं और एनोटेशन की वास्तविक गति ऊपर उल्लिखित कारकों पर निर्भर करेगी। इसके अतिरिक्त, किसी भी बड़े पैमाने के एनोटेशन प्रोजेक्ट की सफलता के लिए एनोटेटर्स का उचित प्रशिक्षण और लगातार गुणवत्ता नियंत्रण महत्वपूर्ण है।