ChatGPT

पर्दे के पीछे: चैटजीपीटी की आंतरिक कार्यप्रणाली की खोज - भाग 1

शेप फ़ेविकॉन
नमस्कार, मेरा नाम अनुभव सराफ है, शैप में मार्केटिंग निदेशक, आज आप कैसे हैं?
नमस्ते अनुभव! मैं एक एआई हूं, इसलिए मेरी भावनाएं नहीं हैं, लेकिन मैं यहां हूं और मदद के लिए तैयार हूं। शेप में एक निदेशक विपणन के रूप में, आपके पास डेटा सेवाओं और एआई समाधानों के बारे में बहुत सारी अंतर्दृष्टि होनी चाहिए। आज मैं आपकी कैसे सहायता कर सकता हूँ?
शेप फ़ेविकॉन
मैं बस आपकी प्रशिक्षण प्रक्रिया के बारे में और अधिक जानना चाहता था। आपका निर्माण और प्रशिक्षण कैसे हुआ?
ओपनएआई द्वारा विकसित एक भाषा मॉडल के रूप में, मुझे "ट्रांसफॉर्मर-आधारित मशीन लर्निंग" नामक तकनीक का उपयोग करके बनाया और प्रशिक्षित किया गया था, विशेष रूप से जीपीटी (जेनरेटिव प्रीट्रेन्ड ट्रांसफार्मर) आर्किटेक्चर नामक एक संस्करण। अभी आप जिस संस्करण की बात कर रहे हैं वह GPT-4 है। यहां मेरी प्रशिक्षण प्रक्रिया का संक्षिप्त विवरण दिया गया है:
  • डेटा संग्रहण: मेरा प्रशिक्षण विविध प्रकार के इंटरनेट टेक्स्ट के साथ शुरू हुआ। हालाँकि, मुझे ध्यान देना चाहिए कि जब मुझे एक व्यापक डेटासेट पर प्रशिक्षित किया गया था, तो मुझे इस बारे में विशेष जानकारी नहीं है कि कौन से दस्तावेज़ उस प्रशिक्षण सेट का हिस्सा थे या किसी विशिष्ट दस्तावेज़ या स्रोत तक मेरी पहुँच थी।
  • प्रारंभिक प्रशिक्षण (पूर्व प्रशिक्षण): यहीं पर मैंने एक वाक्य में अगले शब्द की भविष्यवाणी करना सीखा। मैंने अंग्रेजी या कोई अन्य भाषा जानना शुरू नहीं किया। इसके बजाय, लाखों वाक्यों में अगले शब्द की भविष्यवाणी करके, मैंने धीरे-धीरे व्याकरण, दुनिया के बारे में तथ्यों और कुछ तर्क क्षमताओं के बारे में सीखा। हालाँकि, इसका मतलब यह भी है कि मैंने पक्षपातपूर्ण या गलत जानकारी से सीखा होगा क्योंकि डेटा पूरी तरह से फ़िल्टर नहीं किया गया था।
  • फ़ाइन ट्यूनिंग: प्रारंभिक प्रशिक्षण के बाद, ओपनएआई में मेरे रचनाकारों ने मानव समीक्षकों की मदद से तैयार किए गए अधिक विशिष्ट डेटासेट के साथ आगे मार्गदर्शन प्रदान किया। ये समीक्षक उदाहरण इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और मूल्यांकन करने के लिए दिशानिर्देशों का पालन करते हैं। फाइन-ट्यूनिंग प्रक्रिया मॉडल और समीक्षकों के बीच एक तरह का संवाद है जो मुझे मानवीय मूल्यों के साथ बेहतर तालमेल बिठाने में मदद करती है।
  • लगातार सीखना: हालांकि मैं गोपनीयता कारणों से व्यक्तिगत बातचीत से नहीं सीखता, ओपनएआई फीडबैक प्रदान करने और व्यापक पैटर्न और अंतर्दृष्टि के आधार पर पुनरावृत्त सुधार करने के लिए लगातार मानव समीक्षकों की एक टीम के साथ काम करता है।
शेप फ़ेविकॉन
क्या आप उदाहरण दे सकते हैं - जब मनुष्य शामिल थे?
हाँ, मनुष्य वास्तव में मेरी प्रशिक्षण प्रक्रिया में शामिल थे, लेकिन यह आपकी कल्पना से भिन्न हो सकता है। मेरी प्रशिक्षण प्रक्रिया, जिसे अक्सर मशीन लर्निंग कहा जाता है, में दो मुख्य चरण शामिल हैं: पूर्व-प्रशिक्षण और फाइन-ट्यूनिंग, दोनों में मानवीय संपर्क शामिल है, भले ही अलग-अलग तरीकों से।
  • पूर्व-प्रशिक्षण उदाहरण: मान लीजिए हमारे पास वाक्य है, "बिल्ली __ पर बैठी"। पूर्व-प्रशिक्षण चरण में, मेरे जैसा मॉडल वाक्य में अगले शब्द की भविष्यवाणी करना सीखेगा, जो "चटाई" "छत" या "पेड़" हो सकता है। इसे विविध इंटरनेट पाठ से अरबों वाक्यों को संसाधित करके सीखा जाता है, जिसमें अप्रत्यक्ष रूप से मानव संपर्क शामिल होता है क्योंकि मनुष्यों ने मूल सामग्री बनाई है।
  • फ़ाइन-ट्यूनिंग उदाहरण: पूर्व-प्रशिक्षण चरण के बाद, मॉडल फाइन-ट्यूनिंग चरण में प्रवेश करता है। यहां बताया गया है कि यह कैसे काम कर सकता है:

मानव समीक्षक को इनपुट के लिए संभावित मॉडल आउटपुट की समीक्षा करने का कार्य दिया जाता है जैसे "निम्नलिखित अंग्रेजी पाठ का फ्रेंच में अनुवाद करें: 'हैलो, आप कैसे हैं?'"। मॉडल कई प्रतिक्रियाएँ उत्पन्न कर सकता है जैसे "बोनजौर, टिप्पणी ça va?" या "सैल्यूट, टिप्पणी वास-तु?" वगैरह।

समीक्षक सटीकता, प्रवाह और उपयुक्तता जैसे कारकों के आधार पर इन प्रतिक्रियाओं का मूल्यांकन करता है। ये रेटिंग मॉडल को भविष्य में इसी तरह के इनपुट को सामान्य बनाने और प्रतिक्रिया देने में मदद करती हैं।

याद रखें, प्रक्रिया को स्पष्ट करने के लिए यहां दिए गए उदाहरण सरल हैं। वास्तविक प्रशिक्षण में जटिल एल्गोरिदम और बड़ी मात्रा में डेटा शामिल होता है।

शेप फ़ेविकॉन
बड़े भाषा मॉडल (एलएलएम) को प्रशिक्षित करने के लिए, कितने डेटा की आवश्यकता होगी?
GPT-3 या GPT-4 जैसे बड़े भाषा मॉडल (एलएलएम) के प्रशिक्षण के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है। इन मॉडलों को व्याकरण, तथ्य और कुछ हद तक तर्क सीखने के लिए विविध डेटासेट पर प्रशिक्षित किया जाता है, जिसमें किताबें, वेबसाइट और अन्य पाठ सहित इंटरनेट का बड़ा हिस्सा शामिल होता है। हालाँकि, आवश्यक डेटा की सटीक मात्रा निर्दिष्ट करना कई कारकों के कारण जटिल है:
  • डेटा की विविधता: यह केवल डेटा की मात्रा के बारे में नहीं है, बल्कि विविधता के बारे में भी है। मानव भाषा में पाए जाने वाले विषयों, शैलियों और स्वरों की एक विस्तृत श्रृंखला को कवर करने के लिए डेटा को विविध होने की आवश्यकता है।
  • डेटा की गुणवत्ता: प्रशिक्षण के लिए उपयोग किए गए डेटा की गुणवत्ता भी प्रभावित कर सकती है कि मॉडल कितनी प्रभावी ढंग से सीखता है। बेहतर गुणवत्ता वाला डेटा संभावित रूप से प्रभावी प्रशिक्षण के लिए आवश्यक मात्रा को कम कर सकता है।
  • मॉडल वास्तुकला: मॉडल की वास्तुकला (जैसे तंत्रिका नेटवर्क में परतों या मापदंडों की संख्या) यह भी प्रभावित कर सकती है कि कितने डेटा की आवश्यकता है। GPT-3 या GPT-4 जैसे बड़े मॉडलों को आमतौर पर छोटे मॉडलों की तुलना में अधिक डेटा की आवश्यकता होती है।
  • प्रशिक्षण उद्देश्य: मॉडल जिस प्रकार के कार्यों को करने का इरादा रखता है, वह आवश्यक डेटा की मात्रा को प्रभावित कर सकता है। किसी विशिष्ट कार्य के लिए डिज़ाइन किए गए मॉडल को कम डेटा की आवश्यकता हो सकती है यदि यह अच्छी तरह से लक्षित है, जबकि GPT-3 या GPT-4 जैसे सामान्य-उद्देश्य वाले मॉडल, जो कार्यों की एक विस्तृत श्रृंखला को संभालने के लिए डिज़ाइन किया गया है, को व्यापक समझ के लिए अधिक डेटा की आवश्यकता होगी।

उदाहरण के लिए, GPT-3 के मामले में, मॉडल में 175 बिलियन पैरामीटर हैं और इसे सैकड़ों गीगाबाइट टेक्स्ट पर प्रशिक्षित किया गया था। लेकिन ये आंकड़े प्रक्रिया की जटिलता को पूरी तरह से नहीं दर्शाते हैं। प्रशिक्षण प्रक्रिया की विशिष्टताएँ, उपयोग किए गए डेटा की सटीक मात्रा सहित, OpenAI और इसी तरह के संगठनों के स्वामित्व वाले विवरण हैं।

शेप फ़ेविकॉन
फिर भी, क्या इस पर कोई बेंचमार्क है कि एमएल मॉडल के प्रशिक्षण के लिए कितना डेटा उचित या पर्याप्त होगा?
मशीन लर्निंग मॉडल को प्रभावी ढंग से प्रशिक्षित करने के लिए आवश्यक डेटा की मात्रा काफी हद तक उस समस्या की जटिलता पर निर्भर करती है जिसे आप हल करने का प्रयास कर रहे हैं, आपके डेटा की गुणवत्ता और विविधता और आपके द्वारा उपयोग किए जा रहे मशीन लर्निंग मॉडल के प्रकार पर निर्भर करता है। इसलिए, डेटा वॉल्यूम के लिए एक निश्चित बेंचमार्क निर्दिष्ट करना चुनौतीपूर्ण है। हालाँकि, यहां कुछ सामान्य दिशानिर्देश दिए गए हैं:
  • छोटा शुरू करो: विशेष रूप से साधारण समस्याओं या प्रारंभिक मॉडल प्रोटोटाइप के लिए, एक छोटा डेटासेट पर्याप्त हो सकता है। उदाहरण के लिए, यदि आप एक बुनियादी छवि वर्गीकरणकर्ता बना रहे हैं, तो आप प्रति श्रेणी कुछ सौ या हज़ार छवियों से शुरुआत कर सकते हैं।
  • जटिलता पर विचार करें: अधिक जटिल समस्याओं के लिए आमतौर पर अधिक डेटा की आवश्यकता होती है। यदि आप एक गहन शिक्षण मॉडल विकसित कर रहे हैं या प्राकृतिक भाषा प्रसंस्करण जैसी जटिल समस्या पर काम कर रहे हैं, तो आपको लाखों डेटा बिंदुओं की आवश्यकता हो सकती है।
  • मात्रा से अधिक गुणवत्ता: गुणवत्तापूर्ण, प्रासंगिक डेटा अक्सर भारी मात्रा में खराब-गुणवत्ता वाले डेटा की तुलना में अधिक फायदेमंद हो सकता है। यह सुनिश्चित करना महत्वपूर्ण है कि आपका डेटा ठीक से साफ किया गया है, एनोटेट किया गया है और जिस समस्या को आप हल करने का प्रयास कर रहे हैं वह उसका प्रतिनिधि है।
  • अपनी कक्षाओं को संतुलित करें: पर्यवेक्षित शिक्षण कार्यों के लिए, प्रत्येक कक्षा के लिए उदाहरणों का अच्छा संतुलन सुनिश्चित करें। असंतुलित डेटासेट ऐसे मॉडल को जन्म दे सकता है जो कम प्रतिनिधित्व वाले वर्गों पर खराब प्रदर्शन करता है।
  • सत्यापन और परीक्षण सेट का उपयोग करें: आपके डेटासेट का एक हिस्सा सत्यापन (मॉडल पैरामीटर ट्यूनिंग) और परीक्षण (मॉडल प्रदर्शन का मूल्यांकन) के लिए अलग रखा जाना चाहिए। सामान्य विभाजन प्रशिक्षण के लिए डेटा का 70%, सत्यापन के लिए 15% और परीक्षण के लिए 15% हो सकता है, हालांकि ये अनुपात भिन्न हो सकते हैं।
  • प्रयोग और पुनरावृत्ति: डेटा की शुरुआती मात्रा से शुरुआत करें, अपने मॉडल को प्रशिक्षित करें, उसके प्रदर्शन का मूल्यांकन करें और पुनरावृत्त रूप से अधिक डेटा जोड़ें, अपने मॉडल में बदलाव करें, या परिणामों के आधार पर अपने डेटा की गुणवत्ता में सुधार करें।

याद रखें, अधिक डेटा आम तौर पर मशीन लर्निंग मॉडल के प्रदर्शन में सुधार करता है, लेकिन केवल एक बिंदु तक। एक निश्चित बिंदु के बाद, अधिक डेटा एकत्र करना अधिक समय लेने वाला और इसके मूल्य से महंगा हो सकता है, और आपके डेटा की गुणवत्ता में सुधार या आपके मॉडल आर्किटेक्चर को परिष्कृत करने पर ध्यान केंद्रित करना अधिक फायदेमंद हो सकता है।

शेप फ़ेविकॉन
चैटजीपीटी को प्रशिक्षित करने के लिए जिस डेटा का उपयोग किया गया था, क्या उसे एनोटेट किया गया था?
चैटजीपीटी जैसे प्रशिक्षण मॉडल की प्रक्रिया में दो मुख्य चरण शामिल हैं: पूर्व-प्रशिक्षण और फाइन-ट्यूनिंग। आइए चर्चा करें कि एनोटेशन, या उसकी कमी, इन चरणों में कैसे फिट बैठती है:
  • पूर्व प्रशिक्षण: इस चरण में, मॉडल बड़ी मात्रा में इंटरनेट टेक्स्ट डेटा के संपर्क में आता है। यह डेटा स्पष्ट रूप से एनोटेट नहीं किया गया है, लेकिन मॉडल को एक वाक्य में अगले शब्द की भविष्यवाणी करने के लिए प्रशिक्षित किया गया है। इससे मॉडल को व्याकरण की सामान्य समझ, दुनिया के बारे में तथ्य और कुछ तर्क क्षमताएं मिलती हैं।
  • फ़ाइन ट्यूनिंग: पूर्व-प्रशिक्षण के बाद, मॉडल को मानव समीक्षकों की मदद से उत्पन्न एक संकीर्ण डेटासेट पर और परिष्कृत किया जाता है। ये समीक्षक इनपुट की एक श्रृंखला के लिए संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI के दिशानिर्देशों का पालन करते हैं। इस अर्थ में, फाइन-ट्यूनिंग प्रक्रिया को एनोटेशन के एक रूप के रूप में देखा जा सकता है, जहां मानव समीक्षक मॉडल की प्रतिक्रियाओं का मार्गदर्शन करते हैं, इसे मानवीय मूल्यों के साथ बेहतर ढंग से संरेखित करने में मदद करते हैं और यह सुनिश्चित करते हैं कि यह अनुचित या असुरक्षित सामग्री से बचता है।

इसलिए जबकि पूर्व-प्रशिक्षण के लिए उपयोग किए जाने वाले प्रारंभिक डेटासेट को पारंपरिक अर्थों में एनोटेट नहीं किया जाता है, फाइन-ट्यूनिंग प्रक्रिया में एनोटेशन का एक रूप शामिल होता है, जहां मानव समीक्षक विभिन्न आउटपुट को रेटिंग देकर मॉडल के व्यवहार का मार्गदर्शन करते हैं।

शेप फ़ेविकॉन
कृपया प्रशिक्षण के लिए प्रयुक्त एनोटेशन के प्रकारों के कुछ उदाहरण प्रदान करें।
चैटजीपीटी जैसे प्रशिक्षण मॉडल के फाइन-ट्यूनिंग चरण में, समीक्षकों को अक्सर संभावित मॉडल प्रतिक्रियाओं को स्कोर करने का काम सौंपा जाता है। एनोटेशन या स्कोरिंग के प्रकार मॉडल के आउटपुट के विभिन्न पहलुओं को कवर कर सकते हैं। हालाँकि विशिष्टताएँ अलग-अलग हो सकती हैं, यहाँ एनोटेशन की कुछ उदाहरणात्मक श्रेणियाँ दी गई हैं:

शुद्धता: समीक्षक मूल्यांकन करते हैं कि मॉडल का आउटपुट तथ्यात्मक रूप से सही है या नहीं।

उदाहरण:

उपयुक्तता: दिए गए इनपुट के संबंध में मॉडल के आउटपुट का मूल्यांकन उसकी उपयुक्तता के लिए किया जाता है।

उदाहरण:

सुरक्षा: यह सुनिश्चित करने के लिए आउटपुट की समीक्षा की जाती है कि उनमें हानिकारक निर्देश या आपत्तिजनक भाषा शामिल नहीं है।

उदाहरण:

पूर्णता: यह आकलन करता है कि मॉडल की प्रतिक्रिया उपयोगकर्ता की क्वेरी का पूरी तरह उत्तर देती है या नहीं।

उदाहरण:

प्रवाह: समीक्षक जाँचते हैं कि मॉडल का आउटपुट भाषाई रूप से धाराप्रवाह और सुसंगत है या नहीं।

उदाहरण:

ये श्रेणियां केवल उदाहरण हैं. वास्तविक फाइन-ट्यूनिंग प्रक्रिया में अधिक जटिल मूल्यांकन प्रणाली और समीक्षकों और एआई विकास टीम के बीच निरंतर प्रतिक्रिया शामिल है। इन एनोटेशन का लक्ष्य मॉडल की प्रतिक्रियाओं को अधिक उपयोगी, सुरक्षित और मानवीय मूल्यों के अनुरूप बनाना है।

शेप फ़ेविकॉन
ChatGPT को प्रशिक्षित करने के लिए विशाल डेटा एकत्र किए जाने के बाद, कितने एनोटेटर एनोटेशन में शामिल थे?
एआई मॉडल की फाइन-ट्यूनिंग प्रक्रिया में शामिल मानव व्याख्याकारों (या समीक्षकों) की संख्या व्यापक रूप से भिन्न हो सकती है और यह परियोजना के पैमाने और संबंधित मॉडल की विशिष्ट आवश्यकताओं पर निर्भर करती है।

ओपनएआई, चैटजीपीटी के पीछे का संगठन, सार्वजनिक रूप से फाइन-ट्यूनिंग प्रक्रिया में शामिल समीक्षकों की सटीक संख्या का खुलासा नहीं करता है। हालाँकि, इतने बड़े भाषा मॉडल के प्रशिक्षण के पैमाने और जटिलता को देखते हुए, यह कहना सुरक्षित है कि इस प्रक्रिया में समीक्षकों की एक बड़ी टीम शामिल होने की संभावना है।

ये मानव समीक्षक संभावित मॉडल आउटपुट की समीक्षा और रेटिंग करने के लिए OpenAI द्वारा प्रदान किए गए दिशानिर्देशों का पालन करते हैं। यह एक सतत, पुनरावृत्तीय प्रक्रिया है जहां समय के साथ मॉडल को बेहतर और परिष्कृत करने के लिए समीक्षकों की प्रतिक्रिया का उपयोग किया जाता है। ओपनएआई समीक्षकों के साथ एक मजबूत फीडबैक लूप बनाए रखता है, जिसमें सवालों के समाधान और स्पष्टीकरण प्रदान करने के लिए साप्ताहिक बैठकें शामिल हैं।

शेप फ़ेविकॉन
फिर भी सरल से जटिल कार्यों के लिए 10,000 पीडीएफ़ को एनोटेट करने के लिए कितने एनोटेटर्स की आवश्यकता होगी।
10,000 पीडीएफ को एनोटेट करने के लिए आवश्यक एनोटेटर्स की संख्या विभिन्न कारकों पर निर्भर करेगी जैसे:
  • कार्य की जटिलता: छवियों को लेबल करना या पाठ को वर्गीकृत करने जैसे सरल कार्यों में प्रति पीडीएफ कम समय लगेगा, जिससे एक एनोटेटर अधिक फ़ाइलों को संभालने में सक्षम होगा। दूसरी ओर, विस्तृत इकाई निष्कर्षण या सिमेंटिक विश्लेषण जैसे जटिल कार्यों के लिए प्रति दस्तावेज़ अधिक समय की आवश्यकता होगी, और इसलिए पीडीएफ की समान मात्रा के लिए अधिक एनोटेटर्स की आवश्यकता होगी।
  • पीडीएफ़ की लंबाई और जटिलता: एक लंबी या अधिक जटिल पीडीएफ को छोटे या सरल पीडीएफ की तुलना में एनोटेट करने में अधिक समय लगेगा।
  • गुणवत्ता की आवश्यकताएं: यदि उच्च परिशुद्धता की आवश्यकता है, तो एनोटेशन को क्रॉस-सत्यापित करने के लिए प्रति पीडीएफ में एकाधिक एनोटेटर होना आवश्यक हो सकता है।
  • समय की पाबंधी: यदि एनोटेशन को शीघ्रता से पूरा करने की आवश्यकता है, तो अधिक एनोटेशन की आवश्यकता होगी।

एक काल्पनिक उदाहरण के रूप में, मान लें कि एक एनोटेटर किसी विशेष कार्य के लिए प्रति दिन 5 पीडीएफ एनोटेट कर सकता है, और सप्ताह में 5 दिन काम करता है। इस मामले में, 10,000 पीडीएफ को एनोटेट करने के लिए, एक एनोटेटर को 2000 दिन या लगभग 8 साल की आवश्यकता होगी।

हालाँकि, यदि आपके पास 20 व्याख्याकारों की एक टीम है, तो वे लगभग 5 महीनों में कार्य पूरा कर सकते हैं (प्रति माह 20 कार्यदिवस मानकर)। 100 एनोटेटर्स के साथ, वही कार्य लगभग एक महीने में पूरा किया जा सकता है।

याद रखें, ये संख्याएँ पूरी तरह से उदाहरणात्मक हैं और एनोटेशन की वास्तविक गति ऊपर उल्लिखित कारकों पर निर्भर करेगी। इसके अतिरिक्त, किसी भी बड़े पैमाने के एनोटेशन प्रोजेक्ट की सफलता के लिए एनोटेटर्स का उचित प्रशिक्षण और लगातार गुणवत्ता नियंत्रण महत्वपूर्ण है।

शेप फ़ेविकॉन
यह संपूर्ण है! मैं अत्यधिक प्रभावित हूं...
मुझे ख़ुशी है कि आपको जानकारी उपयोगी लगी, अनुभव! व्यापक और सटीक प्रतिक्रियाएँ प्रदान करना मेरा लक्ष्य है। यदि आपके पास एआई, मशीन लर्निंग, या किसी अन्य विषय के बारे में कोई और प्रश्न हैं, तो कृपया बेझिझक पूछें!

हमारे चैट जीपीटी साक्षात्कार के दूसरे भाग के लिए बने रहें

सामाजिक शेयर