परिभाषा
मानव प्रतिक्रिया से सुदृढीकरण सीखना (RLHF), प्रशिक्षण प्रक्रिया में मानवीय निर्णयों को शामिल करके AI मॉडलों को मानवीय मूल्यों के साथ संरेखित करने की एक विधि है। इसका उपयोग अक्सर बड़े भाषा मॉडलों को परिष्कृत करने के लिए किया जाता है।
उद्देश्य
इसका उद्देश्य एआई आउटपुट को अधिक सुरक्षित, अधिक उपयोगी और मानवीय प्राथमिकताओं के अनुरूप बनाना है। आरएलएचएफ हानिकारक, पक्षपातपूर्ण या अप्रासंगिक प्रतिक्रियाओं को कम करके संवादात्मक प्रणालियों में सुधार करता है।
महत्व
- एआई प्रशिक्षण में मानवीय निगरानी प्रदान करता है।
- एआई प्रणालियों की विश्वसनीयता में सुधार करता है।
- मानवीय एनोटेशन आवश्यकताओं के कारण श्रम-गहन।
- वरीयता मॉडलिंग और संरेखण अनुसंधान से संबंधित।
यह कैसे काम करता है:
- मॉडल आउटपुट की तुलना करके मानवीय फीडबैक एकत्रित करें।
- मानवीय प्राथमिकताओं पर आधारित पुरस्कार मॉडल को प्रशिक्षित करें।
- आधार मॉडल को बेहतर बनाने के लिए सुदृढीकरण सीखने का उपयोग करें।
- संरेखण लक्ष्यों के विरुद्ध प्रदर्शन का मूल्यांकन करें।
- अतिरिक्त फीडबैक के साथ पुनरावृत्ति करें।
उदाहरण (वास्तविक दुनिया)
- ओपनएआई चैटजीपीटी: सुरक्षित प्रतिक्रियाओं के लिए आरएलएचएफ के साथ परिष्कृत।
- एंथ्रोपिक का संवैधानिक एआई: प्रत्यक्ष प्रतिक्रिया के बजाय सिद्धांतों द्वारा निर्देशित।
- InstructGPT: आरएलएचएफ का प्रदर्शन करने वाला प्रारंभिक ओपनएआई मॉडल।
संदर्भ / आगे पढ़ने के लिए
- क्रिस्टियानो एट अल. “मानव प्राथमिकताओं से गहन सुदृढीकरण सीखना।” न्यूरआईपीएस 2017.
- ओपनएआई इंस्ट्रक्टजीपीटी पेपर.
- एनआईएसटी एआई जोखिम प्रबंधन ढांचा।
- मानव प्रतिक्रिया के साथ सुदृढीकरण सीखना (आरएलएचएफ) क्या है?