परिभाषा
एआई डेटा संग्रह, कच्चे डेटा—टेक्स्ट, ऑडियो, चित्र, वीडियो या संरचित रिकॉर्ड—को इकट्ठा करने की प्रक्रिया है जिसका उपयोग मशीन लर्निंग मॉडल्स को प्रशिक्षित, सत्यापित और परीक्षण करने के लिए किया जाता है। यह सुनिश्चित करता है कि मॉडल्स में वास्तविक दुनिया की समस्याओं के प्रतिनिधि उदाहरण मौजूद हों।
उद्देश्य
इसका उद्देश्य ऐसे डेटासेट तैयार करना है जो एल्गोरिदम को पैटर्न को प्रभावी ढंग से सीखने में सक्षम बनाएँ। विश्वसनीय डेटा संग्रह पूर्वाग्रह को कम करता है और विभिन्न वातावरणों और आबादियों में मॉडल की सटीकता में सुधार करता है।
महत्व
- एकत्रित आंकड़ों की गुणवत्ता सीधे मॉडल परिणामों को प्रभावित करती है।
- खराब संग्रहण के कारण पक्षपातपूर्ण या अनुपयोगी मॉडल उत्पन्न हो सकते हैं।
- विविध स्रोत सामान्यीकरण को बेहतर बनाते हैं और अनुचितता को कम करते हैं।
- नैतिक और कानूनी मानकों (जैसे, GDPR, HIPAA) का पालन करना होगा।
यह कैसे काम करता है:
- परियोजना लक्ष्यों के आधार पर आवश्यक डेटा के प्रकार को परिभाषित करें।
- स्रोतों (सेंसर, एपीआई, सर्वेक्षण, रिकॉर्डिंग, आदि) की पहचान करें।
- उचित सहमति और गोपनीयता सुरक्षा के साथ डेटा एकत्र करें।
- ट्रेसेबिलिटी और संदर्भ के लिए डेटा को मेटाडेटा के साथ संग्रहित करें।
- बाद में एनोटेशन, सफाई या प्रशिक्षण के लिए डेटा तैयार करें।
उदाहरण (वास्तविक दुनिया)
- इमेजनेट: कंप्यूटर विज़न अनुसंधान के लिए बड़े पैमाने पर छवि डेटासेट।
- गूगल स्ट्रीट व्यू: मानचित्रों और दृश्य एआई के लिए एकत्रित डेटा।
- मोज़िला कॉमन वॉइस: एएसआर के लिए भाषण रिकॉर्डिंग का खुला डेटासेट।
संदर्भ / आगे पढ़ने के लिए
- डेटासेट के लिए डेटाशीट - गेब्रु एट अल., ACM FAccT.
- एआई सिस्टम के लिए डेटा तैयारी - एनआईएसटी.
- आईएसओ/आईईसी टीआर 20547-5: बिग डेटा रेफरेंस आर्किटेक्चर - आईएसओ.