परिभाषा
ऑफ-द-शेल्फ डेटासेट पूर्व-एकत्रित और सार्वजनिक या व्यावसायिक रूप से उपलब्ध डेटासेट हैं जिनका उपयोग सीधे एआई मॉडल के प्रशिक्षण या मूल्यांकन के लिए किया जा सकता है।
उद्देश्य
इसका उद्देश्य महंगे संग्रहण के बिना आसानी से उपलब्ध डेटा उपलब्ध कराकर अनुसंधान और विकास में तेजी लाना है।
महत्व
- एआई टीमों के लिए समय और संसाधन बचाता है।
- पुनरुत्पादन और बेंचमार्किंग को सक्षम बनाता है।
- कुछ कार्यों के लिए डोमेन विशिष्टता का अभाव हो सकता है।
- पूर्वाग्रह और लाइसेंस संबंधी बाधाओं की जांच की आवश्यकता है।
यह कैसे काम करता है:
- AI कार्य के लिए प्रासंगिक डेटासेट की पहचान करें।
- लाइसेंसिंग और उपयोग प्रतिबंधों की समीक्षा करें.
- डेटासेट डाउनलोड करें या खरीदें.
- अनुकूलता के लिए आवश्यकतानुसार पूर्वप्रक्रिया करें।
- डेटासेट का उपयोग करके मॉडलों को प्रशिक्षित या मूल्यांकन करें।
उदाहरण (वास्तविक दुनिया)
- एमएनआईएसटी: बेंचमार्किंग के लिए हस्तलिखित अंक डेटासेट।
- इमेजनेट: कंप्यूटर विज़न के लिए बड़े पैमाने का डेटासेट।
- कॉमन क्रॉल: एनएलपी के लिए खुला वेब टेक्स्ट डेटासेट।