Computer Vision

आपके प्रोजेक्ट को बढ़ावा देने के लिए कंप्यूटर विज़न के लिए 31 निःशुल्क छवि डेटासेट [2025 अपडेट]

एक एआई एल्गोरिदम केवल उतना ही अच्छा है जितना डेटा आप इसे खिलाते हैं।

यह न तो साहसिक है और न ही अपरंपरागत बयान। एआई कुछ दशक पहले दूर की कौड़ी लग सकता था, लेकिन तब से आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग ने वास्तव में एक लंबा सफर तय किया है।

कंप्यूटर विज़न कंप्यूटर को लेबल और छवियों को समझने और व्याख्या करने में मदद करता है। जब आप सही तरह के इमेज डेटासेट का उपयोग करके अपने कंप्यूटर को प्रशिक्षित करते हैं, तो यह विभिन्न चेहरे की विशेषताओं का पता लगाने, समझने और पहचानने, बीमारियों का पता लगाने, स्वायत्त वाहन चलाने और बहुआयामी अंग स्कैनिंग का उपयोग करके जीवन बचाने की क्षमता प्राप्त कर सकता है।

कंप्यूटर विजन मार्केट तक पहुंचने की उम्मीद है 144.46 तक $ 2028 बिलियन एक मामूली से 7.04 में $2020 बिलियन, एक से बढ़ रहा है 45.64 और 2021 के बीच 2028% की सीएजीआर।

आप जिस इमेज डेटासेट को फीड कर रहे हैं और अपने मशीन लर्निंग और कंप्यूटर विज़न कार्यों को प्रशिक्षित कर रहे हैं, वह आपके AI प्रोजेक्ट की सफलता के लिए महत्वपूर्ण है। एक गुणवत्तापूर्ण डेटासेट प्राप्त करना काफी कठिन है। मजबूत मॉडल प्रशिक्षण सुनिश्चित करने और वास्तविक दुनिया की जटिलता को बेहतर ढंग से दर्शाने के लिए छवियों के विविध संग्रह का उपयोग करना आवश्यक है।

आपकी परियोजना की जटिलता के आधार पर, कंप्यूटर विज़न उद्देश्यों के लिए विश्वसनीय और प्रासंगिक डेटासेट प्राप्त करने में कुछ दिनों से लेकर कुछ सप्ताह तक का समय लग सकता है। विभिन्न कंप्यूटर विज़न कार्यों और वास्तविक दुनिया के परिदृश्यों को कवर करने के लिए डेटासेट की एक विविध श्रेणी आवश्यक है। शोधकर्ता अक्सर व्यापक मॉडल मूल्यांकन सुनिश्चित करने और अनुप्रयोगों की एक विस्तृत श्रृंखला का समर्थन करने के लिए अनुसंधान उद्देश्यों के लिए पर्याप्त डेटासेट की तलाश करते हैं।

यहां, हम आपको ओपन-सोर्स इमेज डेटासेट की एक श्रृंखला (आपकी आसानी के लिए वर्गीकृत) प्रदान करते हैं, जिसका आप तुरंत उपयोग कर सकते हैं।

छवि डेटासेट कार्य: वर्गीकरण, विभाजन, पता लगाना, और अधिक

छवि डेटासेट आधुनिक कंप्यूटर विज़न की रीढ़ हैं, जो कई तरह के कार्यों को शक्ति प्रदान करते हैं जो मशीनों को दृश्य जानकारी की व्याख्या करने और समझने में सक्षम बनाते हैं। चाहे आप स्वायत्त वाहनों के लिए मॉडल बना रहे हों, चेहरे की पहचान तकनीक विकसित कर रहे हों, या चिकित्सा छवि विश्लेषण पर काम कर रहे हों, सही छवि डेटासेट सफलता के लिए एक आवश्यक उपकरण है।

छवि वर्गीकरण यह सबसे बुनियादी कंप्यूटर विज़न कार्यों में से एक है। इस प्रक्रिया में, एक मॉडल अपनी सामग्री के आधार पर एक संपूर्ण छवि को एक लेबल असाइन करना सीखता है। उदाहरण के लिए, एक छवि वर्गीकरण डेटासेट एक मॉडल को बिल्लियों और कुत्तों की छवियों के बीच अंतर करने या विभिन्न प्रकार के पौधों की पहचान करने में मदद कर सकता है। यह कार्य स्वचालित फोटो टैगिंग, चिकित्सा छवियों से रोग निदान और दृश्य वर्गीकरण बेंचमार्क जैसे अनुप्रयोगों के लिए महत्वपूर्ण है।

वस्तु का पता लगाना यह न केवल छवि में वस्तुओं की उपस्थिति की पहचान करके बल्कि बाउंडिंग बॉक्स का उपयोग करके उनके स्थानों को भी इंगित करके चीजों को एक कदम आगे ले जाता है। ऑब्जेक्ट डिटेक्शन के लिए डेटासेट, जैसे कि बाउंडिंग बॉक्स के साथ एनोटेट की गई छवियां, स्वायत्त वाहनों में पैदल यात्री पहचान, सुरक्षा निगरानी और खुदरा विश्लेषण जैसे अनुप्रयोगों के लिए महत्वपूर्ण हैं। वास्तविक दुनिया के परिदृश्यों के लिए मजबूत कंप्यूटर विज़न एल्गोरिदम विकसित करने में ऑब्जेक्ट डिटेक्शन भी एक महत्वपूर्ण घटक है।

शब्दार्थ विभाजन इसमें छवि में प्रत्येक पिक्सेल को एक विशिष्ट श्रेणी में वर्गीकृत करना शामिल है, जिससे दृश्य की विस्तृत समझ मिलती है। यह पिक्सेल-स्तरीय ट्रिमैप विभाजन विशेष रूप से चिकित्सा इमेजिंग जैसे कार्यों में महत्वपूर्ण है, जहाँ अंगों या ट्यूमर का सटीक चित्रण आवश्यक है, और स्वायत्त ड्राइविंग के लिए शहरी वातावरण में, जहाँ सड़कों, फुटपाथों और वाहनों के बीच अंतर करना महत्वपूर्ण है।

इन मुख्य कार्यों के अलावा, इमेज डेटासेट इंस्टेंस सेगमेंटेशन (एक ही वर्ग की अलग-अलग वस्तुओं के बीच अंतर करना), इमेज कैप्शनिंग (इमेज के लिए वर्णनात्मक टेक्स्ट बनाना) और फेशियल रिकग्निशन (इमेज में मानवीय चेहरों की पहचान करना या उन्हें सत्यापित करना) का भी समर्थन करते हैं। इनमें से प्रत्येक कंप्यूटर विज़न कार्य मशीन लर्निंग मॉडल को प्रशिक्षित करने और मान्य करने के लिए उच्च-गुणवत्ता वाली, एनोटेट की गई छवियों पर निर्भर करता है।

विविध और अच्छी तरह से एनोटेट किए गए इमेज डेटासेट का लाभ उठाकर, डेटा वैज्ञानिक और मशीन लर्निंग व्यवसायी इमेज पहचान और वर्गीकरण कार्यों से लेकर जटिल विभाजन और पहचान समस्याओं तक, विभिन्न प्रकार की कंप्यूटर विज़न चुनौतियों से निपट सकते हैं। सही डेटासेट न केवल अनुसंधान और विकास को गति देता है बल्कि यह भी सुनिश्चित करता है कि कंप्यूटर विज़न सिस्टम वास्तविक दुनिया के अनुप्रयोगों में सटीक रूप से प्रदर्शन करें।

आपके कंप्यूटर विज़न मॉडल को प्रशिक्षित करने के लिए छवि डेटासेट की व्यापक सूची

सामान्य:

  1. IMAGEnet

    ImageNet एक व्यापक रूप से उपयोग किया जाने वाला डेटासेट है, और यह 1.2 श्रेणियों में वर्गीकृत 1000 मिलियन छवियों के साथ आता है। यह डेटासेट वर्ल्डनेट पदानुक्रम के अनुसार आयोजित किया जाता है और तीन भागों में वर्गीकृत किया जाता है - प्रशिक्षण डेटा, छवि लेबल और सत्यापन डेटा।

  2. काइनेटिक्स 700

    काइनेटिक्स 700 एक विशाल उच्च-गुणवत्ता वाला डेटासेट है जिसमें 650,000 विभिन्न मानव क्रिया वर्गों के 700 से अधिक क्लिप हैं। प्रत्येक क्लास एक्शन में लगभग 700 वीडियो क्लिप हैं। डेटासेट में क्लिप में मानव-वस्तु और मानव-मानव परस्पर क्रियाएं हैं, जो वीडियो में मानवीय क्रियाओं को पहचानने में काफी मददगार साबित हो रही हैं।

  3. सीआईएफएआर-10

    CIFAR 10 दस विभिन्न वर्गों का प्रतिनिधित्व करने वाली 60000 32 x 32 रंगीन छवियों का दावा करने वाले सबसे बड़े कंप्यूटर-विज़न डेटासेट में से एक है। प्रत्येक कक्षा में लगभग 6000 चित्र हैं जिनका उपयोग कंप्यूटर विज़न एल्गोरिदम और मशीन लर्निंग को प्रशिक्षित करने के लिए किया जाता है।

  4. ऑक्सफोर्ड-आईआईआईटी पालतू जानवरों की छवियों का डेटासेट

    पालतू जानवरों की छवि डेटासेट में 37 श्रेणियां हैं, जिनमें प्रत्येक वर्ग में 200 छवियां हैं। ये छवियां पैमाने, मुद्रा और प्रकाश व्यवस्था में भिन्न हैं, और नस्ल, सिर ROI और पिक्सेल-स्तरीय ट्रिमैप विभाजन के लिए एनोटेशन के साथ हैं।

  5. Google की खुली छवियां

    9 मिलियन प्रभावशाली यूआरएल के साथ, यह सूची में सबसे बड़े छवि डेटासेटों में से एक है, जिसमें 6,000 श्रेणियों में लेबल की गई लाखों छवियां शामिल हैं।

  6. पौधों की छवियाँ

    इस संकलन में कई छवि डेटासेट शामिल हैं, जिनमें लगभग 1 प्रजातियों के पौधों की 11 मिलियन प्रभावशाली छवियां शामिल हैं।

  7. एलएसयूएन

    LSUN एक बड़े पैमाने का इमेज डेटासेट है जिसमें विभिन्न दृश्य और ऑब्जेक्ट श्रेणियों में लाखों लेबल वाली छवियां हैं। डेटासेट में मॉडल मूल्यांकन के लिए एक समर्पित परीक्षण सेट शामिल है।

चेहरे की पहचान:

चेहरे की पहचान

  1. जंगल में लेबल वाले चेहरे

    वाइल्ड में लेबल किया गया एक विशाल डेटासेट है जिसमें इंटरनेट से पता चला लगभग 13,230 लोगों की 5,750 से अधिक छवियां हैं। चेहरों के इस डेटासेट को अबाधित चेहरा पहचान का अध्ययन करना आसान बनाने के लिए डिज़ाइन किया गया है।

  2. कैसिया वेबफेस

    CASIA वेब फेस एक अच्छी तरह से डिज़ाइन किया गया डेटासेट है जो बिना किसी बाधा के चेहरे की पहचान पर मशीन लर्निंग और वैज्ञानिक शोध में मदद करता है। लगभग 494,000 वास्तविक पहचान की 10,000 से अधिक छवियों के साथ, यह चेहरे की पहचान और सत्यापन कार्यों के लिए आदर्श है।

  3. यूएमडी फेस डेटासेट

    UMD एक अच्छी तरह से एनोटेट किए गए डेटासेट का सामना करता है जिसमें दो भाग होते हैं - स्थिर चित्र और वीडियो फ़्रेम। डेटासेट में 367,800 से अधिक फेस एनोटेशन और विषयों के 3.7 मिलियन एनोटेट वीडियो फ्रेम हैं।

  4. फेस मास्क का पता लगाना

    इस डेटासेट में 853 छवियां शामिल हैं जिन्हें तीन श्रेणियों में वर्गीकृत किया गया है: "मास्क के साथ", "मास्क के बिना" और "गलत तरीके से पहना गया मास्क", साथ ही PASCAL VOC प्रारूप में उनके बाउंडिंग बॉक्स भी शामिल हैं।

  5. फेरेट

    FERET (फेशियल रिकॉग्निशन टेक्नोलॉजी डेटाबेस) एक व्यापक छवि डेटासेट है जिसमें मानव चेहरों की 14,000 से अधिक एनोटेट छवियां शामिल हैं।

हस्तलिपि अभिज्ञान:

  1. एमएनआईएसटी डेटाबेस

    MNIST एक डेटाबेस है जिसमें 0 से 9 तक हस्तलिखित अंकों के नमूने हैं, और इसमें 60,000 और 10,000 प्रशिक्षण और परीक्षण चित्र हैं। 1999 में जारी, MNIST ने डीप लर्निंग में इमेज प्रोसेसिंग सिस्टम का परीक्षण करना आसान बना दिया है।

  2. कृत्रिम वर्ण डेटासेट

    कृत्रिम वर्ण डेटासेट, जैसा कि नाम से पता चलता है, कृत्रिम रूप से उत्पन्न डेटा है जो दस बड़े अक्षरों में अंग्रेजी भाषा की संरचना का वर्णन करता है। यह 6000 से अधिक छवियों के साथ आता है।

वस्तु का पता लगाना:

  1. एमएस कोको

    MS COCO या कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट एक ऑब्जेक्ट डिटेक्शन और कैप्शनिंग डेटासेट है।

    इसमें कीपॉइंट डिटेक्शन, मल्टी-ऑब्जेक्ट डिटेक्शन, कैप्शनिंग और सेगमेंटेशन मास्क एनोटेशन के साथ 328,000 से अधिक छवियां हैं। यह 80 वस्तु श्रेणियों और प्रति छवि पांच कैप्शन के साथ आता है।

  2. एलएसयूएन

    एलएसयूएन, लार्ज-स्केल सीन अंडरस्टैंडिंग के लिए छोटा है, जिसमें 20 ऑब्जेक्ट और 10 दृश्य श्रेणियों में एक लाख से अधिक लेबल वाली छवियां हैं। कुछ श्रेणियों में करीब 300,000 छवियां हैं, जिनमें 300 छवियां विशेष रूप से सत्यापन के लिए और 1000 छवियां परीक्षण डेटा के लिए हैं।

  3. होम ऑब्जेक्ट्स

    होम ऑब्जेक्ट्स डेटासेट में घर के आस-पास यादृच्छिक वस्तुओं की एनोटेट छवियां होती हैं - रसोईघर, रहने का कमरा और बाथरूम। इस डेटासेट में कुछ एनोटेट वीडियो और परीक्षण के लिए डिज़ाइन किए गए 398 अननोटेट फोटो भी हैं।

  4. दृश्य जीनोम

    विज़ुअल जीनोम एक व्यापक विज़ुअल नॉलेज बेस है जिसमें 108,000 से ज़्यादा कैप्शन वाली इमेज हैं। यह ऑब्जेक्ट, विशेषताओं और संबंधों के लिए व्यापक एनोटेशन प्रदान करता है, जो इसे ऑब्जेक्ट पहचान, इमेज कैप्शनिंग और मल्टीमॉडल लर्निंग कार्यों के लिए उपयोगी बनाता है।

मोटर वाहन:

  1. सिटीस्केप डेटासेट

    सिटीस्केप वह डेटासेट है जिस पर जाने के लिए कई साइट्स के सड़क दृश्यों से रिकॉर्ड किए गए विभिन्न वीडियो अनुक्रमों की तलाश की जाती है। इन छवियों को लंबे समय तक और अलग-अलग मौसम और प्रकाश स्थितियों में लिया गया था। एनोटेशन 30 वर्गों की छवियों के लिए हैं जिन्हें आठ अलग-अलग श्रेणियों में विभाजित किया गया है।

  2. बार्कले डीप ड्राइव

    बार्कले डीपड्राइव विशेष रूप से स्वायत्त वाहन प्रशिक्षण के लिए डिज़ाइन किया गया है, और इसमें 100 हजार से अधिक एनोटेट वीडियो अनुक्रम हैं। यह बदलती सड़क और ड्राइविंग परिस्थितियों में स्वायत्त वाहनों के लिए सबसे उपयोगी प्रशिक्षण डेटा में से एक है।

  3. मेपिलरी

    मैपिलरी के दुनिया भर में 750 मिलियन से अधिक सड़क दृश्य और यातायात संकेत हैं, जो मशीन सीखने और एआई एल्गोरिदम में दृश्य धारणा मॉडल को प्रशिक्षित करने में बहुत उपयोगी है। यह आपको स्वायत्त वाहन विकसित करने की अनुमति देता है जो विभिन्न प्रकाश व्यवस्था और मौसम की स्थिति और दृष्टिकोण को पूरा करता है।

चिकित्सीय इमेजिंग:

  1. कोविड-19 ओपन रिसर्च डेटासेट

    इस मूल डेटासेट में AP/PA छाती के एक्स-रे के बारे में लगभग 6500 पिक्सेल-बहुभुज फेफड़े के विभाजन हैं। इसके अतिरिक्त, नाम, स्थान, प्रवेश विवरण, परिणाम, और अधिक वाले टैग के साथ कोविड-517 रोगी एक्स-रे की 19 छवियां उपलब्ध हैं।

  2. 100,000 चेस्ट एक्स-रे का एनआईएच डाटाबेस

    NIH डेटाबेस सार्वजनिक रूप से उपलब्ध सबसे व्यापक डेटासेट में से एक है जिसमें 100,000 चेस्ट एक्स-रे इमेज और संबंधित डेटा वैज्ञानिक और अनुसंधान समुदाय के लिए उपयोगी है। इसमें उन्नत फेफड़े की स्थिति वाले रोगियों की छवियां भी हैं।

  3. डिजिटल पैथोलॉजी का एटलस

    डिजिटल पैथोलॉजी का एटलस कई हिस्टोपैथोलॉजिकल पैच छवियां प्रदान करता है, कुल मिलाकर 17,000 से अधिक, विभिन्न अंगों की लगभग 100 एनोटेट स्लाइड्स से। यह डेटासेट कंप्यूटर विज़न और पैटर्न रिकग्निशन सॉफ़्टवेयर विकसित करने में उपयोगी है।

दृश्य पहचान:

दृश्य पहचान

  1. इनडोर दृश्य पहचान

    इंडोर सीन रिकॉग्निशन एक उच्च श्रेणी का डेटासेट है जिसमें मशीन लर्निंग और डेटा ट्रेनिंग में इस्तेमाल होने वाली वस्तुओं और इनडोर दृश्यों की लगभग 15620 छवियां हैं। यह 65 से अधिक श्रेणियों के साथ आता है, और प्रत्येक श्रेणी में न्यूनतम 100 चित्र हैं।

  2. xदृश्य

    सबसे प्रसिद्ध सार्वजनिक रूप से उपलब्ध डेटासेट में से एक के रूप में, xView में विभिन्न जटिल और बड़े दृश्यों से एनोटेटेड ओवरहेड इमेजरी शामिल है। लगभग 60 वर्ग और एक मिलियन से अधिक ऑब्जेक्ट इंस्टेंसेस होने के कारण, इस डेटासेट का उद्देश्य उपग्रह इमेजरी का उपयोग करके बेहतर आपदा राहत प्रदान करना है।

  3. गंतव्य

    स्थान, एमआईटी द्वारा योगदान किए गए डेटासेट में 1.8 विभिन्न दृश्य श्रेणियों से 365 मिलियन से अधिक चित्र हैं। इनमें से प्रत्येक श्रेणी में सत्यापन के लिए लगभग 50 छवियां और परीक्षण के लिए 900 छवियां हैं। दृश्य पहचान या दृश्य पहचान कार्यों को स्थापित करने के लिए गहरे दृश्य सुविधाओं को सीखना संभव है।

  4. सन डाटाबेस

    SUN डेटाबेस एक व्यापक दृश्य वर्गीकरण बेंचमार्क है जिसका व्यापक रूप से कंप्यूटर विज़न में उपयोग किया जाता है। इसमें इनडोर और आउटडोर वातावरण की एक विस्तृत श्रृंखला में फैली हजारों छवियां शामिल हैं, जिनमें प्रत्येक दृश्य के लिए विस्तृत एनोटेशन हैं। SUN डेटाबेस को विभिन्न दृश्यों के कवरेज के लिए जाना जाता है और यह दृश्य समझ एल्गोरिदम के मूल्यांकन के लिए एक मानक संदर्भ के रूप में कार्य करता है।

मनोरंजन:

  1. आईएमडीबी विकी डेटासेट

    आईएमडीबी - विकी उम्र, लिंग और नामों के साथ पर्याप्त रूप से लेबल किए गए चेहरों के सबसे लोकप्रिय सार्वजनिक डेटाबेसों में से एक है। इसमें सेलेब्रिटीज के करीब 20 हजार चेहरे और विकीपीडिया के 62 हजार चेहरे भी हैं।

  2. सेलेब चेहरे

    सेलेब फ़ेस एक बड़े पैमाने का डेटाबेस है जिसमें मशहूर हस्तियों की 200,000 एनोटेट छवियां हैं। छवियां पृष्ठभूमि शोर और मुद्रा विविधताओं के साथ आती हैं, जो उन्हें कंप्यूटर दृष्टि कार्यों में प्रशिक्षण परीक्षण सेट के लिए मूल्यवान बनाती हैं। यह चेहरे की पहचान, संपादन, चेहरे के अंगों के स्थानीयकरण आदि में उच्च सटीकता प्राप्त करने के लिए बेहद फायदेमंद है।

  3. YouTube-8M डेटासेट

    YouTube-8M एक बड़े पैमाने पर लेबल वाला वीडियो डेटासेट है जिसमें लाखों YouTube वीडियो आईडी शामिल हैं, जिनमें विज़ुअल इकाइयों के उच्च-गुणवत्ता वाले मशीन-जनरेटेड एनोटेशन हैं। इस डेटासेट का इस्तेमाल बड़े पैमाने पर वीडियो समझने और विज़न एल्गोरिदम को प्रशिक्षित करने के लिए व्यापक रूप से किया जाता है, क्योंकि यह YouTube वीडियो आईडी के माध्यम से वीडियो सामग्री को मेटाडेटा से जोड़ता है, जिससे वीडियो डेटा का स्केलेबल संग्रह और एनोटेशन संभव होता है।

अब जब आपके पास अपनी आर्टिफिशियल इंटेलिजेंस मशीनरी को ईंधन देने के लिए ओपन-सोर्स इमेज डेटासेट की एक विशाल सूची है। आपके AI और मशीन लर्निंग मॉडल का परिणाम मुख्य रूप से आपके द्वारा फीड किए गए और उन्हें प्रशिक्षित किए जाने वाले डेटासेट की गुणवत्ता पर निर्भर करता है। यदि आप चाहते हैं कि आपका AI मॉडल सटीक भविष्यवाणियाँ करे, तो उसे गुणवत्ता वाले डेटासेट की आवश्यकता होती है जो पूर्णता के लिए एकत्रित, टैग और लेबल किए गए हों। इन डेटासेट के साथ काम करना व्यावहारिक, वास्तविक दुनिया की परियोजनाओं के माध्यम से अपने मशीन लर्निंग कौशल को विकसित करने और बढ़ाने का एक शानदार तरीका है। अपने कंप्यूटर विज़न सिस्टम की सफलता को बढ़ाने के लिए, आपको अपने प्रोजेक्ट विज़न से संबंधित गुणवत्ता वाले इमेज डेटाबेस का उपयोग करना चाहिए।

क्या आपको यह लेख पसंद आया? अधिक अपडेट के लिए लिंक्डइन पर शाइप को फॉलो करें।

सामाजिक शेयर