तैयार चेहरे की छवि और वीडियो डेटा लाइसेंसिंग

एआई मॉडल प्रशिक्षण के लिए तैयार चेहरे की पहचान डेटासेट

एक अग्रणी वैश्विक प्रौद्योगिकी समूह के लिए एआई मॉडल प्रशिक्षण में तेजी लाने और पूर्वाग्रह को कम करने के लिए नैतिक रूप से प्राप्त, जनसांख्यिकीय रूप से विविध डेटासेट का लाभ उठाना।

तैयार चेहरे की पहचान डेटासेट

परियोजना अवलोकन

ग्राहक ने तेजी लाने की मांग की AI-संचालित चेहरे की पहचान का विकास बिना लंबे, महंगे डेटा संग्रह चक्रों से गुज़रे। इसे हासिल करने के लिए, उन्हें उपयोग के लिए तैयार डेटासेट जो न केवल विशाल और विविध, लेकिन यह भी नैतिक रूप से स्रोतित और वैश्विक डेटा गोपनीयता विनियमों के अनुरूप.

शैप ने प्रकाश, सिर की मुद्राओं, अवरोधों और भावनाओं में नियंत्रित विविधताओं वाले व्यापक डेटासेट प्रदान किए, जिससे क्लाइंट के मॉडल आवश्यक जातीय और जनसांख्यिकीय मानदंडों को पूरा करते हुए सटीकता और निष्पक्षता दोनों प्राप्त कर सके। प्रत्येक डेटासेट में विस्तृत मेटाडेटा, मुद्रा एनोटेशन और भावना पहचान के लिए बाउंडिंग बॉक्स शामिल थे, जिससे मॉडलों को अत्यधिक विविध, वास्तविक दुनिया के परिदृश्यों में प्रशिक्षित और परीक्षण किया जा सका।

तैयार चेहरे की पहचान डेटासेट

मुख्य आँकड़े

7,000+ विषय

ऐतिहासिक डेटासेट में 300,000 से अधिक छवियां और 2,000 वीडियो शामिल हैं।

10,000+ विषय

मल्टी-एंगल इमोशन डेटासेट में।

74,880 छवियाँ

प्रकाश व्यवस्था में
विविधता डेटासेट.

18,600 छवियाँ

छह को कवर करते हुए
मूल भावनाएँ.

परियोजना गुंजाइश

ग्राहक को आवश्यक बड़े पैमाने पर, नैतिक रूप से प्राप्त, और जनसांख्यिकीय रूप से विविध चेहरे की छवि और वीडियो डेटासेट चेहरे की पहचान करने वाले मॉडलों के विकास और प्रशिक्षण में सहायता के लिए। ये डेटासेट उपयोग के मामलों को सशक्त बनाने के लिए आवश्यक थे। एंटी-स्पूफिंग, पहचान सत्यापन, छवि मिलान और अभिव्यक्ति विश्लेषण प्रणालियाँ, वास्तविक दुनिया के अनुप्रयोगों में मजबूत और निष्पक्ष एआई प्रदर्शन सुनिश्चित करना।

इस कार्य के दायरे में निम्नलिखित शामिल थे:

  • देते क्यूरेटेड डेटासेट इसे चेहरे की पहचान के उपयोग के मामलों जैसे एंटी-स्पूफिंग, पहचान सत्यापन और अभिव्यक्ति पहचान को पूरा करने के लिए डिज़ाइन किया गया है।
  • प्रदान करना विस्तृत एनोटेशन के साथ चित्र और वीडियो जनसांख्यिकी, सिर की मुद्रा, अवरोध, प्रकाश प्रकार और भावनाओं के लिए।
  • यह सुनिश्चित करना संतुलित जनसांख्यिकीय कवरेज प्रशिक्षण में प्रणालीगत पूर्वाग्रह को कम करना।
  • गारंटी अनुपालन और सहमति वैश्विक डेटा संरक्षण और गोपनीयता मानकों के साथ।

नमूना डेटासेट योगदान:

  • ऐतिहासिक डेटासेट (~7,000 विषय): 300,000+ चित्र और 2,000 वीडियो, मुद्रा और अवरोधन विविधताओं के साथ।
  • बहु-कोणीय भावना डेटासेट (~10,000 विषय): कोणों और भावनात्मक अवस्थाओं में प्रति विषय 15-20 छवियां।
  • छह भावनाओं का डेटासेट (~3,100 विषय): मूल मानवीय अभिव्यक्तियों को कवर करने वाली 18,600 एनोटेट छवियां।
  • प्रकाश भिन्नता डेटासेट (~468 विषय): नौ प्रकाश स्थितियों में 74,880 छवियाँ।

चुनौतियां

इस परियोजना में मजबूत एआई मॉडल के निर्माण में आने वाली प्रमुख चुनौतियों पर ध्यान दिया गया:

एआई मॉडल में पूर्वाग्रह

निष्पक्षता सुनिश्चित करने के लिए विशिष्ट जातीयता या लिंग के अति-प्रतिनिधित्व को रोकना।

वास्तविक-विश्व परिवर्तनशीलता

प्रकाश की स्थिति, चेहरे के कोण, अवरोधन और प्राकृतिक भावों को कैप्चर करना।

पैमाना और गुणवत्ता

विविधता से समझौता किए बिना लाखों उच्च-रिज़ॉल्यूशन वाली छवियां उपलब्ध कराना।

विनियामक अनुपालन

पूर्ण भागीदार सहमति के साथ कठोर वैश्विक गोपनीयता और डेटा सुरक्षा आवश्यकताओं को पूरा करना।

उपाय

शैप ने एक कार्यान्वयन किया संरचित दृष्टिकोण डेटासेट की गुणवत्ता और प्रासंगिकता सुनिश्चित करने के लिए:

  • क्यूरेटेड संतुलित डेटासेट व्यापक जातीय, लिंग और आयु प्रतिनिधित्व के साथ।
  • पर कब्जा कर लिया बहु-कोणीय पोज़ और प्रकाश विविधताएँ वास्तविक दुनिया की स्थितियों को दोहराने के लिए।
  • जब जोड़ा गया विस्तृत एनोटेशन (उदाहरण के लिए, सिर की मुद्रा, अवरोध, भावनाएं) डेटासेट प्रयोज्यता को समृद्ध करने के लिए।
  • सख्त स्थापित गुणवत्ता नियंत्रण और अनुपालन वर्कफ़्लो नैतिक सोर्सिंग और गोपनीयता पालन की गारंटी देना।

डेटासेट पोर्टफोलियो

डेटासेट खंड जनसांख्यिकी / विविधता मानक / विनिर्देश
ऐतिहासिक चेहरे की छवि और वीडियो डेटासेट (~7,000 विषय) 7,000 नामांकन चित्र; 300,000+ ऐतिहासिक चित्र; 2,000 वीडियो (प्रति 1,000 विषयों पर 1 इनडोर + 1 आउटडोर) जातीयता: अश्वेत (35%), पूर्वी एशियाई (42%), दक्षिण एशियाई (13%), श्वेत (10%); लिंग: 50% पुरुष / 50% महिला; आयु: वयस्क 18+ (पिछले 10 वर्ष) वीडियो अवधि: 1–2 मिनट; सिर की मुद्रा में भिन्नता (P1–P7); 5 अवरोध प्रकार (O0–O4)
चेहरे की छवि डेटासेट (~5,000 विषय) प्रति विषय 35 चित्र; 2,500 भारतीय; 1,000 एशियाई; 1,500 अश्वेत आयु: 18–60 वर्ष; संतुलित लिंग वितरण कोई सौंदर्यीकरण नहीं; विविध पृष्ठभूमि और वस्त्र; न्यूनतम रिज़ॉल्यूशन: 960×1280
बहु-कोणीय भावना डेटासेट (~10,000 विषय - चीनी) प्रति विषय 15-20 चित्र; पोज़: सामने, बाएँ, दाएँ (30°–60°); भाव: मुस्कुराहट, खुला मुँह, उदास, गंभीर, तटस्थ जातीयता: चीनी; आयु: 18–26; लिंग: 50/50 अनुपात रिज़ॉल्यूशन: 2160×3840 पिक्सेल या अधिक
छह मानवीय भावनाओं का डेटासेट (~3,100 विषय) प्रति विषय 6 छवियाँ (विभिन्न भाव); कुल 18,600 छवियाँ जातीयता: जापानी (9,000), कोरियाई (2,400), चीनी (2,400), दक्षिण पूर्व एशियाई (2,400), दक्षिण एशियाई (2,400); आयु: 20–65 वर्ष भावनाओं के लिए बाउंडिंग बॉक्स एनोटेशन; सादी पृष्ठभूमि; कोई टोपी, चश्मा या अवरोध नहीं
प्रकाश भिन्नता डेटासेट (~468 भारतीय विषय) प्रति विषय 160 चित्र; कुल: 74,880 चित्र आयु: 20–70; 70% पुरुष 9 प्रकाश स्थितियां (इनडोर, आउटडोर, साइड लाइट, बैकलाइट, निऑन, आदि)
बहु-जातीय चेहरे की छवि डेटासेट (~600 विषय) कुल 3,752 चित्र जातीयता: अफ़्रीकी, मध्य पूर्वी, मूल अमेरिकी, दक्षिण एशियाई, दक्षिणपूर्व एशियाई; आयु: 20-70 वर्ष -

परिणाम

इस सहयोग से महत्वपूर्ण व्यावसायिक और तकनीकी प्रभाव पड़ा:

  • बेहतर मॉडल सटीकता: विभिन्न उपयोग मामलों में चेहरे की पहचान करने वाले मॉडलों के लिए बेहतर परिशुद्धता और स्मरण क्षमता।
  • पूर्वाग्रह में कमीसंतुलित जनसांख्यिकीय प्रतिनिधित्व ने एआई आउटपुट में प्रणालीगत पूर्वाग्रह को कम किया।
  • त्वरित विकास समयसीमा: ऑफ-द-शेल्फ डेटासेट ने लंबे डेटा संग्रह के बिना तेजी से प्रोटोटाइपिंग और मॉडल प्रशिक्षण की अनुमति दी।
  • विनियामक अनुपालनसभी डेटासेट वैश्विक गोपनीयता मानकों का पालन करते हैं और इसमें प्रतिभागियों की सहमति भी शामिल है।

शैप के विविध, नैतिक रूप से प्राप्त डेटासेट ने हमें आवश्यक गति, गुणवत्ता और अनुपालन प्रदान किया। उपयोग के लिए तैयार डेटा के साथ, हमने एआई मॉडल प्रशिक्षण में तेज़ी लाई और प्रणालीगत पूर्वाग्रह को काफ़ी कम किया।

गोल्डन-5-सितारा