आयु प्रगति विविधता के साथ एक गैर-ईयू/यूके चेहरे की छवि डेटासेट का निर्माण
कंप्यूटर विज़न मॉडल के लिए निष्पक्षता और मजबूती को मजबूत करने के लिए 1,205 प्रतिभागियों का समय-विभाजित चेहरा छवि कॉर्पस।
परियोजना अवलोकन
सुरक्षा, निजीकरण और पहचान अनुभवों के लिए चेहरा-केंद्रित एआई का निर्माण करने वाली एक वैश्विक प्रौद्योगिकी कंपनी ने पूर्वाग्रह को कम करने और उम्र, पर्यावरण और सहायक उपकरणों में मॉडल लचीलापन में सुधार करने के लिए समय-पृथक तस्वीरों के साथ एक गैर-ईयू/यूके डेटासेट की मांग की।
ग्राहक ने शैप के साथ साझेदारी की एकत्रित करना, व्यवस्थित करना और मान्य करना एक बड़ा चेहरे की छवि संग्रह जिसमें प्रत्येक प्रतिभागी अपनी हालिया और पुरानी तस्वीरें प्रस्तुत करता है। इसका उद्देश्य प्राकृतिक आयु वृद्धि को एन्कोड करना था, साथ ही गैर-यूरोपीय संघ/ब्रिटिश मूल के सख्त नियमों को लागू करना और संतुलित लिंग/आयु कोटा प्राप्त करना था।
मुख्य आँकड़े
प्रतिभागियों
1,205 (केवल गैर-ईयू/यूके, 50/50 लिंग ±10–15%)
आयु मिश्रण
40% (10–29), 40% (30–49), 20% (50+) ±10–15% सहनशीलता
व्याप्ति
दक्षिण/दक्षिणपूर्व एशिया, उत्तर और उत्तर/पूर्वी अफ्रीका, सिंगापुर, दक्षिण अमेरिका
समयरेखा
19 सप्ताह
चुनौतियां
भौगोलिक प्रतिबंध
यात्रा-मूल ईयू/यूके छवियों से बचते हुए, विशेष रूप से गैर-ईयू/यूके आबादी से स्रोत प्राप्त करना।
बड़े पैमाने पर संतुलित कोटा
लिंग और आयु के आधार पर सख्त सहिष्णुता के साथ 1,205 प्रतिभागियों को शामिल किया गया।
समय-विभाजित साक्ष्य
यह सुनिश्चित करना कि प्रत्येक पहचान पत्र में आयु वर्ग के अनुसार नवीनतम और ऐतिहासिक दोनों प्रकार की तस्वीरें हों।
परिचालन गुणवत्ता
थ्रूपुट को धीमा किए बिना न्यूनतम छवि/चेहरे का आकार, विविधता और दोहराव सीमा लागू करना।
उपाय
1. कंट्री पैनल्स और प्रोवेंस कंट्रोल्स
हमने स्थापित किया देश स्तरीय सोर्सिंग पॉड्स लक्षित क्षेत्रों में और प्रशिक्षित भागीदारों पर उद्गम नियम (केवल गैर-ईयू/यूके)। यात्रा मूल जोखिमों के लिए तस्वीरों की जाँच की गई मेटाडेटा संकेत (वर्ष, स्थान चिह्नक) साथ ही, प्रस्तुतकर्ता के सत्यापन भी शामिल हैं, जिससे QC से पहले EU/UK लीकेज कम होता है। यह डाउनस्ट्रीम थ्रूपुट की सुरक्षा के लिए जोखिम जाँच को अग्रिम रूप से लागू करने की Shaip की सिद्ध पद्धति को दर्शाता है।
2. आयु प्रगति कैप्चर डिज़ाइन
"20 चित्र मांगने" के बजाय, हमने एक डिज़ाइन तैयार किया दो ट्रैक सबमिशन प्रवाह जिसने प्रतिभागियों को निर्देशित किया:
- ट्रैक ए (हाल का): पिछले दो वर्षों की तस्वीरें;
- ट्रैक बी (ऐतिहासिक): प्रस्तुति के समय प्रतिभागी की आयु सीमा के अनुरूप पुरानी तस्वीरें (उदाहरण के लिए, 2-10/15/20 वर्ष की अवधि)।
पोर्टल ने उपयोगकर्ताओं को उदाहरण (इनडोर/आउटडोर, कोण, सहायक उपकरण) देकर प्रेरित किया, ताकि अधिक विवरण दिए बिना विविधता लाई जा सके।
3. विविधता ऑर्केस्ट्रेशन और कोटा गार्डरेल
A वास्तविक समय कोटा डैशबोर्ड द्वारा नामांकन की निगरानी की गई लिंग, आयु वर्ग और भूगोलएक स्तर के नियोजित सीमा तक पहुँचने पर सेवन रोक दिया जाता है। इससे चक्र के अंत में पुनर्रचना को रोका जा सकता है और यह शैप के मानक दृष्टिकोण को दर्शाता है। स्तरीकृत नामांकन + तालाबंदी संतुलित प्रतिनिधित्व बनाए रखने के लिए पूर्व बायोमेट्रिक डेटासेट में उपयोग किया जाता है।
4. गुणवत्ता पाइपलाइन (लूप में मानव + स्वचालित पूर्व जांच)
- स्वचालित द्वार: चेहरा पहचान + न्यूनतम आकार सीमा, बुनियादी धुंधलापन/शोर जांच, तथा संभावित डुप्लिकेट को शीघ्र चिह्नित करने के लिए उसी दिन क्लस्टरिंग।
- मानव QA स्तर: छवि स्तर समीक्षकों द्वारा मान्य विषय विशिष्टता (केवल प्राथमिक प्रतिभागी), दृश्य/कोण विविधता, तथा कोई सौंदर्यीकरण फ़िल्टर नहीं; सीक्यूए ऑडिटर स्वीकृति से पहले बैचों की मौके पर जाँच करते हैं। बहु-परत QA यह शैप के प्रकाशित बायोमेट्रिक डेटा कार्यक्रमों को प्रतिबिंबित करता है।
5. अनुपालन और सहमति
नामांकन ≥20 साल हस्ताक्षरित सहमति के साथ; 20 से कम मामलों को केवल अभिभावक की सहमति से स्वीकार किया जाता है। हमने मेटाडेटा में सहमति की उपस्थिति दर्ज की और समीक्षक चेकलिस्ट को संरेखित किया पात्रता + सहमति क्षेत्रों में लेखापरीक्षा सुनिश्चित करना।
6. मेटाडेटा और ट्रेसेबिलिटी
हमने पहुंचाया प्रतिभागी और छवि स्तर मेटाडेटा (पहचान पत्र लिंकेज, जनसांख्यिकी, राष्ट्रीयता/निवास, फोटो का वर्ष, प्रस्तुतिकरण तिथि, आदि) और सरलीकरण के लिए मानकीकृत फ़ील्ड नाम डाउनस्ट्रीम लेबलिंग और मूल्यांकनयह शैप के सर्वोत्तम अभ्यास का अनुसरण करता है समृद्ध मेटाडेटा टैगिंग बायोमेट्रिक डेटासेट के लिए.
7. डी रिस्क स्केल तक चरणबद्ध डिलीवरी
An 8 बैच योजना ए से शुरू हुआ 10 प्रतिभागियों का अंशांकन सेट, उसके बाद नियंत्रित स्केल अप। बैच 1 के बाद क्लाइंट फीडबैक से रूब्रिक में बदलाव की जानकारी मिली, फिर अनुमानित किश्तों में वॉल्यूम बढ़ाया गया ताकि 1,205 प्रतिभागियों ~19 सप्ताह में.
परियोजना गुंजाइश
| आयाम | हमने क्या दिया |
|---|---|
| आबादी | संतुलित लिंग और आयु बैंड वाले 1,205 गैर यूरोपीय संघ/यूके प्रतिभागी। |
| सामग्री | प्रति प्रतिभागी ≥20 छवियां: आयु वृद्धि को दर्शाने के लिए हाल की + ऐतिहासिक छवियां; विभिन्न दृश्य, कोण और सहायक उपकरण। |
| गुणवत्ता ऑप्स | स्वचालित पूर्व जांच + मानव बहुस्तरीय QA (दोहराव नियंत्रण; विषय विशिष्टता; फ़िल्टर अस्वीकृति)। |
| अनुपालन | गैर यूरोपीय संघ/यूके उद्गम सत्यापन; सहमति शासन और पात्रता सत्यापन। |
| मेटाडाटा | ट्रेसिबिलिटी और डाउनस्ट्रीम एमएल मूल्यांकन के लिए प्रतिभागी + छवि विशेषताएँ। |
| प्रसव | 8 चरणबद्ध बैच, अंशांकन से शुरू होकर फिर अंतिम लक्ष्य तक स्थिर अवस्था वितरण। |
परिणाम
- संतुलित, लेखापरीक्षा के लिए तैयार कोष: जनसांख्यिकीय कोटा सहनशीलता के भीतर पूरा किया गया; अनुपालन प्रशिक्षण के लिए सभी छवियों में गैर-ईयू/यूके मूल को लागू किया गया।
- मॉडल तैयार परिवर्तनशीलता: समय-विभाजित छवियां, विविध वातावरण/कोण, और सहायक कवरेज मजबूती परीक्षण और पूर्वाग्रह विश्लेषण का समर्थन करते हैं।
- परिचालन पूर्वानुमान: कैलिब्रेशन प्रथम रोलआउट + कोटा गार्डरेल्स ने पुनः कार्य को कम कर दिया तथा पूर्ण 1,205 प्रतिभागी लक्ष्य तक समय-सीमा को सुरक्षित कर दिया।
- डाउनस्ट्रीम दक्षता: समृद्ध मेटाडेटा और सुसंगत फ़ाइल स्वच्छता ने शैप की बायोमेट्रिक डेटासेट प्लेबुक का अनुसरण करते हुए एनोटेशन और बेंचमार्क निर्माण के मार्ग को छोटा कर दिया।
शेप ने एक जटिल गैर-यूरोपीय संघ/ब्रिटिश चेहरे के डेटासेट ब्रीफ को एक संतुलित, ऑडिट के लिए तैयार कॉर्पस में बदल दिया। उनके आयु-क्रम डिज़ाइन और स्तरित QA ने हमारी CV टीम को साफ़, विविध डेटा दिया जिस पर हम भरोसा कर सकते थे—बिना किसी शेड्यूल जोखिम के।