चेहरे की पहचान मॉडल पर एक केस स्टडी
धोखाधड़ी का पता लगाने वाले AI मॉडल के लिए एंटी-स्पूफिंग वीडियो डेटासेट
जानें कि कैसे शैप ने धोखाधड़ी का पता लगाने के लिए एआई मॉडल को प्रशिक्षित करने के लिए वास्तविक और रीप्ले हमले परिदृश्यों की विशेषता वाले 25,000 उच्च-गुणवत्ता वाले एंटी-स्पूफिंग वीडियो डेटासेट वितरित किए।
परियोजना अवलोकन
शैप ने एक अग्रणी एआई सुरक्षा कंपनी के साथ साझेदारी की, ताकि धोखाधड़ी का पता लगाने के लिए एआई मॉडल प्रशिक्षण को बढ़ाने के लिए डिज़ाइन किया गया एक उच्च-गुणवत्ता वाला, ऑफ-द-शेल्फ एंटी-स्पूफिंग वीडियो डेटासेट प्रदान किया जा सके। डेटासेट में 25,000 वीडियो शामिल थे, जो वास्तविक और रीप्ले हमले दोनों परिदृश्यों को कैप्चर करते थे, जिससे एंटी-स्पूफिंग मॉडल के लिए मजबूत प्रशिक्षण डेटा सुनिश्चित होता था।
हर एक 12,500 प्रतिभागियों दो वीडियो का योगदान दिया - एक वास्तविक और एक रिप्ले अटैक - रिकॉर्ड किया गया 720p या उच्चतर रिज़ॉल्यूशन फ्रेम दर के साथ 26 एफपीएस और उससे अधिक.
परियोजना का लक्ष्य था प्रामाणिक और विविध डेटासेट इससे एआई मॉडल वास्तविक और नकली बायोमेट्रिक वीडियो के बीच प्रभावी रूप से अंतर करने में सक्षम होंगे, जिससे बायोमेट्रिक प्रमाणीकरण प्रणालियों में धोखाधड़ी के जोखिम कम हो जाएंगे।

मुख्य आँकड़े
25,000 कुल वीडियो (12,500 वास्तविक वीडियो, 12,500 (हमले के वीडियो पुनः चलाएं)
12,500 अद्वितीय
प्रतिभागियों
5 जातीय समूह
डेटासेट में दर्शाया गया
चरणबद्ध वितरण: 4 के बैच 6,250 वीडियो प्रत्येक
मेटाडेटा विशेषताएँ: 12 उन्नत डेटासेट प्रयोज्यता के लिए प्रमुख पैरामीटर
एंटी-स्पूफिंग बायोमेट्रिक डेटासेट स्कोप
डेटासेट क्यूरेशन: यह परियोजना उच्च गुणवत्ता वाले एंटी-स्पूफिंग वीडियो डेटासेट प्रदान करने पर केंद्रित थी, जिसमें शामिल थे वास्तविक और रिप्ले हमले के वीडियोइसमें शामिल प्रमुख पहलू:
- 12,500 प्रतिभागियों योगदान दो वीडियो प्रत्येक (1 वास्तविक, 1 नकली).
- रिकॉर्डिंग उपकरणों में विविधता मॉडल की अनुकूलनशीलता को बढ़ाने के लिए।
- संतुलित जातीय प्रतिनिधित्व डेटासेट समावेशिता सुनिश्चित करने के लिए।
मेटाडेटा संग्रहण: प्रत्येक वीडियो के साथ निम्नलिखित जानकारी दी गई थी: 12 मेटाडेटा विशेषताएँ डेटासेट प्रयोज्यता बढ़ाने के लिए.
वीडियो डेटा संग्रहण चुनौतियाँ
उच्च गुणवत्ता वाले वीडियो का स्रोत बनाते समय जातीयता के आधार पर संतुलित डेटा वितरण बनाए रखना।
यह सुनिश्चित करना कि प्रत्येक भागीदार डेटासेट अखंडता बनाए रखने के लिए एक वास्तविक और एक रिप्ले अटैक वीडियो का योगदान दे।
एफपीएस (≥ 26), रिज़ॉल्यूशन (≥ 720p), और टाइमस्टैम्प सटीकता (+/- 0.5ms) के लिए सख्त दिशानिर्देशों का पालन करना।
हमने इसे कैसे हल किया
शैप ने परियोजना की आवश्यकताओं को पूरा करने के लिए एक संरचित और उच्च-गुणवत्ता वाला डेटासेट प्रदान किया। समाधान में शामिल थे:
डेटासेट क्यूरेशन और गुणवत्ता नियंत्रण
- 25,000 वीडियो भर में एकत्र 4 चरणों स्थिर और संरचित डेटा प्रवाह सुनिश्चित करने के लिए, बाधाओं से बचना।
- कठोर सत्यापन प्रक्रिया का अनुपालन सुनिश्चित करना एफपीएस, रिज़ॉल्यूशन और मेटाडेटा सटीकताअंतिम स्वीकृति से पहले प्रत्येक वीडियो को कई बार गुणवत्ता जांच से गुजरना पड़ा।
- व्यापक मेटाडेटा टैगिंग साथ में 12 गुण:
- फ़ाइल आईडी/नाम
- हमले का प्रकार (वास्तविक/रिप्ले)
- व्यक्ति आईडी
- वीडियो संकल्प
- वीडियो अवधि
- विषय की जातीयता
- विषय का लिंग
- वीडियो असली है या नकली
- डिवाइस का नाम/मॉडल
- व्यक्ति बोल रहा है या नहीं
- टाइमस्टैम्प प्रारंभ समय
- टाइमस्टैम्प समाप्ति समय
- संतुलित जातीय समूह वितरण: संतुलित जातीय प्रतिनिधित्व बनाए रखने के लिए डेटासेट को सावधानीपूर्वक क्यूरेट किया गया था। वितरण में हिस्पैनिक (33%), दक्षिण एशियाई (21%), कोकेशियान (20%), अफ्रीकी (15%), और पूर्वी एशियाई और मध्य पूर्वी आबादी (प्रत्येक 6% तक शामिल है) शामिल हैं।
- कोई डुप्लिकेट प्रविष्टियाँ नहीं डेटासेट की विशिष्टता बनाए रखने और एआई प्रशिक्षण में पूर्वाग्रहों को रोकने के लिए।
- जातीय रूप से विविध प्रतिभागियों का चयन एक ऐसा डेटासेट तैयार करना जो वास्तविक दुनिया के उपयोगकर्ता विविधताओं को प्रतिबिंबित करे, तथा एआई मॉडल की अनुकूलनशीलता और निष्पक्षता में सुधार करे।
- रिकॉर्डिंग डिवाइस भिन्नता विभिन्न पर्यावरणीय सेटिंग्स के प्रति मॉडल की मजबूती को बढ़ाने के लिए इसमें कई स्मार्टफोन मॉडल, कैमरे और प्रकाश की स्थिति को शामिल किया गया।
परिणाम
शैप द्वारा प्रदान किए गए उच्च-गुणवत्ता वाले, विविध एंटी-स्पूफिंग वीडियो डेटासेट ने क्लाइंट को विभिन्न बायोमेट्रिक प्रमाणीकरण परिदृश्यों में वास्तविक और नकली वीडियो के बीच सटीक रूप से अंतर करने के लिए AI मॉडल को प्रशिक्षित करने में सक्षम बनाया। डेटासेट ने निम्नलिखित में योगदान दिया:
धोखाधड़ीपूर्ण बायोमेट्रिक हमलों का पता लगाने में उन्नत AI प्रदर्शन।
विभिन्न जातियों, उपकरणों और पर्यावरणीय स्थितियों में रिप्ले हमलों को पहचानने की मॉडल की क्षमता को मजबूत किया गया।
यह डेटासेट भविष्य में एंटी-स्पूफिंग मॉडल के संवर्द्धन और विस्तार के लिए आधार का काम करता है।
शैप का डेटासेट हमारे AI-संचालित एंटी-स्पूफिंग मॉडल को बेहतर बनाने में सहायक रहा है। विविधता, गुणवत्ता और संरचित मेटाडेटा ने बायोमेट्रिक प्रमाणीकरण प्रणालियों में धोखाधड़ी का पता लगाने में सुधार के लिए एक मजबूत आधार प्रदान किया।