चेहरे की पहचान मॉडल पर एक केस स्टडी

धोखाधड़ी का पता लगाने वाले AI मॉडल के लिए एंटी-स्पूफिंग वीडियो डेटासेट

जानें कि कैसे शैप ने धोखाधड़ी का पता लगाने के लिए एआई मॉडल को प्रशिक्षित करने के लिए वास्तविक और रीप्ले हमले परिदृश्यों की विशेषता वाले 25,000 उच्च-गुणवत्ता वाले एंटी-स्पूफिंग वीडियो डेटासेट वितरित किए।

एंटी-स्पूफिंग वीडियो डेटा संग्रह

परियोजना अवलोकन

शैप ने एक अग्रणी एआई सुरक्षा कंपनी के साथ साझेदारी की, ताकि धोखाधड़ी का पता लगाने के लिए एआई मॉडल प्रशिक्षण को बढ़ाने के लिए डिज़ाइन किया गया एक उच्च-गुणवत्ता वाला, ऑफ-द-शेल्फ एंटी-स्पूफिंग वीडियो डेटासेट प्रदान किया जा सके। डेटासेट में 25,000 वीडियो शामिल थे, जो वास्तविक और रीप्ले हमले दोनों परिदृश्यों को कैप्चर करते थे, जिससे एंटी-स्पूफिंग मॉडल के लिए मजबूत प्रशिक्षण डेटा सुनिश्चित होता था।

हर एक 12,500 प्रतिभागियों दो वीडियो का योगदान दिया - एक वास्तविक और एक रिप्ले अटैक - रिकॉर्ड किया गया 720p या उच्चतर रिज़ॉल्यूशन फ्रेम दर के साथ 26 एफपीएस और उससे अधिक.

परियोजना का लक्ष्य था प्रामाणिक और विविध डेटासेट इससे एआई मॉडल वास्तविक और नकली बायोमेट्रिक वीडियो के बीच प्रभावी रूप से अंतर करने में सक्षम होंगे, जिससे बायोमेट्रिक प्रमाणीकरण प्रणालियों में धोखाधड़ी के जोखिम कम हो जाएंगे।

एंटी-स्पूफिंग वीडियो डेटा संग्रह

मुख्य आँकड़े

25,000 कुल वीडियो (12,500 वास्तविक वीडियो, 12,500 (हमले के वीडियो पुनः चलाएं)

12,500 अद्वितीय
प्रतिभागियों

5 जातीय समूह
डेटासेट में दर्शाया गया

चरणबद्ध वितरण: 4 के बैच 6,250 वीडियो प्रत्येक

मेटाडेटा विशेषताएँ: 12 उन्नत डेटासेट प्रयोज्यता के लिए प्रमुख पैरामीटर

एंटी-स्पूफिंग बायोमेट्रिक डेटासेट स्कोप

डेटासेट क्यूरेशन: यह परियोजना उच्च गुणवत्ता वाले एंटी-स्पूफिंग वीडियो डेटासेट प्रदान करने पर केंद्रित थी, जिसमें शामिल थे वास्तविक और रिप्ले हमले के वीडियोइसमें शामिल प्रमुख पहलू:

  • 12,500 प्रतिभागियों योगदान दो वीडियो प्रत्येक (1 वास्तविक, 1 नकली).
  • रिकॉर्डिंग उपकरणों में विविधता मॉडल की अनुकूलनशीलता को बढ़ाने के लिए।
  • संतुलित जातीय प्रतिनिधित्व डेटासेट समावेशिता सुनिश्चित करने के लिए।

मेटाडेटा संग्रहण: प्रत्येक वीडियो के साथ निम्नलिखित जानकारी दी गई थी: 12 मेटाडेटा विशेषताएँ डेटासेट प्रयोज्यता बढ़ाने के लिए.

वीडियो डेटा संग्रहण चुनौतियाँ

समान प्रतिनिधित्व सुनिश्चित करना

उच्च गुणवत्ता वाले वीडियो का स्रोत बनाते समय जातीयता के आधार पर संतुलित डेटा वितरण बनाए रखना।

गुणवत्ता नियंत्रण

यह सुनिश्चित करना कि प्रत्येक भागीदार डेटासेट अखंडता बनाए रखने के लिए एक वास्तविक और एक रिप्ले अटैक वीडियो का योगदान दे।

तकनीकी संगति

एफपीएस (≥ 26), रिज़ॉल्यूशन (≥ 720p), और टाइमस्टैम्प सटीकता (+/- 0.5ms) के लिए सख्त दिशानिर्देशों का पालन करना।

हमने इसे कैसे हल किया

शैप ने परियोजना की आवश्यकताओं को पूरा करने के लिए एक संरचित और उच्च-गुणवत्ता वाला डेटासेट प्रदान किया। समाधान में शामिल थे:

डेटासेट क्यूरेशन और गुणवत्ता नियंत्रण

  • 25,000 वीडियो भर में एकत्र 4 चरणों स्थिर और संरचित डेटा प्रवाह सुनिश्चित करने के लिए, बाधाओं से बचना।
  • कठोर सत्यापन प्रक्रिया का अनुपालन सुनिश्चित करना एफपीएस, रिज़ॉल्यूशन और मेटाडेटा सटीकताअंतिम स्वीकृति से पहले प्रत्येक वीडियो को कई बार गुणवत्ता जांच से गुजरना पड़ा।
  • व्यापक मेटाडेटा टैगिंग साथ में 12 गुण:
  • फ़ाइल आईडी/नाम
  • हमले का प्रकार (वास्तविक/रिप्ले)
  • व्यक्ति आईडी
  • वीडियो संकल्प
  • वीडियो अवधि
  • विषय की जातीयता
  • विषय का लिंग
  • वीडियो असली है या नकली
  • डिवाइस का नाम/मॉडल
  • व्यक्ति बोल रहा है या नहीं
  • टाइमस्टैम्प प्रारंभ समय
  • टाइमस्टैम्प समाप्ति समय
  • संतुलित जातीय समूह वितरण: संतुलित जातीय प्रतिनिधित्व बनाए रखने के लिए डेटासेट को सावधानीपूर्वक क्यूरेट किया गया था। वितरण में हिस्पैनिक (33%), दक्षिण एशियाई (21%), कोकेशियान (20%), अफ्रीकी (15%), और पूर्वी एशियाई और मध्य पूर्वी आबादी (प्रत्येक 6% तक शामिल है) शामिल हैं।
  • कोई डुप्लिकेट प्रविष्टियाँ नहीं डेटासेट की विशिष्टता बनाए रखने और एआई प्रशिक्षण में पूर्वाग्रहों को रोकने के लिए।
  • जातीय रूप से विविध प्रतिभागियों का चयन एक ऐसा डेटासेट तैयार करना जो वास्तविक दुनिया के उपयोगकर्ता विविधताओं को प्रतिबिंबित करे, तथा एआई मॉडल की अनुकूलनशीलता और निष्पक्षता में सुधार करे।
  • रिकॉर्डिंग डिवाइस भिन्नता विभिन्न पर्यावरणीय सेटिंग्स के प्रति मॉडल की मजबूती को बढ़ाने के लिए इसमें कई स्मार्टफोन मॉडल, कैमरे और प्रकाश की स्थिति को शामिल किया गया।

परिणाम

शैप द्वारा प्रदान किए गए उच्च-गुणवत्ता वाले, विविध एंटी-स्पूफिंग वीडियो डेटासेट ने क्लाइंट को विभिन्न बायोमेट्रिक प्रमाणीकरण परिदृश्यों में वास्तविक और नकली वीडियो के बीच सटीक रूप से अंतर करने के लिए AI मॉडल को प्रशिक्षित करने में सक्षम बनाया। डेटासेट ने निम्नलिखित में योगदान दिया:

धोखाधड़ी का बेहतर पता लगाना

धोखाधड़ीपूर्ण बायोमेट्रिक हमलों का पता लगाने में उन्नत AI प्रदर्शन।

विविध प्रशिक्षण डेटा

विभिन्न जातियों, उपकरणों और पर्यावरणीय स्थितियों में रिप्ले हमलों को पहचानने की मॉडल की क्षमता को मजबूत किया गया।

अनुमापकता

यह डेटासेट भविष्य में एंटी-स्पूफिंग मॉडल के संवर्द्धन और विस्तार के लिए आधार का काम करता है।

शैप का डेटासेट हमारे AI-संचालित एंटी-स्पूफिंग मॉडल को बेहतर बनाने में सहायक रहा है। विविधता, गुणवत्ता और संरचित मेटाडेटा ने बायोमेट्रिक प्रमाणीकरण प्रणालियों में धोखाधड़ी का पता लगाने में सुधार के लिए एक मजबूत आधार प्रदान किया।

गोल्डन-5-सितारा