वॉयस-आधारित यूपीआई भुगतान संकेत: उन्नत एआई मॉडल के लिए विविधता को कैप्चर करना
उच्च गुणवत्ता वाले, सांस्कृतिक रूप से विविध डेटा के साथ आवाज आधारित यूपीआई भुगतान प्रणालियों का समर्थन करने के लिए त्वरित निर्माण और विविध ऑडियो रिकॉर्डिंग में शैप की विशेषज्ञता का लाभ उठाना।
परियोजना अवलोकन
शैप ने विविध UPI भुगतान संकेतों को बनाकर और रिकॉर्ड करके वॉयस-आधारित भुगतान एप्लिकेशन विकसित करने के लिए एक अग्रणी फिनटेक कंपनी के साथ भागीदारी की। इस परियोजना में 2,500 भुगतान-संबंधित उद्देश्यों, जैसे कि पैसे भेजना, पैसे का अनुरोध करना, शेष राशि की जांच करना और बिल भुगतान, में 87,000 अद्वितीय संकेतों और 13 विविध संकेतों का निर्माण शामिल था। इन संकेतों को विभिन्न क्षेत्रों, पृष्ठभूमियों और आयु समूहों के 200 वक्ताओं द्वारा 45 घंटों से अधिक समय तक रिकॉर्ड किया गया, जिससे भाषाई और पर्यावरणीय विविधता की एक विस्तृत श्रृंखला सुनिश्चित हुई।
परियोजना का लक्ष्य एक ऐसे AI मॉडल के लिए उच्च गुणवत्ता वाला प्रशिक्षण डेटा विकसित करना था जो वास्तविक दुनिया में UPI भुगतान से संबंधित वॉयस कमांड को पहचान सके और उसका जवाब दे सके।
मुख्य आँकड़े
यूपीआई भुगतान संकेतों के ऑडियो घंटों रिकॉर्ड किए गए
200
विविध पृष्ठभूमि (आयु, शिक्षा, क्षेत्र) से वक्ता
45
87,000+ विविध संकेतों के साथ इरादे शामिल किए गए
13
भाषाएँ: अंग्रेजी, विभिन्न मूल भाषा पृष्ठभूमि (कुमाऊंनी, बंगाली, मलयालम, गुजराती, हिंदी, मराठी आदि) के वक्ताओं के साथ।
परियोजना गुंजाइश
शीघ्र निर्माण
इसके दायरे में वॉयस-आधारित UPI भुगतान प्रणाली के लिए अद्वितीय संकेत बनाना शामिल था। संकेतों को कई उद्देश्यों को कवर करने के लिए डिज़ाइन किया गया था, यह सुनिश्चित करते हुए कि वे संरचना, शब्दावली और नामित संस्थाओं में विविधतापूर्ण थे। कुछ प्रमुख पहलुओं में शामिल हैं:
13 प्रमुख उद्देश्य, जिनमें शामिल हैं:
- पैसे भेजो: 65,653 अद्वितीय और विविध संकेत
- तुला राशि जाँच: 3,052 संकेत
- पैसे का अनुरोध: 26,972 संकेत
- लेन-देन इतिहास, रिचार्ज, बिल भुगतान, आदि।
ऑडियो रिकॉर्डिंग
प्रामाणिकता और वास्तविक दुनिया में इसकी उपयोगिता सुनिश्चित करने के लिए, विभिन्न भाषाई पृष्ठभूमि के 45 वक्ताओं द्वारा संकेत रिकॉर्ड किए गए। विभिन्न मूल भाषाओं, क्षेत्रीय बोलियों और वातावरण (इनडोर और आउटडोर) के माध्यम से प्राप्त विविधता ने प्रशिक्षण डेटा को बढ़ाने में मदद की।
- भाषा विविधता: उपयोगकर्ता अंग्रेजी भाषा में धाराप्रवाह हैं, लेकिन उनकी मूल भाषाएं भी भिन्न हैं, जैसे कुमाऊंनी, गुजराती, हिंदी, बांग्ला, मराठी और मलयालम।
- आयु, लिंग और शैक्षिक पृष्ठभूमि: डेटा ने जनसांख्यिकी की एक विस्तृत श्रृंखला को कवर किया।
- शहरी एवं ग्रामीण वक्ता: वास्तविक दुनिया के उपयोग को प्रतिबिंबित करने के लिए, शहरी और ग्रामीण दोनों वक्ताओं को शामिल किया गया।
- रिकॉर्डिंग वातावरण: ऑडियो रिकॉर्डिंग इनडोर और आउटडोर दोनों सेटिंग्स में की गई, जिसमें विभिन्न प्रकार की पृष्ठभूमि शोर भी शामिल थे।
चुनौतियां
भाषाई और क्षेत्रीय विविधता
यह सुनिश्चित करने के लिए कि संकेत विविध क्षेत्रीय बोलियों और वक्ता विशेषताओं को प्रतिबिंबित करें, सावधानीपूर्वक योजना और कार्यान्वयन की आवश्यकता है।
प्राकृतिक ऑडियो विविधताएँ
वास्तविक दुनिया में अनुप्रयोग के लिए पृष्ठभूमि शोर और पर्यावरणीय स्थितियों (इनडोर बनाम आउटडोर) को संभालना महत्वपूर्ण था।
विविध स्पीकर प्रोफाइल
विभिन्न आयु समूहों, शैक्षिक पृष्ठभूमियों और ग्रामीण/शहरी क्षेत्रों से वक्ताओं को शामिल करने से प्रामाणिक डेटा प्राप्त करने में जटिलता उत्पन्न हुई।
उपाय
शैप ने उन्नत एनएलपी तकनीकों और त्वरित निर्माण एवं रिकॉर्डिंग दोनों में सावधानीपूर्वक योजना बनाकर परियोजना की चुनौतियों का समाधान प्रस्तुत किया। समाधान के प्रमुख पहलुओं में शामिल थे:
शीघ्र निर्माण
- 2,500 अद्वितीय संकेत बनाए गए, जिनमें से प्रत्येक की संरचना और शब्दावली में विविधता थी।
- 13 इसमें बुनियादी भुगतान अनुरोधों से लेकर लेनदेन इतिहास और बिल भुगतान जैसी जटिल पूछताछ तक के सभी पहलुओं को शामिल किया गया।
ऑडियो रिकॉर्डिंग
- 200 घंटे ऑडियो रिकॉर्डिंग का संचालन किया गया 45 उपयोगकर्ताओं, मूल भाषाओं, वातावरण और वक्ता जनसांख्यिकी में विविधता सुनिश्चित करना।
- प्राकृतिक ध्वनि विविधता सुनिश्चित करने के लिए रिकॉर्डिंग के लिए इनडोर और आउटडोर दोनों वातावरणों का उपयोग किया गया।
- वक्ताओं ने विभिन्न क्षेत्रीय बोलियों का प्रतिनिधित्व किया, जिससे सटीक भाषाई प्रतिनिधित्व सुनिश्चित हुआ।
| आशय | भेजें | बैलेंस पूछताछ | पैसे का अनुरोध | लेनदेन का इतिहास |
|---|---|---|---|---|
| शीघ्र | सुमात्री को मकान किराए के लिए इक्कीस सौ रुपए का भुगतान करें | मैं अपने बचत खाते में वर्तमान शेष राशि जानना चाहता हूँ। | क्या आप राजी से किसी इमरजेंसी के लिए तीन सौ अठारह रुपये मांग सकते हैं? | मुझे अपना डेबिट कार्ड लेनदेन इतिहास दिखाएं। |
| गुजराती | मोबाइल फोनों के लिए आवेदन पत्र | मोबाइल फोन की मरम्मत के लिए आवेदन पत्र डाउनलोड करें मेरे दोस्त. | एक और अधिक पढ़ें क्या आप जानते हैं? | यह एक अच्छा विकल्प है. |
| हिंदी | सुमात्री को मकान किराये पर देने के लिए इक्कीस सौ रुपये का भुगतान करें। | मैं अपनी बचत राशि में वर्तमान शेष राशि जानना चाहता हूँ। | क्या आप किसी भी तरह के प्लांट के लिए तीन सौ आठ रुपये मांग सकते हैं? | मुझे मेरा डेबिट कार्ड का लैपटॉप दिखाओ। |
| मलयालम | उत्तर बहुत बढ़िया. | यह एक अच्छा विचार है यह एक अच्छा विचार है. | രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് രൂപ അടിയന്തരാ क्या आपको कोई समस्या है? | मेरे पास एक अच्छा विकल्प है। |
| तेलुगु | एक और अधिक पढ़ें धन्यवाद | एक और अधिक पढ़ें यह एक अच्छा विचार है। | एक और पोस्ट देखें क्या आप जानते हैं? | और अधिक पढ़ें ంచండి. |
| बंगला (laাালা) | एक और विकल्प चुनें ठीक है | मेरे पास एक अच्छा विकल्प है স জানতে চাই. | एक और अधिक पढ़ें क्या आपने कभी सोचा है? | मेरे पास एक अच्छा विकल्प है। |
| मराठी | सुमात्रीला घराच्या भाद्यासाथी दो हजार एकशे रुपए द्या। | मला माझ्या सेविंग खातिल सध्याचा शिल्लक जानून घ्यायचा आहे. | क्या आप कैंसर से पीड़ित हैं? | मेरा डेबिट कार्ड व्यवहारिक विवरण. |
परिणाम
शैप द्वारा प्रदान किए गए उच्च-गुणवत्ता वाले, विविध ऑडियो डेटा ने क्लाइंट को एक AI-संचालित वॉयस-आधारित UPI भुगतान प्रणाली विकसित करने में सक्षम बनाया जो विभिन्न बोलियों, वातावरणों और संदर्भों में आदेशों को पहचानने में सक्षम है। डेटा ने निम्नलिखित को बढ़ाने में मदद की:
- वास्तविक समय आवाज पहचान जटिल वातावरण में.
- अधिक सटीक UPI लेनदेन उपयोगकर्ताओं की एक व्यापक श्रेणी के लिए हैंडलिंग।
- अनुमापकता: यह परियोजना अन्य भारतीय भाषाओं में विस्तार के लिए एक मजबूत आधार तैयार करती है।
वितरणयोग्य
- 200 घंटे ऑडियो फ़ाइलों की संख्या (8 kHz PCM WAV प्रारूप, मोनो)
- 87,000 + अद्वितीय उद्देश्यों के साथ एनोटेट किए गए विविध संकेत
- मेटाडाटा: स्पीकर प्रोफ़ाइल, परिवेश विवरण, और प्रतिलेखन सटीकता
शैप की अद्वितीय प्रॉम्प्ट और प्रामाणिक ऑडियो रिकॉर्डिंग के माध्यम से भारत की विविधता को कैप्चर करने की क्षमता हमारी वॉयस-आधारित यूपीआई भुगतान प्रणाली के लिए एक गेम-चेंजर रही है। उनकी टीम ने सुनिश्चित किया कि परियोजना के हर पहलू - प्रॉम्प्ट निर्माण से लेकर रिकॉर्डिंग की गुणवत्ता तक - को सटीकता के साथ संभाला गया, जिससे हमें एक अधिक समावेशी, मजबूत वॉयस रिकग्निशन मॉडल बनाने में मदद मिली।