लिखावट डेटासेट

अपने एमएल मॉडल को प्रशिक्षित करने के लिए 15 सर्वश्रेष्ठ ओपन-सोर्स हैंडराइटिंग डेटासेट

व्यापार की दुनिया एक असाधारण गति से बदल रही है, फिर भी यह डिजिटल परिवर्तन लगभग उतना व्यापक नहीं है जितना हम चाहते हैं। बड़े निगमों से लेकर छोटे पैमाने के व्यवसायों तक, लोग अभी भी अपने दैनिक कार्यों में भौतिक दस्तावेजों को संभाल रहे हैं। हालाँकि उपयोग की आवृत्ति काफी कम हो गई है, इसे पूरी तरह से समाप्त नहीं किया गया है। डिजिटल उपयोग के लिए दस्तावेज़ों को स्कैन करने की समय लेने वाली प्रक्रिया के बजाय, नवीनतम का उपयोग करना ओसीआर समय-कुशल और प्रभावी है।

ऑप्टिकल कैरेक्टर रिकग्निशन के उपयोग में वृद्धि को मुख्य रूप से स्वचालित पहचान प्रणालियों के उत्पादन में वृद्धि के लिए जिम्मेदार ठहराया जा सकता है। परिणामस्वरूप, OCR प्रौद्योगिकी का वैश्विक बाजार मूल्य आंका गया 8.93 $ अरब 2021 में, 15.4 और 2022 के बीच 2030% की सीएजीआर से बढ़ने की भविष्यवाणी की गई है।

लेकिन ओसीआर तकनीक वास्तव में क्या है? और कुशल एआई मॉडल विकसित करने वाले व्यवसायों के लिए यह गेम चेंजर क्यों है? चलो पता करते हैं।

ओसीआर क्या है?

वैकल्पिक रूप से पाठ पहचान के रूप में जाना जाता है, ओसीआर या ऑप्टिकल कैरेक्टर रिकग्निशन एक ऐसा प्रोग्राम है जो स्कैन किए गए दस्तावेज़ों, इमेज-ओनली PDF, और हस्तलिखित नोट्स से मुद्रित या लिखित डेटा को मशीन-पठनीय प्रारूप में निकालता है। सॉफ्टवेयर छवि से प्रत्येक अक्षर को निकालता है और उन्हें शब्दों और वाक्यों में जोड़ता है, जिससे दस्तावेज़ों को डिजिटल रूप से एक्सेस और संपादित करना आसान हो जाता है।

ओपन-सोर्स डेटासेट क्या हैं?

ऐसे कई स्थान हैं जहां ओसीआर प्रौद्योगिकी का लाभ उठाने की काफी संभावनाएं हैं। कुछ स्थानों में हवाई अड्डा, ईबुक प्रकाशन, विज्ञापन, बैंक और आपूर्ति श्रृंखला प्रणालियाँ शामिल हैं। हालांकि, अनुप्रयोगों के लिए उनके उद्देश्य को पूरा करने के लिए, उन्हें परियोजना-विशिष्ट पर प्रशिक्षित करने की आवश्यकता है ऑप्टिकल कैरेक्टर रिकॉग्निशन डेटासेट.

एप्लिकेशन की दक्षता काफी हद तक डेटासेट की गुणवत्ता और शामिल प्रशिक्षण पद्धति पर निर्भर करती है। हालांकि, गुणवत्ता डिजिटल और खोजना लिखावट डेटासेट आवेदन के लिए कठिन है। इसलिए, कई कंपनियां मालिकाना वाले के बजाय ओपन-सोर्स या फ्री-टू-यूज़ डेटासेट का उपयोग करती हैं।

ओपन-सोर्स डेटासेट के लाभ और चुनौतियाँ

व्यवसायों को यह समझने के लिए लाभ और चुनौतियों को एक-दूसरे के खिलाफ खड़ा करने की आवश्यकता है कि क्या उन्हें अपने एमएल अनुप्रयोगों के लिए फ्री-टू-यूज़ डेटा का विकल्प चुनना चाहिए।

लाभ

  • एक्सेस करने के लिए डेटा आसानी से उपलब्ध है। डेटा उपलब्धता के कारण, एप्लिकेशन को विकसित करने की लागत काफी कम हो जाती है।
  • एप्लिकेशन के लिए डेटा एकत्र करने में लगने वाला समय और प्रयास काफी कम हो जाता है क्योंकि डेटासेट आसानी से उपलब्ध होता है।
  • सामुदायिक मंचों या सहायता समूहों की बहुतायत है जो डेटासेट को सीखने, अनुकूलित करने और अनुकूलित करने में मदद करते हैं।
  • ओपन-सोर्स डेटासेट के प्रमुख लाभों में से एक यह है कि यह अनुकूलन पर कोई प्रतिबंध नहीं लगाता है।
  •   ओपन-सोर्स डेटा आबादी के एक बड़े हिस्से के लिए सुलभ है, जो मौद्रिक बाधाओं के बिना विश्लेषण और नवाचार को संभव बनाता है।

चुनौतियां

  • परियोजना के लिए विशिष्ट डेटा प्राप्त करना मुश्किल है। इसके अतिरिक्त, लापता जानकारी और उपलब्ध डेटा के गलत उपयोग की संभावना है।
  • मालिकाना डेटा प्राप्त करने में समय और प्रयास लगता है और यह महंगा है
  • हालांकि डेटा प्राप्त करना आसान हो सकता है, ज्ञान और विश्लेषण लागत प्रारंभिक लाभ से अधिक हो सकती है।
  • अन्य डेवलपर भी एप्लिकेशन विकसित करने के लिए उसी डेटा का उपयोग करते हैं।
  • ये डेटासेट सुरक्षा उल्लंघनों, गोपनीयता और सहमति के लिए अत्यधिक संवेदनशील हैं।

मशीन सीखने के लिए 15 सर्वश्रेष्ठ लिखावट और ओसीआर डेटासेट

ओपन-सोर्स ओसीआर डेटासेट

टेक्स्ट रिकग्निशन एप्लिकेशन डेवलपमेंट के लिए कई ओपन-सोर्स डेटासेट उपलब्ध हैं। सर्वश्रेष्ठ 15 में से कुछ हैं

  1. आईसीडीएआर डेटासेट

    दस्तावेज़ विश्लेषण और मान्यता के लिए अंतर्राष्ट्रीय सम्मेलन में एनोटेशन के साथ 229 प्रशिक्षण और 233 परीक्षण छवियों का भंडार है। यह टेक्स्ट डिटेक्शन मूल्यांकन के लिए बेंचमार्क के रूप में कार्य करता है।

  2. IIIT 5K-वर्ड डेटासेट

    Google छवि खोज से लिया गया, IIIT 5K-word साइनबोर्ड, होर्डिंग, नंबर प्लेट और पोस्टर से शब्दों का एक संग्रह है। इसमें 5K क्रॉप्ड शब्द चित्र शामिल हैं जो इसे उपलब्ध पाठ पहचान डेटासेट के सबसे व्यापक संग्रहों में से एक बनाते हैं।

  3. एनआईएसटी डाटाबेस

    एनआईएसटी या नेशनल इंस्टीट्यूट ऑफ साइंस 3600 से अधिक चरित्र छवियों के साथ 810,000 से अधिक हस्तलेखन नमूनों का उपयोग-में-मुक्त संग्रह प्रदान करता है।

  4. एमएनआईएसटी डेटाबेस

    NSIT के विशेष डेटाबेस 1 और 3 से व्युत्पन्न, MNIST डेटाबेस प्रशिक्षण सेट के लिए 60,000 हस्तलिखित संख्याओं और परीक्षण सेट के लिए 10,000 उदाहरणों का संकलित संग्रह है। यह ओपन-सोर्स डेटाबेस प्री-प्रोसेसिंग पर कम समय खर्च करते हुए ट्रेन मॉडल को पैटर्न पहचानने में मदद करता है।

  5. पाठ का पता लगाना

    एक ओपन-सोर्स डेटाबेस, टेक्स्ट डिटेक्शन डेटासेट में साइनबोर्ड्स, डोर प्लेट्स, सावधानी प्लेट्स और अन्य की लगभग 500 इनडोर और आउटडोर छवियां होती हैं।

  6. स्टैनफोर्ड ओसीआर

    स्टैनफोर्ड द्वारा प्रकाशित, यह फ्री-टू-यूज़ डेटासेट एमआईटी स्पोकन लैंग्वेज सिस्टम्स ग्रुप द्वारा हस्तलिखित शब्द संग्रह है।

  7. डीडीआई-100

    अन्यथा विकृत दस्तावेज़ छवियां डेटासेट कहा जाता है, DDI-100 6658 से अधिक पृष्ठों के दस्तावेज़ों का एक संग्रह है जिसमें कई ज्यामितीय पैटर्न और विकृतियाँ लागू होती हैं। इसके अलावा, DDI-100 में 99870 से अधिक चित्र, स्टैम्प मास्क, टेक्स्ट मास्क और बाउंडिंग बॉक्स हैं।

  8. रोडटेक्स्ट -1के

    वीडियो में टेक्स्ट का पता लगाने के लिए मॉडल को प्रशिक्षित करने में मदद करने वाले सबसे बड़े डेटासेट में से एक, रोडटेक्स्ट-1के में बाउंडिंग बॉक्स टेक्स्ट एनोटेशन और प्रत्येक वीडियो फ्रेम में टेक्स्ट के ट्रांसक्रिप्शन के साथ 1000 वीडियो क्लिप शामिल हैं।

  9. एमएसआरए-टीडी500

    300 प्रशिक्षण और 200 पाठ चित्र शामिल हैं; MSRA-TD500 में चीनी और अंग्रेजी भाषाओं के वर्ण शामिल हैं और वाक्य स्तर पर व्याख्या की गई है।

  10. एमजेसिंथ डेटासेट

    ऑक्सफोर्ड विश्वविद्यालय द्वारा प्रदान किया गया, इस शब्द डेटासेट में लगभग 9 मिलियन कृत्रिम रूप से उत्पन्न छवियां हैं जिनमें 90 हजार से अधिक अंग्रेजी भाषा के शब्द शामिल हैं।

  11. सड़क दृश्य पाठ

    Google स्ट्रीट व्यू छवियों से एकत्रित, इस डेटासेट में मुख्य रूप से बोर्डों और सड़क-स्तर के संकेतों के टेक्स्ट डिटेक्शन छवियां हैं।

  12. दस्तावेज़ डेटाबेस

    दस्तावेज़ डेटाबेस 941 हस्तलिखित दस्तावेज़ों का एक संग्रह है, जिसमें 189 लेखकों के टेबल, सूत्र, चित्र, आरेख, सूचियाँ और बहुत कुछ शामिल हैं।

  13. गणित की अभिव्यक्तियाँ

    गणित अभिव्यक्ति एक डेटाबेस है जिसमें 101 गणितीय प्रतीक और 10,000 अभिव्यक्तियाँ हैं।

  14. स्ट्रीट व्यू हाउस नंबर

    Google स्ट्रीट व्यू से प्राप्त, यह स्ट्रीट व्यू हाउस नंबर एक डेटाबेस है जिसमें 73257 स्ट्रीट हाउस नंबर अंक हैं।

  15. प्राकृतिक पर्यावरण ओसीआर

    प्राकृतिक पर्यावरण OCR, दुनिया भर में लगभग 660 छवियों और 5238 टेक्स्ट एनोटेशन का डेटासेट है।

टेक्स्ट डिटेक्शन एप्लिकेशन के लिए एमएल मॉडल के प्रशिक्षण के लिए ये कुछ शीर्ष ओपन-सोर्स डेटासेट थे। आपके व्यवसाय और एप्लिकेशन आवश्यकताओं के अनुरूप एक का चयन करने में समय और मेहनत लग सकती है। हालाँकि, आपको उपयुक्त डेटासेट पर निर्णय लेने से पहले इन डेटासेट के साथ प्रयोग करना चाहिए।

एक विश्वसनीय और कुशल टेक्स्ट डिटेक्शन एप्लिकेशन की ओर बढ़ने में आपकी मदद करने के लिए Shaip - उच्च रैंकिंग प्रौद्योगिकी समाधान प्रदाता है। हम अनुकूलन योग्य, अनुकूलित और बनाने के लिए अपने तकनीकी अनुभव का लाभ उठाते हैं कुशल ओसीआर प्रशिक्षण डेटासेट विभिन्न ग्राहक परियोजनाओं के लिए। हमारी क्षमताओं को पूरी तरह से समझने के लिए आज ही हमसे संपर्क करें।

सामाजिक शेयर