अरबी और थाई और वियतनामी और हिंदी और अंग्रेजी और चीनी भाषा डेटासेट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 150k
एनोटेशन: हाँ
विवरण: अरबी और थाई और वियतनामी और हिंदी और अंग्रेजी और चीनी भाषा डेटासेट
अरबी पाठ डेटासेट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 1k
एनोटेशन: हाँ
विवरण: अरबी टेक्स्ट डेटासेट में अरबी में लिखे गए टेक्स्ट सैंपल का संग्रह है। इसमें विभिन्न प्रकार की सामग्री शामिल है, जैसे समाचार लेख, सोशल मीडिया पोस्ट, साहित्य और संवाद, जो विभिन्न विषयों और लेखन शैलियों को कवर करते हैं। इस डेटासेट का उपयोग अरबी भाषा अनुप्रयोगों में प्राकृतिक भाषा प्रसंस्करण (एनएलपी), पाठ वर्गीकरण, भावना विश्लेषण और मशीन अनुवाद जैसे कार्यों के लिए किया जाता है।
चीनी और अंग्रेजी और तिब्बती और उइगर भाषा डेटासेट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 38k
एनोटेशन: हाँ
विवरण: चीनी और अंग्रेजी और तिब्बती और उइगर भाषा डेटासेट
चीनी और अंग्रेजी मेनू डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 60k
एनोटेशन: हाँ
विवरण: चीनी और अंग्रेजी मेनू डेटासेट में रेस्तरां मेनू की छवियां या टेक्स्ट नमूने शामिल हैं जो चीनी और अंग्रेजी दोनों भाषाओं को दर्शाते हैं। इसमें विभिन्न फ़ॉन्ट, लेआउट और मेनू संरचनाएँ शामिल हैं, जो द्विभाषी व्यंजन नाम, विवरण और मूल्य प्रस्तुत करती हैं। यह डेटासेट ऑप्टिकल कैरेक्टर रिकग्निशन (OCR), मशीन ट्रांसलेशन और बहुभाषी सेटिंग्स में मेनू डिजिटलीकरण जैसे कार्यों के लिए उपयोगी है।
चीनी हस्तलिखित रचना डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 3k
एनोटेशन: हाँ
विवरण: चीनी हस्तलिखित रचना डेटासेट में हस्तलिखित चीनी पाठ के नमूने शामिल हैं, जिसमें रचनाएँ, निबंध और अन्य लंबे-फ़ॉर्म पाठ शामिल हैं। इसमें विभिन्न हस्तलेखन शैलियाँ और जटिलता के स्तर शामिल हैं, और इसका उपयोग हस्तलेखन पहचान, पाठ विश्लेषण और मशीन लर्निंग मॉडल प्रशिक्षण जैसे कार्यों के लिए किया जाता है।
चीनी वाईफ़ाई प्रॉम्प्ट डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 1k
एनोटेशन: हाँ
विवरण: चीनी वाईफ़ाई प्रॉम्प्ट डेटासेट में वाईफ़ाई प्रॉम्प्ट और लॉगिन स्क्रीन में पाए जाने वाले टेक्स्ट सैंपल चीनी में लिखे होते हैं। इसमें आमतौर पर वाईफ़ाई नेटवर्क से कनेक्ट होने या प्रबंधित करने से संबंधित विभिन्न प्रॉम्प्ट, निर्देश और त्रुटि संदेश शामिल होते हैं। इस डेटासेट का उपयोग टेक्स्ट पहचान, प्राकृतिक भाषा प्रसंस्करण और नेटवर्क कनेक्टिविटी के लिए उपयोगकर्ता इंटरफ़ेस को बेहतर बनाने जैसे कार्यों के लिए किया जाता है।
अंग्रेजी और चीनी हस्तलेखन डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 12k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी हस्तलेखन डेटासेट में अंग्रेजी और चीनी दोनों भाषाओं में हस्तलिखित नमूने शामिल हैं, जो विभिन्न लेखन शैलियों और वर्ण जटिलताओं को प्रदर्शित करते हैं। इसका उपयोग आमतौर पर हस्तलेखन पहचान मॉडल के प्रशिक्षण और मूल्यांकन, बहुभाषी पाठ विश्लेषण का समर्थन करने और अन्य संबंधित शोध के लिए किया जाता है। डेटासेट में दोनों भाषाओं में वर्ण, अंक, शब्द और वाक्यों की एक विविध श्रेणी शामिल है।
अंग्रेजी और चीनी शॉपसाइन डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 30k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी शॉपसाइन डेटासेट में उन शॉप साइन की छवियां शामिल हैं जिनमें अंग्रेजी और चीनी दोनों तरह के टेक्स्ट हैं। यह स्टोर के नाम, विज्ञापन, प्रचार और दिशा-निर्देश जैसे विभिन्न साइनेज तत्वों को कैप्चर करता है, जिन्हें विभिन्न फ़ॉन्ट, स्टाइल और फ़ॉर्मेट में प्रदर्शित किया जाता है। इस डेटासेट का उपयोग टेक्स्ट डिटेक्शन और पहचान, बहुभाषी दृश्य समझ और द्विभाषी साइनेज की व्याख्या करने के लिए कंप्यूटर विज़न मॉडल को बेहतर बनाने जैसे कार्यों के लिए किया जाता है।
अंग्रेजी और चीनी विशेष कोण पाठ डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 50k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी विशेष कोण पाठ डेटासेट में अंग्रेजी और चीनी दोनों में विभिन्न कोणों और अभिविन्यासों पर प्रदर्शित पाठ की छवियां शामिल हैं। इसमें संकेतों, विज्ञापनों और दस्तावेजों जैसे स्रोतों से पाठ शामिल हैं जो मानक क्षैतिज प्रारूपों में प्रस्तुत नहीं किए जाते हैं। इस डेटासेट का उपयोग पाठ पहचान और पहचान मॉडल के प्रशिक्षण और मूल्यांकन के लिए किया जाता है, विशेष रूप से वे जो गैर-पारंपरिक अभिविन्यास और दृष्टिकोणों में पाठ को संभालने में सक्षम हैं।
अंग्रेज़ी मेनू डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 20k
एनोटेशन: हाँ
विवरण: अंग्रेजी मेनू डेटासेट में अंग्रेजी में लिखे गए रेस्तरां मेनू की छवियां या टेक्स्ट नमूने शामिल हैं। इसमें विभिन्न प्रकार के फ़ॉन्ट, लेआउट और फ़ॉर्मेटिंग शैलियाँ हैं, जिसमें डिश के नाम से लेकर विवरण और कीमतों तक की सामग्री शामिल है। इस डेटासेट का उपयोग अक्सर भोजन से संबंधित अनुप्रयोगों में ऑप्टिकल कैरेक्टर रिकग्निशन (OCR), टेक्स्ट एक्सट्रैक्शन और मेनू डिजिटाइज़ेशन जैसे कार्यों के लिए किया जाता है।
अंग्रेजी दृश्य पाठ डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 33k
एनोटेशन: हाँ
विवरण: अंग्रेजी दृश्य पाठ डेटासेट में एम्बेडेड अंग्रेजी पाठ के साथ प्राकृतिक दृश्य वाली छवियां शामिल हैं। पाठ विभिन्न रूपों में दिखाई देता है, जैसे कि संकेत, बिलबोर्ड और पोस्टर, अक्सर विभिन्न फ़ॉन्ट, आकार और अभिविन्यास में। इस डेटासेट का उपयोग आमतौर पर पाठ का पता लगाने, पहचानने और दृश्य समझने के कार्यों में मॉडल के प्रशिक्षण और परीक्षण के लिए किया जाता है।
हस्तलिखित पाठ डेटासेट

उदाहरण: दस्तावेज़ एआई
प्रारूप: HEIC (इमेज) और .mov (वीडियो)
गणना: 94053
एनोटेशन: नहीं
विवरण: जापानी, कोरियाई और रूसी के लिए हस्तलिखित पाठ के साथ लाइव तस्वीरें
रिकॉर्ड करने वाला डिवाइस: आईफोन और आईपैड कैमरा
रिकॉर्डिंग की स्थिति: - आक्रामक प्रकाश / चकाचौंध - कैमरा फ्लैश ऑन - रंगीन लाइट - कम रोशनी, कोई कैमरा फ्लैश नहीं - सामान्य
जापानी और कोरियाई भाषा डेटासेट

उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 40k
एनोटेशन: हाँ
विवरण: जापानी और कोरियाई भाषा डेटासेट में जापानी और कोरियाई दोनों में पाठ के नमूने शामिल हैं। इसमें वाक्य, वाक्यांश और शब्द जैसी सामग्री की एक श्रृंखला शामिल है, जिसमें विभिन्न संदर्भ और शैलियाँ शामिल हैं। इस डेटासेट का उपयोग प्राकृतिक भाषा प्रसंस्करण (एनएलपी), मशीन अनुवाद और बहुभाषी अनुप्रयोगों में पाठ विश्लेषण जैसे कार्यों के लिए किया जाता है।
प्रिंटेड रेगुलर/कर्सिव टेक्स्ट डेटासेट (दस्तावेज़ एआई)

उदाहरण: दस्तावेज़ एआई
प्रारूप: HEIC (इमेज) और .mov (वीडियो)
गणना: 23930
एनोटेशन: नहीं
विवरण: जापानी, कोरियाई और रूसी के लिए हस्तलिखित पाठ के साथ लाइव तस्वीरें
रिकॉर्ड करने वाला डिवाइस: आईफोन और आईपैड कैमरा
रिकॉर्डिंग की स्थिति: - आक्रामक प्रकाश / चकाचौंध - कैमरा फ्लैश ऑन - रंगीन लाइट - कम रोशनी, कोई कैमरा फ्लैश नहीं - सामान्य
पाठ + दृश्य-श्रव्य (बहुभाषी/ओसीआर/एनएलपी) – पुस्तकें, पत्रिकाएँ, ऑडियो+पाठ
उदाहरण: पाठ + दृश्य-श्रव्य (बहुभाषी / ओसीआर / एनएलपी)
प्रारूप: वीडियो
गणना: 100K+ व्याख्यान वीडियो + PPT लंबे प्रारूप वीडियो
एनोटेशन: नहीं
विवरण: चीनी पुस्तकें, अंग्रेज़ी पुस्तकें, पत्रिकाएँ, सार्वजनिक नीति, उपन्यास, बच्चे, कैंटोनीज़ ऑडियो+पाठ, व्याख्यान वीडियो+पीपीटी, दीर्घ-प्रारूप वीडियो, आधा अरब पुस्तकें, प्रश्नोत्तर जोड़े, लेख
