अरबी और थाई और वियतनामी और हिंदी और अंग्रेजी और चीनी भाषा डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 150k
एनोटेशन: हाँ
विवरण: अरबी और थाई और वियतनामी और हिंदी और अंग्रेजी और चीनी भाषा डेटासेट
अरबी पाठ डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 1k
एनोटेशन: हाँ
विवरण: अरबी टेक्स्ट डेटासेट में अरबी में लिखे गए टेक्स्ट सैंपल का संग्रह है। इसमें विभिन्न प्रकार की सामग्री शामिल है, जैसे समाचार लेख, सोशल मीडिया पोस्ट, साहित्य और संवाद, जो विभिन्न विषयों और लेखन शैलियों को कवर करते हैं। इस डेटासेट का उपयोग अरबी भाषा अनुप्रयोगों में प्राकृतिक भाषा प्रसंस्करण (एनएलपी), पाठ वर्गीकरण, भावना विश्लेषण और मशीन अनुवाद जैसे कार्यों के लिए किया जाता है।
चीनी और अंग्रेजी और तिब्बती और उइगर भाषा डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 38k
एनोटेशन: हाँ
विवरण: चीनी और अंग्रेजी और तिब्बती और उइगर भाषा डेटासेट
चीनी और अंग्रेजी मेनू डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 60k
एनोटेशन: हाँ
विवरण: चीनी और अंग्रेजी मेनू डेटासेट में रेस्तरां मेनू की छवियां या टेक्स्ट नमूने शामिल हैं जो चीनी और अंग्रेजी दोनों भाषाओं को दर्शाते हैं। इसमें विभिन्न फ़ॉन्ट, लेआउट और मेनू संरचनाएँ शामिल हैं, जो द्विभाषी व्यंजन नाम, विवरण और मूल्य प्रस्तुत करती हैं। यह डेटासेट ऑप्टिकल कैरेक्टर रिकग्निशन (OCR), मशीन ट्रांसलेशन और बहुभाषी सेटिंग्स में मेनू डिजिटलीकरण जैसे कार्यों के लिए उपयोगी है।
चीनी हस्तलिखित रचना डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 3k
एनोटेशन: हाँ
विवरण: चीनी हस्तलिखित रचना डेटासेट में हस्तलिखित चीनी पाठ के नमूने शामिल हैं, जिसमें रचनाएँ, निबंध और अन्य लंबे-फ़ॉर्म पाठ शामिल हैं। इसमें विभिन्न हस्तलेखन शैलियाँ और जटिलता के स्तर शामिल हैं, और इसका उपयोग हस्तलेखन पहचान, पाठ विश्लेषण और मशीन लर्निंग मॉडल प्रशिक्षण जैसे कार्यों के लिए किया जाता है।
चीनी वाईफ़ाई प्रॉम्प्ट डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 1k
एनोटेशन: हाँ
विवरण: चीनी वाईफ़ाई प्रॉम्प्ट डेटासेट में वाईफ़ाई प्रॉम्प्ट और लॉगिन स्क्रीन में पाए जाने वाले टेक्स्ट सैंपल चीनी में लिखे होते हैं। इसमें आमतौर पर वाईफ़ाई नेटवर्क से कनेक्ट होने या प्रबंधित करने से संबंधित विभिन्न प्रॉम्प्ट, निर्देश और त्रुटि संदेश शामिल होते हैं। इस डेटासेट का उपयोग टेक्स्ट पहचान, प्राकृतिक भाषा प्रसंस्करण और नेटवर्क कनेक्टिविटी के लिए उपयोगकर्ता इंटरफ़ेस को बेहतर बनाने जैसे कार्यों के लिए किया जाता है।
अंग्रेजी और चीनी हस्तलेखन डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 12k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी हस्तलेखन डेटासेट में अंग्रेजी और चीनी दोनों भाषाओं में हस्तलिखित नमूने शामिल हैं, जो विभिन्न लेखन शैलियों और वर्ण जटिलताओं को प्रदर्शित करते हैं। इसका उपयोग आमतौर पर हस्तलेखन पहचान मॉडल के प्रशिक्षण और मूल्यांकन, बहुभाषी पाठ विश्लेषण का समर्थन करने और अन्य संबंधित शोध के लिए किया जाता है। डेटासेट में दोनों भाषाओं में वर्ण, अंक, शब्द और वाक्यों की एक विविध श्रेणी शामिल है।
अंग्रेजी और चीनी शॉपसाइन डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 30k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी शॉपसाइन डेटासेट में उन शॉप साइन की छवियां शामिल हैं जिनमें अंग्रेजी और चीनी दोनों तरह के टेक्स्ट हैं। यह स्टोर के नाम, विज्ञापन, प्रचार और दिशा-निर्देश जैसे विभिन्न साइनेज तत्वों को कैप्चर करता है, जिन्हें विभिन्न फ़ॉन्ट, स्टाइल और फ़ॉर्मेट में प्रदर्शित किया जाता है। इस डेटासेट का उपयोग टेक्स्ट डिटेक्शन और पहचान, बहुभाषी दृश्य समझ और द्विभाषी साइनेज की व्याख्या करने के लिए कंप्यूटर विज़न मॉडल को बेहतर बनाने जैसे कार्यों के लिए किया जाता है।
अंग्रेजी और चीनी विशेष कोण पाठ डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 50k
एनोटेशन: हाँ
विवरण: अंग्रेजी और चीनी विशेष कोण पाठ डेटासेट में अंग्रेजी और चीनी दोनों में विभिन्न कोणों और अभिविन्यासों पर प्रदर्शित पाठ की छवियां शामिल हैं। इसमें संकेतों, विज्ञापनों और दस्तावेजों जैसे स्रोतों से पाठ शामिल हैं जो मानक क्षैतिज प्रारूपों में प्रस्तुत नहीं किए जाते हैं। इस डेटासेट का उपयोग पाठ पहचान और पहचान मॉडल के प्रशिक्षण और मूल्यांकन के लिए किया जाता है, विशेष रूप से वे जो गैर-पारंपरिक अभिविन्यास और दृष्टिकोणों में पाठ को संभालने में सक्षम हैं।
अंग्रेज़ी मेनू डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 20k
एनोटेशन: हाँ
विवरण: अंग्रेजी मेनू डेटासेट में अंग्रेजी में लिखे गए रेस्तरां मेनू की छवियां या टेक्स्ट नमूने शामिल हैं। इसमें विभिन्न प्रकार के फ़ॉन्ट, लेआउट और फ़ॉर्मेटिंग शैलियाँ हैं, जिसमें डिश के नाम से लेकर विवरण और कीमतों तक की सामग्री शामिल है। इस डेटासेट का उपयोग अक्सर भोजन से संबंधित अनुप्रयोगों में ऑप्टिकल कैरेक्टर रिकग्निशन (OCR), टेक्स्ट एक्सट्रैक्शन और मेनू डिजिटाइज़ेशन जैसे कार्यों के लिए किया जाता है।
अंग्रेजी दृश्य पाठ डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 33k
एनोटेशन: हाँ
विवरण: अंग्रेजी दृश्य पाठ डेटासेट में एम्बेडेड अंग्रेजी पाठ के साथ प्राकृतिक दृश्य वाली छवियां शामिल हैं। पाठ विभिन्न रूपों में दिखाई देता है, जैसे कि संकेत, बिलबोर्ड और पोस्टर, अक्सर विभिन्न फ़ॉन्ट, आकार और अभिविन्यास में। इस डेटासेट का उपयोग आमतौर पर पाठ का पता लगाने, पहचानने और दृश्य समझने के कार्यों में मॉडल के प्रशिक्षण और परीक्षण के लिए किया जाता है।
हस्तलिखित पाठ डेटासेट
उदाहरण: दस्तावेज़ एआई
प्रारूप: HEIC (इमेज) और .mov (वीडियो)
गणना: 94053
एनोटेशन: नहीं
विवरण: जापानी, कोरियाई और रूसी के लिए हस्तलिखित पाठ के साथ लाइव तस्वीरें
रिकॉर्ड करने वाला डिवाइस: आईफोन और आईपैड कैमरा
रिकॉर्डिंग की स्थिति: - आक्रामक प्रकाश / चकाचौंध - कैमरा फ्लैश ऑन - रंगीन लाइट - कम रोशनी, कोई कैमरा फ्लैश नहीं - सामान्य
जापानी और कोरियाई भाषा डेटासेट
बाउंडिंग बॉक्स+टेक्स्ट
उदाहरण: ओसीआर
प्रारूप: छवि
गणना: 40k
एनोटेशन: हाँ
विवरण: जापानी और कोरियाई भाषा डेटासेट में जापानी और कोरियाई दोनों में पाठ के नमूने शामिल हैं। इसमें वाक्य, वाक्यांश और शब्द जैसी सामग्री की एक श्रृंखला शामिल है, जिसमें विभिन्न संदर्भ और शैलियाँ शामिल हैं। इस डेटासेट का उपयोग प्राकृतिक भाषा प्रसंस्करण (एनएलपी), मशीन अनुवाद और बहुभाषी अनुप्रयोगों में पाठ विश्लेषण जैसे कार्यों के लिए किया जाता है।