हेल्थकेयर डेटासेट

मशीन लर्निंग प्रोजेक्ट्स के लिए सर्वश्रेष्ठ ओपन सोर्स हेल्थकेयर डेटासेट

  • वैश्विक स्वास्थ्य देखभाल प्रणाली दैनिक आधार पर बड़ी मात्रा में चिकित्सा डेटा का उत्पादन करती है, जिसका उपयोग मशीन सीखने के अनुप्रयोगों के लिए किए जाने की क्षमता है। सभी उद्योगों में, डेटा को एक बहुमूल्य संपत्ति माना जाता है जो कंपनियों को प्रतिस्पर्धात्मक बढ़त हासिल करने में सक्षम बनाता है, और स्वास्थ्य सेवा क्षेत्र भी इससे अलग नहीं है।

यह आलेख चिकित्सा डेटा से निपटने के दौरान आने वाली बाधाओं को संक्षेप में संबोधित करेगा और सार्वजनिक रूप से सुलभ स्वास्थ्य देखभाल डेटासेट का सारांश प्रदान करेगा।

हेल्थकेयर डेटासेट का महत्व

स्वास्थ्य देखभाल डेटासेट का महत्व

हेल्थकेयर डेटासेट रोगी की जानकारी का संग्रह है, जैसे मेडिकल रिकॉर्ड, निदान, उपचार, आनुवंशिक डेटा और जीवनशैली विवरण। वे आज की दुनिया में बहुत महत्वपूर्ण हैं, जहां AI का अधिक से अधिक उपयोग किया जाता है। उसकी वजह यहाँ है:

रोगी के स्वास्थ्य को समझना:

हेल्थकेयर डेटासेट डॉक्टरों को मरीज के स्वास्थ्य की पूरी तस्वीर देते हैं। उदाहरण के लिए, किसी मरीज के चिकित्सा इतिहास, दवाओं और जीवनशैली के बारे में डेटा यह अनुमान लगाने में मदद कर सकता है कि क्या उन्हें कोई पुरानी बीमारी हो सकती है। इससे डॉक्टरों को जल्दी कदम उठाने और उस मरीज के लिए उपचार योजना बनाने की सुविधा मिलती है।

चिकित्सा अनुसंधान में सहायता:

स्वास्थ्य देखभाल डेटासेट का अध्ययन करके, चिकित्सा शोधकर्ता यह देख सकते हैं कि कैंसर रोगियों का इलाज कैसे किया जाता है और वे कैसे ठीक हो जाते हैं। वे ऐसे उपचार ढूंढ सकते हैं जो वास्तविक दुनिया में सबसे अच्छा काम करते हैं। उदाहरण के लिए, बायोबैंक और रोगी उपचार इतिहास में ट्यूमर के नमूनों को देखकर, शोधकर्ता यह जान सकते हैं कि विशिष्ट उत्परिवर्तन और कैंसर प्रोटीन विभिन्न उपचारों पर कैसे प्रतिक्रिया करते हैं। यह डेटा-संचालित दृष्टिकोण उन रुझानों को खोजने में मदद करता है जिससे रोगी को बेहतर परिणाम मिलते हैं।

बेहतर निदान और उपचार:

स्वास्थ्य देखभाल डेटासेट को देखने और महत्वपूर्ण पैटर्न खोजने के लिए डॉक्टर एआई टूल का उपयोग करते हैं। इससे उन्हें बीमारियों का बेहतर निदान और इलाज करने में मदद मिलती है। रेडियोलॉजी में, एआई इंसानों की तुलना में स्कैन में समस्याओं का तेजी से और अधिक सटीकता से पता लगा सकता है। इसका मतलब है कि डॉक्टर बीमारियों का जल्द पता लगा सकते हैं और पहले ही सही इलाज शुरू कर सकते हैं। मेडिकल इमेज एनोटेशन से त्वरित और बेहतर निदान हो सकता है, जिससे रोगी के स्वास्थ्य में सुधार होता है।

सार्वजनिक स्वास्थ्य पहल में मदद करना:

एक छोटे शहर की कल्पना करें जहां स्वास्थ्य देखभाल विशेषज्ञों ने फ्लू के प्रकोप को ट्रैक करने के लिए डेटासेट का उपयोग किया था। उन्होंने पैटर्न को देखा और उन क्षेत्रों का पता लगाया जो प्रभावित थे। इस डेटा के साथ, उन्होंने लक्षित टीकाकरण अभियान और स्वास्थ्य शिक्षा अभियान शुरू किए। इस डेटा-संचालित दृष्टिकोण ने फ्लू को रोकने में मदद की। यह दर्शाता है कि स्वास्थ्य देखभाल डेटासेट कैसे सक्रिय रूप से सार्वजनिक स्वास्थ्य पहलों का मार्गदर्शन और सुधार कर सकते हैं।

मशीन लर्निंग के लिए ओपन सोर्स मेडिकल डेटासेट

किसी भी मशीन लर्निंग मॉडल के अच्छे से काम करने के लिए ओपन डेटासेट आवश्यक हैं। मशीन लर्निंग का उपयोग पहले से ही जीवन विज्ञान, स्वास्थ्य देखभाल और चिकित्सा में किया जा रहा है और इसके अच्छे परिणाम दिख रहे हैं। यह बीमारियों की भविष्यवाणी करने और यह समझने में मदद कर रहा है कि वे कैसे फैलती हैं। मशीन लर्निंग इस बात पर भी विचार दे रही है कि हम किसी समुदाय में बीमार, बुजुर्गों और अस्वस्थ लोगों की देखभाल कैसे ठीक से कर सकते हैं। अच्छे डेटासेट के बिना, ये मशीन लर्निंग मॉडल संभव नहीं होंगे।

सामान्य एवं सार्वजनिक स्वास्थ्य:

  • data.gov: यूएस-उन्मुख स्वास्थ्य देखभाल डेटा पर ध्यान केंद्रित किया गया है जिसे कई मापदंडों का उपयोग करके आसानी से खोजा जा सकता है। डेटासेट अमेरिका में रहने वाले व्यक्तियों की भलाई को बढ़ाने के लिए डिज़ाइन किए गए हैं; हालाँकि, जानकारी अनुसंधान या अतिरिक्त सार्वजनिक स्वास्थ्य डोमेन में अन्य प्रशिक्षण सेटों के लिए भी फायदेमंद साबित हो सकती है।
  • कौन: वैश्विक स्वास्थ्य प्राथमिकताओं पर केंद्रित डेटासेट प्रदान करता है। प्लेटफ़ॉर्म एक उपयोगकर्ता-अनुकूल खोज फ़ंक्शन को शामिल करता है और मौजूदा विषयों की व्यापक समझ के लिए डेटासेट के साथ-साथ मूल्यवान अंतर्दृष्टि प्रदान करता है।
  • Re3Data: कई व्यापक क्षेत्रों में वर्गीकृत 2,000 से अधिक शोध विषयों का डेटा प्रदान करता है। जबकि सभी डेटासेट स्वतंत्र रूप से पहुंच योग्य नहीं हैं, प्लेटफ़ॉर्म संरचना को स्पष्ट रूप से इंगित करता है और शुल्क, सदस्यता आवश्यकताओं और कॉपीराइट प्रतिबंधों जैसे कारकों के आधार पर आसान खोज की अनुमति देता है।
  • मानव मृत्यु दर डेटाबेस 35 देशों के लिए मृत्यु दर, जनसंख्या के आंकड़ों और विभिन्न स्वास्थ्य और जनसांख्यिकीय आंकड़ों पर डेटा तक पहुंच प्रदान करता है।
  • सीएचडीएस: बाल स्वास्थ्य और विकास अध्ययन डेटासेट का उद्देश्य बीमारी और स्वास्थ्य के अंतर-पीढ़ीगत संचरण की जांच करना है। इसमें न केवल जीनोमिक अभिव्यक्ति बल्कि बीमारी और स्वास्थ्य पर सामाजिक, पर्यावरणीय और सांस्कृतिक कारकों के प्रभाव पर शोध करने के लिए डेटासेट शामिल हैं।
  • मर्क आणविक गतिविधि चुनौती: विभिन्न अणु संयोजनों के बीच संभावित अंतःक्रियाओं का अनुकरण करके दवा की खोज में मशीन लर्निंग के अनुप्रयोग को बढ़ावा देने के लिए डिज़ाइन किए गए डेटासेट प्रस्तुत करता है।
  • 1000 जीनोम प्रोजेक्ट: इसमें 2,500 अलग-अलग आबादी के 26 व्यक्तियों का अनुक्रमण डेटा शामिल है, जो इसे सबसे बड़े सुलभ जीनोम रिपॉजिटरी में से एक बनाता है। इस अंतर्राष्ट्रीय सहयोग तक AWS के माध्यम से पहुंचा जा सकता है। (ध्यान दें कि जीनोम परियोजनाओं के लिए अनुदान उपलब्ध हैं।)

जीवन विज्ञान, स्वास्थ्य देखभाल और चिकित्सा के लिए छवि डेटासेट:

  • न्यूरो खोलें: एक स्वतंत्र और खुले मंच के रूप में, ओपनन्यूरो एमआरआई, एमईजी, ईईजी, आईईईजी, ईसीओजी, एएसएल और पीईटी डेटा सहित चिकित्सा छवियों की एक विस्तृत श्रृंखला साझा करता है। 563 प्रतिभागियों को कवर करने वाले 19,187 मेडिकल डेटासेट के साथ, यह शोधकर्ताओं और स्वास्थ्य देखभाल पेशेवरों के लिए एक अमूल्य संसाधन के रूप में कार्य करता है।
  • नखलिस्तान: ओपन एक्सेस सीरीज़ ऑफ़ इमेजिंग स्टडीज़ (OASIS) से उत्पन्न, यह डेटासेट वैज्ञानिक समुदाय के लाभ के लिए जनता को निःशुल्क न्यूरोइमेजिंग डेटा प्रदान करने का प्रयास करता है। इसमें 1,098 एमआर सत्रों और 2,168 पीईटी सत्रों में 1,608 विषयों को शामिल किया गया है, जो शोधकर्ताओं के लिए ढेर सारी जानकारी प्रदान करता है।
  • अल्जाइमर रोग न्यूरोइमेजिंग पहल: अल्जाइमर रोग न्यूरोइमेजिंग पहल (एडीएनआई) दुनिया भर के शोधकर्ताओं द्वारा एकत्र किए गए डेटा को प्रदर्शित करता है जो अल्जाइमर रोग की प्रगति को परिभाषित करने के लिए समर्पित हैं। डेटासेट में एमआरआई और पीईटी छवियों, आनुवंशिक जानकारी, संज्ञानात्मक परीक्षण और सीएसएफ और रक्त बायोमार्कर का एक व्यापक संग्रह शामिल है, जो इस जटिल स्थिति को समझने के लिए एक बहुमुखी दृष्टिकोण की सुविधा प्रदान करता है।

अस्पताल डेटासेट:

  • प्रदाता डेटा कैटलॉग: डायलिसिस सुविधाओं, चिकित्सक प्रथाओं, घरेलू स्वास्थ्य सेवाओं, धर्मशाला देखभाल, अस्पतालों, रोगी पुनर्वास, दीर्घकालिक देखभाल अस्पतालों, पुनर्वास सेवाओं वाले नर्सिंग होम, चिकित्सक कार्यालय यात्रा लागत और आपूर्तिकर्ता निर्देशिकाओं सहित क्षेत्रों में व्यापक प्रदाता डेटासेट तक पहुंचें और डाउनलोड करें।
  • स्वास्थ्य देखभाल लागत और उपयोग परियोजना (एचसीयूपी): यह व्यापक, राष्ट्रव्यापी डेटाबेस स्वास्थ्य देखभाल के उपयोग, पहुंच, शुल्क, गुणवत्ता और परिणामों में राष्ट्रीय रुझानों की पहचान, ट्रैक और विश्लेषण करने के लिए बनाया गया था। एचसीयूपी के भीतर प्रत्येक मेडिकल डेटासेट में अमेरिकी अस्पतालों में सभी मरीजों के रहने, आपातकालीन विभाग के दौरे और एम्बुलेटरी सर्जरी पर मुठभेड़-स्तर की जानकारी होती है, जो शोधकर्ताओं और नीति निर्माताओं के लिए डेटा का खजाना प्रदान करती है।
  • एमआईएमआईसी क्रिटिकल केयर डेटाबेस: कम्प्यूटेशनल फिजियोलॉजी के प्रयोजनों के लिए एमआईटी द्वारा विकसित, इस खुले तौर पर उपलब्ध मेडिकल डेटासेट में 40,000 से अधिक गंभीर देखभाल रोगियों के गैर-पहचान वाले स्वास्थ्य डेटा शामिल हैं। एमआईएमआईसी डेटासेट महत्वपूर्ण देखभाल का अध्ययन करने और नई कम्प्यूटेशनल विधियों को विकसित करने वाले शोधकर्ताओं के लिए एक मूल्यवान संसाधन के रूप में कार्य करता है।

कैंसर डेटासेट:

  • सीटी मेडिकल छवियाँ: सीटी छवि डेटा में रुझानों की जांच के लिए वैकल्पिक तरीकों की सुविधा के लिए डिज़ाइन किया गया, यह डेटासेट कैंसर रोगियों के सीटी स्कैन की सुविधा देता है, जो कंट्रास्ट, तौर-तरीके और रोगी की उम्र जैसे कारकों पर ध्यान केंद्रित करता है। शोधकर्ता नई इमेजिंग तकनीक विकसित करने और कैंसर निदान और उपचार में पैटर्न का विश्लेषण करने के लिए इस डेटा का लाभ उठा सकते हैं।
  • कैंसर रिपोर्टिंग पर अंतर्राष्ट्रीय सहयोग (आईसीसीआर)।): दुनिया भर में कैंसर की रिपोर्टिंग के लिए साक्ष्य-आधारित दृष्टिकोण को बढ़ावा देने के लिए ICCR के भीतर मेडिकल डेटासेट विकसित और प्रदान किए गए हैं। कैंसर रिपोर्टिंग को मानकीकृत करके, ICCR का लक्ष्य संस्थानों और देशों में कैंसर डेटा की गुणवत्ता और तुलनीयता में सुधार करना है।
  • द्रष्टा कैंसर घटना: अमेरिकी सरकार द्वारा प्रदान किया गया, इस कैंसर डेटा को नस्ल, लिंग और उम्र जैसे बुनियादी जनसांख्यिकीय भेदों का उपयोग करके खंडित किया गया है। एसईईआर डेटासेट शोधकर्ताओं को सार्वजनिक स्वास्थ्य पहल और अनुसंधान प्राथमिकताओं को सूचित करते हुए, विभिन्न जनसंख्या उपसमूहों में कैंसर की घटनाओं और जीवित रहने की दर की जांच करने की अनुमति देता है।
  • फेफड़े का कैंसर डेटा सेट: यह निःशुल्क डेटासेट 1995 से पहले के फेफड़ों के कैंसर के मामलों की जानकारी प्रदान करता है। शोधकर्ता इस डेटा का उपयोग फेफड़ों के कैंसर की घटनाओं, उपचार और परिणामों में दीर्घकालिक रुझानों का अध्ययन करने के साथ-साथ नए निदान और पूर्वानुमान उपकरण विकसित करने के लिए कर सकते हैं।

हेल्थकेयर डेटा के लिए अतिरिक्त संसाधन:

  • Kaggle: एक बहुमुखी डेटासेट रिपॉजिटरी - कागल स्वास्थ्य सेवा क्षेत्र तक सीमित नहीं, डेटासेट की एक विस्तृत श्रृंखला के लिए एक उत्कृष्ट मंच बना हुआ है। विभिन्न विषयों में विशेषज्ञता रखने वालों या मॉडल प्रशिक्षण के लिए विविध डेटासेट की आवश्यकता वाले लोगों के लिए आदर्श, कागल एक उपयोगी संसाधन है।
  • subreddit: एक समुदाय-संचालित खजाना निधि - सही सबरेडिट चर्चाएँ खुले डेटासेट के लिए सोने की खान हो सकती हैं। सार्वजनिक डेटासेट द्वारा संबोधित न किए गए आला या विशिष्ट प्रश्नों के लिए, Reddit समुदाय उत्तर दे सकता है।

शेप के प्रीमियम, उपयोग के लिए तैयार मेडिकल डेटासेट के साथ अपने हेल्थकेयर एआई प्रोजेक्ट्स में तेजी लाएं

डॉक्टर और रोगी वार्तालाप डेटासेट

हमारे डेटासेट में डॉक्टरों और मरीजों के बीच उनके स्वास्थ्य और उपचार योजनाओं के बारे में बातचीत की ऑडियो फ़ाइलें हैं। फ़ाइलें 31 विभिन्न चिकित्सा विशिष्टताओं को कवर करती हैं।

क्या शामिल है?

  • स्वास्थ्य देखभाल भाषण मॉडल को प्रशिक्षित करने के लिए 257,977 घंटे का वास्तविक डॉक्टर श्रुतलेख ऑडियो
  • फोन, डिजिटल रिकॉर्डर, स्पीच माइक और स्मार्टफोन जैसे विभिन्न उपकरणों से ऑडियो
  • गोपनीयता कानूनों का पालन करने के लिए व्यक्तिगत जानकारी वाले ऑडियो और प्रतिलेख हटा दिए गए

सीटी स्कैन छवि डेटासेट

हम अनुसंधान और चिकित्सा निदान के लिए शीर्ष पायदान के सीटी स्कैन छवि डेटासेट प्रदान करते हैं। हमारे पास वास्तविक रोगियों की हजारों उच्च-गुणवत्ता वाली छवियां हैं, जिन्हें नवीनतम तकनीकों का उपयोग करके संसाधित किया गया है। हमारे डेटासेट डॉक्टरों और शोधकर्ताओं को कैंसर, मस्तिष्क विकार और हृदय रोगों जैसे विभिन्न स्वास्थ्य मुद्दों को बेहतर ढंग से समझने में मदद करते हैं।

डेटा इंगित करता है कि सबसे आम सीटी स्कैन छाती (6000) और सिर (4350) के होते हैं, साथ ही पेट, श्रोणि और शरीर के अन्य हिस्सों के लिए भी बड़ी संख्या में स्कैन किए जाते हैं। तालिका से यह भी पता चलता है कि कुछ विशेष स्कैन, जैसे कि सीटी कोविड एचआरसीटी और एंजियो पल्मोनरी, मुख्य रूप से भारत, एशिया, यूरोप और अन्य में किए जाते हैं।

इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड (ईएचआर) डेटासेट

इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड (ईएचआर) मरीज के चिकित्सा इतिहास के डिजिटल संस्करण हैं। उनमें निदान, दवाएं, उपचार योजना, टीकाकरण की तारीखें, एलर्जी, चिकित्सा छवियां (जैसे सीटी स्कैन, एमआरआई और एक्स-रे), प्रयोगशाला परीक्षण और बहुत कुछ जैसी जानकारी शामिल है।

हमारी उपयोग के लिए तैयार ईएचआर डेटासेट विशेषताएं:

  • 5.1 चिकित्सा विशिष्टताओं से संबंधित 31 मिलियन से अधिक रिकॉर्ड और चिकित्सक ऑडियो फ़ाइलें
  • प्रामाणिक मेडिकल रिकॉर्ड क्लिनिकल एनएलपी और अन्य दस्तावेज़ एआई मॉडल के प्रशिक्षण के लिए आदर्श हैं
  • अज्ञात एमआरएन, प्रवेश और डिस्चार्ज की तारीखें, रहने की अवधि, लिंग, रोगी वर्ग, भुगतानकर्ता, वित्तीय वर्ग, राज्य, डिस्चार्ज स्वभाव, आयु, डीआरजी, डीआरजी विवरण, प्रतिपूर्ति, एएमएलओएस, जीएमएलओएस, मृत्यु का जोखिम, बीमारी की गंभीरता सहित मेटाडेटा। ग्रूपर, और अस्पताल ज़िप कोड
  • सभी रोगी वर्गों को कवर करने वाले रिकॉर्ड: आंतरिक रोगी, बाह्य रोगी (नैदानिक, पुनर्वास, आवर्ती, सर्जिकल डे केयर), और आपातकालीन
  • HIPAA सेफ हार्बर दिशानिर्देशों का पालन करते हुए, व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) वाले दस्तावेज़ों को संशोधित किया गया

एमआरआई इमेज डेटासेट

हम चिकित्सा अनुसंधान और निदान का समर्थन करने के लिए प्रीमियम एमआरआई छवि डेटासेट प्रदान करते हैं। हमारे व्यापक संग्रह में वास्तविक रोगियों की हजारों उच्च-रिज़ॉल्यूशन छवियां शामिल हैं, सभी को अत्याधुनिक तरीकों का उपयोग करके संसाधित किया गया है। हमारे डेटासेट का उपयोग करके, स्वास्थ्य देखभाल पेशेवर और शोधकर्ता चिकित्सा स्थितियों की एक विस्तृत श्रृंखला के बारे में अपनी समझ को गहरा कर सकते हैं, जिससे अंततः रोगी के परिणामों में वृद्धि होगी।

शरीर के विभिन्न अंगों की एमआरआई छवि डेटासेट, जिसमें रीढ़ और मस्तिष्क की संख्या सबसे अधिक 5000 है। डेटा भारत, मध्य एशिया और यूरोप और मध्य एशिया क्षेत्रों में वितरित किया गया है।

एक्स-रे इमेज डेटासेट

अनुसंधान और चिकित्सा निदान के लिए सर्वोत्तम गुणवत्ता वाले एक्स-रे छवि डेटासेट। हमारे पास वास्तविक रोगियों की हजारों उच्च-रिज़ॉल्यूशन छवियां हैं, जिन्हें नवीनतम तकनीकों का उपयोग करके संसाधित किया गया है। शेप के साथ, आप अपने शोध और रोगी परिणामों को बेहतर बनाने के लिए विश्वसनीय चिकित्सा डेटा तक पहुंच सकते हैं।

शरीर के विभिन्न अंगों में एक्स-रे डेटासेट का वितरण, मध्य एशिया में छाती की संख्या सबसे अधिक 1000 है। निचले और ऊपरी छोरों की कुल संख्या 850 प्रत्येक है, जो मध्य एशिया और मध्य एशिया और यूरोप क्षेत्रों के बीच वितरित है।

सामाजिक शेयर