केस स्टडी: मेडिकल डेटासेट लाइसेंसिंग
सटीक डेटा संग्रहण और एनोटेशन प्रशिक्षण के माध्यम से बाल चिकित्सा और ओबी-जीवाईएन देखभाल में परिवर्तन
मेडिकल डेटा की शक्ति को अनलॉक करना: व्यापक डेटा क्यूरेशन, डी-आइडेंटिफिकेशन, आईसीडी-10 सीएम, और सुपीरियर एआई मॉडल प्रशिक्षण के लिए एनोटेशन।
परियोजना अवलोकन
शैप ने उन्नत एनएलपी मॉडल के प्रशिक्षण के लिए उच्च गुणवत्ता वाले, पहचान रहित चिकित्सा डेटासेट को क्यूरेट और एनोटेट करने के लिए एक अग्रणी हेल्थकेयर एआई कंपनी के साथ भागीदारी की। यह परियोजना बाल चिकित्सा और ओबी-जीवाईएन विशेषताओं पर केंद्रित थी, जो एक मजबूत एपीआई ढांचे के माध्यम से आईसीडी-10 सीएम कोड के साथ एनोटेट किए गए आउटपेशेंट रिकॉर्ड प्रदान करती है।
डेटासेट को वास्तविक दुनिया के स्वास्थ्य देखभाल दस्तावेज़ीकरण पर एआई प्रशिक्षण की सुविधा के लिए संरचित किया गया था, जिससे नैदानिक कथाओं को समझने में मॉडल की क्षमता बढ़ गई।
मुख्य आँकड़े
750 पृष्ठों / लगभग 300 बाह्य रोगी अभिलेख
375 पृष्ठ बाल चिकित्सा
375 पृष्ठ प्रसूति एवं स्त्रीरोग विशेषज्ञ
ICD-10 CM 2023 चिकित्सा कोड एनोटेशन
परियोजना गुंजाइश
| डेटासेट प्रकार | विशेषता | खंड | मेटाडेटा कैप्चर किया गया | नोट्स |
|---|---|---|---|---|
| मेडिकल नोट्स | बच्चों की दवा करने की विद्या | 375 पृष्ठ (~150 रिकॉर्ड) |
फ़ाइल का नाम, विशेषता, दस्तावेज़ प्रकार, रोगी वर्ग (बाह्य रोगी) |
मूल्यांकन / योजना अनुभाग शामिल हैं |
| प्रसूति एवं स्त्रीरोग विशेषज्ञ | 375 पृष्ठ (~150 रिकॉर्ड) | |||
| एनोटेशन | आईसीडी-10 सीएम (2023) | पूर्ण डेटासेट | एपीआई के माध्यम से कोड मैपिंग | कोडर्स द्वारा कोड सत्यापन दायरे से बाहर है |
चुनौतियां
परियोजना ने कई महत्वपूर्ण चुनौतियाँ प्रस्तुत कीं जिनके लिए सावधानीपूर्वक योजना और कार्यान्वयन की आवश्यकता थी:
1. विशेषता-विशिष्ट डेटा संग्रह
बाल चिकित्सा और ओबी-जीवाईएन विशेषज्ञताओं से विशेष रूप से उच्च गुणवत्ता वाले आउटपेशेंट रिकॉर्ड प्राप्त करना चुनौतीपूर्ण था। प्रत्येक दस्तावेज़ में सटीक एनोटेशन का समर्थन करने के लिए मूल्यांकन और योजना जैसे प्रमुख नैदानिक अनुभाग शामिल करने की आवश्यकता थी।
2. व्यापक PHI पहचान-विहीनीकरण
चिकित्सा संदर्भ को बनाए रखते हुए सभी व्यक्तिगत पहचान योग्य जानकारी (PII) को पूरी तरह से हटाना HIPAA अनुपालन के लिए आवश्यक था। किसी भी गोपनीयता उल्लंघन को रोकने के लिए इसके लिए विस्तृत समीक्षा की आवश्यकता थी।
3. जटिल ICD-10 CM एनोटेशन
API के ज़रिए सटीक ICD-10 CM (2023) कोड लागू करना विभिन्न कथा शैलियों और चिकित्सा शब्दावली के कारण जटिल था। विश्वसनीय AI मॉडल प्रशिक्षण सुनिश्चित करने के लिए कोडिंग में स्थिरता और सटीकता महत्वपूर्ण थी।
4. मेटाडेटा सटीकता और स्थिरता
विशेषता, दस्तावेज़ प्रकार और रोगी वर्ग जैसे मेटाडेटा को बिना किसी विसंगति के कैप्चर करना और सत्यापित करना महत्वपूर्ण था। कोई भी बेमेल मॉडल प्रशिक्षण और डेटा प्रयोज्यता को प्रभावित कर सकता है।
5. सख्त बाह्य रोगी फ़िल्टरिंग
यह सुनिश्चित करना कि सभी रिकॉर्ड पूर्णतः बाह्यरोगी हों, जटिलता को बढ़ाता है, क्योंकि कई नैदानिक दस्तावेजों में मिश्रित रोगी वर्ग या अधूरे अनुभाग हो सकते हैं।
6. गुणवत्ता आश्वासन और सटीकता मानक
90% सटीकता की सीमा को पूरा करने के लिए डुप्लिकेट को खत्म करने, विशेषता संरेखण को मान्य करने और पहचान को हटाने को सुनिश्चित करने के लिए बहु-स्तरीय समीक्षा की आवश्यकता थी - जिसमें आवश्यकता पड़ने पर पुनः कार्य करने का प्रावधान भी शामिल था।
उपाय
व्यापक डेटा लाइसेंसिंग और एनोटेशन
- लाइसेंस प्राप्त बाल चिकित्सा और ओबी-जीवाईएन बाह्य रोगी रिकॉर्ड
- महत्वपूर्ण अनुभागों का समावेश सुनिश्चित किया गया: मुख्य शिकायत, इतिहास, आरओएस, मूल्यांकन, योजना
- API-आधारित ICD-10 CM एनोटेशन (2023 संस्करण)
पहचान हटाना और अनुपालन
- PHI को प्लेसहोल्डर्स (PERSON_NAME, DATE, LOCATION, आदि) से प्रतिस्थापित किया गया।
- स्वास्थ्य देखभाल डेटा गोपनीयता मानकों का अनुपालन सुनिश्चित किया गया
मेटाडेटा टैगिंग
- प्रति फ़ाइल विस्तृत मेटाडेटा कैप्चर किया गया:
-
- फ़ाइल नाम
- विशेषता (बाल रोग या ओबी-जीवाईएन)
- दस्तावेज़ का प्रकार (अनुवर्ती, एच एंड पी, परामर्श)
- रोगी वर्ग (केवल बाह्य रोगी)
गुणवत्ता नियंत्रण
- कठोर गुणवत्ता मूल्यांकन के साथ:
- कोई डुप्लिकेट रिकॉर्ड नहीं
- विशेषता मिलान सत्यापन
- केवल बाह्य रोगी जांच
- मेटाडेटा संगतता जाँच
- 90% सटीकता सीमा से नीचे के अभिलेखों का प्रतिस्थापन या सुधार
परिणाम
शैप ने एक संरचित, एनोटेटेड मेडिकल नोट्स डेटासेट प्रदान किया, जिससे ग्राहक को यह करने में मदद मिली:
- सटीक ICD-10 CM कोड भविष्यवाणी के लिए AI मॉडल को प्रशिक्षित करें
- वास्तविक विश्व स्वास्थ्य देखभाल परिदृश्यों में एनएलपी क्षमताओं को बढ़ाना
- गोपनीयता और विनियामक मानकों का अनुपालन बनाए रखें
- बाल चिकित्सा और ओबी-जीवाईएन डोमेन में स्वास्थ्य सेवा एआई मॉडल का विस्तार करें
डेटासेट क्यूरेशन और एनोटेशन के लिए शैप का संरचित दृष्टिकोण हमारी अपेक्षाओं से कहीं ज़्यादा था। सटीकता, डी-आइडेंटिफिकेशन और मेटाडेटा परिशुद्धता ने हमारे एआई मॉडल प्रशिक्षण पाइपलाइन को काफी मजबूत किया है।