केस स्टडी: मेडिकल डेटासेट लाइसेंसिंग

सटीक डेटा संग्रहण और एनोटेशन प्रशिक्षण के माध्यम से बाल चिकित्सा और ओबी-जीवाईएन देखभाल में परिवर्तन

मेडिकल डेटा की शक्ति को अनलॉक करना: व्यापक डेटा क्यूरेशन, डी-आइडेंटिफिकेशन, आईसीडी-10 सीएम, और सुपीरियर एआई मॉडल प्रशिक्षण के लिए एनोटेशन।

मेडिकल डेटासेट लाइसेंसिंग

परियोजना अवलोकन

शैप ने उन्नत एनएलपी मॉडल के प्रशिक्षण के लिए उच्च गुणवत्ता वाले, पहचान रहित चिकित्सा डेटासेट को क्यूरेट और एनोटेट करने के लिए एक अग्रणी हेल्थकेयर एआई कंपनी के साथ भागीदारी की। यह परियोजना बाल चिकित्सा और ओबी-जीवाईएन विशेषताओं पर केंद्रित थी, जो एक मजबूत एपीआई ढांचे के माध्यम से आईसीडी-10 सीएम कोड के साथ एनोटेट किए गए आउटपेशेंट रिकॉर्ड प्रदान करती है।

डेटासेट को वास्तविक दुनिया के स्वास्थ्य देखभाल दस्तावेज़ीकरण पर एआई प्रशिक्षण की सुविधा के लिए संरचित किया गया था, जिससे नैदानिक ​​कथाओं को समझने में मॉडल की क्षमता बढ़ गई।

मेडिकल डेटासेट लाइसेंसिंग

मुख्य आँकड़े

750 पृष्ठों / लगभग 300 बाह्य रोगी अभिलेख

375 पृष्ठ बाल चिकित्सा

375 पृष्ठ प्रसूति एवं स्त्रीरोग विशेषज्ञ

ICD-10 CM 2023 चिकित्सा कोड एनोटेशन

परियोजना गुंजाइश

डेटासेट प्रकार विशेषता खंड मेटाडेटा कैप्चर किया गया नोट्स
मेडिकल नोट्स बच्चों की दवा करने की विद्या 375 पृष्ठ (~150 रिकॉर्ड) फ़ाइल का नाम, विशेषता,
दस्तावेज़ प्रकार, रोगी वर्ग (बाह्य रोगी)
मूल्यांकन / योजना अनुभाग शामिल हैं
प्रसूति एवं स्त्रीरोग विशेषज्ञ 375 पृष्ठ (~150 रिकॉर्ड)
एनोटेशन आईसीडी-10 सीएम (2023) पूर्ण डेटासेट एपीआई के माध्यम से कोड मैपिंग कोडर्स द्वारा कोड सत्यापन दायरे से बाहर है

चुनौतियां

परियोजना ने कई महत्वपूर्ण चुनौतियाँ प्रस्तुत कीं जिनके लिए सावधानीपूर्वक योजना और कार्यान्वयन की आवश्यकता थी:

1. विशेषता-विशिष्ट डेटा संग्रह

बाल चिकित्सा और ओबी-जीवाईएन विशेषज्ञताओं से विशेष रूप से उच्च गुणवत्ता वाले आउटपेशेंट रिकॉर्ड प्राप्त करना चुनौतीपूर्ण था। प्रत्येक दस्तावेज़ में सटीक एनोटेशन का समर्थन करने के लिए मूल्यांकन और योजना जैसे प्रमुख नैदानिक ​​अनुभाग शामिल करने की आवश्यकता थी।

2. व्यापक PHI पहचान-विहीनीकरण

चिकित्सा संदर्भ को बनाए रखते हुए सभी व्यक्तिगत पहचान योग्य जानकारी (PII) को पूरी तरह से हटाना HIPAA अनुपालन के लिए आवश्यक था। किसी भी गोपनीयता उल्लंघन को रोकने के लिए इसके लिए विस्तृत समीक्षा की आवश्यकता थी।

3. जटिल ICD-10 CM एनोटेशन

API के ज़रिए सटीक ICD-10 CM (2023) कोड लागू करना विभिन्न कथा शैलियों और चिकित्सा शब्दावली के कारण जटिल था। विश्वसनीय AI मॉडल प्रशिक्षण सुनिश्चित करने के लिए कोडिंग में स्थिरता और सटीकता महत्वपूर्ण थी।

4. मेटाडेटा सटीकता और स्थिरता

विशेषता, दस्तावेज़ प्रकार और रोगी वर्ग जैसे मेटाडेटा को बिना किसी विसंगति के कैप्चर करना और सत्यापित करना महत्वपूर्ण था। कोई भी बेमेल मॉडल प्रशिक्षण और डेटा प्रयोज्यता को प्रभावित कर सकता है।

5. सख्त बाह्य रोगी फ़िल्टरिंग

यह सुनिश्चित करना कि सभी रिकॉर्ड पूर्णतः बाह्यरोगी हों, जटिलता को बढ़ाता है, क्योंकि कई नैदानिक ​​दस्तावेजों में मिश्रित रोगी वर्ग या अधूरे अनुभाग हो सकते हैं।

6. गुणवत्ता आश्वासन और सटीकता मानक

90% सटीकता की सीमा को पूरा करने के लिए डुप्लिकेट को खत्म करने, विशेषता संरेखण को मान्य करने और पहचान को हटाने को सुनिश्चित करने के लिए बहु-स्तरीय समीक्षा की आवश्यकता थी - जिसमें आवश्यकता पड़ने पर पुनः कार्य करने का प्रावधान भी शामिल था।

उपाय

व्यापक डेटा लाइसेंसिंग और एनोटेशन

  • लाइसेंस प्राप्त बाल चिकित्सा और ओबी-जीवाईएन बाह्य रोगी रिकॉर्ड
  • महत्वपूर्ण अनुभागों का समावेश सुनिश्चित किया गया: मुख्य शिकायत, इतिहास, आरओएस, मूल्यांकन, योजना
  • API-आधारित ICD-10 CM एनोटेशन (2023 संस्करण)

पहचान हटाना और अनुपालन

  • PHI को प्लेसहोल्डर्स (PERSON_NAME, DATE, LOCATION, आदि) से प्रतिस्थापित किया गया।
  • स्वास्थ्य देखभाल डेटा गोपनीयता मानकों का अनुपालन सुनिश्चित किया गया

मेटाडेटा टैगिंग

  • प्रति फ़ाइल विस्तृत मेटाडेटा कैप्चर किया गया:
    • फ़ाइल नाम
    • विशेषता (बाल रोग या ओबी-जीवाईएन)
    • दस्तावेज़ का प्रकार (अनुवर्ती, एच एंड पी, परामर्श)
    • रोगी वर्ग (केवल बाह्य रोगी)

गुणवत्ता नियंत्रण

  • कठोर गुणवत्ता मूल्यांकन के साथ:
    • कोई डुप्लिकेट रिकॉर्ड नहीं
    • विशेषता मिलान सत्यापन
    • केवल बाह्य रोगी जांच
    • मेटाडेटा संगतता जाँच
  • 90% सटीकता सीमा से नीचे के अभिलेखों का प्रतिस्थापन या सुधार

परिणाम

शैप ने एक संरचित, एनोटेटेड मेडिकल नोट्स डेटासेट प्रदान किया, जिससे ग्राहक को यह करने में मदद मिली:

  • सटीक ICD-10 CM कोड भविष्यवाणी के लिए AI मॉडल को प्रशिक्षित करें
  • वास्तविक विश्व स्वास्थ्य देखभाल परिदृश्यों में एनएलपी क्षमताओं को बढ़ाना
  • गोपनीयता और विनियामक मानकों का अनुपालन बनाए रखें
  • बाल चिकित्सा और ओबी-जीवाईएन डोमेन में स्वास्थ्य सेवा एआई मॉडल का विस्तार करें

डेटासेट क्यूरेशन और एनोटेशन के लिए शैप का संरचित दृष्टिकोण हमारी अपेक्षाओं से कहीं ज़्यादा था। सटीकता, डी-आइडेंटिफिकेशन और मेटाडेटा परिशुद्धता ने हमारे एआई मॉडल प्रशिक्षण पाइपलाइन को काफी मजबूत किया है।

गोल्डन-5-सितारा