डेटा एनोटेशन - एनईआर

क्लिनिकल एनएलपी के लिए नामांकित इकाई मान्यता (एनईआर) एनोटेशन

नेर एनोटेशन

हेल्थकेयर एपीआई के अगले संस्करण के निर्माण के लिए क्लिनिकल एनएलपी को प्रशिक्षित/विकसित करने के लिए अच्छी तरह से एनोटेटेड और गोल्ड स्टैंडर्ड क्लिनिकल टेक्स्ट डेटा

क्लिनिकल नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) के महत्व को पिछले वर्षों में तेजी से पहचाना गया है और इससे परिवर्तनकारी प्रगति हुई है। क्लिनिकल एनएलपी कंप्यूटर को मरीज के डॉक्टर के लिखित विश्लेषण के पीछे निहित समृद्ध अर्थ को समझने की अनुमति देता है। क्लिनिकल एनएलपी में जनसंख्या स्वास्थ्य विश्लेषण से लेकर क्लिनिकल दस्तावेज़ीकरण में सुधार, वाक् पहचान से लेकर क्लिनिकल परीक्षण मिलान आदि तक कई उपयोग के मामले हो सकते हैं।

किसी भी क्लिनिकल एनएलपी मॉडल को विकसित और प्रशिक्षित करने के लिए, आपको भारी मात्रा में सटीक, निष्पक्ष और अच्छी तरह से एनोटेटेड डेटासेट की आवश्यकता होती है। गोल्ड स्टैंडर्ड और विविध डेटा एनएलपी इंजनों की सटीकता और रिकॉल को बढ़ाने में मदद करते हैं।

खंड

एनोटेट किए गए दस्तावेज़ों की संख्या
10
एनोटेटेड पृष्ठों की संख्या
10 +
परियोजना अवधि
< 1 महीने

चुनौतियां

ग्राहक अपने प्राकृतिक भाषा प्रसंस्करण (एनएलपी) प्लेटफॉर्म को नई इकाई प्रकारों के साथ प्रशिक्षित करने और विकसित करने और विभिन्न प्रकारों के बीच संबंधों की पहचान करने के लिए उत्सुक था। इसके अलावा, वे उन विक्रेताओं का मूल्यांकन कर रहे थे जो उच्च सटीकता प्रदान करते थे, स्थानीय कानूनों का अनुपालन करते थे और डेटा के एक बड़े सेट को एनोटेट करने के लिए आवश्यक चिकित्सा ज्ञान रखते थे।

कार्य 20,000 लेबल वाले रिकॉर्ड्स को लेबल और एनोटेट करना था, जिसमें इनपेशेंट और आउट पेशेंट इलेक्ट्रॉनिक हेल्थ रिकॉर्ड (ईएचआर) डेटा से 15,000 लेबल रिकॉर्ड और लिखित चिकित्सा श्रुतलेखों से 5,000 लेबल रिकॉर्ड शामिल थे, जो समान रूप से (1) भौगोलिक उत्पत्ति और () में वितरित किए गए थे। 2) उपलब्ध चिकित्सा विशिष्टताएँ।

तो, चुनौतियों को संक्षेप में प्रस्तुत करने के लिए:

  • एनएलपी प्लेटफ़ॉर्म को प्रशिक्षित करने के लिए विविध नैदानिक ​​डेटा व्यवस्थित करें
  • महत्वपूर्ण जानकारी प्राप्त करने के लिए विभिन्न संस्थाओं के बीच संबंध की पहचान करें
  • जटिल नैदानिक ​​दस्तावेजों के व्यापक सेट को लेबल/एनोटेट करने की क्षमता और विशेषज्ञता
  • निर्धारित समय सीमा के भीतर क्लिनिकल एनएलपी को प्रशिक्षित करने के लिए बड़ी मात्रा में डेटा को लेबल/एनोटेट करने की लागत को नियंत्रण में रखना
  • क्लिनिकल डेटासेट में इकाइयों को एनोटेट करें जिसमें 75% ईएचआर और 25% डिक्टेशन रिकॉर्ड शामिल हैं।
  • डिलीवरी के समय डेटा डी-आइडेंटिफिकेशन

प्राकृतिक भाषा समझ में अन्य चुनौतियाँ

अस्पष्टता

शब्द अद्वितीय होते हैं लेकिन संदर्भ के आधार पर उनके अलग-अलग अर्थ हो सकते हैं जिसके परिणामस्वरूप शाब्दिक, वाक्य-विन्यास और अर्थ संबंधी स्तरों पर अस्पष्टता होती है।

synonymy

हम एक ही विचार को विभिन्न शब्दों के साथ व्यक्त कर सकते हैं जो पर्यायवाची भी हैं: किसी वस्तु का वर्णन करते समय बड़े और बड़े का मतलब एक ही होता है।

Coreference

किसी पाठ में एक ही इकाई को संदर्भित करने वाले सभी भावों को खोजने की प्रक्रिया को संदर्भ समाधान कहा जाता है।

व्यक्तित्व, इरादा, भावनाएँ

वक्ता के व्यक्तित्व, उनके इरादे और भावनाओं के आधार पर, एक ही विचार को अलग-अलग तरीके से व्यक्त किया जा सकता है।

उपाय

चिकित्सा दस्तावेजों के रूप में बड़ी मात्रा में चिकित्सा डेटा और ज्ञान उपलब्ध है, लेकिन यह मुख्य रूप से असंरचित प्रारूप में है। मेडिकल इकाई एनोटेशन / नामांकित इकाई मान्यता (एनईआर) एनोटेशन के साथ, शेप विभिन्न प्रकार के नैदानिक ​​रिकॉर्ड से उपयोगी जानकारी को एनोटेट करके असंरचित डेटा को एक संरचित प्रारूप में परिवर्तित करने में सक्षम था। एक बार संस्थाओं की पहचान हो जाने के बाद, महत्वपूर्ण जानकारी की पहचान करने के लिए उनके बीच संबंधों को भी मैप किया गया।

कार्य का दायरा: हेल्थकेयर इकाई उल्लेख एनोटेशन

9 इकाई प्रकार

  • चिकित्सा हालत
  • चिकित्सा प्रक्रिया
  • शारीरिक संरचना
  • दवा
  • चिकित्सीय उपकरण
  • शरीर माप
  • मादक द्रव्यों के सेवन
  • प्रयोगशाला डेटा
  • शारीरिक कार्य

17 संशोधक

  • दवा संशोधक: शक्ति, इकाई, खुराक, से, आवृत्ति, मार्ग, अवधि, स्थिति
  • शारीरिक माप संशोधक: मान, इकाई, परिणाम
  • प्रक्रिया संशोधक: विधि
    • प्रयोगशाला डेटा संशोधक: लैब मान, लैब इकाई, लैब परिणाम
  • तीव्रता
  • प्रक्रिया परिणाम

27 रिश्ते और रोगी की स्थिति

परिणाम

एनोटेटेड डेटा का उपयोग क्लाइंट के क्लिनिकल एनएलपी प्लेटफ़ॉर्म को विकसित करने और प्रशिक्षित करने के लिए किया जाएगा, जिसे उनके हेल्थकेयर एपीआई के अगले संस्करण में शामिल किया जाएगा। ग्राहक को जो लाभ प्राप्त हुए वे थे:

  • लेबल/एनोटेट किया गया डेटा क्लाइंट के मानक डेटा एनोटेशन दिशानिर्देशों के अनुरूप है।
  • अधिक सटीकता के लिए एनएलपी प्लेटफ़ॉर्म को प्रशिक्षित करने के लिए विषम डेटासेट का उपयोग किया गया था।
  • विभिन्न संस्थाओं के बीच संबंध, यानी शारीरिक शारीरिक संरचना <> चिकित्सा उपकरण, चिकित्सा स्थिति <> चिकित्सा उपकरण, चिकित्सा स्थिति <> दवा, चिकित्सा स्थिति <> महत्वपूर्ण चिकित्सा जानकारी प्राप्त करने के लिए प्रक्रिया की पहचान की गई।
  • डेटा का व्यापक सेट जिसे लेबल/एनोटेट किया गया था, डिलीवरी के समय उसकी पहचान भी रद्द कर दी गई थी।

शैप के साथ हमारे सहयोग ने स्वास्थ्य सेवा के भीतर एम्बिएंट टेक्नोलॉजी और कन्वर्सेशनल एआई में हमारे प्रोजेक्ट को काफी आगे बढ़ाया। सिंथेटिक हेल्थकेयर संवादों को बनाने और लिखने में उनकी विशेषज्ञता ने नियामक चुनौतियों पर काबू पाने में सिंथेटिक डेटा की क्षमता को प्रदर्शित करते हुए एक ठोस आधार प्रदान किया। शेप के साथ, हमने इन बाधाओं को पार कर लिया और अब सहज स्वास्थ्य देखभाल समाधानों के अपने दृष्टिकोण को साकार करने के एक कदम करीब हैं।

गोल्डन-5-सितारा

अपने संवादी एआई को तेज़ करें
अनुप्रयोग विकास 100%