मानव एनोटेशन के साथ खोज क्वेरी समझ को बढ़ाना
पोलैंड स्थित एक अग्रणी ई-कॉमर्स समूह के लिए अस्पष्ट एज मामलों को लगातार संभालने और खोज प्रासंगिकता में सुधार करने के लिए मानवीय निर्णय और संरचित वर्गीकरण का लाभ उठाना।
परियोजना अवलोकन
पोलैंड स्थित ई-कॉमर्स क्षेत्र की अग्रणी कंपनी के इस ग्राहक को प्रतिदिन लाखों खोज क्वेरी प्राप्त होती हैं। इनमें से कई क्वेरीज़ अस्पष्ट, शामिल ग़लत वर्तनी, या देखें एकाधिक उत्पाद श्रेणियाँ, जिससे स्वचालित खोज इंजनों के लिए चुनौतियां पैदा हो रही हैं।
सुधार करने के लिएखोज सटीकता और ग्राहक अनुभव, शैप ने बेमार्ड के अध्ययन से प्रेरित होकर एक संरचित एनोटेशन ढाँचा विकसित किया। प्रश्नों को व्यवस्थित रूप से वर्गीकृत किया गया सीटों को 11 श्रेणियों (उदाहरण के लिए, उत्पाद श्रेणी, विषय, विशिष्ट विशेषता, सटीक, व्यापारी, लक्षण, गैर-उत्पाद, आदि) प्राथमिकता नियम सुसंगत वर्गीकरण सुनिश्चित करने के लिए।
मुख्य आँकड़े
50,000 से अधिक प्रश्नों पर टिप्पणी की गई है
कई श्रेणियों में
11 एनोटेशन वर्ग
स्पष्ट परिभाषाओं और वरीयता नियमों के साथ
3-चरणीय कार्यप्रणाली
एनोटेशन ➔ QA ➔ एसएमई मध्यस्थता
परियोजना गुंजाइश
यह परियोजना एक निर्माण पर केंद्रित थी व्यापक वर्गीकरण एक बड़े बाज़ार प्लेटफ़ॉर्म पर उपयोगकर्ता खोज व्यवहार के पूरे स्पेक्ट्रम को कैप्चर करना। इसके दायरे में शामिल हैं:
- 11 श्रेणियों का वर्गीकरण विकसित करना स्पष्ट परिभाषाओं और वरीयता पदानुक्रम के साथ उन मामलों को संबोधित करने के लिए जहां क्वेरी एक से अधिक वर्ग में फिट हो सकती हैं।
- हजारों वास्तविक प्रश्नों की व्याख्या करना वर्गीकरण प्रणाली को प्रशिक्षित और कैलिब्रेट करने के लिए उत्पाद और गैर-उत्पाद दोनों डोमेन में।
- अस्पष्ट प्रश्नों का समाधान विषय वस्तु विशेषज्ञों (एसएमई) तक बात पहुंचाकर, यह सुनिश्चित किया गया कि एज मामलों को किस प्रकार संभाला गया, इसमें एकरूपता बनी रहे।
- व्याख्यात्मक उदाहरण और औचित्य प्रदान करना क्यूए अंशांकन के लिए, एक प्रशिक्षण सेट तैयार करना जिस पर भविष्य के एनोटेटर्स संदर्भ के लिए भरोसा कर सकें।
नमूना एनोटेशन शामिल हैं:
- De dietrich ELENSIO ➔ Exact
- E 91 ➔ कहना मुश्किल
- tezfiles ➔ व्यापारी
- subaru brz toyota gt86 ➔ Non-Product
- ओकुलरी बीएचपी ➔ उत्पाद श्रेणी
- stawu skokowego ➔ Symptom
चुनौतियां
इस परियोजना को कई चुनौतियों का सामना करना पड़ा डेटा जटिलता के मुद्दे जो ई-कॉमर्स खोज वातावरण में विशिष्ट हैं:
अस्पष्टता
"ई 91" जैसे प्रश्न बहुत भिन्न उत्पादों (कार मॉडल, फ्यूज होल्डर, कैप्सूल इंप्रिंट) से संबंधित हो सकते हैं, जिससे व्याख्या अत्यधिक अनिश्चित हो जाती है।
टाइपो और वेरिएंट
गलत वर्तनी या संक्षिप्त रूप, जैसे "लैंपा यूएफ ज़ेस्टॉ", को "लैंपा यूवी ज़ेस्टॉ" के रूप में समझने के लिए प्रासंगिक मानवीय व्याख्या की आवश्यकता होती है।
अतिव्यापी श्रेणियाँ
क्वेरीज़ अक्सर एकाधिक वर्गों से मेल खाती हैं (उदाहरण के लिए, सटीक बनाम संगत बनाम विशिष्ट विशेषता), जिसके लिए संगतता सुनिश्चित करने हेतु वरीयता नियमों की आवश्यकता होती है।
अमान्य इनपुट
बिना किसी उत्पाद मिलान वाले सीरियल कोड या पहचानकर्ताओं को गलत वर्गीकृत करने के बजाय “अमान्य वाक्यांश” के रूप में टैग किया जाना चाहिए।
अनुमापकता
सूक्ष्म वर्गीकरण नियमों को लगातार लागू करना हजारों प्रश्न मजबूत क्यूए और एनोटेशन गवर्नेंस की मांग की।
उपाय
इन चुनौतियों से निपटने के लिए, संरचित एनोटेशन फ्रेमवर्क स्वचालन को मानवीय निगरानी के साथ संतुलित करते हुए, इसे शुरू किया गया:
एनोटेशन दिशानिर्देश
व्याख्याकारों को जटिल परिदृश्यों में भी सुसंगत रूप से वर्गीकरण करने में सहायता करने के लिए विस्तृत परिभाषाएँ, उदाहरण और निर्देश तैयार किए गए।
वरीयता नियम
एक पदानुक्रम स्थापित किया गया (उदाहरण के लिए, संगत > सटीक > विशिष्ट विशेषता) ताकि अतिव्यापी मामलों को व्यवस्थित रूप से हल किया जा सके।
बहु-स्तरीय QA प्रक्रिया
- प्रशिक्षित एनोटेटर्स द्वारा प्रारंभिक एनोटेशन।
- QA विशेषज्ञों द्वारा द्वितीयक समीक्षा।
- सीमांत मामलों या असहमति पर मध्यस्थता के लिए एसएमई को आगे बढ़ाना
वास्तविक दुनिया के प्रश्नों के साथ दिशानिर्देशों का व्यावहारिक अनुप्रयोग
- 4008146044786 ➔ अमान्य वाक्यांश
- miraculum królika ➔ विषयगत विशेषता
- zcd गैलेक्टिक ग्रे ➔ संगत
- owczarek belgijski ➔ विषय
इससे यह सुनिश्चित हुआ संरेखण, गुणवत्ता और विश्वसनीयता एनोटेशन पाइपलाइन के पार.
परिणाम
इस पहल से ग्राहक के खोज पारिस्थितिकी तंत्र में मापनीय सुधार हुए:
- 50,000+ प्रश्न वर्गीकृत उच्च परिशुद्धता के साथ, खोज सुधार के लिए एक मजबूत प्रशिक्षण डेटासेट तैयार करना।
- खोज परिणामों की बेहतर प्रासंगिकता, जिससे सीधे तौर पर उपयोगकर्ता की संतुष्टि बढ़ेगी और अप्रासंगिक मिलानों से होने वाली निराशा कम होगी।
- कम अस्पष्टता एसएमई-संचालित मध्यस्थता और पूर्वता नियमों के माध्यम से सीमांत मामलों को व्यवस्थित रूप से हल करके।
- उन्नत उत्पाद खोज क्षमता, यह सुनिश्चित करना कि उपयोगकर्ता श्रेणियों, विशेषताओं और विषयों में अधिक सटीकता से आइटम ढूंढ सकें।
कुल मिलाकर, इस परियोजना ने एक आधार तैयार किया अधिक बुद्धिमान, उपयोगकर्ता-केंद्रित खोज अनुभव, जिससे ग्राहक को ई-कॉमर्स बाजार में अपनी प्रतिस्पर्धात्मक बढ़त बनाए रखने में मदद मिलती है।
मानव एनोटेशन वर्कफ़्लो ने जटिल खोज क्वेरीज़ को और भी स्पष्ट कर दिया। संरचित वर्गीकरण और वरीयता नियमों ने हमारे सर्च इंजन की सटीकता में उल्लेखनीय सुधार किया और उपयोगकर्ता अनुभव को और भी सहज बनाया।
– पोलैंड स्थित ई-कॉमर्स समूह के खोज एवं खोज प्रमुख