अमेज़ॅन कॉम्प्रिहेंड ने कस्टम एंटिटी रिकग्निशन के लिए निचली एनोटेशन सीमा की घोषणा की

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

Amazon Comprehend एक प्राकृतिक-भाषा प्रसंस्करण (एनएलपी) सेवा है जिसका उपयोग आप दस्तावेजों से स्वचालित रूप से संस्थाओं, प्रमुख वाक्यांशों, भाषा, भावनाओं और अन्य अंतर्दृष्टि को निकालने के लिए कर सकते हैं। उदाहरण के लिए, आप लोगों, स्थानों, व्यावसायिक वस्तुओं, तिथियों और मात्राओं जैसी संस्थाओं का तुरंत पता लगाना शुरू कर सकते हैं Amazon Compendend कंसोल, AWS कमांड लाइन इंटरफ़ेसया, Amazon Comprehend API. इसके अतिरिक्त, यदि आपको उन संस्थाओं को निकालने की आवश्यकता है जो इसका हिस्सा नहीं हैं अमेज़ॅन बिल्ट-इन इकाई प्रकारों को समझें, आप एक कस्टम निकाय पहचान मॉडल बना सकते हैं (जिसे के रूप में भी जाना जाता है) कस्टम इकाई पहचानकर्ता) उन शब्दों को निकालने के लिए जो आपके विशिष्ट उपयोग के मामले के लिए अधिक प्रासंगिक हैं, जैसे उत्पादों के कैटलॉग से आइटम के नाम, डोमेन-विशिष्ट पहचानकर्ता, और इसी तरह। मशीन लर्निंग लाइब्रेरी और फ्रेमवर्क का उपयोग करके अपने दम पर एक सटीक इकाई पहचानकर्ता बनाना एक जटिल और समय लेने वाली प्रक्रिया हो सकती है। अमेज़ॅन कॉम्प्रिहेंड आपके मॉडल प्रशिक्षण कार्य को महत्वपूर्ण रूप से सरल करता है। आपको केवल अपने दस्तावेज़ों और एनोटेशन के डेटासेट को लोड करना है, और मॉडल बनाने के लिए Amazon Comprehend कंसोल, AWS CLI, या API का उपयोग करना है।

कस्टम इकाई पहचानकर्ता को प्रशिक्षित करने के लिए, आप Amazon Comprehend को प्रशिक्षण डेटा प्रदान कर सकते हैं: एनोटेशन या इकाई सूचियाँ. पहले मामले में, आप दस्तावेज़ों का एक संग्रह और एनोटेशन वाली एक फ़ाइल प्रदान करते हैं जो उस स्थान को निर्दिष्ट करती है जहाँ दस्तावेज़ों के सेट के भीतर इकाइयाँ होती हैं। वैकल्पिक रूप से, निकाय सूचियों के साथ, आप निकायों की एक सूची उनके संगत निकाय प्रकार लेबल के साथ, और अघोषित दस्तावेज़ों का एक सेट प्रदान करते हैं जिसमें आप अपनी संस्थाओं के उपस्थित होने की अपेक्षा करते हैं। एक सफल कस्टम निकाय पहचान मॉडल को प्रशिक्षित करने के लिए दोनों दृष्टिकोणों का उपयोग किया जा सकता है; हालांकि, ऐसी स्थितियां हैं जिनमें एक विधि बेहतर विकल्प हो सकती है। उदाहरण के लिए, जब विशिष्ट संस्थाओं का अर्थ अस्पष्ट और संदर्भ-निर्भर हो सकता है, तो एनोटेशन प्रदान करने की अनुशंसा की जाती है क्योंकि इससे आपको एक अमेज़ॅन कॉम्प्रिहेंड मॉडल बनाने में मदद मिल सकती है जो संस्थाओं को निकालते समय संदर्भ का बेहतर उपयोग करने में सक्षम है।

एनोटेटिंग दस्तावेज़ों के लिए काफी प्रयास और समय की आवश्यकता हो सकती है, खासकर यदि आप मानते हैं कि एनोटेशन की गुणवत्ता और मात्रा दोनों का परिणामी निकाय मान्यता मॉडल पर प्रभाव पड़ता है। सटीक या बहुत कम टिप्पणियों के कारण खराब परिणाम हो सकते हैं। एनोटेशन प्राप्त करने के लिए एक प्रक्रिया स्थापित करने में आपकी मदद करने के लिए, हम जैसे उपकरण प्रदान करते हैं अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ, जिसका उपयोग आप अपने दस्तावेज़ों को अधिक तेज़ी से एनोटेट करने और एक उत्पन्न करने के लिए कर सकते हैं संवर्धित मेनिफेस्ट एनोटेशन फ़ाइल. हालाँकि, भले ही आप ग्राउंड ट्रुथ का उपयोग करते हों, फिर भी आपको यह सुनिश्चित करने की आवश्यकता है कि आपका प्रशिक्षण डेटासेट आपके इकाई पहचानकर्ता को सफलतापूर्वक बनाने के लिए पर्याप्त है।

आज तक, अमेज़ॅन कॉम्प्रिहेंड कस्टम इकाई पहचानकर्ता का प्रशिक्षण शुरू करने के लिए, आपको कम से कम 250 दस्तावेज़ों का संग्रह और प्रति इकाई प्रकार न्यूनतम 100 एनोटेशन प्रदान करना होगा। आज, हम घोषणा कर रहे हैं कि, Amazon Comprehend के मॉडल में हाल के सुधारों के लिए धन्यवाद, हमने एक पहचानकर्ता को सादे पाठ CSV एनोटेशन फ़ाइलों के साथ प्रशिक्षण के लिए न्यूनतम आवश्यकताओं को कम कर दिया है। अब आप कम से कम तीन दस्तावेज़ों और प्रति निकाय प्रकार 25 एनोटेशन के साथ एक कस्टम निकाय पहचान मॉडल बना सकते हैं। आप नई सेवा सीमाओं के बारे में अधिक जानकारी प्राप्त कर सकते हैं दिशानिर्देश और कोटा.

यह दिखाने के लिए कि यह कमी आपको कस्टम निकाय पहचानकर्ता के निर्माण के साथ आरंभ करने में कैसे मदद कर सकती है, हमने कुछ ओपन-सोर्स डेटासेट और एकत्रित प्रदर्शन मीट्रिक पर कुछ परीक्षण चलाए। इस पोस्ट में, हम आपको बेंचमार्किंग प्रक्रिया और सबसैंपल किए गए डेटासेट पर काम करते हुए प्राप्त परिणामों के बारे में बताते हैं।

डेटासेट तैयार करना

इस पोस्ट में, हम बताते हैं कि कैसे हमने एनोटेट किए गए दस्तावेज़ों का उपयोग करके एक अमेज़ॅन कॉम्प्रिहेंड कस्टम इकाई पहचानकर्ता को प्रशिक्षित किया। सामान्य तौर पर, एनोटेशन को a . के रूप में प्रदान किया जा सकता है CSV फ़ाइल, एक ग्राउंड ट्रुथ द्वारा उत्पन्न संवर्धित मेनिफेस्ट फ़ाइल, या एक पीडीएफ फाइल. हमारा ध्यान सीएसवी सादा पाठ एनोटेशन पर है, क्योंकि यह नई न्यूनतम आवश्यकताओं से प्रभावित एनोटेशन का प्रकार है। सीएसवी फाइलों में निम्नलिखित संरचना होनी चाहिए:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

प्रासंगिक क्षेत्र इस प्रकार हैं:

पट्टिका - दस्तावेज़ों वाली फ़ाइल का नाम
लाइन - लाइन 0 . से शुरू होने वाली इकाई वाली लाइन की संख्या
शुरू करो ओफ़्सेट - इनपुट टेक्स्ट में कैरेक्टर ऑफसेट (लाइन की शुरुआत के सापेक्ष) जो दिखाता है कि एंटिटी कहां से शुरू होती है, यह देखते हुए कि पहला कैरेक्टर पोजिशन 0 पर है
ऑफसेट समाप्त करें - चरित्र इनपुट टेक्स्ट में ऑफसेट होता है जो दिखाता है कि इकाई कहाँ समाप्त होती है
प्रकार - उस इकाई प्रकार का नाम जिसे आप परिभाषित करना चाहते हैं

इसके अतिरिक्त, इस दृष्टिकोण का उपयोग करते समय, आपको प्रति पंक्ति एक दस्तावेज़ के साथ .txt फ़ाइलों के रूप में प्रशिक्षण दस्तावेज़ों का एक संग्रह प्रदान करना होगा, या प्रति फ़ाइल एक दस्तावेज़ प्रदान करना होगा।

हमारे परीक्षणों के लिए, हमने इस्तेमाल किया SNIPS नेचुरल लैंग्वेज अंडरस्टैंडिंग बेंचमार्क, सात उपयोगकर्ता इरादों के बीच वितरित क्राउडसोर्स किए गए कथनों का एक डेटासेट (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent) पेपर के संदर्भ में डेटासेट 2018 में प्रकाशित किया गया था स्निप्स वॉयस प्लेटफॉर्म: निजी-दर-डिजाइन वॉयस इंटरफेस के लिए एक एम्बेडेड स्पोकन लैंग्वेज अंडरस्टैंडिंग सिस्टम कौके, एट अल द्वारा।

एसएनआईपीएस डेटासेट जेएसओएन फाइलों के संग्रह से बना है जो एनोटेशन और कच्ची टेक्स्ट फाइलों दोनों को संघनित करता है। निम्नलिखित डेटासेट से एक स्निपेट है:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

अपना निकाय पहचानकर्ता बनाने से पहले, हमने SNIPS एनोटेशन और कच्ची टेक्स्ट फ़ाइलों को CSV एनोटेशन फ़ाइल और एक .txt दस्तावेज़ फ़ाइल में बदल दिया।

निम्नलिखित हमारे से एक अंश है annotations.csv फ़ाइल:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

निम्नलिखित हमारे से एक अंश है documents.txt फ़ाइल:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

नमूना विन्यास और बेंचमार्किंग प्रक्रिया

हमारे प्रयोगों के लिए, हमने एसएनआईपीएस डेटासेट से इकाई प्रकारों के सबसेट पर ध्यान केंद्रित किया:

बुक रेस्टोरेंट - इकाई प्रकार: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
मौसम प्राप्त करें - इकाई प्रकार: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
संगीत बजाना - इकाई प्रकार: track, artist, music_item, service, genre, sort, playlist, album, year

इसके अलावा, हमने प्रशिक्षण के लिए नमूने लिए गए दस्तावेज़ों की संख्या और प्रति इकाई एनोटेशन की संख्या के संदर्भ में अलग-अलग कॉन्फ़िगरेशन प्राप्त करने के लिए प्रत्येक डेटासेट को सब-सैंपल किया (जिसे के रूप में भी जाना जाता है) शॉट्स) यह सबसैंपल किए गए डेटासेट बनाने के लिए डिज़ाइन की गई एक कस्टम स्क्रिप्ट का उपयोग करके किया गया था जिसमें प्रत्येक इकाई प्रकार कम से कम दिखाई देता है k बार, कम से कम . के भीतर n दस्तावेजों।

प्रत्येक मॉडल को प्रशिक्षण डेटासेट के विशिष्ट उप-नमूने का उपयोग करके प्रशिक्षित किया गया था; नौ मॉडल विन्यास निम्न तालिका में सचित्र हैं।

सबसैंपल किया गया डेटासेट नाम	प्रशिक्षण के लिए नमूने लिए गए दस्तावेजों की संख्या	परीक्षण के लिए नमूने लिए गए दस्तावेजों की संख्या	प्रति इकाई प्रकार एनोटेशन की औसत संख्या (शॉट्स)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

अपने मॉडल की सटीकता को मापने के लिए, हमने मूल्यांकन मेट्रिक्स एकत्र किए हैं जो कि Amazon Comprehend स्वचालित रूप से एक इकाई पहचानकर्ता को प्रशिक्षित करते समय गणना करता है:

शुद्धता - यह पहचानकर्ता द्वारा खोजी गई संस्थाओं के अंश को इंगित करता है जिन्हें सही ढंग से पहचाना और लेबल किया गया है। एक अलग दृष्टिकोण से, परिशुद्धता को इस प्रकार परिभाषित किया जा सकता है टीपी / (टीपी + एफपी), जहां tp सही सकारात्मक (सही पहचान) की संख्या है और fp झूठी सकारात्मक (गलत पहचान) की संख्या है।
वापस बुलाना - यह सही ढंग से पहचाने और लेबल किए गए दस्तावेजों में मौजूद संस्थाओं के अंश को इंगित करता है। इसकी गणना के रूप में की जाती है टीपी / (टीपी + एफएन), जहां tp सच्चे सकारात्मक की संख्या है और fn झूठी नकारात्मक (छूटी पहचान) की संख्या है।
एफ 1 का स्कोर - यह सटीक और रिकॉल मेट्रिक्स का एक संयोजन है, जो मॉडल की समग्र सटीकता को मापता है। F1 स्कोर सटीक और रिकॉल मेट्रिक्स का हार्मोनिक माध्य है, और इसकी गणना इस प्रकार की जाती है 2 * प्रेसिजन * रिकॉल / (प्रेसिजन + रिकॉल).

हमारे इकाई पहचानकर्ताओं के प्रदर्शन की तुलना करने के लिए, हम F1 स्कोर पर ध्यान केंद्रित करते हैं।

इसे ध्यान में रखते हुए, एक डेटासेट और एक उप-नमूना आकार (दस्तावेजों और शॉट्स की संख्या के संदर्भ में) को देखते हुए, आप अलग-अलग उप-नमूने उत्पन्न कर सकते हैं, हमने नौ कॉन्फ़िगरेशन में से प्रत्येक के लिए 10 उप-नमूने उत्पन्न किए, इकाई पहचान मॉडल को प्रशिक्षित किया, प्रदर्शन मीट्रिक एकत्र किया, और माइक्रो-औसत का उपयोग करके उनका औसत निकाला। इसने हमें अधिक स्थिर परिणाम प्राप्त करने की अनुमति दी, विशेष रूप से कुछ-शॉट उप-नमूनों के लिए।

परिणाम

निम्न तालिका प्रत्येक इकाई पहचानकर्ता को प्रशिक्षण देने के बाद Amazon Comprehend द्वारा लौटाए गए प्रदर्शन मेट्रिक्स पर गणना किए गए माइक्रो-औसत F1 स्कोर दिखाती है।

सबसैंपल किया गया डेटासेट नाम	इकाई पहचानकर्ता माइक्रो-औसत F1 स्कोर (%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

निम्न कॉलम चार्ट पिछले अनुभाग में वर्णित नौ कॉन्फ़िगरेशन के लिए F1 स्कोर के वितरण को दर्शाता है जिसे हमने प्रशिक्षित किया है।

हम देख सकते हैं कि हम कस्टम इकाई पहचान मॉडल को सफलतापूर्वक प्रशिक्षित करने में सक्षम थे, यहां तक कि प्रति इकाई प्रकार 25 एनोटेशन के साथ भी। यदि हम तीन सबसे छोटे सबसैंपल किए गए डेटासेट पर ध्यान केंद्रित करते हैं (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-A, तथा snips-PlayMusic-subsample-A), हम देखते हैं कि औसतन, हम 1% का F84 स्कोर प्राप्त करने में सक्षम थे, जो कि हमारे द्वारा उपयोग किए जाने वाले दस्तावेज़ों और टिप्पणियों की सीमित संख्या को देखते हुए एक बहुत अच्छा परिणाम है। यदि हम अपने मॉडल के प्रदर्शन में सुधार करना चाहते हैं, तो हम अतिरिक्त दस्तावेज़ और एनोटेशन एकत्र कर सकते हैं और अधिक डेटा के साथ एक नए मॉडल को प्रशिक्षित कर सकते हैं। उदाहरण के लिए, मध्यम आकार के उप-नमूनों के साथ (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-B, तथा snips-PlayMusic-subsample-B), जिसमें दोगुने दस्तावेज़ और एनोटेशन हैं, हमने औसतन 1% का F88 स्कोर प्राप्त किया (के संबंध में 5% सुधार) subsample-A डेटासेट)। अंत में, बड़े सबसैंपल किए गए डेटासेट (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-C, तथा snips-PlayMusic-subsample-C), जिसमें और भी अधिक एनोटेट डेटा होता है (दस्तावेजों और टिप्पणियों की संख्या का लगभग चार गुना) subsample-A डेटासेट) ने 2% और सुधार प्रदान किया, जिससे औसत F1 स्कोर 90% तक बढ़ गया।

निष्कर्ष

इस पोस्ट में, हमने Amazon Comprehend के साथ एक कस्टम निकाय पहचानकर्ता को प्रशिक्षित करने के लिए न्यूनतम आवश्यकताओं में कमी की घोषणा की, और यह दिखाने के लिए कि यह कमी आपको आरंभ करने में कैसे मदद कर सकती है, ओपन-सोर्स डेटासेट पर कुछ बेंचमार्क चलाए। आज से, आप प्रति इकाई प्रकार (25 के बजाय) कम से कम 100 एनोटेशन और कम से कम तीन दस्तावेज़ (250 के बजाय) के साथ एक इकाई पहचान मॉडल बना सकते हैं। इस घोषणा के साथ, हम Amazon Comprehend कस्टम निकाय पहचान तकनीक का उपयोग करने में रुचि रखने वाले उपयोगकर्ताओं के लिए प्रवेश की बाधा को कम कर रहे हैं। अब आप एनोटेट किए गए दस्तावेज़ों के एक बहुत छोटे संग्रह के साथ अपने प्रयोग चलाना शुरू कर सकते हैं, प्रारंभिक परिणामों का विश्लेषण कर सकते हैं, और यदि आपको अपने उपयोग के मामले के लिए अधिक सटीक इकाई पहचान मॉडल की आवश्यकता है, तो अतिरिक्त एनोटेशन और दस्तावेज़ों को शामिल करके पुनरावृति कर सकते हैं।

अधिक जानने के लिए और कस्टम निकाय पहचानकर्ता के साथ आरंभ करने के लिए, देखें कस्टम इकाई मान्यता.

मेरे सहयोगियों ज्योति बंसल और जी मा को डेटा तैयार करने और बेंचमार्किंग में उनकी बहुमूल्य मदद के लिए विशेष धन्यवाद।

लेखक के बारे में

लुका गुइडा एडब्ल्यूएस में एक समाधान वास्तुकार है; वह मिलान में स्थित है और अपनी क्लाउड यात्रा में इतालवी ISV का समर्थन करता है। कंप्यूटर विज्ञान और इंजीनियरिंग में एक अकादमिक पृष्ठभूमि के साथ, उन्होंने विश्वविद्यालय में अपने एआई / एमएल जुनून को विकसित करना शुरू कर दिया। एडब्ल्यूएस के भीतर प्राकृतिक भाषा प्रसंस्करण (एनएलपी) समुदाय के सदस्य के रूप में, लुका एआई/एमएल सेवाओं को अपनाने के दौरान ग्राहकों को सफल होने में मदद करता है।

समय टिकट: अगस्त 3, 2022अगस्त 3, 2022

समय टिकट: जुलाई 29, 2022

अमेज़ॅन कॉम्प्रिहेंड ने कस्टम इकाई पहचान के लिए कम एनोटेशन सीमा की घोषणा की

प्लेटो द्वारा पुनर्प्रकाशित

डेटासेट तैयार करना

नमूना विन्यास और बेंचमार्किंग प्रक्रिया

परिणाम

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

उन्नत मूल्यांकन और विश्लेषण के लिए Amazon Textract बल्क दस्तावेज़ अपलोडर का परिचय | अमेज़न वेब सेवाएँ

Amazon SageMaker और Amazon OpenSearch Service का उपयोग करके CLIP मॉडल के साथ एकीकृत पाठ और छवि खोज लागू करें

Amazon EKS . का उपयोग करते हुए, एक PyTorch-आधारित प्रोटीन फोल्डिंग ML मॉडल OpenFold के लिए पैमाने पर अनुमान चलाएँ

Amazon Transcribe का उपयोग करके बहुभाषी ऑडियो में स्वचालित रूप से भाषाओं की पहचान करें

AWS पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है

Amazon SageMaker के साथ मशीन लर्निंग का उपयोग करके धोखाधड़ी वाले लेनदेन का पता लगाएं

GPU का उपयोग किए बिना किनारे पर Amazon Lookout for Vision का उपयोग करके विसंगतियों के स्थान की पहचान करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा