Build A Custom Entity Recognizer For PDF Documents Using Amazon Comprehend

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

कई उद्योगों में, दस्तावेजों से कस्टम इकाइयों को समय पर निकालना महत्वपूर्ण है। यह चुनौतीपूर्ण हो सकता है. उदाहरण के लिए, बीमा दावों में अक्सर लंबे और सघन दस्तावेजों में दर्जनों महत्वपूर्ण विशेषताएं (जैसे तारीखें, नाम, स्थान और रिपोर्ट) शामिल होती हैं। ऐसी जानकारी को मैन्युअल रूप से स्कैन करना और निकालना त्रुटि-प्रवण और समय लेने वाला हो सकता है। नियम-आधारित सॉफ़्टवेयर मदद कर सकता है, लेकिन अंततः यह कई अलग-अलग दस्तावेज़ प्रकारों और लेआउट के अनुकूल होने के लिए बहुत कठोर है।

इस प्रक्रिया को स्वचालित और तेज़ करने में सहायता के लिए, आप इसका उपयोग कर सकते हैं Amazon Comprehend मशीन लर्निंग (एमएल) का उपयोग करके कस्टम इकाइयों का शीघ्र और सटीक पता लगाना। यह दृष्टिकोण लचीला और सटीक है, क्योंकि सिस्टम अतीत में जो सीखा है उसका उपयोग करके नए दस्तावेज़ों को अनुकूलित कर सकता है। हालाँकि, हाल तक यह क्षमता केवल सादे पाठ दस्तावेज़ों पर ही लागू की जा सकती थी, जिसका अर्थ था कि दस्तावेज़ों को उनके मूल प्रारूप से परिवर्तित करते समय स्थिति संबंधी जानकारी खो जाती थी। इसे संबोधित करने के लिए, यह था हाल ही में घोषणा की अमेज़ॅन कॉम्प्रिहेंड पीडीएफ, छवियों और वर्ड फ़ाइल स्वरूपों में कस्टम इकाइयां निकाल सकता है।

इस पोस्ट में, हम बीमा उद्योग से एक ठोस उदाहरण के माध्यम से चलते हैं कि आप पीडीएफ एनोटेशन का उपयोग करके एक कस्टम पहचानकर्ता कैसे बना सकते हैं।

समाधान अवलोकन

हम आपको निम्न उच्च-स्तरीय चरणों के बारे में बताते हैं:

पीडीएफ एनोटेशन बनाएं.
पायथन एपीआई का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करने के लिए पीडीएफ एनोटेशन का उपयोग करें।
प्रशिक्षित मॉडल से मूल्यांकन मेट्रिक्स प्राप्त करें।
किसी अनदेखे दस्तावेज़ पर निष्कर्ष निकालना.

इस पोस्ट के अंत तक, हम अपने प्रशिक्षित मॉडल को एक कच्चा पीडीएफ दस्तावेज़ भेजने में सक्षम होना चाहते हैं, और यह हमारे रुचि के लेबल के बारे में जानकारी के साथ एक संरचित फ़ाइल आउटपुट करता है। विशेष रूप से, हम अपने मॉडल को निम्नलिखित पांच संस्थाओं का पता लगाने के लिए प्रशिक्षित करते हैं जिन्हें हमने बीमा दावों के लिए उनकी प्रासंगिकता के कारण चुना है: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, तथा InsuredMailingAddress. संरचित आउटपुट को पढ़ने के बाद, हम लेबल जानकारी को सीधे पीडीएफ दस्तावेज़ पर देख सकते हैं, जैसा कि निम्नलिखित छवि में है।

इस पोस्ट के साथ एक ज्यूपिटर नोटबुक भी है जिसमें समान चरण हैं। उसमें दिए गए चरणों को चलाते समय बेझिझक उनका अनुसरण करें नोटबुक. ध्यान दें कि आपको इसे सेट अप करने की आवश्यकता है अमेज़न SageMaker Amazon Comprehend को पढ़ने की अनुमति देने वाला वातावरण अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) जैसा कि नोटबुक के शीर्ष पर वर्णित है।

पीडीएफ एनोटेशन बनाएं

पीडीएफ दस्तावेज़ों के लिए एनोटेशन बनाने के लिए, आप इसका उपयोग कर सकते हैं अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ, एक पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है।

इस ट्यूटोरियल के लिए, हमने ग्राउंड ट्रुथ का उपयोग करके पीडीएफ को उनके मूल रूप में (सादे पाठ में परिवर्तित किए बिना) पहले ही एनोटेट कर दिया है। ग्राउंड ट्रुथ जॉब हमारे कस्टम अमेज़ॅन कॉम्प्रिहेंड मॉडल को प्रशिक्षित करने के लिए आवश्यक तीन पथ उत्पन्न करता है:

सूत्रों का कहना है - इनपुट पीडीएफ़ का पथ।
एनोटेशन - लेबल की गई इकाई जानकारी वाले एनोटेशन JSON फ़ाइलों का पथ।
प्रकट - वह फ़ाइल जो एनोटेशन और स्रोत पीडीएफ़ के स्थान को इंगित करती है। इस फ़ाइल का उपयोग अमेज़ॅन कॉम्प्रिहेंशन कस्टम इकाई पहचान प्रशिक्षण कार्य बनाने और एक कस्टम मॉडल को प्रशिक्षित करने के लिए किया जाता है।

निम्नलिखित स्क्रीनशॉट एक नमूना एनोटेशन दिखाता है।

कस्टम ग्राउंड ट्रुथ जॉब एक पीडीएफ एनोटेशन उत्पन्न करता है जो इकाई के बारे में ब्लॉक-स्तरीय जानकारी कैप्चर करता है। ऐसी ब्लॉक-स्तरीय जानकारी इकाई के सटीक स्थितिगत निर्देशांक प्रदान करती है (चाइल्ड ब्लॉक इकाई ब्लॉक के भीतर प्रत्येक शब्द का प्रतिनिधित्व करते हैं)। यह एक मानक ग्राउंड ट्रुथ जॉब से अलग है जिसमें पीडीएफ में डेटा को पाठ्य प्रारूप में समतल किया जाता है और केवल ऑफसेट जानकारी - लेकिन सटीक समन्वयित जानकारी नहीं - एनोटेशन के दौरान कैप्चर की जाती है। इस कस्टम एनोटेशन प्रतिमान के साथ हमें जो समृद्ध स्थिति संबंधी जानकारी प्राप्त होती है, वह हमें अधिक सटीक मॉडल को प्रशिक्षित करने की अनुमति देती है।

इस प्रकार के कार्य से उत्पन्न होने वाले मेनिफेस्ट को संवर्धित मेनिफेस्ट कहा जाता है, मानक एनोटेशन के लिए उपयोग किए जाने वाले सीएसवी के विपरीत। अधिक जानकारी के लिए देखें एनोटेशन.

पायथन एपीआई का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करने के लिए पीडीएफ एनोटेशन का उपयोग करें

एक संवर्धित मेनिफेस्ट फ़ाइल को JSON लाइन्स प्रारूप में स्वरूपित किया जाना चाहिए। JSON लाइन्स प्रारूप में, फ़ाइल की प्रत्येक पंक्ति एक पूर्ण JSON ऑब्जेक्ट है जिसके बाद एक न्यूलाइन विभाजक होता है।

निम्नलिखित कोड इस संवर्धित मेनिफेस्ट फ़ाइल के भीतर एक प्रविष्टि है।

ध्यान देने योग्य कुछ बातें:

इस कार्य से पाँच लेबलिंग प्रकार जुड़े हुए हैं: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss, तथा InsuredMailingAddress.
मेनिफेस्ट फ़ाइल स्रोत पीडीएफ स्थान और एनोटेशन स्थान दोनों का संदर्भ देती है।
एनोटेशन कार्य के बारे में मेटाडेटा (जैसे निर्माण तिथि) कैप्चर किया जाता है।
Use-textract-only इसके लिए सेट है False, जिसका अर्थ है कि एनोटेशन टूल यह तय करता है कि पीडीएफप्लंबर (मूल पीडीएफ के लिए) का उपयोग करना है या नहीं अमेज़न टेक्सट्रेक (स्कैन की गई पीडीएफ के लिए)। यदि सेट किया गया है true, किसी भी मामले में अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग किया जाता है (जो अधिक महंगा है लेकिन संभावित रूप से अधिक सटीक है)।

अब हम पहचानकर्ता को प्रशिक्षित कर सकते हैं, जैसा कि निम्नलिखित उदाहरण कोड में दिखाया गया है।

हम सभी पाँच प्रकार की संस्थाओं को पहचानने के लिए एक पहचानकर्ता बनाते हैं। यदि हम चाहें तो हम इन संस्थाओं के एक उपसमूह का उपयोग कर सकते थे। आप अधिकतम 25 इकाइयों का उपयोग कर सकते हैं.

प्रत्येक पैरामीटर के विवरण के लिए, देखें create_entity_recognizer.

प्रशिक्षण सेट के आकार के आधार पर, प्रशिक्षण का समय भिन्न हो सकता है। इस डेटासेट के लिए, प्रशिक्षण में लगभग 1 घंटा लगता है। प्रशिक्षण कार्य की स्थिति की निगरानी के लिए, आप इसका उपयोग कर सकते हैं describe_entity_recognizer एपीआई।

प्रशिक्षित मॉडल से मूल्यांकन मेट्रिक्स प्राप्त करें

अमेज़ॅन कॉम्प्रिहेंड एक प्रशिक्षित मॉडल के लिए मॉडल प्रदर्शन मेट्रिक्स प्रदान करता है, जो इंगित करता है कि प्रशिक्षित मॉडल से समान इनपुट का उपयोग करके कितनी अच्छी भविष्यवाणी करने की उम्मीद की जाती है। हम वैश्विक परिशुद्धता और रिकॉल मेट्रिक्स के साथ-साथ प्रति-इकाई मेट्रिक्स दोनों प्राप्त कर सकते हैं। एक सटीक मॉडल में उच्च परिशुद्धता और उच्च रिकॉल होता है। उच्च परिशुद्धता का मतलब है कि मॉडल आमतौर पर सही होता है जब यह किसी विशेष लेबल को इंगित करता है; उच्च रिकॉल का मतलब है कि मॉडल को अधिकांश लेबल मिल गए। F1 इन मापों का एक समग्र मीट्रिक (हार्मोनिक माध्य) है, और इसलिए जब दोनों घटक उच्च होते हैं तो यह उच्च होता है। मेट्रिक्स के विस्तृत विवरण के लिए देखें कस्टम इकाई पहचानकर्ता मेट्रिक्स.

जब आप प्रशिक्षण कार्य के लिए दस्तावेज़ प्रदान करते हैं, तो Amazon Comprehend स्वचालित रूप से उन्हें ट्रेन और परीक्षण सेट में अलग कर देता है। जब मॉडल पहुंच गया TRAINED स्थिति, आप इसका उपयोग कर सकते हैं describe_entity_recognizer परीक्षण सेट पर मूल्यांकन मेट्रिक्स प्राप्त करने के लिए एपीआई फिर से।

निम्नलिखित वैश्विक मेट्रिक्स का एक उदाहरण है.

निम्नलिखित प्रति-इकाई मेट्रिक्स का एक उदाहरण है।

उच्च स्कोर इंगित करते हैं कि मॉडल ने इन संस्थाओं का पता लगाना अच्छी तरह से सीख लिया है।

किसी अनदेखे दस्तावेज़ पर निष्कर्ष निकालना

आइए एक दस्तावेज़ पर हमारे प्रशिक्षित मॉडल के साथ अनुमान चलाएं जो प्रशिक्षण प्रक्रिया का हिस्सा नहीं था। हम इस एसिंक्रोनस एपीआई का उपयोग मानक या कस्टम एनईआर के लिए कर सकते हैं। यदि इसे कस्टम एनईआर के लिए उपयोग किया जाता है (जैसा कि इस पोस्ट में है), तो हमें प्रशिक्षित मॉडल का एआरएन पास करना होगा।

हम प्रतिक्रिया प्रिंट करके सबमिट किए गए कार्य की समीक्षा कर सकते हैं।

हम पंडों के साथ डिटेक्शन कार्य के आउटपुट को एक तालिका में प्रारूपित कर सकते हैं। Score मूल्य इकाई के बारे में मॉडल के विश्वास स्तर को इंगित करता है।

अंत में, हम अनदेखे दस्तावेज़ों पर भविष्यवाणियों को ओवरले कर सकते हैं, जो परिणाम देता है जैसा कि इस पोस्ट के शीर्ष पर दिखाया गया है।

निष्कर्ष

इस पोस्ट में, आपने देखा कि Amazon Comprehend का उपयोग करके कस्टम इकाइयों को उनके मूल पीडीएफ प्रारूप में कैसे निकाला जाए। अगले कदम के रूप में, गहराई से गोता लगाने पर विचार करें:

संलग्न नोटबुक का उपयोग करके अपने स्वयं के पहचानकर्ता को प्रशिक्षित करें यहाँ उत्पन्न करें. भविष्य के शुल्कों से बचने के लिए समाप्त होने पर किसी भी संसाधन को हटाना याद रखें।
अपनी रुचि की संस्थाओं के लिए पीडीएफ एनोटेशन एकत्र करने के लिए अपना स्वयं का कस्टम एनोटेशन कार्य सेट करें। अधिक जानकारी के लिए देखें Amazon Comprehend का उपयोग करके दस्तावेज़ों में नामित संस्थाओं को निकालने के लिए कस्टम दस्तावेज़ एनोटेशन.
Amazon Comprehend कंसोल पर एक कस्टम NER मॉडल को प्रशिक्षित करें। अधिक जानकारी के लिए देखें अमेज़ॅन कॉम्प्रिहेंड के साथ अपने मूल प्रारूप में दस्तावेज़ों से कस्टम निकाय निकालें.

लेखक के बारे में

जोशुआ लेवी अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में वरिष्ठ एप्लाइड साइंटिस्ट हैं, जहां वह ग्राहकों को प्रमुख व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल समाधान डिजाइन और निर्माण करने में मदद करते हैं।

एंड्रयू अंग अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक मशीन लर्निंग इंजीनियर है, जहां वह विभिन्न उद्योगों के ग्राहकों को उनकी सबसे महत्वपूर्ण व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल समाधानों की पहचान करने और निर्माण करने में मदद करता है। काम के अलावा वह यात्रा और भोजन संबंधी व्लॉग देखना पसंद करते हैं।

एलेक्स चिरैयाथ अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक सॉफ्टवेयर इंजीनियर है जो बिल्डिंग उपयोग के मामले-आधारित समाधानों पर ध्यान केंद्रित करता है जो ग्राहकों को वास्तविक दुनिया की व्यावसायिक समस्याओं को हल करने के लिए एडब्ल्यूएस एआई/एमएल सेवाओं की शक्ति को अनलॉक करने का तरीका दिखाता है।

जेनिफर झू अमेज़ॅन एआई मशीन लर्निंग सॉल्यूशंस लैब से एक एप्लाइड साइंटिस्ट हैं। वह AWS के ग्राहकों के साथ उनकी उच्च प्राथमिकता वाली व्यावसायिक आवश्यकताओं के लिए AI/ML समाधान बनाने का काम करती है।

निहारिका जयंती अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब - ह्यूमन इन द लूप टीम में फ्रंट एंड इंजीनियर हैं। वह अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ ग्राहकों के लिए उपयोगकर्ता अनुभव समाधान बनाने में मदद करती है।

बोरिस अरोनचिको अमेज़ॅन एआई मशीन लर्निंग सॉल्यूशंस लैब में प्रबंधक हैं जहां वह एडब्ल्यूएस ग्राहकों को एआई/एमएल समाधानों का लाभ उठाकर व्यावसायिक लक्ष्यों को प्राप्त करने में मदद करने के लिए एमएल वैज्ञानिकों और इंजीनियरों की एक टीम का नेतृत्व करते हैं।

समय टिकट: अप्रैल १, २०२४

समय टिकट: मार्च 29, 2022

Amazon Comprehend का उपयोग करके PDF दस्तावेज़ों के लिए एक कस्टम निकाय पहचानकर्ता बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

पीडीएफ एनोटेशन बनाएं

पायथन एपीआई का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करने के लिए पीडीएफ एनोटेशन का उपयोग करें

प्रशिक्षित मॉडल से मूल्यांकन मेट्रिक्स प्राप्त करें

किसी अनदेखे दस्तावेज़ पर निष्कर्ष निकालना

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सेजमेकर पर मल्टी-फ्रेमवर्क मॉडल के साथ लागत प्रभावी एमएल अनुमान

Amazon Rekognition लाइव वीडियो स्ट्रीम पर रीयल-टाइम अलर्ट प्रदान करने के लिए स्ट्रीमिंग वीडियो इवेंट पेश करता है

AWS उद्देश्य से निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़न वेब सेवाएँ

Amazon रिकॉग्निशन कस्टम लेबल के साथ क्रोनोमिक्स COVID-19 परीक्षा परिणामों का पता लगाता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा