कई उद्योगों में, दस्तावेजों से कस्टम इकाइयों को समय पर निकालना महत्वपूर्ण है। यह चुनौतीपूर्ण हो सकता है. उदाहरण के लिए, बीमा दावों में अक्सर लंबे और सघन दस्तावेजों में दर्जनों महत्वपूर्ण विशेषताएं (जैसे तारीखें, नाम, स्थान और रिपोर्ट) शामिल होती हैं। ऐसी जानकारी को मैन्युअल रूप से स्कैन करना और निकालना त्रुटि-प्रवण और समय लेने वाला हो सकता है। नियम-आधारित सॉफ़्टवेयर मदद कर सकता है, लेकिन अंततः यह कई अलग-अलग दस्तावेज़ प्रकारों और लेआउट के अनुकूल होने के लिए बहुत कठोर है।
इस प्रक्रिया को स्वचालित और तेज़ करने में सहायता के लिए, आप इसका उपयोग कर सकते हैं Amazon Comprehend मशीन लर्निंग (एमएल) का उपयोग करके कस्टम इकाइयों का शीघ्र और सटीक पता लगाना। यह दृष्टिकोण लचीला और सटीक है, क्योंकि सिस्टम अतीत में जो सीखा है उसका उपयोग करके नए दस्तावेज़ों को अनुकूलित कर सकता है। हालाँकि, हाल तक यह क्षमता केवल सादे पाठ दस्तावेज़ों पर ही लागू की जा सकती थी, जिसका अर्थ था कि दस्तावेज़ों को उनके मूल प्रारूप से परिवर्तित करते समय स्थिति संबंधी जानकारी खो जाती थी। इसे संबोधित करने के लिए, यह था हाल ही में घोषणा की अमेज़ॅन कॉम्प्रिहेंड पीडीएफ, छवियों और वर्ड फ़ाइल स्वरूपों में कस्टम इकाइयां निकाल सकता है।
इस पोस्ट में, हम बीमा उद्योग से एक ठोस उदाहरण के माध्यम से चलते हैं कि आप पीडीएफ एनोटेशन का उपयोग करके एक कस्टम पहचानकर्ता कैसे बना सकते हैं।
समाधान अवलोकन
हम आपको निम्न उच्च-स्तरीय चरणों के बारे में बताते हैं:
- पीडीएफ एनोटेशन बनाएं.
- पायथन एपीआई का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करने के लिए पीडीएफ एनोटेशन का उपयोग करें।
- प्रशिक्षित मॉडल से मूल्यांकन मेट्रिक्स प्राप्त करें।
- किसी अनदेखे दस्तावेज़ पर निष्कर्ष निकालना.
इस पोस्ट के अंत तक, हम अपने प्रशिक्षित मॉडल को एक कच्चा पीडीएफ दस्तावेज़ भेजने में सक्षम होना चाहते हैं, और यह हमारे रुचि के लेबल के बारे में जानकारी के साथ एक संरचित फ़ाइल आउटपुट करता है। विशेष रूप से, हम अपने मॉडल को निम्नलिखित पांच संस्थाओं का पता लगाने के लिए प्रशिक्षित करते हैं जिन्हें हमने बीमा दावों के लिए उनकी प्रासंगिकता के कारण चुना है: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, तथा InsuredMailingAddress
. संरचित आउटपुट को पढ़ने के बाद, हम लेबल जानकारी को सीधे पीडीएफ दस्तावेज़ पर देख सकते हैं, जैसा कि निम्नलिखित छवि में है।
इस पोस्ट के साथ एक ज्यूपिटर नोटबुक भी है जिसमें समान चरण हैं। उसमें दिए गए चरणों को चलाते समय बेझिझक उनका अनुसरण करें नोटबुक. ध्यान दें कि आपको इसे सेट अप करने की आवश्यकता है अमेज़न SageMaker Amazon Comprehend को पढ़ने की अनुमति देने वाला वातावरण अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) जैसा कि नोटबुक के शीर्ष पर वर्णित है।
पीडीएफ एनोटेशन बनाएं
पीडीएफ दस्तावेज़ों के लिए एनोटेशन बनाने के लिए, आप इसका उपयोग कर सकते हैं अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ, एक पूरी तरह से प्रबंधित डेटा लेबलिंग सेवा जो एमएल के लिए अत्यधिक सटीक प्रशिक्षण डेटासेट बनाना आसान बनाती है।
इस ट्यूटोरियल के लिए, हमने ग्राउंड ट्रुथ का उपयोग करके पीडीएफ को उनके मूल रूप में (सादे पाठ में परिवर्तित किए बिना) पहले ही एनोटेट कर दिया है। ग्राउंड ट्रुथ जॉब हमारे कस्टम अमेज़ॅन कॉम्प्रिहेंड मॉडल को प्रशिक्षित करने के लिए आवश्यक तीन पथ उत्पन्न करता है:
- सूत्रों का कहना है - इनपुट पीडीएफ़ का पथ।
- एनोटेशन - लेबल की गई इकाई जानकारी वाले एनोटेशन JSON फ़ाइलों का पथ।
- प्रकट - वह फ़ाइल जो एनोटेशन और स्रोत पीडीएफ़ के स्थान को इंगित करती है। इस फ़ाइल का उपयोग अमेज़ॅन कॉम्प्रिहेंशन कस्टम इकाई पहचान प्रशिक्षण कार्य बनाने और एक कस्टम मॉडल को प्रशिक्षित करने के लिए किया जाता है।
निम्नलिखित स्क्रीनशॉट एक नमूना एनोटेशन दिखाता है।
कस्टम ग्राउंड ट्रुथ जॉब एक पीडीएफ एनोटेशन उत्पन्न करता है जो इकाई के बारे में ब्लॉक-स्तरीय जानकारी कैप्चर करता है। ऐसी ब्लॉक-स्तरीय जानकारी इकाई के सटीक स्थितिगत निर्देशांक प्रदान करती है (चाइल्ड ब्लॉक इकाई ब्लॉक के भीतर प्रत्येक शब्द का प्रतिनिधित्व करते हैं)। यह एक मानक ग्राउंड ट्रुथ जॉब से अलग है जिसमें पीडीएफ में डेटा को पाठ्य प्रारूप में समतल किया जाता है और केवल ऑफसेट जानकारी - लेकिन सटीक समन्वयित जानकारी नहीं - एनोटेशन के दौरान कैप्चर की जाती है। इस कस्टम एनोटेशन प्रतिमान के साथ हमें जो समृद्ध स्थिति संबंधी जानकारी प्राप्त होती है, वह हमें अधिक सटीक मॉडल को प्रशिक्षित करने की अनुमति देती है।
इस प्रकार के कार्य से उत्पन्न होने वाले मेनिफेस्ट को संवर्धित मेनिफेस्ट कहा जाता है, मानक एनोटेशन के लिए उपयोग किए जाने वाले सीएसवी के विपरीत। अधिक जानकारी के लिए देखें एनोटेशन.
पायथन एपीआई का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करने के लिए पीडीएफ एनोटेशन का उपयोग करें
एक संवर्धित मेनिफेस्ट फ़ाइल को JSON लाइन्स प्रारूप में स्वरूपित किया जाना चाहिए। JSON लाइन्स प्रारूप में, फ़ाइल की प्रत्येक पंक्ति एक पूर्ण JSON ऑब्जेक्ट है जिसके बाद एक न्यूलाइन विभाजक होता है।
निम्नलिखित कोड इस संवर्धित मेनिफेस्ट फ़ाइल के भीतर एक प्रविष्टि है।
ध्यान देने योग्य कुछ बातें:
- इस कार्य से पाँच लेबलिंग प्रकार जुड़े हुए हैं:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
, तथाInsuredMailingAddress
. - मेनिफेस्ट फ़ाइल स्रोत पीडीएफ स्थान और एनोटेशन स्थान दोनों का संदर्भ देती है।
- एनोटेशन कार्य के बारे में मेटाडेटा (जैसे निर्माण तिथि) कैप्चर किया जाता है।
Use-textract-only
इसके लिए सेट हैFalse
, जिसका अर्थ है कि एनोटेशन टूल यह तय करता है कि पीडीएफप्लंबर (मूल पीडीएफ के लिए) का उपयोग करना है या नहीं अमेज़न टेक्सट्रेक (स्कैन की गई पीडीएफ के लिए)। यदि सेट किया गया हैtrue
, किसी भी मामले में अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग किया जाता है (जो अधिक महंगा है लेकिन संभावित रूप से अधिक सटीक है)।
अब हम पहचानकर्ता को प्रशिक्षित कर सकते हैं, जैसा कि निम्नलिखित उदाहरण कोड में दिखाया गया है।
हम सभी पाँच प्रकार की संस्थाओं को पहचानने के लिए एक पहचानकर्ता बनाते हैं। यदि हम चाहें तो हम इन संस्थाओं के एक उपसमूह का उपयोग कर सकते थे। आप अधिकतम 25 इकाइयों का उपयोग कर सकते हैं.
प्रत्येक पैरामीटर के विवरण के लिए, देखें create_entity_recognizer.
प्रशिक्षण सेट के आकार के आधार पर, प्रशिक्षण का समय भिन्न हो सकता है। इस डेटासेट के लिए, प्रशिक्षण में लगभग 1 घंटा लगता है। प्रशिक्षण कार्य की स्थिति की निगरानी के लिए, आप इसका उपयोग कर सकते हैं describe_entity_recognizer
एपीआई।
प्रशिक्षित मॉडल से मूल्यांकन मेट्रिक्स प्राप्त करें
अमेज़ॅन कॉम्प्रिहेंड एक प्रशिक्षित मॉडल के लिए मॉडल प्रदर्शन मेट्रिक्स प्रदान करता है, जो इंगित करता है कि प्रशिक्षित मॉडल से समान इनपुट का उपयोग करके कितनी अच्छी भविष्यवाणी करने की उम्मीद की जाती है। हम वैश्विक परिशुद्धता और रिकॉल मेट्रिक्स के साथ-साथ प्रति-इकाई मेट्रिक्स दोनों प्राप्त कर सकते हैं। एक सटीक मॉडल में उच्च परिशुद्धता और उच्च रिकॉल होता है। उच्च परिशुद्धता का मतलब है कि मॉडल आमतौर पर सही होता है जब यह किसी विशेष लेबल को इंगित करता है; उच्च रिकॉल का मतलब है कि मॉडल को अधिकांश लेबल मिल गए। F1 इन मापों का एक समग्र मीट्रिक (हार्मोनिक माध्य) है, और इसलिए जब दोनों घटक उच्च होते हैं तो यह उच्च होता है। मेट्रिक्स के विस्तृत विवरण के लिए देखें कस्टम इकाई पहचानकर्ता मेट्रिक्स.
जब आप प्रशिक्षण कार्य के लिए दस्तावेज़ प्रदान करते हैं, तो Amazon Comprehend स्वचालित रूप से उन्हें ट्रेन और परीक्षण सेट में अलग कर देता है। जब मॉडल पहुंच गया TRAINED
स्थिति, आप इसका उपयोग कर सकते हैं describe_entity_recognizer
परीक्षण सेट पर मूल्यांकन मेट्रिक्स प्राप्त करने के लिए एपीआई फिर से।
निम्नलिखित वैश्विक मेट्रिक्स का एक उदाहरण है.
निम्नलिखित प्रति-इकाई मेट्रिक्स का एक उदाहरण है।
उच्च स्कोर इंगित करते हैं कि मॉडल ने इन संस्थाओं का पता लगाना अच्छी तरह से सीख लिया है।
किसी अनदेखे दस्तावेज़ पर निष्कर्ष निकालना
आइए एक दस्तावेज़ पर हमारे प्रशिक्षित मॉडल के साथ अनुमान चलाएं जो प्रशिक्षण प्रक्रिया का हिस्सा नहीं था। हम इस एसिंक्रोनस एपीआई का उपयोग मानक या कस्टम एनईआर के लिए कर सकते हैं। यदि इसे कस्टम एनईआर के लिए उपयोग किया जाता है (जैसा कि इस पोस्ट में है), तो हमें प्रशिक्षित मॉडल का एआरएन पास करना होगा।
हम प्रतिक्रिया प्रिंट करके सबमिट किए गए कार्य की समीक्षा कर सकते हैं।
हम पंडों के साथ डिटेक्शन कार्य के आउटपुट को एक तालिका में प्रारूपित कर सकते हैं। Score
मूल्य इकाई के बारे में मॉडल के विश्वास स्तर को इंगित करता है।
अंत में, हम अनदेखे दस्तावेज़ों पर भविष्यवाणियों को ओवरले कर सकते हैं, जो परिणाम देता है जैसा कि इस पोस्ट के शीर्ष पर दिखाया गया है।
निष्कर्ष
इस पोस्ट में, आपने देखा कि Amazon Comprehend का उपयोग करके कस्टम इकाइयों को उनके मूल पीडीएफ प्रारूप में कैसे निकाला जाए। अगले कदम के रूप में, गहराई से गोता लगाने पर विचार करें:
- संलग्न नोटबुक का उपयोग करके अपने स्वयं के पहचानकर्ता को प्रशिक्षित करें यहाँ उत्पन्न करें. भविष्य के शुल्कों से बचने के लिए समाप्त होने पर किसी भी संसाधन को हटाना याद रखें।
- अपनी रुचि की संस्थाओं के लिए पीडीएफ एनोटेशन एकत्र करने के लिए अपना स्वयं का कस्टम एनोटेशन कार्य सेट करें। अधिक जानकारी के लिए देखें Amazon Comprehend का उपयोग करके दस्तावेज़ों में नामित संस्थाओं को निकालने के लिए कस्टम दस्तावेज़ एनोटेशन.
- Amazon Comprehend कंसोल पर एक कस्टम NER मॉडल को प्रशिक्षित करें। अधिक जानकारी के लिए देखें अमेज़ॅन कॉम्प्रिहेंड के साथ अपने मूल प्रारूप में दस्तावेज़ों से कस्टम निकाय निकालें.
लेखक के बारे में
जोशुआ लेवी अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में वरिष्ठ एप्लाइड साइंटिस्ट हैं, जहां वह ग्राहकों को प्रमुख व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल समाधान डिजाइन और निर्माण करने में मदद करते हैं।
एंड्रयू अंग अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक मशीन लर्निंग इंजीनियर है, जहां वह विभिन्न उद्योगों के ग्राहकों को उनकी सबसे महत्वपूर्ण व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल समाधानों की पहचान करने और निर्माण करने में मदद करता है। काम के अलावा वह यात्रा और भोजन संबंधी व्लॉग देखना पसंद करते हैं।
एलेक्स चिरैयाथ अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक सॉफ्टवेयर इंजीनियर है जो बिल्डिंग उपयोग के मामले-आधारित समाधानों पर ध्यान केंद्रित करता है जो ग्राहकों को वास्तविक दुनिया की व्यावसायिक समस्याओं को हल करने के लिए एडब्ल्यूएस एआई/एमएल सेवाओं की शक्ति को अनलॉक करने का तरीका दिखाता है।
जेनिफर झू अमेज़ॅन एआई मशीन लर्निंग सॉल्यूशंस लैब से एक एप्लाइड साइंटिस्ट हैं। वह AWS के ग्राहकों के साथ उनकी उच्च प्राथमिकता वाली व्यावसायिक आवश्यकताओं के लिए AI/ML समाधान बनाने का काम करती है।
निहारिका जयंती अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब - ह्यूमन इन द लूप टीम में फ्रंट एंड इंजीनियर हैं। वह अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ ग्राहकों के लिए उपयोगकर्ता अनुभव समाधान बनाने में मदद करती है।
बोरिस अरोनचिको अमेज़ॅन एआई मशीन लर्निंग सॉल्यूशंस लैब में प्रबंधक हैं जहां वह एडब्ल्यूएस ग्राहकों को एआई/एमएल समाधानों का लाभ उठाकर व्यावसायिक लक्ष्यों को प्राप्त करने में मदद करने के लिए एमएल वैज्ञानिकों और इंजीनियरों की एक टीम का नेतृत्व करते हैं।
- कॉइनस्मार्ट। यूरोप का सर्वश्रेष्ठ बिटकॉइन और क्रिप्टो एक्सचेंज।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। नि: शुल्क प्रवेश।
- क्रिप्टोहॉक। Altcoin रडार। मुफ्त परीक्षण।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- About
- सही
- के पार
- पता
- AI
- सब
- पहले ही
- वीरांगना
- एपीआई
- दृष्टिकोण
- लगभग
- विशेषताओं
- संवर्धित
- को स्वचालित रूप से
- एडब्ल्यूएस
- खंड
- निर्माण
- इमारत
- व्यापार
- चुनौतीपूर्ण
- प्रभार
- बच्चा
- का दावा है
- कोड
- इकट्ठा
- आत्मविश्वास
- कंसोल
- शामिल हैं
- समन्वय
- सका
- निर्माण
- महत्वपूर्ण
- रिवाज
- ग्राहक
- तिथि
- खजूर
- और गहरा
- डिज़ाइन
- खोज
- सीधे
- दस्तावेजों
- इंजीनियर
- इंजीनियर्स
- संस्थाओं
- वातावरण
- उदाहरण
- अपेक्षित
- अनुभव
- लचीला
- का पालन करें
- निम्नलिखित
- भोजन
- प्रपत्र
- प्रारूप
- पाया
- मुक्त
- भविष्य
- वैश्विक
- लक्ष्यों
- मदद
- मदद करता है
- हाई
- अत्यधिक
- कैसे
- How To
- HTTPS
- मानव
- पहचान करना
- की छवि
- महत्वपूर्ण
- उद्योगों
- उद्योग
- करें-
- निवेश
- बीमा
- ब्याज
- IT
- काम
- कुंजी
- प्रयोगशाला
- लेबलिंग
- लेबल
- बिक्रीसूत्र
- सीखा
- सीख रहा हूँ
- स्तर
- लाभ
- लाइन
- स्थान
- स्थानों
- मशीन
- यंत्र अधिगम
- बनाता है
- कामयाब
- प्रबंधक
- ढंग
- मैन्युअल
- अर्थ
- मेट्रिक्स
- ML
- आदर्श
- मॉनिटर
- अधिक
- अधिकांश
- नामों
- नोटबुक
- ओफ़्सेट
- अपना
- मिसाल
- पीडीएफ
- प्रदर्शन
- बिजली
- भविष्यवाणियों
- समस्याओं
- प्रक्रिया
- प्रदान करना
- प्रदान करता है
- जल्दी से
- कच्चा
- पढ़ना
- असली दुनिया
- महसूस करना
- पहचान
- रिपोर्ट
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- की समीक्षा
- रन
- दौड़ना
- स्कैनिंग
- वैज्ञानिक
- वैज्ञानिकों
- सेवा
- सेवाएँ
- सेट
- समान
- सरल
- आकार
- सॉफ्टवेयर
- सॉफ्टवेयर इंजीनियर
- समाधान ढूंढे
- हल
- गति
- मानक
- स्थिति
- भंडारण
- संरचित
- प्रस्तुत
- प्रणाली
- टीम
- परीक्षण
- स्रोत
- यहाँ
- पहर
- बहुत समय लगेगा
- साधन
- ऊपर का
- प्रशिक्षण
- यात्रा
- अनलॉक
- us
- उपयोग
- आमतौर पर
- मूल्य
- क्या
- या
- जब
- अंदर
- बिना
- काम
- कार्य
- विश्व