प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के बुद्धिमान दस्तावेज़ प्रसंस्करण के लिए अमेज़ॅन कॉम्प्रिहेंड के साथ एक-चरणीय वर्गीकरण और इकाई पहचान का परिचय। लंबवत खोज. ऐ.

इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग के लिए Amazon Comprehend के साथ वन-स्टेप क्लासिफिकेशन और एंटिटी रिकग्निशन पेश कर रहा है

"बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडीपी) समाधान उच्च-मात्रा, दोहराए जाने वाले दस्तावेज़ प्रसंस्करण कार्यों और विश्लेषण और अंतर्दृष्टि के स्वचालन का समर्थन करने के लिए डेटा निकालते हैं। आईडीपी स्वचालन और वृद्धि का समर्थन करने के लिए संरचित और असंरचित सामग्री, विशेष रूप से दस्तावेज़ों से डेटा निकालने के लिए प्राकृतिक भाषा प्रौद्योगिकियों और कंप्यूटर दृष्टि का उपयोग करता है।  - गार्टनर

अमेज़ॅन के बुद्धिमान दस्तावेज़ प्रसंस्करण (आईडीपी) का लक्ष्य उत्पादकता बढ़ाने, मानव श्रम से जुड़ी लागतों को कम करने और एक सहज उपयोगकर्ता अनुभव प्रदान करने के लिए मशीन लर्निंग (एमएल) का उपयोग करके बड़ी मात्रा में दस्तावेज़ों के प्रसंस्करण को स्वचालित करना है। ग्राहक विभिन्न उपयोग मामलों के लिए दस्तावेजों की पहचान करने और उनसे महत्वपूर्ण जानकारी निकालने में महत्वपूर्ण समय और प्रयास खर्च करते हैं। आज, Amazon Comprehend सादे पाठ दस्तावेज़ों के लिए वर्गीकरण का समर्थन करता है, जिसके लिए आपको अर्ध-संरचित स्वरूपों (स्कैन किए गए, डिजिटल PDF या PNG, JPG, TIFF जैसी छवियों) में दस्तावेज़ों को प्रीप्रोसेस करने की आवश्यकता होती है और फिर अपने अनुमान के अनुसार सादे पाठ आउटपुट का उपयोग करें कस्टम वर्गीकरण नमूना। इसी प्रकार, के लिए कस्टम इकाई मान्यता वास्तविक समय में, पीडीएफ और छवि फ़ाइलों जैसे अर्ध-संरचित दस्तावेजों के लिए पाठ निकालने के लिए प्रीप्रोसेसिंग की आवश्यकता होती है। यह दो-चरणीय प्रक्रिया दस्तावेज़ संसाधन वर्कफ़्लोज़ में जटिलताओं का परिचय देती है।

पिछले साल, हम देशी दस्तावेज़ स्वरूपों के लिए समर्थन की घोषणा की कस्टम नामित इकाई पहचान (एनईआर) के साथ अतुल्यकालिक नौकरियां. आज, हम अमेज़ॅन कॉम्प्रिहेंड का उपयोग करके मूल स्वरूपों (पीडीएफ, टीआईएफएफ, जेपीजी, पीएनजी) में अर्ध-संरचित दस्तावेजों के लिए एनईआर के लिए वन-स्टेप दस्तावेज़ वर्गीकरण और रीयल-टाइम विश्लेषण की घोषणा करने के लिए उत्साहित हैं। विशेष रूप से, हम निम्नलिखित क्षमताओं की घोषणा कर रहे हैं:

  • कस्टम वर्गीकरण वास्तविक समय विश्लेषण और अतुल्यकालिक नौकरियों के लिए मूल स्वरूपों में दस्तावेज़ों के लिए समर्थन
  • कस्टम इकाई पहचान रीयल-टाइम विश्लेषण के लिए मूल स्वरूपों में दस्तावेज़ों के लिए समर्थन

इस नई रिलीज़ के साथ, Amazon Comprehend कस्टम क्लासिफिकेशन और कस्टम एंटिटी रिकग्निशन (NER) PDF, TIFF, PNG, और JPEG जैसे फ़ॉर्मैट में दस्तावेज़ों को सीधे उनसे UTF8 एन्कोडेड प्लेन टेक्स्ट निकालने की आवश्यकता के बिना समर्थन करता है। निम्नलिखित आंकड़ा पिछली प्रक्रिया की तुलना नई प्रक्रिया और समर्थन से करता है।

यह सुविधा दस्तावेज़ों से सादा पाठ निकालने के लिए आवश्यक किसी भी प्रीप्रोसेसिंग चरणों को समाप्त करके दस्तावेज़ प्रसंस्करण कार्यप्रवाह को सरल बनाती है, और उन्हें संसाधित करने के लिए आवश्यक समग्र समय को कम करती है।

इस पोस्ट में, हम एक उच्च-स्तरीय IDP वर्कफ़्लो समाधान डिज़ाइन, कुछ उद्योग उपयोग मामलों, Amazon Comprehend की नई सुविधाओं और उनका उपयोग करने के तरीके पर चर्चा करते हैं।

समाधान का अवलोकन

आइए बीमा उद्योग में एक सामान्य उपयोग के मामले की खोज करके शुरुआत करें। एक विशिष्ट बीमा दावा प्रक्रिया में एक दावा पैकेज शामिल होता है जिसमें कई दस्तावेज हो सकते हैं। जब कोई बीमा दावा दायर किया जाता है, तो इसमें बीमा दावा प्रपत्र, घटना रिपोर्ट, पहचान दस्तावेज़ और तृतीय-पक्ष दावा दस्तावेज़ जैसे दस्तावेज़ शामिल होते हैं। किसी बीमा दावे को प्रोसेस करने और न्यायनिर्णित करने के लिए दस्तावेजों की मात्रा सैकड़ों और यहां तक ​​कि हजारों पृष्ठों तक हो सकती है, जो दावे के प्रकार और शामिल व्यावसायिक प्रक्रियाओं पर निर्भर करता है। बीमा दावा प्रतिनिधि और अधिनिर्णयकर्ता आम तौर पर सैकड़ों या हजारों दावा फाइलिंग से जानकारी को मैन्युअल रूप से छानने, छांटने और निकालने में सैकड़ों घंटे खर्च करते हैं।

बीमा उद्योग के उपयोग के मामले के समान, भुगतान उद्योग भी सीमा पार भुगतान समझौतों, चालानों और विदेशी मुद्रा विवरणों के लिए अर्ध-संरचित दस्तावेजों की बड़ी मात्रा को संसाधित करता है। व्यावसायिक उपयोगकर्ता अपना अधिकांश समय मैन्युअल गतिविधियों पर खर्च करते हैं जैसे डाउनस्ट्रीम एप्लिकेशन को आवश्यक जानकारी की पहचान करना, व्यवस्थित करना, मान्य करना, निकालना और पास करना। यह मैनुअल प्रक्रिया थकाऊ, दोहराव वाली, त्रुटि प्रवण, महंगी और बड़े पैमाने पर कठिन है। इसी तरह की चुनौतियों का सामना करने वाले अन्य उद्योगों में बंधक और उधार, स्वास्थ्य देखभाल और जीवन विज्ञान, कानूनी, लेखा और कर प्रबंधन शामिल हैं। व्यवसायों के लिए उच्च स्तर की सटीकता और मामूली मानवीय प्रयास के साथ दस्तावेजों की इतनी बड़ी मात्रा को समयबद्ध तरीके से संसाधित करना अत्यंत महत्वपूर्ण है।

Amazon Comprehend स्केलेबल और लागत प्रभावी तरीके से उच्च सटीकता के साथ बड़ी मात्रा में दस्तावेज़ों से दस्तावेज़ वर्गीकरण और सूचना निष्कर्षण को स्वचालित करने के लिए प्रमुख क्षमताएँ प्रदान करता है। निम्नलिखित आरेख Amazon Comprehend के साथ एक IDP तार्किक कार्यप्रवाह दिखाता है। वर्कफ़्लो के मूल में Amazon Comprehend कस्टम मॉडल के साथ NER का उपयोग करके दस्तावेज़ वर्गीकरण और सूचना निष्कर्षण शामिल हैं। आरेख यह भी प्रदर्शित करता है कि दस्तावेजों और व्यावसायिक प्रक्रियाओं के विकसित होने पर उच्च सटीकता प्रदान करने के लिए कस्टम मॉडल को लगातार कैसे सुधारा जा सकता है।

प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के बुद्धिमान दस्तावेज़ प्रसंस्करण के लिए अमेज़ॅन कॉम्प्रिहेंड के साथ एक-चरणीय वर्गीकरण और इकाई पहचान का परिचय। लंबवत खोज. ऐ.

कस्टम दस्तावेज़ वर्गीकरण

Amazon Comprehend कस्टम वर्गीकरण के साथ, आप अपने दस्तावेज़ों को पूर्वनिर्धारित श्रेणियों (कक्षाओं) में व्यवस्थित कर सकते हैं। एक उच्च स्तर पर, एक कस्टम दस्तावेज़ क्लासिफायरियर स्थापित करने और दस्तावेज़ वर्गीकरण करने के लिए निम्नलिखित चरण हैं:

  1. कस्टम दस्तावेज़ क्लासिफायरियर को प्रशिक्षित करने के लिए प्रशिक्षण डेटा तैयार करें।
  2. प्रशिक्षण डेटा के साथ एक ग्राहक दस्तावेज़ वर्गीकारक को प्रशिक्षित करें।
  3. मॉडल के प्रशिक्षित होने के बाद, वैकल्पिक रूप से रीयल-टाइम एंडपॉइंट तैनात करें।
  4. समापन बिंदु का उपयोग करके या तो अतुल्यकालिक कार्य के साथ या वास्तविक समय में दस्तावेज़ वर्गीकरण करें।

व्यवसाय प्रक्रिया से संबंधित दस्तावेज़ वर्गों की पहचान के बाद चरण 1 और 2 आम तौर पर एक आईडीपी परियोजना की शुरुआत में किए जाते हैं। एक कस्टम क्लासिफायरियर मॉडल को समय-समय पर सटीकता में सुधार करने और नए दस्तावेज़ वर्गों को पेश करने के लिए पुन: प्रशिक्षित किया जा सकता है। आप या तो एक कस्टम वर्गीकरण मॉडल को प्रशिक्षित कर सकते हैं मल्टी-क्लास मोड or मल्टी-लेबल मोड. प्रत्येक के लिए प्रशिक्षण दो तरीकों में से एक में किया जा सकता है: CSV फ़ाइल का उपयोग करके, या संवर्धित मेनिफेस्ट फ़ाइल का उपयोग करके। को देखें प्रशिक्षण डेटा तैयार करना कस्टम वर्गीकरण मॉडल के प्रशिक्षण के बारे में अधिक जानकारी के लिए। एक कस्टम क्लासिफायर मॉडल के प्रशिक्षित होने के बाद, दस्तावेज़ को या तो उपयोग करके वर्गीकृत किया जा सकता है वास्तविक समय विश्लेषण या एक अतुल्यकालिक कार्य. रीयल-टाइम विश्लेषण के लिए एक की आवश्यकता होती है समापन बिंदु तैनात किया जाना है प्रशिक्षित मॉडल के साथ और उपयोग के मामले के आधार पर छोटे दस्तावेज़ों के लिए सबसे उपयुक्त है। बड़ी संख्या में दस्तावेजों के लिए, एक अतुल्यकालिक वर्गीकरण कार्य सबसे उपयुक्त है।

एक कस्टम दस्तावेज़ वर्गीकरण मॉडल को प्रशिक्षित करें

नई सुविधा को प्रदर्शित करने के लिए, हमने मल्टी-लेबल मोड में एक कस्टम वर्गीकरण मॉडल को प्रशिक्षित किया, जो बीमा दस्तावेजों को सात अलग-अलग वर्गों में से एक में वर्गीकृत कर सकता है। वर्ग हैं INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, तथा CMS1500. हम मूल पीडीएफ, पीएनजी, और जेपीईजी प्रारूप में नमूना दस्तावेजों को वर्गीकृत करना चाहते हैं, जो एक अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी, वर्गीकरण मॉडल का उपयोग कर। अतुल्यकालिक वर्गीकरण कार्य प्रारंभ करने के लिए, निम्न चरणों को पूरा करें:

  1. Amazon Comprehend कंसोल पर, चुनें विश्लेषण नौकरियों नेविगेशन फलक में
  2. चुनें नौकरी पैदा करो.
    क्रिएट जॉब चुनें
  3. के लिए नाम, अपने वर्गीकरण कार्य के लिए एक नाम दर्ज करें।
  4. के लिए विश्लेषण प्रकारचुनें कस्टम वर्गीकरण.
  5. के लिए क्लासिफायर मॉडलउपयुक्त प्रशिक्षित वर्गीकरण मॉडल चुनें।
  6. के लिए संस्करण, उपयुक्त मॉडल संस्करण चुनें।
    संस्करण के लिए, उपयुक्त मॉडल संस्करण चुनें

में इनपुट डेटा अनुभाग में, हम वह स्थान प्रदान करते हैं जहाँ हमारे दस्तावेज़ संग्रहीत किए जाते हैं।

  1. के लिए इनपुट प्रारूप, चुनें प्रति फ़ाइल एक दस्तावेज़.
  2. के लिए दस्तावेज़ पढ़ने का तरीकाचुनें बलपूर्वक दस्तावेज़ पढ़ने की क्रिया.
  3. के लिए दस्तावेज़ पढ़ने की क्रिया, चुनें टेक्स्ट्रैक्ट दस्तावेज़ टेक्स्ट का पता लगाता है.

यह Amazon Comprehend को उपयोग करने में सक्षम बनाता है अमेज़न टेक्सट्रेक डिटेक्ट डॉक्यूमेंट टेक्स्ट एपीआई वर्गीकरण चलाने से पहले दस्तावेजों को पढ़ने के लिए। DetectDocumentText एपीआई दस्तावेजों से पाठ की पंक्तियों और शब्दों को निकालने में सहायक है। आप भी चुन सकते हैं टेक्सट्रैक्ट विश्लेषण दस्तावेज़ एसटी दस्तावेज़ पढ़ने की क्रिया, जिस स्थिति में Amazon Comprehend Amazon Textract का उपयोग करता है विश्लेषण एपीआई दस्तावेजों को पढ़ने के लिए। साथ AnalyzeDocument एपीआई, आप निकालना चुन सकते हैं टेबल्स, प्रपत्र(फॉर्म्स), अथवा दोनों। NS दस्तावेज़ पढ़ने का तरीका विकल्प Amazon Comprehend को पर्दे के पीछे के दस्तावेज़ों से टेक्स्ट निकालने में सक्षम बनाता है, जो दस्तावेज़ से टेक्स्ट निकालने के अतिरिक्त चरण को कम करने में मदद करता है, जो हमारे दस्तावेज़ प्रोसेसिंग वर्कफ़्लो में आवश्यक है।
दस्तावेज़ रीड मोड विकल्प Amazon Comprehend को पर्दे के पीछे के दस्तावेज़ों से टेक्स्ट निकालने में सक्षम बनाता है, जो दस्तावेज़ से टेक्स्ट निकालने के अतिरिक्त चरण को कम करने में मदद करता है, जो हमारे दस्तावेज़ प्रोसेसिंग वर्कफ़्लो में आवश्यक है।

Amazon Comprehend कस्टम क्लासिफायर द्वारा उत्पन्न कच्चे JSON प्रतिक्रियाओं को भी संसाधित कर सकता है DetectDocumentText और AnalyzeDocument एपीआई, बिना किसी संशोधन या प्रीप्रोसेसिंग के। यह मौजूदा वर्कफ़्लोज़ के लिए उपयोगी है जहाँ Amazon Textract पहले से ही दस्तावेज़ों से टेक्स्ट निकालने में शामिल है। इस स्थिति में, Amazon Textract से JSON आउटपुट को सीधे Amazon Comprehend दस्तावेज़ वर्गीकरण API में फीड किया जा सकता है।

  1. में उत्पादित आंकड़े अनुभाग, के लिए S3 स्थान, एक अमेज़ॅन एस 3 स्थान निर्दिष्ट करें जहां आप एसिंक्रोनस नौकरी को निष्कर्ष के परिणाम लिखना चाहते हैं।
  2. शेष विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें।
  3. चुनें नौकरी पैदा करो काम शुरू करने के लिए।
    कार्य प्रारंभ करने के लिए कार्य बनाएँ चुनें.

आप पर कार्य की स्थिति देख सकते हैं विश्लेषण नौकरियों इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।

जब कार्य पूरा हो जाता है, तो हम विश्लेषण कार्य के आउटपुट को देख सकते हैं, जो कार्य विन्यास के दौरान प्रदान किए गए Amazon S3 स्थान में संग्रहीत होता है। हमारे सिंगल-पेज पीडीएफ सैंपल CMS1500 डॉक्यूमेंट का क्लासिफिकेशन आउटपुट इस प्रकार है। आउटपुट JSON लाइन प्रारूप में एक फ़ाइल है, जिसे पठनीयता में सुधार के लिए स्वरूपित किया गया है।

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

पिछला नमूना एक पेज का PDF दस्तावेज़ है; हालाँकि, कस्टम वर्गीकरण बहु-पृष्ठ PDF दस्तावेज़ों को भी संभाल सकता है। बहु-पृष्ठ दस्तावेजों के मामले में, आउटपुट में कई JSON लाइनें होती हैं, जहां प्रत्येक पंक्ति दस्तावेज़ में प्रत्येक पृष्ठ का वर्गीकरण परिणाम होती है। निम्नलिखित नमूना बहु-पृष्ठ वर्गीकरण आउटपुट है:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

कस्टम इकाई मान्यता

Amazon Comprehend कस्टम इकाई पहचानकर्ता के साथ, आप दस्तावेजों का विश्लेषण कर सकते हैं और उत्पाद कोड या व्यवसाय-विशिष्ट संस्थाओं जैसी संस्थाओं को निकाल सकते हैं जो आपकी विशेष आवश्यकताओं के अनुरूप हों। एक उच्च स्तर पर, एक कस्टम निकाय पहचानकर्ता को सेट अप करने और निकाय का पता लगाने के लिए निम्न चरण हैं:

  1. कस्टम इकाई पहचानकर्ता को प्रशिक्षित करने के लिए प्रशिक्षण डेटा तैयार करें।
  2. प्रशिक्षण डेटा के साथ एक कस्टम इकाई पहचानकर्ता को प्रशिक्षित करें।
  3. मॉडल के प्रशिक्षित होने के बाद, वैकल्पिक रूप से रीयल-टाइम एंडपॉइंट तैनात करें।
  4. एक अतुल्यकालिक नौकरी के साथ या समापन बिंदु का उपयोग करके वास्तविक समय में इकाई का पता लगाना।

सटीकता में सुधार करने और नए इकाई प्रकार पेश करने के लिए एक कस्टम इकाई पहचानकर्ता मॉडल को समय-समय पर फिर से प्रशिक्षित किया जा सकता है। आप इनमें से किसी के साथ एक कस्टम इकाई पहचानकर्ता मॉडल को प्रशिक्षित कर सकते हैं इकाई सूची or एनोटेशन. दोनों ही मामलों में, Amazon Comprehend उन दस्तावेज़ों के प्रकार और संदर्भ के बारे में सीखता है जहाँ संस्थाएँ एक इकाई पहचानकर्ता मॉडल का निर्माण करती हैं जो नई संस्थाओं का पता लगाने के लिए सामान्यीकरण कर सकता है। को देखें प्रशिक्षण डेटा तैयार करना कस्टम इकाई पहचानकर्ता के लिए प्रशिक्षण डेटा तैयार करने के बारे में अधिक जानने के लिए।

एक कस्टम इकाई पहचानकर्ता मॉडल के प्रशिक्षित होने के बाद, इकाई का पता लगाने का उपयोग किया जा सकता है वास्तविक समय विश्लेषण या एक अतुल्यकालिक कार्य. रीयल-टाइम विश्लेषण के लिए एक की आवश्यकता होती है समापन बिंदु तैनात किया जाना है प्रशिक्षित मॉडल के साथ और उपयोग के मामले के आधार पर छोटे दस्तावेज़ों के लिए सबसे उपयुक्त है। बड़ी संख्या में दस्तावेजों के लिए, एक अतुल्यकालिक वर्गीकरण कार्य सबसे उपयुक्त है।

एक कस्टम इकाई मान्यता मॉडल को प्रशिक्षित करें

वास्तविक समय में इकाई का पता लगाने का प्रदर्शन करने के लिए, हमने कस्टम एनोटेशन का उपयोग करके बीमा दस्तावेजों और संवर्धित मेनिफेस्ट फ़ाइलों के साथ एक कस्टम इकाई पहचानकर्ता मॉडल को प्रशिक्षित किया और प्रशिक्षित मॉडल का उपयोग करके समापन बिंदु को तैनात किया। निकाय प्रकार हैं Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, तथा Sender. हम पहचानकर्ता मॉडल का उपयोग करके S3 बकेट में संग्रहीत देशी PDF, PNG और JPEG प्रारूप में नमूना दस्तावेज़ों से संस्थाओं का पता लगाना चाहते हैं।

ध्यान दें कि आप PDF, TIFF, छवि, Word और सादा पाठ दस्तावेज़ों से कस्टम निकाय निकालने के लिए PDF दस्तावेज़ों के साथ प्रशिक्षित कस्टम इकाई पहचान मॉडल का उपयोग कर सकते हैं। यदि आपका मॉडल पाठ दस्तावेज़ों और एक इकाई सूची का उपयोग करके प्रशिक्षित किया गया है, तो आप संस्थाओं को निकालने के लिए केवल सादा पाठ दस्तावेज़ों का उपयोग कर सकते हैं।

हमें पहचानकर्ता मॉडल का उपयोग करके किसी भी मूल PDF, PNG और JPEG प्रारूप में एक नमूना दस्तावेज़ से संस्थाओं का पता लगाने की आवश्यकता है। सिंक्रोनस एंटिटी डिटेक्शन जॉब शुरू करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. Amazon Comprehend कंसोल पर, चुनें रीयल-टाइम विश्लेषण नेविगेशन फलक में
  2. के अंतर्गत विश्लेषण प्रकार, चुनते हैं रिवाज.
  3. के लिए कस्टम इकाई मान्यता, कस्टम मॉडल प्रकार चुनें।
  4. के लिए endpoint, वह रीयल-टाइम समापन बिंदु चुनें, जिसे आपने अपने निकाय पहचानकर्ता मॉडल के लिए बनाया था.
  5. चुनते हैं फाइल अपलोड और चुनें फ़ाइल का चयन अनुमान के लिए पीडीएफ या छवि फ़ाइल अपलोड करने के लिए।
  6. इसका विस्तार करें उन्नत दस्तावेज़ इनपुट खंड और के लिए दस्तावेज़ पढ़ने का तरीका, चुनें सेवा डिफ़ॉल्ट.
  7. के लिए दस्तावेज़ पढ़ने की क्रिया, चुनें टेक्स्ट्रैक्ट दस्तावेज़ टेक्स्ट का पता लगाता है.
  8. चुनें विश्लेषण करें वास्तविक समय में दस्तावेज़ का विश्लेषण करने के लिए।
    वास्तविक समय में दस्तावेज़ का विश्लेषण करने के लिए विश्लेषण चुनें

मान्यता प्राप्त संस्थाओं में सूचीबद्ध हैं इनसाइट्स खंड। प्रत्येक इकाई में इकाई मूल्य (पाठ), प्रशिक्षण प्रक्रिया के दौरान आपके द्वारा परिभाषित इकाई का प्रकार और संबंधित आत्मविश्वास स्कोर होता है।
मान्यता प्राप्त निकाय इनसाइट्स अनुभाग में सूचीबद्ध हैं। प्रत्येक इकाई में इकाई मूल्य (पाठ), प्रशिक्षण प्रक्रिया के दौरान आपके द्वारा परिभाषित इकाई का प्रकार और संबंधित आत्मविश्वास स्कोर होता है।

अधिक विवरण और एक कस्टम इकाई पहचानकर्ता मॉडल को प्रशिक्षित करने के तरीके के बारे में पूरी जानकारी के लिए और एसिंक्रोनस विश्लेषण नौकरियों का उपयोग करके एसिंक्रोनस इंफेरेंस करने के लिए इसका उपयोग करें। अमेज़ॅन कॉम्प्रिहेंड के साथ अपने मूल प्रारूप में दस्तावेज़ों से कस्टम निकाय निकालें.

निष्कर्ष

इस पोस्ट ने प्रदर्शित किया कि कैसे आप अर्ध-संरचित दस्तावेजों को उनके मूल प्रारूप में वर्गीकृत और वर्गीकृत कर सकते हैं और Amazon Comprehend का उपयोग करके उनसे व्यवसाय-विशिष्ट संस्थाओं का पता लगा सकते हैं। आप निम्न-विलंबता उपयोग के मामलों के लिए रीयल-टाइम API का उपयोग कर सकते हैं, या बल्क दस्तावेज़ संसाधन के लिए एसिंक्रोनस विश्लेषण कार्य का उपयोग कर सकते हैं।

अगले चरण के रूप में, हम आपको Amazon Comprehend पर जाने के लिए प्रोत्साहित करते हैं गिटहब भंडार इन नई सुविधाओं को आज़माने के लिए पूर्ण कोड नमूने के लिए। पर भी जा सकते हैं अमेज़न समझ डेवलपर गाइड और Amazon Comprehend डेवलपर संसाधन वीडियो, ट्यूटोरियल, ब्लॉग और बहुत कुछ के लिए।


लेखक के बारे में

प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के बुद्धिमान दस्तावेज़ प्रसंस्करण के लिए अमेज़ॅन कॉम्प्रिहेंड के साथ एक-चरणीय वर्गीकरण और इकाई पहचान का परिचय। लंबवत खोज. ऐ.Wrick तालुकदार Amazon Comprehend Service टीम के साथ एक वरिष्ठ वास्तुकार हैं। वह बड़े पैमाने पर मशीन लर्निंग को अपनाने में मदद करने के लिए AWS ग्राहकों के साथ काम करता है। काम के अलावा उन्हें पढ़ने और फोटोग्राफी करने में मजा आता है।

प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के बुद्धिमान दस्तावेज़ प्रसंस्करण के लिए अमेज़ॅन कॉम्प्रिहेंड के साथ एक-चरणीय वर्गीकरण और इकाई पहचान का परिचय। लंबवत खोज. ऐ.अंजन बिस्वास एआई / एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सेवा समाधान वास्तुकार है। अंजन विश्वव्यापी एआई सेवा टीम का हिस्सा है और एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में ग्राहकों की मदद करने के लिए उनके साथ काम करता है। अंजन के पास वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को AWS AI सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।

प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के बुद्धिमान दस्तावेज़ प्रसंस्करण के लिए अमेज़ॅन कॉम्प्रिहेंड के साथ एक-चरणीय वर्गीकरण और इकाई पहचान का परिचय। लंबवत खोज. ऐ.गॉडविन सहयाराज विंसेंट AWS में एक एंटरप्राइज सॉल्यूशंस आर्किटेक्ट है, जो मशीन सीखने और ग्राहकों को उनके AWS वर्कलोड और आर्किटेक्चर को डिजाइन करने, तैनात करने और प्रबंधित करने के लिए मार्गदर्शन प्रदान करने का शौक रखता है। अपने खाली समय में, वह अपने दोस्तों के साथ क्रिकेट और अपने तीन बच्चों के साथ टेनिस खेलना पसंद करते हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग

AWS एक बड़ी गेमिंग कंपनी के लिए विषाक्त भाषण को वर्गीकृत करने के लिए एक बड़े भाषा मॉडल (एलएलएम) पर फाइन-ट्यूनिंग करता है | अमेज़न वेब सेवाएँ

स्रोत नोड: 1872582
समय टिकट: अगस्त 7, 2023