AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

एडब्ल्यूएस एआई सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1

स्वास्थ्य सेवा, वित्त और उधार, कानूनी, खुदरा और विनिर्माण जैसे उद्योगों में संगठनों को अक्सर अपनी दिन-प्रतिदिन की व्यावसायिक प्रक्रियाओं में बहुत सारे दस्तावेजों से निपटना पड़ता है। इन दस्तावेज़ों में महत्वपूर्ण जानकारी होती है जो ग्राहकों की संतुष्टि के उच्चतम स्तर, तेज़ ग्राहक ऑनबोर्डिंग और कम ग्राहक मंथन को बनाए रखने के लिए समय पर निर्णय लेने की कुंजी है। ज्यादातर मामलों में, जानकारी और अंतर्दृष्टि निकालने के लिए दस्तावेजों को मैन्युअल रूप से संसाधित किया जाता है, जो समय लेने वाली, त्रुटि-प्रवण, महंगी और स्केल करने में मुश्किल होती है। इन दस्तावेजों से जानकारी को संसाधित करने और निकालने के लिए आज सीमित स्वचालन उपलब्ध है। एडब्ल्यूएस आर्टिफिशियल इंटेलिजेंस (एआई) सेवाओं के साथ इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) मशीन लर्निंग (एमएल) कौशल की आवश्यकता के बिना, विभिन्न प्रकार और प्रारूपों के दस्तावेजों से सूचना निष्कर्षण को स्वचालित रूप से और उच्च सटीकता के साथ स्वचालित करने में मदद करता है। उच्च सटीकता के साथ तेजी से सूचना निष्कर्षण समग्र लागत को कम करते हुए समय पर गुणवत्तापूर्ण व्यावसायिक निर्णय लेने में मदद करता है।

हालांकि एक IDP वर्कफ़्लो में चरण भिन्न हो सकते हैं और उपयोग के मामले और व्यावसायिक आवश्यकताओं से प्रभावित हो सकते हैं, निम्न आंकड़ा उन चरणों को दिखाता है जो आमतौर पर IDP वर्कफ़्लो का हिस्सा होते हैं। प्रसंस्करण दस्तावेज़ जैसे कर प्रपत्र, दावे, चिकित्सा नोट, नए ग्राहक प्रपत्र, चालान, कानूनी अनुबंध, और बहुत कुछ IDP के लिए उपयोग के कुछ मामले हैं।

इस दो-भाग श्रृंखला में, हम चर्चा करते हैं कि आप AWS AI सेवाओं का उपयोग करके दस्तावेज़ों को कैसे स्वचालित और बुद्धिमानी से संसाधित कर सकते हैं। इस पोस्ट में, हम IDP वर्कफ़्लो के पहले तीन चरणों पर चर्चा करते हैं। में भाग 2, हम शेष कार्यप्रवाह चरणों पर चर्चा करते हैं।

समाधान अवलोकन

निम्नलिखित आर्किटेक्चर आरेख IDP वर्कफ़्लो के चरणों को दर्शाता है। यह विभिन्न फ़ाइल स्वरूपों (पीडीएफ, जेपीईजी, पीएनजी, टीआईएफएफ) और दस्तावेजों के लेआउट को सुरक्षित रूप से संग्रहीत और एकत्र करने के लिए डेटा कैप्चर चरण से शुरू होता है। अगला चरण वर्गीकरण है, जहां आप अपने दस्तावेज़ों (जैसे अनुबंध, दावा प्रपत्र, चालान, या रसीद) को वर्गीकृत करते हैं, उसके बाद दस्तावेज़ निष्कर्षण करते हैं। निष्कर्षण चरण में, आप अपने दस्तावेज़ों से सार्थक व्यावसायिक जानकारी निकाल सकते हैं। इस निकाले गए डेटा का उपयोग अक्सर डेटा विश्लेषण के माध्यम से अंतर्दृष्टि इकट्ठा करने के लिए किया जाता है, या डाउनस्ट्रीम सिस्टम जैसे डेटाबेस या ट्रांजेक्शनल सिस्टम को भेजा जाता है। निम्नलिखित चरण संवर्धन है, जहां दस्तावेजों को संरक्षित स्वास्थ्य सूचना (पीएचआई) या व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) डेटा, कस्टम बिजनेस टर्म निष्कर्षण, और इसी तरह से संशोधित करके समृद्ध किया जा सकता है। अंत में, समीक्षा और सत्यापन चरण में, आप यह सुनिश्चित करने के लिए दस्तावेज़ समीक्षा के लिए एक मानव कार्यबल शामिल कर सकते हैं कि परिणाम सटीक है।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

इस पोस्ट के प्रयोजनों के लिए, हम बैंक स्टेटमेंट, इनवॉइस और स्टोर रसीद जैसे नमूना दस्तावेजों के एक सेट पर विचार करते हैं। दस्तावेज़ के नमूने, नमूना कोड के साथ, हमारे . में पाए जा सकते हैं गिटहब भंडार. निम्नलिखित अनुभागों में, हम आपको वास्तविक व्यावहारिक अनुप्रयोग के साथ इन कोड नमूनों के बारे में बताते हैं। हम प्रदर्शित करते हैं कि आप एमएल क्षमताओं का उपयोग कैसे कर सकते हैं अमेज़न टेक्सट्रेक, Amazon Comprehend, तथा अमेज़न संवर्धित ऐ (अमेज़ॅन ए2आई) दस्तावेजों को संसाधित करने और उनसे निकाले गए डेटा को मान्य करने के लिए।

Amazon Textract एक ML सेवा है जो स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। यह फॉर्म और टेबल से डेटा को पहचानने, समझने और निकालने के लिए सरल ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) से आगे निकल जाता है। अमेज़ॅन टेक्स्टट्रैक्ट किसी भी प्रकार के दस्तावेज़ को पढ़ने और संसाधित करने के लिए एमएल का उपयोग करता है, बिना किसी मैन्युअल प्रयास के टेक्स्ट, हस्तलेखन, टेबल और अन्य डेटा को सटीक रूप से निकालता है।

Amazon Comprehend एक प्राकृतिक-भाषा प्रसंस्करण (NLP) सेवा है जो ML का उपयोग दस्तावेज़ों की सामग्री के बारे में अंतर्दृष्टि निकालने के लिए करती है। अमेज़ॅन कॉम्प्रिहेंड दस्तावेजों में महत्वपूर्ण तत्वों की पहचान कर सकता है, जिसमें भाषा, लोगों और स्थानों के संदर्भ शामिल हैं, और उन्हें प्रासंगिक विषयों या समूहों में वर्गीकृत किया जा सकता है। यह एकल दस्तावेज़ या बैच डिटेक्शन का उपयोग करके वास्तविक समय में किसी दस्तावेज़ की भावना को निर्धारित करने के लिए भावना विश्लेषण कर सकता है। उदाहरण के लिए, यह यह जानने के लिए ब्लॉग पोस्ट पर टिप्पणियों का विश्लेषण कर सकता है कि आपके पाठक पोस्ट को पसंद करते हैं या नहीं। अमेज़ॅन कॉम्प्रिहेंड वास्तविक समय और एसिंक्रोनस बैच नौकरियों में टेक्स्ट दस्तावेज़ों में पते, बैंक खाता संख्या और फोन नंबर जैसे पीआईआई का भी पता लगाता है। यह एसिंक्रोनस बैच नौकरियों में PII संस्थाओं को भी संशोधित कर सकता है।

Amazon A2I एक ML सेवा है जो मानव समीक्षा के लिए आवश्यक वर्कफ़्लो बनाना आसान बनाती है। Amazon A2I सभी डेवलपर्स के लिए मानव समीक्षा लाता है, मानव समीक्षा प्रणाली के निर्माण या बड़ी संख्या में मानव समीक्षकों के प्रबंधन से जुड़े अविभाज्य भारी भारोत्तोलन को हटाता है, चाहे वह AWS पर चलता हो या नहीं। Amazon A2I दोनों को एकीकृत करता है अमेज़न टेक्सट्रेक और Amazon Comprehend आपको अपने बुद्धिमान दस्तावेज़ प्रसंस्करण वर्कफ़्लो के भीतर मानव समीक्षा चरणों को पेश करने की क्षमता प्रदान करने के लिए।

डेटा कैप्चर चरण

आप दस्तावेज़ों को अत्यधिक स्केलेबल और टिकाऊ स्टोरेज में स्टोर कर सकते हैं जैसे अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3)। Amazon S3 एक ऑब्जेक्ट स्टोरेज सेवा है जो उद्योग की अग्रणी मापनीयता, डेटा उपलब्धता, सुरक्षा और प्रदर्शन प्रदान करती है। Amazon S3 को 11 9 के टिकाऊपन के लिए डिज़ाइन किया गया है और यह दुनिया भर के लाखों ग्राहकों के लिए डेटा संग्रहीत करता है। दस्तावेज़ विभिन्न स्वरूपों और लेआउट में आ सकते हैं, और वेब पोर्टल या ईमेल अटैचमेंट जैसे विभिन्न चैनलों से आ सकते हैं।

वर्गीकरण चरण

पिछले चरण में, हमने विभिन्न प्रकार और स्वरूपों के दस्तावेज़ एकत्र किए। इस चरण में, हमें आगे की निकासी करने से पहले दस्तावेजों को वर्गीकृत करने की आवश्यकता है। उसके लिए हम Amazon Comprehend . का इस्तेमाल करते हैं कस्टम वर्गीकरण. दस्तावेज़ वर्गीकरण एक दो-चरणीय प्रक्रिया है। सबसे पहले, आप अपनी रुचि के वर्गों को पहचानने के लिए अमेज़ॅन कॉम्प्रिहेंड कस्टम क्लासिफायरियर को प्रशिक्षित करते हैं। इसके बाद, आप मॉडल को a . के साथ परिनियोजित करते हैं कस्टम क्लासिफायरियर रीयल-टाइम एंडपॉइंट और बिना लेबल वाले दस्तावेज़ों को वर्गीकृत करने के लिए रीयल-टाइम एंडपॉइंट पर भेजें।

निम्नलिखित आंकड़ा एक विशिष्ट दस्तावेज़ वर्गीकरण वर्कफ़्लो का प्रतिनिधित्व करता है।

वर्गीकरण चरण

क्लासिफायरियर को प्रशिक्षित करने के लिए, उन कक्षाओं की पहचान करें जिनमें आप रुचि रखते हैं और प्रशिक्षण सामग्री के रूप में प्रत्येक कक्षा के लिए नमूना दस्तावेज प्रदान करें। आपके द्वारा बताए गए विकल्पों के आधार पर, Amazon Comprehend एक कस्टम ML मॉडल बनाता है जिसे वह आपके द्वारा प्रदान किए गए दस्तावेज़ों के आधार पर प्रशिक्षित करता है। यह कस्टम मॉडल (क्लासिफायरियर) आपके द्वारा सबमिट किए गए प्रत्येक दस्तावेज़ की जांच करता है। यह या तो विशिष्ट वर्ग देता है जो सामग्री का सबसे अच्छा प्रतिनिधित्व करता है (यदि आप बहु-वर्ग मोड का उपयोग कर रहे हैं) या उस पर लागू होने वाली कक्षाओं का सेट (यदि आप बहु-लेबल मोड का उपयोग कर रहे हैं)।

प्रशिक्षण डेटा तैयार करें

पहला कदम अमेज़ॅन कॉम्प्रिहेंड कस्टम क्लासिफायरियर के लिए आवश्यक दस्तावेज़ों से टेक्स्ट निकालना है। Amazon S3 में सभी दस्तावेज़ों के लिए कच्ची पाठ जानकारी निकालने के लिए, हम Amazon Textract . का उपयोग करते हैं detect_document_text() एपीआई। हम कस्टम अमेज़ॅन कॉम्प्रिहेंड क्लासिफायर को प्रशिक्षित करने के लिए उपयोग किए जाने वाले दस्तावेज़ प्रकार के अनुसार डेटा को लेबल भी करते हैं।

सरलीकरण उद्देश्यों के लिए निम्नलिखित कोड को छोटा कर दिया गया है। पूर्ण कोड के लिए, GitHub देखें नमूना कोड एसटी textract_extract_text()। कार्यक्रम call_textract() एक wr4apper फ़ंक्शन है जो कॉल करता है विश्लेषण एपीआई आंतरिक रूप से, और विधि को पारित पैरामीटर कुछ कॉन्फ़िगरेशन को सार करते हैं जिन्हें एपीआई को निष्कर्षण कार्य चलाने की आवश्यकता होती है।

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)        

एक कस्टम क्लासिफायरियर को प्रशिक्षित करें

इस चरण में, हम दस्तावेज़ों को वर्गीकृत करने के लिए अपने मॉडल को प्रशिक्षित करने के लिए अमेज़ॅन कॉम्प्रिहेंड कस्टम वर्गीकरण का उपयोग करते हैं। हम उपयोग करते हैं CreateDocumentClassifier एपीआई एक क्लासिफायरियर बनाने के लिए जो हमारे लेबल किए गए डेटा का उपयोग करके एक कस्टम मॉडल को प्रशिक्षित करता है। निम्नलिखित कोड देखें:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

रीयल-टाइम समापन बिंदु परिनियोजित करें

अमेज़ॅन कॉम्प्रिहेंड कस्टम क्लासिफायरियर का उपयोग करने के लिए, हम का उपयोग करके रीयल-टाइम एंडपॉइंट बनाते हैं CreateEndpoint एपीआई:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')  

रीयल-टाइम समापन बिंदु के साथ दस्तावेज़ों को वर्गीकृत करें

अमेज़ॅन कॉम्प्रिहेंड एंडपॉइंट बनने के बाद, हम दस्तावेजों को वर्गीकृत करने के लिए रीयल-टाइम एंडपॉइंट का उपयोग कर सकते हैं। हम उपयोग करते हैं comprehend.classify_document() इनपुट पैरामीटर के रूप में निकाले गए दस्तावेज़ टेक्स्ट और अनुमान समापन बिंदु के साथ कार्य करें:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

अमेज़ॅन कॉम्प्रिहेंड सभी वर्गों के दस्तावेज़ों को कुंजी-मूल्य जोड़े (नाम-स्कोर) की एक सरणी में प्रत्येक वर्ग से जुड़े आत्मविश्वास स्कोर के साथ लौटाता है। हम उच्चतम आत्मविश्वास स्कोर वाले दस्तावेज़ वर्ग को चुनते हैं। निम्न स्क्रीनशॉट एक नमूना प्रतिक्रिया है।

रीयल-टाइम समापन बिंदु के साथ दस्तावेज़ों को वर्गीकृत करें

हम अनुशंसा करते हैं कि विस्तृत दस्तावेज़ वर्गीकरण नमूना कोड देखें GitHub.

निष्कर्षण चरण

Amazon Textract आपको Amazon Textract का उपयोग करके टेक्स्ट और संरचित डेटा जानकारी निकालने देता है डिटेक्ट डॉक्यूमेंट टेक्स्ट और विश्लेषण क्रमशः एपीआई। ये API JSON डेटा के साथ प्रतिक्रिया करते हैं, जिसमें WORDS, LINES, FORMS, TABLES, ज्योमेट्री या बाउंडिंग बॉक्स की जानकारी, संबंध आदि शामिल हैं। दोनों DetectDocumentText और AnalyzeDocument तुल्यकालिक संचालन हैं। अतुल्यकालिक रूप से दस्तावेजों का विश्लेषण करने के लिए, उपयोग करें स्टार्ट डॉक्यूमेंट टेक्स्ट डिटेक्शन.

संरचित डेटा निष्कर्षण

डेटा संरचना और खोजी गई वस्तुओं के बीच संबंधों को संरक्षित करते हुए आप संरचित डेटा जैसे दस्तावेज़ों से तालिकाओं को निकाल सकते हैं। आप का उपयोग कर सकते हैं विश्लेषण एपीआई के साथ FeatureType as TABLE किसी दस्तावेज़ में सभी तालिकाओं का पता लगाने के लिए। निम्नलिखित आंकड़ा इस प्रक्रिया को दिखाता है।

संरचित डेटा निष्कर्षण

निम्नलिखित कोड देखें:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

हम चलाते हैं analyze_document() के साथ विधि FeatureType as TABLES कर्मचारी इतिहास दस्तावेज़ पर और निम्नलिखित परिणामों में तालिका निष्कर्षण प्राप्त करें।

टेबल निष्कर्षण के लिए दस्तावेज़ एपीआई प्रतिक्रिया का विश्लेषण करें

अर्ध-संरचित डेटा निष्कर्षण

आप डेटा संरचना और खोजी गई वस्तुओं के बीच संबंधों को संरक्षित करते हुए दस्तावेज़ों से अर्ध-संरचित डेटा जैसे प्रपत्र या कुंजी-मूल्य जोड़े निकाल सकते हैं। आप का उपयोग कर सकते हैं विश्लेषण एपीआई के साथ FeatureType as FORMS एक दस्तावेज़ में सभी रूपों का पता लगाने के लिए। निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।

अर्ध-संरचित डेटा निष्कर्षण

निम्नलिखित कोड देखें:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

यहाँ, हम चलाते हैं analyze_document() के साथ विधि FeatureType as FORMS कर्मचारी आवेदन दस्तावेज़ पर और परिणामों में तालिका निष्कर्षण प्राप्त करें।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

असंरचित डेटा निष्कर्षण

Amazon Textract उद्योग की अग्रणी OCR सटीकता के साथ सघन पाठ निष्कर्षण के लिए इष्टतम है। आप का उपयोग कर सकते हैं डिटेक्ट डॉक्यूमेंट टेक्स्ट पाठ की पंक्तियों और पाठ की एक पंक्ति बनाने वाले शब्दों का पता लगाने के लिए एपीआई, जैसा कि निम्नलिखित आकृति में दिखाया गया है।

असंरचित डेटा निष्कर्षण

निम्नलिखित कोड देखें:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

अब हम चलाते हैं detect_document_text() नमूना छवि पर विधि और परिणामों में कच्चा पाठ निष्कर्षण प्राप्त करें।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

चालान और रसीदें

Amazon Textract इनवॉइस और रसीदों को बड़े पैमाने पर संसाधित करने के लिए विशेष सहायता प्रदान करता है। व्यय का विश्लेषण करें एपीआई बिना किसी टेम्प्लेट या कॉन्फ़िगरेशन के लगभग किसी भी चालान या रसीद से वस्तुओं या सेवाओं की एक मदबद्ध सूची से स्पष्ट रूप से लेबल किए गए डेटा, निहित डेटा और लाइन आइटम निकाल सकता है। निम्नलिखित आंकड़ा इस प्रक्रिया को दिखाता है।

चालान और रसीद निष्कर्षण

निम्नलिखित कोड देखें:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract एक रसीद पर विक्रेता का नाम ढूंढ सकता है, भले ही वह "विक्रेता" नामक स्पष्ट लेबल के बिना पृष्ठ पर एक लोगो के भीतर ही इंगित किया गया हो। यह उन व्यय मदों, मात्राओं और कीमतों को भी ढूंढ और निकाल सकता है जिन पर पंक्ति वस्तुओं के लिए स्तंभ शीर्षलेखों के साथ लेबल नहीं किया गया है।

व्यय API प्रतिक्रिया का विश्लेषण करें

पहचान दस्तावेज

अमेज़ॅन टेक्सट्रैक्ट विश्लेषण आईडी एपीआई आपको टेम्प्लेट या कॉन्फ़िगरेशन की आवश्यकता के बिना, ड्राइविंग लाइसेंस और पासपोर्ट जैसे पहचान दस्तावेजों से स्वचालित रूप से जानकारी निकालने में मदद कर सकता है। हम विशिष्ट जानकारी निकाल सकते हैं, जैसे कि समाप्ति की तारीख और जन्म तिथि, साथ ही नाम और पता जैसी निहित जानकारी को समझदारी से पहचान और निकाल सकते हैं। निम्नलिखित आरेख इस प्रक्रिया को दिखाता है।

पहचान दस्तावेज निष्कर्षण

निम्नलिखित कोड देखें:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

हम प्रयोग कर सकते हैं tabulate एक सुंदर मुद्रित आउटपुट प्राप्त करने के लिए:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

हम विस्तृत दस्तावेज़ निष्कर्षण के माध्यम से जाने की सलाह देते हैं नमूना कोड गिटहब पर। इस पोस्ट में पूर्ण कोड नमूने के बारे में अधिक जानकारी के लिए देखें गीथहब रेपो.

निष्कर्ष

दो-भाग श्रृंखला की इस पहली पोस्ट में, हमने आईडीपी के विभिन्न चरणों और समाधान वास्तुकला पर चर्चा की। हमने अमेज़ॅन कॉम्प्रिहेंड कस्टम क्लासिफायर का उपयोग करके दस्तावेज़ वर्गीकरण पर भी चर्चा की। इसके बाद, हमने उन तरीकों का पता लगाया जिनसे आप असंरचित, अर्ध-संरचित, संरचित और विशिष्ट दस्तावेज़ प्रकारों से जानकारी निकालने के लिए Amazon Textract का उपयोग कर सकते हैं।

In भाग 2 इस श्रृंखला में, हम Amazon Textract के एक्सट्रेक्ट और क्वेश्चन सुविधाओं के साथ चर्चा जारी रखते हैं। हम देखते हैं कि घने टेक्स्ट वाले दस्तावेज़ों से प्रमुख व्यावसायिक शर्तों को निकालने के लिए Amazon Comprehend पूर्व-निर्धारित संस्थाओं और कस्टम संस्थाओं का उपयोग कैसे करें, और अपनी IDP प्रक्रियाओं में Amazon A2I मानव-इन-द-लूप समीक्षा को कैसे एकीकृत करें।

हम अनुशंसा करते हैं कि के सुरक्षा अनुभागों की समीक्षा करें अमेज़न टेक्सट्रेक, Amazon Comprehend, तथा अमेज़न A2I दस्तावेज़ीकरण और प्रदान किए गए दिशानिर्देशों का पालन करना। इसके अलावा, कीमत की समीक्षा करने और समझने के लिए कुछ समय दें अमेज़न टेक्सट्रेक, Amazon Comprehend, तथा अमेज़न A2I.


लेखक के बारे में

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ. सुप्रकाश दत्ता Amazon वेब सर्विसेज में सॉल्यूशंस आर्किटेक्ट हैं। वह डिजिटल ट्रांसफॉर्मेशन स्ट्रैटेजी, एप्लिकेशन मॉडर्नाइजेशन एंड माइग्रेशन, डेटा एनालिटिक्स और मशीन लर्निंग पर फोकस करता है।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.सोनाली साहू अमेज़ॅन वेब सर्विसेज में इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग एआई / एमएल सॉल्यूशंस आर्किटेक्ट टीम का नेतृत्व कर रहा है। वह एक भावुक टेक्नोफाइल है और नवाचार का उपयोग करके जटिल समस्याओं को हल करने के लिए ग्राहकों के साथ काम करना पसंद करती है। उनका मुख्य फोकस आर्टिफिशियल इंटेलिजेंस और इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग के लिए मशीन लर्निंग है।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.अंजन बिस्वास एआई/एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सर्विसेज सॉल्यूशंस आर्किटेक्ट हैं। अंजन विश्वव्यापी एआई सेवाओं की टीम का हिस्सा है और ग्राहकों के साथ काम करके उन्हें एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में मदद करता है। अंजन को वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को एडब्ल्यूएस एआई सेवाओं को शुरू करने और स्केल करने में मदद कर रहा है।

AWS AI सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 1 प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.चिन्मयी राणे Amazon वेब सर्विसेज में AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह अनुप्रयुक्त गणित और मशीन लर्निंग के बारे में भावुक है। वह AWS ग्राहकों के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण समाधान तैयार करने पर ध्यान केंद्रित करती है। काम के अलावा, वह सालसा और बचाटा नृत्य का आनंद लेती है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

पूर्व-प्रशिक्षित मॉडल के साथ अमेज़ॅन सेजमेकर बिल्ट-इन एल्गोरिदम का उपयोग करके एमएल मॉडल के प्रदर्शन को बढ़ाएं और प्रशिक्षण समय को कम करें

स्रोत नोड: 1719203
समय टिकट: अक्टूबर 6, 2022