अमेज़ॅन टेक्स्ट में नई क्वेरी सुविधा का उपयोग करके दस्तावेज़ों से जानकारी निर्दिष्ट करें और निकालें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न टेक्सट्रेक एक मशीन लर्निंग (एमएल) सेवा है जो किसी भी दस्तावेज़ या छवि से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। अमेज़ॅन टेक्स्टट्रैक्ट अब विश्लेषण दस्तावेज़ एपीआई के भीतर नई क्वेरीज़ सुविधा का उपयोग करके दस्तावेज़ों से निकालने के लिए आवश्यक डेटा को निर्दिष्ट करने की सुविधा प्रदान करता है। आपको दस्तावेज़ में डेटा की संरचना (तालिका, प्रपत्र, निहित फ़ील्ड, नेस्टेड डेटा) जानने या दस्तावेज़ संस्करणों और प्रारूपों में भिन्नता के बारे में चिंता करने की आवश्यकता नहीं है।

इस पोस्ट में, हम निम्नलिखित विषयों पर चर्चा करते हैं:

AWS ग्राहकों की सफलता की कहानियाँ और नई क्वेरीज़ सुविधा के लाभ
विश्लेषण दस्तावेज़ क्वेरीज़ एपीआई दस्तावेज़ों से जानकारी निकालने में कैसे मदद करती है
अमेज़ॅन टेक्सट्रैक्ट कंसोल का एक पूर्वाभ्यास
दस्तावेज़ क्वेरीज़ एपीआई का विश्लेषण करने के लिए कोड उदाहरण
अमेज़ॅन टेक्स्टट्रैक्ट पार्सर लाइब्रेरी के साथ प्रतिक्रिया को कैसे संसाधित करें

नई क्वेरीज़ सुविधा के लाभ

पारंपरिक ओसीआर समाधान अधिकांश अर्ध-संरचित और असंरचित दस्तावेज़ों से सटीक रूप से डेटा निकालने के लिए संघर्ष करते हैं क्योंकि इन दस्तावेज़ों के कई संस्करणों और प्रारूपों में डेटा को कैसे रखा जाता है, इसमें महत्वपूर्ण भिन्नताएं होती हैं। आपको कस्टम पोस्टप्रोसेसिंग कोड लागू करने या इन दस्तावेज़ों से निकाली गई जानकारी की मैन्युअल रूप से समीक्षा करने की आवश्यकता है। क्वेरीज़ सुविधा के साथ, आप प्राकृतिक भाषा के प्रश्नों के रूप में अपनी आवश्यक जानकारी निर्दिष्ट कर सकते हैं (उदाहरण के लिए, "ग्राहक का नाम क्या है") और एपीआई प्रतिक्रिया के हिस्से के रूप में सटीक जानकारी ("जॉन डो") प्राप्त कर सकते हैं। यह सुविधा आपके द्वारा वांछित जानकारी को उच्च सटीकता के साथ निकालने के लिए दृश्य, स्थानिक और भाषा मॉडल के संयोजन का उपयोग करती है। क्वेरीज़ सुविधा को विभिन्न प्रकार के अर्ध-संरचित और असंरचित दस्तावेज़ों पर पूर्व-प्रशिक्षित किया गया है। कुछ उदाहरणों में पेस्टब्स, बैंक स्टेटमेंट, डब्ल्यू-2एस, ऋण आवेदन पत्र, बंधक नोट और वैक्सीन और बीमा कार्ड शामिल हैं।

"अमेज़ॅन टेक्स्टट्रैक्ट हमें अपने ग्राहकों की दस्तावेज़ प्रसंस्करण आवश्यकताओं को स्वचालित करने में सक्षम बनाता है। क्वेरीज़ सुविधा के साथ, हम विभिन्न दस्तावेज़ों से और भी अधिक लचीलेपन और सटीकता के साथ डेटा निकालने में सक्षम होंगे," टेकस्ट्रीम सॉल्यूशंस के मुख्य कार्यकारी अधिकारी रॉबर्ट जानसन ने कहा. 'हम इसे अपने व्यावसायिक ग्राहकों के लिए एक बड़ी उत्पादकता जीत के रूप में देखते हैं, जो अपने दस्तावेज़ों से महत्वपूर्ण जानकारी जल्दी से प्राप्त करने के लिए हमारे आईडीपी समाधान के हिस्से के रूप में क्वेरीज़ क्षमता का उपयोग करने में सक्षम होंगे।"

"अमेज़ॅन टेक्स्टट्रैक्ट हमें उच्च सटीकता के साथ छवियों से टेक्स्ट के साथ-साथ फॉर्म और टेबल्स जैसे संरचित तत्वों को निकालने में सक्षम बनाता है। अमेज़ॅन टेक्सट्रैक्ट क्वेरीज़ ने हमें कई व्यवसाय-महत्वपूर्ण दस्तावेज़ों जैसे सुरक्षा डेटा शीट या सामग्री विनिर्देशों से जानकारी निष्कर्षण की गुणवत्ता में काफी सुधार करने में मदद की है।" प्रिंसिपल थॉर्स्टन वार्नके ने कहा | पीसी एनालिटिक्स के प्रमुख, कैमलॉट मैनेजमेंट कंसल्टेंट्स. 'प्राकृतिक भाषा क्वेरी प्रणाली अत्यधिक लचीलापन और सटीकता प्रदान करती है जिसने हमारे पोस्ट-प्रोसेसिंग लोड को कम कर दिया है और हमें अपने डेटा निष्कर्षण टूल में तेजी से नए दस्तावेज़ जोड़ने में सक्षम बनाया है।"

विश्लेषण दस्तावेज़ क्वेरीज़ एपीआई दस्तावेज़ों से जानकारी निकालने में कैसे मदद करती है

कंपनियों ने डिजिटल प्लेटफॉर्म को अपनाना बढ़ा दिया है, खासकर कोविड-19 महामारी के मद्देनजर। अधिकांश संगठन अब स्मार्टफोन और अन्य मोबाइल उपकरणों का उपयोग करके अपनी सेवाओं और उत्पादों को प्राप्त करने के लिए एक डिजिटल तरीका प्रदान करते हैं, जो उपयोगकर्ताओं को लचीलापन प्रदान करता है, लेकिन उस पैमाने को भी जोड़ता है जिस पर डिजिटल दस्तावेजों की समीक्षा, प्रसंस्करण और विश्लेषण की आवश्यकता होती है। कुछ कार्यभार में, उदाहरण के लिए, बंधक दस्तावेज़, टीकाकरण कार्ड, पेस्टब्स, बीमा कार्ड और अन्य दस्तावेज़ों का डिजिटल रूप से विश्लेषण किया जाना चाहिए, डेटा निष्कर्षण की जटिलता तेजी से बढ़ सकती है क्योंकि इन दस्तावेज़ों में एक मानक प्रारूप का अभाव है या डेटा प्रारूप में महत्वपूर्ण भिन्नताएं हैं। दस्तावेज़ के विभिन्न संस्करणों में।

यहां तक कि शक्तिशाली ओसीआर समाधान भी इन दस्तावेज़ों से डेटा को सटीक रूप से निकालने के लिए संघर्ष करते हैं, और आपको इन दस्तावेज़ों के लिए कस्टम पोस्टप्रोसेसिंग लागू करना पड़ सकता है। इसमें ग्राहक-मूल फ़ील्ड नामों के लिए फॉर्म कुंजियों की संभावित विविधताओं को मैप करना या एक असंरचित दस्तावेज़ में विशिष्ट जानकारी की पहचान करने के लिए कस्टम मशीन लर्निंग शामिल करना शामिल है।

अमेज़ॅन टेक्स्टट्रैक्ट में नया एनालाइज़ डॉक्यूमेंट क्वेरीज़ एपीआई प्राकृतिक भाषा में लिखित प्रश्न ले सकता है जैसे "ब्याज दर क्या है?" और वांछित जानकारी का पता लगाने और बिना किसी पोस्टप्रोसेसिंग के दस्तावेज़ से निकालने के लिए दस्तावेज़ पर शक्तिशाली एआई और एमएल विश्लेषण करें। क्वेरीज़ सुविधा के लिए किसी कस्टम मॉडल प्रशिक्षण या टेम्प्लेट या कॉन्फ़िगरेशन की स्थापना की आवश्यकता नहीं है। आप अमेज़ॅन टेक्सट्रैक्ट कंसोल के माध्यम से अपने दस्तावेज़ अपलोड करके और उन दस्तावेज़ों पर प्रश्न निर्दिष्ट करके तुरंत शुरुआत कर सकते हैं AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई), या एडब्ल्यूएस एसडीके।

इस पोस्ट के अगले अनुभागों में, हम सामान्य कार्यभार उपयोग के मामलों पर इस नई कार्यक्षमता का उपयोग कैसे करें और अपने कार्यभार को डिजिटल बनाने की प्रक्रिया में चपलता जोड़ने के लिए विश्लेषण दस्तावेज़ क्वेरीज़ एपीआई का उपयोग कैसे करें, इसके विस्तृत उदाहरणों से गुजरेंगे।

Amazon Texttract कंसोल पर क्वेरीज़ सुविधा का उपयोग करें

इससे पहले कि हम एपीआई और कोड नमूनों के साथ शुरुआत करें, आइए अमेज़ॅन टेक्स्टट्रैक्ट कंसोल की समीक्षा करें। निम्नलिखित छवि टीकाकरण कार्ड का एक उदाहरण दिखाती है प्रश्न अमेज़ॅन टेक्स्टट्रैक्ट कंसोल पर विश्लेषण दस्तावेज़ एपीआई के लिए टैब। दस्तावेज़ को Amazon Texttract कंसोल पर अपलोड करने के बाद, चुनें प्रश्न में दस्तावेज़ कॉन्फ़िगर करें अनुभाग। फिर आप प्राकृतिक भाषा प्रश्नों के रूप में प्रश्न जोड़ सकते हैं। अपने सभी प्रश्न जोड़ने के बाद, चुनें कॉन्फ़िगरेशन लागू करें. प्रश्नों के उत्तर पर स्थित हैं प्रश्न टैब.

कोड उदाहरण

इस अनुभाग में, हम बताते हैं कि दस्तावेज़ के बारे में प्राकृतिक भाषा के प्रश्नों के उत्तर प्राप्त करने के लिए क्वेरीज़ पैरामीटर के साथ विश्लेषण दस्तावेज़ एपीआई को कैसे लागू किया जाए। इनपुट दस्तावेज़ या तो बाइट सरणी प्रारूप में है या एक में स्थित है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। आप बाइट्स प्रॉपर्टी का उपयोग करके अमेज़ॅन टेक्स्टट्रैक्ट एपीआई ऑपरेशन में छवि बाइट्स पास करते हैं। उदाहरण के लिए, आप इसका उपयोग कर सकते हैं Bytes स्थानीय फ़ाइल सिस्टम से लोड किए गए दस्तावेज़ को पास करने के लिए संपत्ति। का उपयोग करके छवि बाइट्स पारित की गईं Bytes संपत्ति बेस64 एन्कोडेड होनी चाहिए। यदि आप अमेज़ॅन टेक्स्टट्रैक्ट एपीआई ऑपरेशंस को कॉल करने के लिए एडब्ल्यूएस एसडीके का उपयोग कर रहे हैं तो आपके कोड को दस्तावेज़ फ़ाइल बाइट्स को एन्कोड करने की आवश्यकता नहीं हो सकती है। वैकल्पिक रूप से, आप इसका उपयोग करके S3 बकेट में संग्रहीत छवियों को Amazon Texttract API ऑपरेशन में पास कर सकते हैं S3Object संपत्ति। S3 बकेट में संग्रहीत दस्तावेज़ों को बेस64 एनकोडेड होने की आवश्यकता नहीं है।

आप विभिन्न प्रकार के दस्तावेज़ों जैसे पेस्टब्स, टीकाकरण कार्ड, बंधक दस्तावेज़, बैंक स्टेटमेंट, डब्ल्यू-2 फॉर्म, 1099 फॉर्म और अन्य से उत्तर प्राप्त करने के लिए क्वेरीज़ सुविधा का उपयोग कर सकते हैं। निम्नलिखित अनुभागों में, हम इनमें से कुछ दस्तावेज़ों पर नज़र डालेंगे और दिखाएंगे कि क्वेरीज़ सुविधा कैसे काम करती है।

वेतन प्रपत्र

इस उदाहरण में, हम क्वेरीज़ सुविधा का उपयोग करके पेस्टब का विश्लेषण करने के चरणों का पालन करते हैं, जैसा कि निम्नलिखित उदाहरण छवि में दिखाया गया है।

हम निम्नलिखित नमूना पायथन कोड का उपयोग करते हैं:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

निम्नलिखित कोड एक नमूना AWS CLI कमांड है:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}'

आइए पिछले उदाहरण में विश्लेषण दस्तावेज़ एपीआई को भेजे गए दो प्रश्नों के लिए हमें मिली प्रतिक्रिया का विश्लेषण करें। निम्नलिखित प्रतिक्रिया को केवल प्रासंगिक भागों को दिखाने के लिए छोटा कर दिया गया है:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

प्रतिक्रिया में एक है BlockType of QUERY यह वह प्रश्न दिखाता है जो पूछा गया था और a Relationships वह अनुभाग जिसमें उस ब्लॉक की आईडी है जिसमें उत्तर है। उत्तर में है BlockType of QUERY_RESULT. विश्लेषण दस्तावेज़ एपीआई में इनपुट के रूप में पारित किया गया उपनाम प्रतिक्रिया के भाग के रूप में लौटाया जाता है और इसका उपयोग उत्तर को लेबल करने के लिए किया जा सकता है।

हम उपयोग अमेज़ॅन टेक्सट्रैक रिस्पॉन्स पार्सर केवल प्रश्न, उपनाम और उन प्रश्नों के संबंधित उत्तर निकालने के लिए:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

पिछला कोड निम्नलिखित परिणाम देता है:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

अधिक प्रश्न और पूरा कोड नोटबुक में पाया जा सकता है गीथहब रेपो.

बंधक नोट

विश्लेषण दस्तावेज़ क्वेरीज़ एपीआई निम्नलिखित जैसे बंधक नोटों के साथ भी अच्छी तरह से काम करता है।

एपीआई को कॉल करने और परिणामों को संसाधित करने की प्रक्रिया पिछले उदाहरण के समान है। आप पूरा कोड उदाहरण यहां पा सकते हैं गीथहब रेपो.

निम्नलिखित कोड एपीआई का उपयोग करके प्राप्त उदाहरण प्रतिक्रियाओं को दिखाता है:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

टीकाकरण कार्ड

अमेज़ॅन टेक्स्टट्रैक्ट क्वेरीज़ सुविधा टीकाकरण कार्ड या उससे मिलते-जुलते कार्ड से जानकारी निकालने के लिए भी बहुत अच्छी तरह से काम करती है, जैसे कि निम्नलिखित उदाहरण में।

एपीआई को कॉल करने और परिणामों को पार्स करने की प्रक्रिया वही है जो पेस्टब के लिए उपयोग की जाती है। प्रतिक्रिया संसाधित करने के बाद, हमें निम्नलिखित जानकारी प्राप्त होती है:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

पूरा कोड नोटबुक में पाया जा सकता है गीथहब रेपो.

बीमा कार्ड

क्वेरीज़ सुविधा निम्नलिखित जैसे बीमा कार्डों के साथ भी अच्छी तरह से काम करती है।

एपीआई को कॉल करने और परिणामों को संसाधित करने की प्रक्रिया वही है जो पहले दिखाई गई थी। संपूर्ण कोड उदाहरण नोटबुक में उपलब्ध है गीथहब रेपो.

एपीआई का उपयोग करके प्राप्त उदाहरण प्रतिक्रियाएँ निम्नलिखित हैं:

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

क्वेरीज़ तैयार करने के सर्वोत्तम अभ्यास

अपनी क्वेरी बनाते समय, निम्नलिखित सर्वोत्तम प्रथाओं पर विचार करें:

सामान्य तौर पर, एक प्राकृतिक भाषा का प्रश्न पूछें जो "क्या है," "कहाँ है," या "कौन है" से शुरू होता है। अपवाद तब होता है जब आप मानक कुंजी-मूल्य जोड़े निकालने का प्रयास कर रहे होते हैं, उस स्थिति में आप कुंजी नाम को क्वेरी के रूप में पास कर सकते हैं।
गलत तरीके से बनाए गए या व्याकरणिक रूप से ग़लत प्रश्नों से बचें, क्योंकि इनके परिणामस्वरूप अप्रत्याशित उत्तर मिल सकते हैं। उदाहरण के लिए, एक गलत तरीके से बनाई गई क्वेरी है "कब?" जबकि एक सुव्यवस्थित प्रश्न है "वैक्सीन की पहली खुराक कब दी गई थी?"
जहां संभव हो, क्वेरी बनाने के लिए दस्तावेज़ से शब्दों का उपयोग करें। हालाँकि क्वेरीज़ सुविधा "एसएसएन," "टैक्स आईडी," और "सामाजिक सुरक्षा नंबर" जैसे कुछ सामान्य उद्योग शब्दों के लिए संक्षिप्त नाम और पर्यायवाची मिलान करने का प्रयास करती है, लेकिन दस्तावेज़ से सीधे भाषा का उपयोग करने से परिणामों में सुधार होता है। उदाहरण के लिए, यदि दस्तावेज़ "कार्य प्रगति" कहता है, तो "परियोजना प्रगति," "कार्यक्रम प्रगति," या "कार्य स्थिति" जैसी विविधताओं का उपयोग करने से बचने का प्रयास करें।
एक क्वेरी बनाएं जिसमें पंक्ति शीर्षलेख और स्तंभ शीर्षलेख दोनों के शब्द शामिल हों। उदाहरण के लिए, पिछले टीकाकरण कार्ड उदाहरण में, दूसरे टीकाकरण की तारीख जानने के लिए, आप क्वेरी को "दूसरी खुराक किस तारीख को दी गई थी?" के रूप में तैयार कर सकते हैं।
लंबे उत्तरों से प्रतिक्रिया विलंबता बढ़ जाती है और समयबाह्य हो सकता है। ऐसे प्रश्न पूछने का प्रयास करें जिनका उत्तर 100 शब्दों से कम हो।
किसी फॉर्म से मानक कुंजी-मूल्य जोड़े निकालने का प्रयास करते समय प्रश्न के रूप में केवल कुंजी नाम पास करना काम करता है। हम अन्य सभी निष्कर्षण उपयोग मामलों के लिए पूर्ण प्रश्न तैयार करने की अनुशंसा करते हैं।
जितना संभव हो विषय से जुड़े रहें। उदाहरण के लिए:
- जब दस्तावेज़ में कई अनुभाग हों (जैसे कि "उधारकर्ता" और "सह-उधारकर्ता") और दोनों अनुभागों में "एसएसएन" नामक फ़ील्ड हो, तो पूछें "उधारकर्ता के लिए एसएसएन क्या है?" और "सह-उधारकर्ता के लिए एसएसएन क्या है?"
- जब दस्तावेज़ में कई तिथि-संबंधित फ़ील्ड हों, तो क्वेरी भाषा में विशिष्ट रहें और पूछें "दस्तावेज़ पर हस्ताक्षर किए जाने की तारीख क्या है?" या "आवेदन की जन्मतिथि क्या है?" "तारीख क्या है?" जैसे अस्पष्ट प्रश्न पूछने से बचें।
यदि आप दस्तावेज़ का लेआउट पहले से जानते हैं, तो परिणामों की सटीकता में सुधार के लिए स्थान संकेत दें। उदाहरण के लिए, पूछें "शीर्ष पर कौन सी तारीख है?" या "बाईं ओर कौन सी तारीख है?" या "नीचे कौन सी तारीख है?"

क्वेरीज़ सुविधा के बारे में अधिक जानकारी के लिए टेक्स्टट्रैक्ट देखें दस्तावेज़ीकरण.

निष्कर्ष

इस पोस्ट में, हमने प्राकृतिक भाषा के प्रश्नों के आधार पर भुगतान, बंधक नोट, बीमा कार्ड और टीकाकरण कार्ड जैसे दस्तावेजों से जानकारी को जल्दी और आसानी से पुनर्प्राप्त करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट की नई क्वेरीज़ सुविधा का अवलोकन प्रदान किया है। हमने यह भी बताया कि आप प्रतिक्रिया JSON को कैसे पार्स कर सकते हैं।

अधिक जानकारी के लिए देखें दस्तावेज़ों का विश्लेषण , या अमेज़ॅन टेक्स्टट्रैक्ट कंसोल देखें और इस सुविधा को आज़माएं।

लेखक के बारे में

उदय नारायणन AWS में सीनियर सॉल्यूशंस आर्किटेक्ट हैं। उन्हें ग्राहकों को जटिल व्यावसायिक चुनौतियों के लिए नवीन समाधान खोजने में मदद करने में आनंद आता है। उनके फोकस के मुख्य क्षेत्र डेटा एनालिटिक्स, बिग डेटा सिस्टम और मशीन लर्निंग हैं। अपने खाली समय में, वह खेल खेलना, टीवी शो देखना और यात्रा करना पसंद करते हैं।

राफेल कैक्सेटा कैलिफोर्निया स्थित AWS में एक सीनियर सॉल्यूशंस आर्किटेक्ट हैं। उनके पास क्लाउड के लिए आर्किटेक्चर विकसित करने का 10 वर्षों से अधिक का अनुभव है। उनके मुख्य क्षेत्र सर्वर रहित, कंटेनर और मशीन लर्निंग हैं। अपने खाली समय में, उन्हें काल्पनिक किताबें पढ़ना और दुनिया की यात्रा करना पसंद है।

नवनीत नायर अमेज़ॅन टेक्स्ट्रेक्ट टीम के साथ एक वरिष्ठ उत्पाद प्रबंधक, तकनीकी हैं। वह AWS ग्राहकों के लिए मशीन लर्निंग-आधारित सेवाओं के निर्माण पर केंद्रित है।

मार्टिन शैडे Amazon Textract टीम के साथ एक वरिष्ठ ML उत्पाद SA है। उनके पास इंटरनेट से संबंधित प्रौद्योगिकियों, इंजीनियरिंग और वास्तुकला समाधानों के साथ 20 से अधिक वर्षों का अनुभव है। वह 2014 में AWS में शामिल हुए, पहले AWS सेवाओं के सबसे कुशल और स्केलेबल उपयोग पर कुछ सबसे बड़े AWS ग्राहकों का मार्गदर्शन किया, और बाद में कंप्यूटर विज़न पर ध्यान केंद्रित करते हुए AI / ML पर ध्यान केंद्रित किया। वर्तमान में, वह दस्तावेजों से जानकारी निकालने के लिए जुनूनी है।

समय टिकट: अप्रैल १, २०२४

समय टिकट: 9 मई 2023

प्लेटो द्वारा पुनर्प्रकाशित

Amazon SageMaker, Amazon OpenSearch Service, Streamlit, और LangChain के साथ एक शक्तिशाली प्रश्न उत्तर बॉट बनाएँ | अमेज़न वेब सेवाएँ

कंटेंटफुल और अमेज़ॅन बेडरॉक | के साथ अपने कंटेंट संपादन को बढ़ावा दें अमेज़न वेब सेवाएँ

एडब्ल्यूएस स्थानीयकरण स्थानीयकरण को मापने के लिए अमेज़ॅन अनुवाद का उपयोग करता है

Amazon Rekognition और अन्य सामग्री मॉडरेशन सेवाओं में सामग्री मॉडरेशन के मूल्यांकन के लिए मेट्रिक्स

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा