Specify And Extract Information From Documents Using The New Queries Feature In Amazon Textract

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون ٹیکسٹ ایک مشین لرننگ (ML) سروس ہے جو کسی بھی دستاویز یا تصویر سے ٹیکسٹ، ہینڈ رائٹنگ اور ڈیٹا کو خود بخود نکالتی ہے۔ Amazon Textract اب اس ڈیٹا کی وضاحت کرنے کے لیے لچک پیش کرتا ہے جس کی ضرورت آپ کو دستاویزات سے نکالنے کے لیے اینالیز ڈاکومنٹ API کے اندر نئی سوالات کی خصوصیت کا استعمال کرتے ہوئے حاصل کرنا ہے۔ آپ کو دستاویز میں ڈیٹا کی ساخت جاننے کی ضرورت نہیں ہے (ٹیبل، فارم، مضمر فیلڈ، نیسٹڈ ڈیٹا) یا دستاویز کے ورژن اور فارمیٹس میں تغیرات کے بارے میں فکر کرنے کی ضرورت نہیں ہے۔

اس پوسٹ میں، ہم مندرجہ ذیل موضوعات پر گفتگو کرتے ہیں:

AWS صارفین کی کامیابی کی کہانیاں اور نئے سوالات کی خصوصیت کے فوائد
کس طرح تجزیہ دستاویز سوالات API دستاویزات سے معلومات نکالنے میں مدد کرتا ہے۔
Amazon Textract کنسول کا واک تھرو
تجزیہ دستاویز سوالات API کو استعمال کرنے کے لیے کوڈ کی مثالیں۔
ایمیزون ٹیکسٹریکٹ پارسر لائبریری کے ساتھ جواب پر کارروائی کیسے کریں۔

سوالات کی نئی خصوصیت کے فوائد

روایتی OCR حل زیادہ تر نیم ساختہ اور غیر ساختہ دستاویزات سے درست طریقے سے ڈیٹا نکالنے کے لیے جدوجہد کرتے ہیں کیونکہ ان دستاویزات کے متعدد ورژنز اور فارمیٹس میں ڈیٹا کو کیسے ترتیب دیا جاتا ہے اس میں اہم تغیرات ہیں۔ آپ کو حسب ضرورت پوسٹ پروسیسنگ کوڈ کو لاگو کرنے یا ان دستاویزات سے نکالی گئی معلومات کا دستی طور پر جائزہ لینے کی ضرورت ہے۔ سوالات کی خصوصیت کے ساتھ، آپ قدرتی زبان کے سوالات کی شکل میں اپنی مطلوبہ معلومات کی وضاحت کر سکتے ہیں (مثال کے طور پر، "گاہک کا نام کیا ہے") اور API کے جواب کے حصے کے طور پر درست معلومات ("John Doe") حاصل کر سکتے ہیں۔ یہ خصوصیت بصری، مقامی اور زبان کے ماڈلز کے امتزاج کا استعمال کرتی ہے تاکہ آپ جس معلومات کی تلاش کرتے ہیں اسے اعلیٰ درستگی کے ساتھ نکال سکیں۔ سوالات کی خصوصیت نیم ساختہ اور غیر ساختہ دستاویزات کی ایک بڑی قسم پر پہلے سے تربیت یافتہ ہے۔ کچھ مثالوں میں پے اسٹب، بینک اسٹیٹمنٹ، W-2s، قرض کے درخواست فارم، رہن کے نوٹ، اور ویکسین اور انشورنس کارڈ شامل ہیں۔

"Amazon Textract ہمیں اپنے صارفین کی دستاویز پراسیسنگ کی ضروریات کو خودکار کرنے کے قابل بناتا ہے۔ سوالات کی خصوصیت کے ساتھ، ہم مزید لچک اور درستگی کے ساتھ متعدد دستاویزات سے ڈیٹا نکال سکیں گے،" TekStream Solutions کے چیف ایگزیکٹو آفیسر رابرٹ جانسن نے کہا. 'ہم اسے اپنے کاروباری صارفین کے لیے ایک بڑی پیداواری جیت کے طور پر دیکھتے ہیں، جو ہمارے IDP حل کے حصے کے طور پر سوالات کی صلاحیت کو استعمال کر سکیں گے تاکہ اپنی دستاویزات سے اہم معلومات کو تیزی سے حاصل کر سکیں۔"

"Amazon Textract ہمیں اعلی درستگی کے ساتھ تصاویر سے متن کے ساتھ ساتھ ساختی عناصر جیسے فارمز اور ٹیبلز کو نکالنے کے قابل بناتا ہے۔ Amazon Textract Querys نے کئی کاروباری اہم دستاویزات جیسے کہ حفاظتی ڈیٹا شیٹس یا مواد کی تفصیلات سے معلومات نکالنے کے معیار کو بہت بہتر بنانے میں ہماری مدد کی ہے۔" Thorsten Warnecke، پرنسپل نے کہا | پی سی تجزیات کے سربراہ، کیملوٹ مینجمنٹ کنسلٹنٹس. 'قدرتی زبان کے استفسار کا نظام بہت زیادہ لچک اور درستگی پیش کرتا ہے جس نے ہمارے پوسٹ پروسیسنگ بوجھ کو کم کیا ہے اور ہمیں اپنے ڈیٹا نکالنے کے ٹولز میں نئی دستاویزات کو تیزی سے شامل کرنے کے قابل بنایا ہے۔"

کس طرح تجزیہ دستاویز سوالات API دستاویزات سے معلومات نکالنے میں مدد کرتا ہے۔

کمپنیوں نے ڈیجیٹل پلیٹ فارمز کو اپنانے میں اضافہ کیا ہے، خاص طور پر COVID-19 وبائی امراض کی روشنی میں۔ زیادہ تر تنظیمیں اب اسمارٹ فونز اور دیگر موبائل آلات کا استعمال کرتے ہوئے اپنی خدمات اور مصنوعات حاصل کرنے کا ایک ڈیجیٹل طریقہ پیش کرتی ہیں، جو صارفین کو لچک فراہم کرتی ہے بلکہ اس پیمانے میں اضافہ کرتی ہے جس پر ڈیجیٹل دستاویزات کا جائزہ لینے، اس پر کارروائی کرنے اور تجزیہ کرنے کی ضرورت ہوتی ہے۔ کچھ کام کے بوجھ میں جہاں، مثال کے طور پر، رہن کی دستاویزات، ویکسینیشن کارڈز، پے اسٹبس، انشورنس کارڈز، اور دیگر دستاویزات کا ڈیجیٹل تجزیہ کیا جانا چاہیے، ڈیٹا نکالنے کی پیچیدگی تیزی سے بڑھ سکتی ہے کیونکہ ان دستاویزات میں معیاری فارمیٹ نہیں ہے یا ڈیٹا فارمیٹ میں اہم تغیرات ہیں۔ دستاویز کے مختلف ورژن میں۔

یہاں تک کہ طاقتور OCR حل بھی ان دستاویزات سے ڈیٹا کو درست طریقے سے نکالنے کے لیے جدوجہد کرتے ہیں، اور آپ کو ان دستاویزات کے لیے حسب ضرورت پوسٹ پروسیسنگ کو لاگو کرنا پڑ سکتا ہے۔ اس میں گاہک کے مقامی فیلڈ کے ناموں کے ساتھ فارم کیز کے ممکنہ تغیرات کا نقشہ بنانا یا غیر ساختہ دستاویز میں مخصوص معلومات کی شناخت کے لیے حسب ضرورت مشین لرننگ شامل ہے۔

Amazon Textract میں نیا Analyze Document Queries API قدرتی زبان میں لکھے گئے سوالات لے سکتا ہے جیسے "سود کی شرح کیا ہے؟" اور مطلوبہ معلومات کا پتہ لگانے کے لیے دستاویز پر طاقتور AI اور ML تجزیہ کریں اور اسے بغیر کسی پوسٹ پروسیسنگ کے دستاویز سے نکالیں۔ سوالات کی خصوصیت کو کسی بھی حسب ضرورت ماڈل ٹریننگ یا ٹیمپلیٹس یا کنفیگریشنز کے سیٹ اپ کی ضرورت نہیں ہے۔ آپ اپنے دستاویزات کو اپ لوڈ کرکے اور Amazon Textract کنسول کے ذریعے ان دستاویزات پر سوالات کی وضاحت کرکے تیزی سے شروعات کرسکتے ہیں۔ AWS کمانڈ لائن انٹرفیس (AWS CLI)، یا AWS SDK۔

اس پوسٹ کے بعد کے حصوں میں، ہم تفصیلی مثالوں سے گزرتے ہیں کہ کام کے بوجھ کے عام استعمال کے معاملات میں اس نئی فعالیت کو کیسے استعمال کیا جائے اور آپ کے کام کے بوجھ کو ڈیجیٹل کرنے کے عمل میں چستی کو شامل کرنے کے لیے تجزیہ دستاویز سوالات API کا استعمال کیسے کریں۔

Amazon Textract کنسول پر سوالات کی خصوصیت کا استعمال کریں۔

اس سے پہلے کہ ہم API اور کوڈ کے نمونوں کے ساتھ شروعات کریں، آئیے Amazon Textract کنسول کا جائزہ لیں۔ مندرجہ ذیل تصویر پر ویکسینیشن کارڈ کی ایک مثال دکھاتی ہے۔ سوالات ایمیزون ٹیکسٹریکٹ کنسول پر دستاویز API کا تجزیہ کرنے کے لیے ٹیب۔ دستاویز کو Amazon Textract کنسول پر اپ لوڈ کرنے کے بعد، منتخب کریں۔ سوالات میں دستاویز کو ترتیب دیں۔ سیکشن اس کے بعد آپ فطری زبان کے سوالات کی شکل میں سوالات شامل کر سکتے ہیں۔ اپنے تمام سوالات شامل کرنے کے بعد، منتخب کریں۔ کنفیگریشن کا اطلاق کریں۔. سوالات کے جوابات پر موجود ہیں۔ سوالات ٹیب.

کوڈ کی مثالیں۔

اس سیکشن میں، ہم وضاحت کرتے ہیں کہ دستاویز کے بارے میں فطری زبان کے سوالات کے جوابات حاصل کرنے کے لیے Queries پیرامیٹر کے ساتھ Analyze Document API کو کیسے استعمال کیا جائے۔ ان پٹ دستاویز یا تو بائٹ سرنی کی شکل میں ہے یا ایک میں واقع ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی۔ آپ بائٹس پراپرٹی کا استعمال کرکے امیج بائٹس کو ایمیزون ٹیکسٹریکٹ API آپریشن میں منتقل کرتے ہیں۔ مثال کے طور پر، آپ استعمال کر سکتے ہیں Bytes مقامی فائل سسٹم سے بھری ہوئی دستاویز کو پاس کرنے کی پراپرٹی۔ کا استعمال کرتے ہوئے تصویری بائٹس پاس کی گئیں۔ Bytes پراپرٹی کو بیس 64 انکوڈ کیا جانا چاہئے۔ اگر آپ Amazon Textract API آپریشنز کو کال کرنے کے لیے AWS SDK استعمال کر رہے ہیں تو آپ کے کوڈ کو دستاویز فائل بائٹس کو انکوڈ کرنے کی ضرورت نہیں ہو سکتی ہے۔ متبادل طور پر، آپ S3 بالٹی میں محفوظ کردہ تصاویر کو Amazon Textract API آپریشن میں منتقل کر سکتے ہیں S3Object جائیداد S3 بالٹی میں محفوظ کردہ دستاویزات کو بیس 64 انکوڈ کرنے کی ضرورت نہیں ہے۔

آپ مختلف قسم کے دستاویزات جیسے پے اسٹبس، ویکسینیشن کارڈز، رہن کے دستاویزات، بینک اسٹیٹمنٹس، W-2 فارمز، 1099 فارمز اور دیگر سے جوابات حاصل کرنے کے لیے سوالات کی خصوصیت کا استعمال کرسکتے ہیں۔ مندرجہ ذیل حصوں میں، ہم ان دستاویزات میں سے کچھ کو دیکھتے ہیں اور دکھاتے ہیں کہ سوالات کی خصوصیت کیسے کام کرتی ہے۔

پے اسٹب

اس مثال میں، ہم سوالات کی خصوصیت کا استعمال کرتے ہوئے ایک پے اسٹب کا تجزیہ کرنے کے لیے مراحل سے گزرتے ہیں، جیسا کہ مندرجہ ذیل مثال کی تصویر میں دکھایا گیا ہے۔

ہم مندرجہ ذیل نمونہ Python کوڈ استعمال کرتے ہیں:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

درج ذیل کوڈ AWS CLI کمانڈ کا نمونہ ہے:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}'

آئیے اس جواب کا تجزیہ کرتے ہیں جو ہمیں ان دو سوالات کے لیے ملے ہیں جو ہم نے سابقہ مثال میں Analyze Document API کو بھیجے ہیں۔ مندرجہ ذیل جواب کو صرف متعلقہ حصوں کو دکھانے کے لیے تراشا گیا ہے:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

جواب میں ایک ہے۔ BlockType of QUERY جو اس سوال کو ظاہر کرتا ہے جو پوچھا گیا تھا اور a Relationships سیکشن جس میں اس بلاک کی ID ہے جس کا جواب ہے۔ جواب میں ہے۔ BlockType of QUERY_RESULT. وہ عرف جو تجزیہ دستاویز API میں بطور ان پٹ پاس کیا جاتا ہے جواب کے حصے کے طور پر واپس کیا جاتا ہے اور اسے جواب پر لیبل لگانے کے لیے استعمال کیا جا سکتا ہے۔

ہم استعمال کرتے ہیں ایمیزون ٹیکسٹریکٹ رسپانس پارسر صرف سوالات، عرف، اور ان سوالات کے متعلقہ جوابات نکالنے کے لیے:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

سابقہ کوڈ درج ذیل نتائج دیتا ہے:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

مزید سوالات اور مکمل کوڈ پر نوٹ بک میں پایا جا سکتا ہے۔ GitHub repo.

رہن کا نوٹ

تجزیہ دستاویز سوالات API مندرجہ ذیل کی طرح رہن کے نوٹوں کے ساتھ بھی اچھا کام کرتا ہے۔

API کو کال کرنے اور نتائج پر عمل کرنے کا عمل پچھلی مثال کی طرح ہی ہے۔ آپ کو پر مکمل کوڈ کی مثال مل سکتی ہے۔ GitHub repo.

درج ذیل کوڈ API کا استعمال کرتے ہوئے حاصل کردہ مثال کے جوابات کو ظاہر کرتا ہے:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

ویکسینیشن کارڈ۔

Amazon Textract Queries کی خصوصیت ویکسی نیشن کارڈز یا کارڈز سے معلومات نکالنے کے لیے بھی بہت اچھی طرح کام کرتی ہے جو اس سے مشابہت رکھتے ہیں، جیسا کہ درج ذیل مثال میں۔

API کو کال کرنے اور نتائج کو پارس کرنے کا عمل وہی ہے جیسا کہ ایک paystub کے لیے استعمال کیا جاتا ہے۔ جواب پر کارروائی کرنے کے بعد، ہمیں درج ذیل معلومات ملتی ہیں:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

مکمل کوڈ پر نوٹ بک میں پایا جا سکتا ہے GitHub repo.

انشورنس کارڈ

سوالات کی خصوصیت درج ذیل کی طرح انشورنس کارڈز کے ساتھ بھی اچھی طرح کام کرتی ہے۔

API کو کال کرنے اور نتائج پر عمل کرنے کا عمل وہی ہے جیسا کہ پہلے دکھایا گیا تھا۔ مکمل کوڈ کی مثال نوٹ بک میں دستیاب ہے۔ GitHub repo.

API کا استعمال کرتے ہوئے حاصل کردہ مثال کے جوابات درج ذیل ہیں:

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

سوالات تیار کرنے کے بہترین طریقے

اپنے سوالات تیار کرتے وقت، درج ذیل بہترین طریقوں پر غور کریں:

عام طور پر، ایک فطری زبان کا سوال پوچھیں جو "کیا ہے"، "کہاں ہے" یا "کون ہے" سے شروع ہوتا ہے۔ استثنا اس وقت ہوتا ہے جب آپ معیاری کلیدی قدر کے جوڑے نکالنے کی کوشش کر رہے ہوتے ہیں، ایسی صورت میں آپ کلیدی نام کو بطور استفسار پاس کر سکتے ہیں۔
غلط یا گرائمری طور پر غلط سوالات سے پرہیز کریں، کیونکہ ان کے نتیجے میں غیر متوقع جوابات ہوسکتے ہیں۔ مثال کے طور پر، ایک غلط استفسار ہے "کب؟" جبکہ ایک اچھی طرح سے استفسار یہ ہے کہ "ویکسین کی پہلی خوراک کب دی گئی؟"
جہاں ممکن ہو، استفسار کے لیے دستاویز کے الفاظ استعمال کریں۔ اگرچہ سوالات کی خصوصیت کچھ عام صنعت کی اصطلاحات جیسے "SSN," "ٹیکس ID،" اور "سوشل سیکیورٹی نمبر" کے لیے مخفف اور مترادف مماثلت کرنے کی کوشش کرتی ہے، براہ راست دستاویز سے زبان کا استعمال نتائج کو بہتر بناتا ہے۔ مثال کے طور پر، اگر دستاویز میں کہا گیا ہے کہ "ملازمت کی پیشرفت"، "پروجیکٹ کی پیشرفت"، "پروگرام کی پیشرفت" یا "ملازمت کی حیثیت" جیسے تغیرات کو استعمال کرنے سے گریز کریں۔
ایک استفسار بنائیں جس میں قطار ہیڈر اور کالم ہیڈر دونوں کے الفاظ شامل ہوں۔ مثال کے طور پر، پہلے والی ویکسینیشن کارڈ کی مثال میں، دوسری ویکسینیشن کی تاریخ جاننے کے لیے، آپ استفسار کو "دوسری خوراک کس تاریخ کو دی گئی؟" کے طور پر ترتیب دے سکتے ہیں۔
طویل جوابات جواب میں تاخیر کو بڑھاتے ہیں اور ٹائم آؤٹ کا باعث بن سکتے ہیں۔ ایسے سوالات پوچھنے کی کوشش کریں جن کے جوابات 100 الفاظ سے کم ہوں۔
کسی فارم سے معیاری کلیدی قدر کے جوڑے نکالنے کی کوشش کرتے وقت صرف کلیدی نام کو پاس کرنا سوال کے طور پر کام کرتا ہے۔ ہم دیگر تمام نکالنے کے استعمال کے معاملات کے لیے مکمل سوالات تیار کرنے کی تجویز کرتے ہیں۔
ہر ممکن حد تک مخصوص رہیں۔ مثال کے طور پر:
- جب دستاویز میں متعدد سیکشنز ہوں (جیسے "قرض لینے والا" اور "شریک قرض لینے والا") اور دونوں سیکشنز میں "SSN" نامی فیلڈ ہو، تو پوچھیں "قرض لینے والے کے لیے SSN کیا ہے؟" اور "شریک قرض لینے والے کے لیے SSN کیا ہے؟"
- جب دستاویز میں تاریخ سے متعلق متعدد فیلڈز ہوں تو استفسار کی زبان میں مخصوص ہوں اور پوچھیں کہ "دستاویز پر دستخط کس تاریخ کو ہوئے؟" یا "درخواست کی تاریخ پیدائش کیا ہے؟" مبہم سوالات پوچھنے سے گریز کریں جیسے "تاریخ کیا ہے؟"
اگر آپ دستاویز کی ترتیب کو پہلے سے جانتے ہیں، تو نتائج کی درستگی کو بہتر بنانے کے لیے مقام کے اشارے دیں۔ مثال کے طور پر، پوچھیں "سب سے اوپر کی تاریخ کیا ہے؟" یا "بائیں طرف کیا تاریخ ہے؟" یا "نیچے میں تاریخ کیا ہے؟"

استفسارات کی خصوصیت کے بارے میں مزید معلومات کے لیے، متن سے رجوع کریں۔ دستاویزات.

نتیجہ

اس پوسٹ میں، ہم نے Amazon Textract کی نئی سوالات کی خصوصیت کا ایک جائزہ فراہم کیا ہے تاکہ دستاویزات جیسے پے اسٹبس، مارگیج نوٹ، انشورنس کارڈز، اور قدرتی زبان کے سوالات پر مبنی ویکسی نیشن کارڈز سے معلومات کو جلدی اور آسانی سے حاصل کیا جا سکے۔ ہم نے یہ بھی بتایا کہ آپ جواب JSON کو کیسے پارس کر سکتے ہیں۔

مزید معلومات کے لئے، دیکھیں دستاویزات کا تجزیہ ، یا Amazon Textract کنسول کو چیک کریں اور اس فیچر کو آزمائیں۔

مصنفین کے بارے میں

ادے نارائنن AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ گاہکوں کو پیچیدہ کاروباری چیلنجوں کے لیے جدید حل تلاش کرنے میں مدد کرتا ہے۔ اس کی توجہ کے بنیادی شعبے ڈیٹا اینالیٹکس، بڑے ڈیٹا سسٹمز اور مشین لرننگ ہیں۔ اپنے فارغ وقت میں، وہ کھیل کھیلنے، ٹی وی شوز دیکھنے اور سفر کرنے سے لطف اندوز ہوتے ہیں۔

رافیل کیکسیٹا کیلیفورنیا میں مقیم AWS میں ایک Sr. Solutions آرکیٹیکٹ ہے۔ اس کے پاس کلاؤڈ کے لیے فن تعمیرات تیار کرنے کا 10 سال سے زیادہ کا تجربہ ہے۔ اس کے بنیادی شعبے سرور لیس، کنٹینرز اور مشین لرننگ ہیں۔ اپنے فارغ وقت میں، وہ افسانے کی کتابیں پڑھنا اور دنیا کا سفر کرنا پسند کرتے ہیں۔

نونیت نائر ایک سینئر پروڈکٹ مینیجر ہے، Amazon Textract ٹیم کے ساتھ تکنیکی۔ اس کی توجہ AWS صارفین کے لیے مشین لرننگ پر مبنی خدمات کی تعمیر پر مرکوز ہے۔

مارٹن شیڈ Amazon Textract ٹیم کے ساتھ ایک سینئر ML پروڈکٹ SA ہے۔ اس کے پاس انٹرنیٹ سے متعلقہ ٹیکنالوجیز، انجینئرنگ، اور آرکیٹیکٹنگ حل کے ساتھ 20 سال سے زیادہ کا تجربہ ہے۔ اس نے 2014 میں AWS میں شمولیت اختیار کی، پہلے AWS سروسز کے سب سے زیادہ موثر اور توسیع پذیر استعمال کے بارے میں کچھ بڑے AWS صارفین کی رہنمائی کی، اور بعد میں کمپیوٹر ویژن پر توجہ مرکوز کرتے ہوئے AI/ML پر توجہ مرکوز کی۔ فی الحال، اسے دستاویزات سے معلومات نکالنے کا جنون ہے۔

ٹائم اسٹیمپ: اپریل 21، 2022

ٹائم اسٹیمپ: جون 15، 2022

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

انشورنس انڈسٹری میں AWS AI خدمات کے ساتھ ذہین دستاویز پراسیسنگ: حصہ 1

Amazon SageMaker کے ساتھ ImmoScout24 پر رہائشی جائیداد کی قیمتوں کی پیش گوئی کریں

Amazon SageMaker JumpStart سلوشنز میں مشین لرننگ کے ذریعے کاروباری مسائل کو اینڈ ٹو اینڈ حل کریں۔

Amazon SageMaker بلٹ ان LightGBM اب Dask کا استعمال کرتے ہوئے تقسیم شدہ تربیت پیش کرتا ہے۔

ذمہ دار AI جدت طرازی کو فعال کرنے کے لیے نئے ٹولز اور صلاحیتوں کا اعلان کرنا | ایمیزون ویب سروسز

ایمیزون پولی کا استعمال کرتے ہوئے تلفظ کو حسب ضرورت بنائیں

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ