Specify And Extract Information From Documents Using The New Queries Feature In Amazon Textract

بازنشر افلاطون

دنبال: 0

متن آمازون یک سرویس یادگیری ماشینی (ML) است که به طور خودکار متن، دست خط و داده را از هر سند یا تصویری استخراج می کند. Amazon Textract اکنون انعطاف‌پذیری را برای مشخص کردن داده‌های مورد نیاز برای استخراج از اسناد با استفاده از ویژگی جدید Queries در Analyze Document API ارائه می‌دهد. شما نیازی به دانستن ساختار داده ها در سند (جدول، فرم، فیلد ضمنی، داده های تودرتو) ندارید یا نگران تغییرات در نسخه ها و قالب های سند نباشید.

در این پست به موضوعات زیر می پردازیم:

داستان های موفقیت از مشتریان AWS و مزایای ویژگی جدید Queries
چگونه API Analyze Document Queries به استخراج اطلاعات از اسناد کمک می کند
مروری بر کنسول آمازون Textract
نمونه کد برای استفاده از Analyze Document Queries API
نحوه پردازش پاسخ با کتابخانه تجزیه کننده متن آمازون

مزایای ویژگی جدید Queries

راه حل های OCR سنتی برای استخراج دقیق داده ها از اکثر اسناد نیمه ساختاریافته و بدون ساختار به دلیل تغییرات قابل توجه در نحوه چیدمان داده ها در چندین نسخه و فرمت این اسناد با مشکل مواجه هستند. شما باید کد پس پردازش سفارشی را پیاده سازی کنید یا به صورت دستی اطلاعات استخراج شده از این اسناد را بررسی کنید. با ویژگی Queries، می توانید اطلاعات مورد نیاز خود را در قالب سوالات زبان طبیعی (مثلاً «نام مشتری چیست») مشخص کنید و اطلاعات دقیق («جان دو») را به عنوان بخشی از پاسخ API دریافت کنید. این ویژگی از ترکیبی از مدل‌های بصری، فضایی و زبانی برای استخراج اطلاعات مورد نظر شما با دقت بالا استفاده می‌کند. ویژگی Queries بر روی انواع زیادی از اسناد نیمه ساختاریافته و بدون ساختار از قبل آموزش داده شده است. برخی از نمونه‌ها عبارتند از: برگه‌های پرداخت، صورت‌حساب بانکی، W-2، فرم‌های درخواست وام، یادداشت‌های وام مسکن، و کارت‌های واکسن و بیمه.

"Amazon Texttract ما را قادر می سازد تا نیازهای پردازش اسناد مشتریان خود را خودکار کنیم. با ویژگی Queries، ما قادر خواهیم بود داده ها را از اسناد مختلف با انعطاف پذیری و دقت بیشتر استخراج کنیم." رابرت جانسن، مدیر اجرایی TekStream Solutions گفتاست. 'ما این را به‌عنوان یک پیروزی بزرگ در بهره‌وری برای مشتریان تجاری خود می‌بینیم، که می‌توانند از قابلیت Queries به عنوان بخشی از راه‌حل IDP ما برای دریافت سریع اطلاعات کلیدی از اسناد خود استفاده کنند."

"متن آمازون ما را قادر می سازد متن و همچنین عناصر ساختار یافته مانند فرم ها و جداول را از تصاویر با دقت بالا استخراج کنیم. پرس و جوهای متنی آمازون به ما کمک کرده است تا کیفیت استخراج اطلاعات از چندین سند مهم تجاری مانند برگه های داده ایمنی یا مشخصات مواد را به شدت بهبود دهیم." Thorsten Warnecke، مدیر ارشد | رئیس بخش تجزیه و تحلیل رایانه شخصی، مشاوران مدیریت Camelotاست. 'سیستم جستجوی زبان طبیعی انعطاف‌پذیری و دقت زیادی را ارائه می‌دهد که بار پس از پردازش ما را کاهش داده و ما را قادر می‌سازد اسناد جدید را سریع‌تر به ابزارهای استخراج داده اضافه کنیم."

چگونه API Analyze Document Queries به استخراج اطلاعات از اسناد کمک می کند

شرکت‌ها پذیرش پلتفرم‌های دیجیتالی خود را افزایش داده‌اند، به‌ویژه با توجه به همه‌گیری COVID-19. اکثر سازمان‌ها در حال حاضر با استفاده از تلفن‌های هوشمند و سایر دستگاه‌های تلفن همراه، راه دیجیتالی را برای دستیابی به خدمات و محصولات خود ارائه می‌کنند که انعطاف‌پذیری را به کاربران ارائه می‌دهد، اما همچنین به مقیاسی می‌افزاید که اسناد دیجیتال باید در آن بررسی، پردازش و تجزیه و تحلیل شوند. در برخی از کارهایی که برای مثال، اسناد وام مسکن، کارت های واکسیناسیون، اوراق پرداخت، کارت های بیمه و سایر اسناد باید به صورت دیجیتالی تجزیه و تحلیل شوند، پیچیدگی استخراج داده ها می تواند به طور تصاعدی تشدید شود، زیرا این اسناد فاقد قالب استاندارد هستند یا دارای تغییرات قابل توجهی در قالب داده هستند. در نسخه های مختلف سند

حتی راه‌حل‌های قدرتمند OCR برای استخراج دقیق داده‌ها از این اسناد تلاش می‌کنند و ممکن است مجبور شوید پس‌پردازش سفارشی را برای این اسناد پیاده‌سازی کنید. این شامل نگاشت تغییرات احتمالی کلیدهای فرم به نام فیلدهای بومی مشتری یا شامل یادگیری ماشین سفارشی برای شناسایی اطلاعات خاص در یک سند بدون ساختار است.

API جدید Analyze Document Queries در Amazon Textract می‌تواند به سؤالات نوشتاری به زبان طبیعی مانند «نرخ بهره چقدر است؟» پاسخ دهد. و آنالیز قدرتمند هوش مصنوعی و ML را روی سند انجام دهید تا اطلاعات مورد نظر را بفهمید و بدون هیچ گونه پس پردازشی از سند استخراج کنید. ویژگی Queries نیازی به آموزش مدل سفارشی یا تنظیم قالب یا پیکربندی ندارد. شما می توانید با آپلود اسناد خود و تعیین سؤالات در مورد آن اسناد از طریق کنسول آمازون Textract، به سرعت شروع به کار کنید. رابط خط فرمان AWS (AWS CLI)، یا AWS SDK.

در بخش‌های بعدی این پست، نمونه‌های مفصلی از نحوه استفاده از این قابلیت جدید در موارد استفاده از حجم کار رایج و نحوه استفاده از Analyze Document Queries API برای افزودن چابکی به فرآیند دیجیتالی کردن حجم کاری خود را مرور می‌کنیم.

از ویژگی Queries در کنسول Amazon Textract استفاده کنید

قبل از شروع کار با API و نمونه کد، اجازه دهید کنسول آمازون Textract را بررسی کنیم. تصویر زیر نمونه ای از کارت واکسیناسیون را نشان می دهد پرس و جو زبانه برای Analyze Document API در کنسول آمازون Textract. پس از آپلود سند در کنسول آمازون Textract، را انتخاب کنید پرس و جو در پیکربندی سند بخش. سپس می توانید پرس و جوهایی را در قالب سوالات زبان طبیعی اضافه کنید. بعد از اینکه همه پرس و جوهای خود را اضافه کردید، انتخاب کنید تنظیمات را اعمال کنید. پاسخ به سوالات در قرار دارد پرس و جو تب.

نمونه های کد

در این بخش، نحوه فراخوانی Analyze Document API با پارامتر Queries را برای دریافت پاسخ به سوالات زبان طبیعی در مورد سند توضیح می دهیم. سند ورودی یا در قالب آرایه بایت است یا در یک قرار دارد سرویس ذخیره سازی ساده آمازون سطل (Amazon S3). با استفاده از ویژگی Bytes، بایت های تصویر را به یک عملیات API متنی آمازون منتقل می کنید. برای مثال می توانید از Bytes ویژگی برای ارسال یک سند بارگذاری شده از یک سیستم فایل محلی. بایت های تصویر با استفاده از Bytes دارایی باید با کد base64 باشد. اگر از AWS SDK برای فراخوانی عملیات آمازون Textract API استفاده می کنید، ممکن است کد شما نیازی به رمزگذاری بایت های فایل سند نداشته باشد. از طرف دیگر، می توانید تصاویر ذخیره شده در یک سطل S3 را به یک عملیات API متنی آمازون با استفاده از S3Object ویژگی. اسناد ذخیره شده در یک سطل S3 نیازی به کدگذاری base64 ندارند.

می‌توانید از ویژگی Queries برای دریافت پاسخ از انواع مختلف اسناد مانند برگه‌های پرداخت، کارت‌های واکسیناسیون، اسناد وام مسکن، صورت‌حساب بانکی، فرم‌های W-2، فرم‌های 1099 و موارد دیگر استفاده کنید. در بخش‌های بعدی، برخی از این اسناد را مرور می‌کنیم و نحوه عملکرد ویژگی Queries را نشان می‌دهیم.

فیش حقوق

در این مثال، همانطور که در تصویر مثال زیر نشان داده شده است، مراحل تجزیه و تحلیل یک کارت پرداخت را با استفاده از ویژگی Queries طی می کنیم.

ما از نمونه کد پایتون زیر استفاده می کنیم:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

کد زیر یک نمونه دستور AWS CLI است:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}'

بیایید پاسخی را که برای دو کوئری که در مثال قبل به Analyze Document API ارسال کردیم، تحلیل کنیم. پاسخ زیر برای نمایش بخش‌های مربوطه کوتاه شده است:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

پاسخ دارای یک BlockType of QUERY که نشان دهنده سوالی است که پرسیده شد و الف Relationships بخشی که دارای شناسه بلوکی است که پاسخ دارد. پاسخ در BlockType of QUERY_RESULT. نام مستعاری که به عنوان ورودی به Analyze Document API ارسال می شود به عنوان بخشی از پاسخ بازگردانده می شود و می تواند برای برچسب زدن پاسخ استفاده شود.

ما با استفاده از تجزیه کننده پاسخ متن آمازون برای استخراج فقط سؤالات، نام مستعار و پاسخ های مربوط به آن سؤالات:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

کد قبلی نتایج زیر را برمی گرداند:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

سوالات بیشتر و کد کامل را می توانید در دفترچه یادداشت موجود در سایت پیدا کنید GitHub repo.

یادداشت رهن

Analyze Document Queries API همچنین با یادداشت های وام مسکن مانند موارد زیر به خوبی کار می کند.

فرآیند فراخوانی API و نتایج پردازش مانند مثال قبلی است. شما می توانید نمونه کد کامل را در آن بیابید GitHub repo.

کد زیر نمونه پاسخ های به دست آمده با استفاده از API را نشان می دهد:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

کارت واکسیناسیون

ویژگی Amazon Textract Queries همچنین برای استخراج اطلاعات از کارت‌های واکسیناسیون یا کارت‌هایی که شبیه آن هستند، بسیار خوب عمل می‌کند، مانند مثال زیر.

فرآیند فراخوانی API و تجزیه نتایج همان است که برای یک paystub استفاده می شود. پس از پردازش پاسخ، اطلاعات زیر را دریافت می کنیم:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

کد کامل را می توان در دفترچه یادداشت موجود در آن یافت GitHub repo.

کارت بیمه

ویژگی Queries همچنین با کارت های بیمه مانند موارد زیر به خوبی کار می کند.

فرآیند فراخوانی API و نتایج پردازش همان است که قبلا نشان داده شد. نمونه کد کامل در دفترچه یادداشت موجود است GitHub repo.

در زیر نمونه‌هایی از پاسخ‌های به‌دست‌آمده با استفاده از API هستند:

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

بهترین روش ها برای ایجاد پرس و جو

هنگام ایجاد پرس و جوهای خود، بهترین روش های زیر را در نظر بگیرید:

به طور کلی، یک سؤال به زبان طبیعی بپرسید که با «چیست»، «کجاست» یا «چه کسی است» شروع شود. استثنا زمانی است که می‌خواهید جفت‌های کلید-مقدار استاندارد را استخراج کنید، در این صورت می‌توانید نام کلید را به عنوان پرس و جو ارسال کنید.
از سوالات نادرست یا نادرست گرامری خودداری کنید، زیرا ممکن است به پاسخ های غیرمنتظره منجر شود. به عنوان مثال، یک پرس و جو نادرست است "When?" در حالی که یک پرسش به خوبی شکل گرفته این است که "اولین دوز واکسن چه زمانی تجویز شد؟"
در صورت امکان، از کلمات سند برای ساخت پرس و جو استفاده کنید. اگرچه ویژگی Queries سعی می‌کند برای برخی از اصطلاحات رایج صنعتی مانند "SSN"، "شناسه مالیاتی" و "شماره تامین اجتماعی" تطبیق اختصار و مترادف را انجام دهد، استفاده از زبان مستقیماً از سند نتایج را بهبود می‌بخشد. به عنوان مثال، اگر در سند نوشته شده است "پیشرفت کار"، سعی کنید از استفاده از تغییراتی مانند "پیشرفت پروژه"، "پیشرفت برنامه" یا "وضعیت شغلی" خودداری کنید.
یک پرس و جو بسازید که حاوی کلماتی از سرصفحه سطر و سربرگ ستون باشد. به عنوان مثال، در مثال کارت واکسیناسیون قبلی، برای دانستن تاریخ واکسیناسیون دوم، می توانید پرس و جو را به صورت "دوز دوم در چه تاریخی بود؟"
پاسخ‌های طولانی تأخیر پاسخ را افزایش می‌دهد و می‌تواند منجر به وقفه شود. سعی کنید سوالاتی بپرسید که پاسخ آنها کمتر از 100 کلمه باشد.
ارسال فقط نام کلید به عنوان سوال هنگام استخراج جفت های کلید-مقدار استاندارد از یک فرم کار می کند. ما توصیه می کنیم برای تمام موارد استفاده از استخراج دیگر، سؤالات کامل را کادربندی کنید.
تا حد ممکن دقیق باشید. مثلا:
- هنگامی که سند حاوی چندین بخش است (مانند «وام گیرنده» و «وام گیرنده مشترک») و هر دو بخش دارای یک فیلد به نام «SSN» هستند، بپرسید «SSN برای وام گیرنده چیست؟» و "SSN برای وام گیرنده مشترک چیست؟"
- هنگامی که سند دارای چندین فیلد مرتبط با تاریخ است، در زبان پرس و جو خاص باشید و بپرسید "تاریخی که سند در چه تاریخی امضا شده است؟" یا "تاریخ تولد درخواست چیست؟" از پرسیدن سؤالات مبهم مانند "تاریخ چند است؟" خودداری کنید.
اگر از قبل چیدمان سند را می‌دانید، نکات مکان را برای بهبود دقت نتایج ارائه دهید. به عنوان مثال، بپرسید "تاریخ در بالای صفحه چیست؟" یا "تاریخ سمت چپ چیست؟" یا "تاریخ در پایین چیست؟"

برای اطلاعات بیشتر در مورد ویژگی Queries، به متن مراجعه کنید مستندات.

نتیجه

در این پست، مروری بر ویژگی جدید Queries آمازون Txtract برای بازیابی سریع و آسان اطلاعات از اسنادی مانند اوراق پرداخت، یادداشت‌های وام مسکن، کارت‌های بیمه و کارت‌های واکسیناسیون بر اساس سوالات زبان طبیعی ارائه کردیم. ما همچنین توضیح دادیم که چگونه می توانید پاسخ JSON را تجزیه کنید.

برای اطلاعات بیشتر، نگاه کنید به تجزیه و تحلیل اسناد ، یا کنسول آمازون Texttract را بررسی کنید و این ویژگی را امتحان کنید.

درباره نویسنده

عدی نارایانان Sr. Solutions Architect در AWS است. او از کمک به مشتریان برای یافتن راه حل های نوآورانه برای چالش های پیچیده تجاری لذت می برد. حوزه های اصلی تمرکز او تجزیه و تحلیل داده ها، سیستم های کلان داده و یادگیری ماشین است. او در اوقات فراغت خود از ورزش، تماشای برنامه های تلویزیونی و مسافرت لذت می برد.

رافائل کایکتا Sr. Solutions Architect در AWS مستقر در کالیفرنیا است. او بیش از 10 سال تجربه در توسعه معماری برای ابر دارد. حوزه های اصلی او بدون سرور، کانتینرها و یادگیری ماشین هستند. در اوقات فراغت از خواندن کتاب های داستانی و سفر به دنیا لذت می برد.

نونیث نیر یک مدیر ارشد محصول، فنی با تیم آمازون Textract است. او بر ایجاد خدمات مبتنی بر یادگیری ماشین برای مشتریان AWS متمرکز است.

مارتین شاد یک شرکت ارشد ML Product SA با تیم Amazon Textract است. او بیش از 20 سال تجربه در زمینه فناوری های مرتبط با اینترنت، مهندسی و راه حل های معماری دارد. او در سال 2014 به AWS ملحق شد و ابتدا برخی از بزرگترین مشتریان AWS را در کارآمدترین و مقیاس‌پذیرترین استفاده از خدمات AWS راهنمایی کرد و بعداً بر روی AI/ML با تمرکز بر بینایی رایانه تمرکز کرد. در حال حاضر، او وسواس زیادی برای استخراج اطلاعات از اسناد دارد.

تمبر زمان: آوریل 21، 2022

تمبر زمان: ژوئن 15، 2022

بازنشر افلاطون

پردازش هوشمند اسناد با خدمات هوش مصنوعی AWS در صنعت بیمه: قسمت 1

با Amazon SageMaker قیمت املاک مسکونی را در ImmoScout24 پیش بینی کنید

مشکلات کسب و کار را از طریق یادگیری ماشینی در راه حل های Amazon SageMaker JumpStart حل کنید

Amazon SageMaker داخلی LightGBM اکنون آموزش های توزیع شده را با استفاده از Dask ارائه می دهد

اعلام ابزارها و قابلیت های جدید برای فعال کردن نوآوری هوش مصنوعی مسئول | خدمات وب آمازون

با استفاده از Amazon Polly تلفظ ها را سفارشی کنید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب