پردازش اسناد وام مسکن با پردازش هوشمند اسناد با استفاده از متن آمازون و آمازون درک

بازنشر افلاطون

دنبال: 0

سازمان‌های فعال در صنعت وام‌دهی و رهن روزانه هزاران سند را پردازش می‌کنند. از درخواست جدید وام مسکن گرفته تا تامین مالی مجدد وام مسکن، این فرآیندهای تجاری شامل صدها سند در هر درخواست است. امروزه اتوماسیون محدودی برای پردازش و استخراج اطلاعات از تمام اسناد وجود دارد، به خصوص به دلیل فرمت ها و طرح بندی های مختلف. با توجه به حجم بالای برنامه ها، گرفتن بینش های استراتژیک و دریافت اطلاعات کلیدی از محتویات فرآیندی زمان بر، بسیار دستی، مستعد خطا و پرهزینه است. ابزارهای تشخیص کاراکتر نوری قدیمی (OCR) مقرون به صرفه، مستعد خطا، پیکربندی زیادی هستند و مقیاس‌بندی آنها دشوار است. پردازش هوشمند اسناد (IDP) با خدمات هوش مصنوعی (AI) AWS به خودکارسازی و تسریع پردازش درخواست وام مسکن با اهداف تصمیم‌گیری سریع‌تر و با کیفیت کمک می‌کند و در عین حال هزینه‌های کلی را کاهش می‌دهد.

در این پست، نشان می‌دهیم که چگونه می‌توانید از قابلیت‌های یادگیری ماشین (ML) استفاده کنید متن آمازونو درک آمازون برای پردازش اسناد در یک درخواست جدید وام مسکن، بدون نیاز به مهارت های ML. ما مراحل مختلف IDP را همانطور که در شکل زیر نشان داده شده است و نحوه اتصال آنها به مراحل مربوط به فرآیند درخواست وام مسکن مانند ارسال درخواست، پذیره نویسی، تأیید و بسته شدن را بررسی می کنیم.

اگرچه هر درخواست وام مسکن ممکن است منحصر به فرد باشد، ما برخی از رایج ترین اسنادی را که در درخواست وام مسکن گنجانده شده است، مانند فرم درخواست وام مسکونی واحد (URLA-1003)، فرم های 1099 و یادداشت وام مسکن در نظر گرفتیم.

بررسی اجمالی راه حل

Amazon Textract یک سرویس ML است که به طور خودکار متن، دست خط و داده ها را از اسناد اسکن شده با استفاده از مدل های ML از پیش آموزش دیده استخراج می کند. Amazon Comprehend یک سرویس پردازش زبان طبیعی (NLP) است که از ML برای کشف بینش‌ها و ارتباطات ارزشمند در متن استفاده می‌کند و می‌تواند طبقه‌بندی اسناد، شناسایی موجودیت نام (NER)، مدل‌سازی موضوع و موارد دیگر را انجام دهد.

شکل زیر مراحل IDP را در ارتباط با مراحل فرآیند درخواست وام مسکن نشان می دهد.

تصویر یک معماری راه حل سطح بالا را برای مراحل پردازش هوشمند سند (IDP) نشان می دهد که به مراحل درخواست وام مسکن مربوط می شود.

در شروع فرآیند، اسناد در یک آپلود می شوند سرویس ذخیره سازی ساده آمازون سطل (Amazon S3). این یک فرآیند طبقه بندی اسناد را برای دسته بندی اسناد به دسته های شناخته شده آغاز می کند. پس از دسته بندی اسناد، مرحله بعدی استخراج اطلاعات کلیدی از آنهاست. سپس برای اسناد منتخب غنی‌سازی می‌کنیم، که می‌تواند مواردی مانند ویرایش اطلاعات شخصی (PII)، برچسب‌گذاری سند، به‌روزرسانی‌های ابرداده و موارد دیگر باشد. مرحله بعدی شامل اعتبارسنجی داده های استخراج شده در مراحل قبلی برای اطمینان از کامل بودن درخواست وام مسکن است. اعتبار سنجی می تواند از طریق قوانین اعتبار سنجی تجاری و قوانین اعتبارسنجی اسناد متقابل انجام شود. نمرات اطمینان اطلاعات استخراج شده را نیز می توان با یک آستانه تعیین شده مقایسه کرد و به طور خودکار از طریق یک بازبین انسانی هدایت کرد. هوش مصنوعی آمازون افزوده شده است (Amazon A2I) در صورت عدم رعایت آستانه. در مرحله نهایی فرآیند، داده های استخراج شده و تایید شده برای ذخیره سازی، پردازش یا تجزیه و تحلیل بیشتر به سیستم های پایین دستی ارسال می شود.

در بخش‌های بعدی، مراحل IDP را که به مراحل درخواست وام مسکن مربوط می‌شود، به تفصیل مورد بحث قرار می‌دهیم. ما مراحل آوارگان داخلی را طی می کنیم و انواع اسناد را مورد بحث قرار می دهیم. چگونه اطلاعات را ذخیره، طبقه بندی و استخراج می کنیم و چگونه اسناد را با استفاده از یادگیری ماشینی غنی می کنیم.

ذخیره سازی اسناد

آمازون S3 یک سرویس ذخیره سازی شی است که مقیاس پذیری، در دسترس بودن داده ها، امنیت و عملکرد پیشرو در صنعت را ارائه می دهد. ما از Amazon S3 برای ذخیره ایمن اسناد وام مسکن در طول و بعد از فرآیند درخواست وام مسکن استفاده می کنیم. آ بسته درخواست وام مسکن ممکن است حاوی انواع مختلفی از فرم‌ها و اسناد باشد، مانند URLA-1003، 1099-INT/DIV/RR/MISC، W2، برگه‌های پرداخت، صورت‌حساب بانکی، صورت‌حساب‌های کارت اعتباری و موارد دیگر. این مدارک توسط متقاضی در مرحله درخواست وام مسکن ارائه می شود. بدون بررسی دستی آنها، ممکن است بلافاصله مشخص نباشد که کدام اسناد در بسته گنجانده شده است. این فرآیند دستی می تواند زمان بر و گران باشد. در مرحله بعدی، ما این فرآیند را با استفاده از آمازون Comprehend خودکار می کنیم تا اسناد را با دقت بالا به دسته های مربوطه طبقه بندی کنیم.

طبقه بندی اسناد

طبقه بندی اسناد روشی است که به وسیله آن می توان تعداد زیادی از اسناد ناشناس را دسته بندی و برچسب گذاری کرد. ما این طبقه بندی اسناد را با استفاده از آمازون Comprehend انجام می دهیم طبقه بندی سفارشی. یک طبقه‌بندی‌کننده سفارشی یک مدل ML است که می‌تواند با مجموعه‌ای از اسناد برچسب‌دار آموزش داده شود تا کلاس‌هایی را که مورد علاقه شما هستند شناسایی کند. پس از آموزش و استقرار مدل در پشت نقطه پایانی میزبان، می‌توانیم از طبقه‌بندی کننده برای تعیین دسته (یا کلاس) یک سند خاص استفاده کنیم. در این مورد، ما یک طبقه‌بندی‌کننده سفارشی را آموزش می‌دهیم حالت چند کلاسه، که می تواند با یک فایل CSV یا یک فایل مانیفست تقویت شده انجام شود. برای اهداف این نمایش، ما از یک فایل CSV برای آموزش طبقه بندی کننده استفاده می کنیم. رجوع به ما شود مخزن GitHub برای نمونه کد کامل در زیر یک نمای کلی از مراحل مربوطه در سطح بالا آورده شده است:

متن ساده کدگذاری شده UTF-8 را از فایل های تصویری یا PDF با استفاده از متن آمازون استخراج کنید ردیابی API
داده های آموزشی را برای آموزش یک طبقه بندی سفارشی در قالب CSV آماده کنید.
با استفاده از فایل CSV یک طبقه بندی سفارشی آموزش دهید.
مدل آموزش‌دیده را با نقطه پایانی برای طبقه‌بندی اسناد بلادرنگ مستقر کنید یا از حالت چند کلاسه استفاده کنید، که از عملیات بلادرنگ و ناهمزمان پشتیبانی می‌کند.

نمودار زیر این فرآیند را نشان می دهد.

تصویر فرآیند آموزش طبقه‌بندی‌کننده سفارشی Amazon Comprehend و طبقه‌بندی اسناد را با استفاده از مدل طبقه‌بندی‌کننده آموزش‌دیده و مستقر (زمان واقعی یا دسته‌ای) نشان می‌دهد.

می‌توانید طبقه‌بندی اسناد را با استفاده از نقطه پایانی مستقر برای شناسایی و دسته‌بندی اسناد به‌طور خودکار انجام دهید. این اتوماسیون برای بررسی اینکه آیا تمام اسناد مورد نیاز در یک بسته وام مسکن وجود دارد مفید است. سند مفقود شده را می توان به سرعت، بدون مداخله دستی، شناسایی کرد و خیلی زودتر در فرآیند به متقاضی اطلاع داد.

استخراج سند

در این مرحله، داده‌ها را با استفاده از Amazon Textract و Amazon Comprehend از سند استخراج می‌کنیم. برای اسناد ساختاریافته و نیمه ساختاریافته حاوی فرم ها و جداول، از متن آمازون استفاده می کنیم آنالیز سند API. برای مدارک تخصصی مانند اسناد شناسایی، آمازون تکسترکت ارائه می کند AnalyzeID API. برخی از اسناد همچنین ممکن است حاوی متن متراکم باشند، و ممکن است لازم باشد که اصطلاحات کلیدی مخصوص کسب و کار را از آنها استخراج کنید، همچنین به عنوان شناخته شده است. اشخاص. ما استفاده می کنیم شناسایی موجودیت سفارشی قابلیت آمازون Comprehend برای آموزش یک شناسایی کننده موجودیت سفارشی، که می تواند چنین موجوداتی را از متن متراکم شناسایی کند.

در بخش های بعدی، نمونه اسناد موجود در بسته درخواست وام مسکن را مرور می کنیم و روش های مورد استفاده برای استخراج اطلاعات از آنها را مورد بحث قرار می دهیم. برای هر یک از این مثال ها، یک قطعه کد و یک نمونه خروجی کوتاه گنجانده شده است.

استخراج داده ها از URLA-1003 درخواست وام مسکونی واحد

درخواست وام واحد مسکونی (URLA-1003) یک فرم درخواست وام وام مسکن استاندارد صنعتی است. این یک سند نسبتاً پیچیده است که حاوی اطلاعاتی در مورد متقاضی وام مسکن، نوع ملک خریداری شده، میزان تامین مالی و سایر جزئیات در مورد ماهیت خرید ملک است. زیر یک نمونه URLA-1003 است و قصد ما استخراج اطلاعات از این سند ساختاریافته است. از آنجا که این یک فرم است، ما از AnalyzeDocument API با یک نوع ویژگی استفاده می کنیم FORM.

نوع ویژگی FORM اطلاعات فرم را از سند استخراج می کند، که سپس در قالب جفت کلید-مقدار بازگردانده می شود. قطعه کد زیر از amazon-textract-textractor کتابخانه پایتون برای استخراج اطلاعات فرم تنها با چند خط کد. روش راحتی call_textract() تماس بگیرید AnalyzeDocument API به صورت داخلی، و پارامترهای ارسال شده به روش، برخی از تنظیماتی را که API برای اجرای وظیفه استخراج نیاز دارد، انتزاع می‌کند. Document یک روش راحت است که برای کمک به تجزیه پاسخ JSON از API استفاده می شود. این یک انتزاع سطح بالا را فراهم می کند و خروجی API را تکرارپذیر و آسان می کند تا اطلاعات را از آن خارج کنید. برای اطلاعات بیشتر مراجعه کنید تجزیه کننده پاسخ متن و استخراج کننده.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

توجه داشته باشید که خروجی حاوی مقادیری برای چک باکس ها یا دکمه های رادیویی است که در فرم وجود دارد. به عنوان مثال، در سند نمونه URLA-1003، خرید گزینه انتخاب شد خروجی مربوطه برای دکمه رادیویی به صورت " استخراج می شودPurchase” (کلید) و ”SELECTED” (مقدار)، نشان می دهد که دکمه رادیویی انتخاب شده است.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

استخراج داده ها از 1099 فرم

بسته درخواست وام مسکن ممکن است حاوی تعدادی از اسناد IRS مانند 1099-DIV، 1099-INT، 1099-MISC و 1099-R باشد. این اسناد درآمدهای متقاضی را از طریق بهره، سود سهام و سایر مؤلفه های درآمد متفرقه نشان می دهد که در هنگام پذیره نویسی برای تصمیم گیری مفید است. تصویر زیر مجموعه ای از این اسناد را نشان می دهد که ساختار مشابهی دارند. با این حال، در برخی موارد، اسناد حاوی اطلاعات فرم (که با استفاده از کادرهای مرزی قرمز و سبز مشخص شده‌اند) و همچنین اطلاعات جدولی (که با کادرهای مرزی زرد مشخص شده‌اند) هستند.

برای استخراج اطلاعات فرم، از کد مشابهی که قبلاً توضیح داده شد، استفاده می کنیم AnalyzeDocument API. ما از یک ویژگی اضافی عبور می کنیم جدول به API نشان می دهد که ما به داده های فرم و جدول استخراج شده از سند نیاز داریم. قطعه کد زیر از AnalyzeDocument API با ویژگی‌های FORMS و TABLE در سند 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

از آنجایی که سند شامل یک جدول است، خروجی کد به صورت زیر است:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

اطلاعات جدول حاوی موقعیت سلول (ردیف 0، ستون 0 و غیره) و متن مربوطه در هر سلول است. ما از یک روش راحت استفاده می کنیم که می تواند این داده های جدول را به نمای شبکه ای خوانا تبدیل کند:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

خروجی زیر را دریافت می کنیم:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

برای دریافت خروجی در قالب CSV با مصرف آسان، نوع فرمت از Pretty_Print_Table_Format.csv را می توان به table_format پارامتر. فرمت های دیگری مانند TSV (مقادیر جدا شده از تب)، HTML و لاتکس نیز پشتیبانی می شوند. برای اطلاعات بیشتر مراجعه کنید Texttract-PrettyPrinter.

استخراج داده ها از یادداشت وام مسکن

یک بسته درخواست وام مسکن ممکن است حاوی اسناد بدون ساختار با متن متراکم باشد. برخی از نمونه‌های اسناد متنی متراکم قراردادها و قراردادها هستند. یادداشت وام مسکن توافقی است بین متقاضی وام مسکن و وام دهنده یا شرکت وام مسکن و حاوی اطلاعات در پاراگراف های متنی متراکم است. در چنین مواردی، فقدان ساختار، یافتن اطلاعات کلیدی تجاری را که در فرآیند درخواست وام مسکن مهم هستند، دشوار می کند. دو رویکرد برای حل این مشکل وجود دارد:

در نمونه یادداشت وام مسکن زیر، ما به طور خاص علاقه مندیم که مبلغ پرداخت ماهانه و مبلغ اصل را بدانیم.

برای اولین رویکرد، ما از Query و QueriesConfig روش‌های راحتی برای پیکربندی مجموعه‌ای از سوالات که به متن آمازون ارسال می‌شوند AnalyzeDocument تماس API. در صورتی که سند چند صفحه‌ای باشد (PDF یا TIFF)، می‌توانیم شماره‌های صفحه‌ای را که Amazon Texttract باید در آن به دنبال پاسخ سؤال باشد نیز مشخص کنیم. قطعه کد زیر نحوه ایجاد پیکربندی پرس و جو، برقراری تماس API و سپس تجزیه پاسخ برای دریافت پاسخ از پاسخ را نشان می دهد:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

خروجی زیر را دریافت می کنیم:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

برای رویکرد دوم، ما از آمازون Comprehend استفاده می کنیم DetectEntities API با یادداشت وام مسکن، که موجودیت هایی را که در متن شناسایی می کند از a برمی گرداند مجموعه ای از موجودیت های از پیش تعریف شده. اینها موجوداتی هستند که شناسایی کننده موجودیت آمازون Comprehend از قبل با آنها آموزش دیده است. با این حال، از آنجایی که نیاز ما شناسایی نهادهای خاص است، یک شناسایی کننده نهاد سفارشی آمازون Comprehend با مجموعه ای از اسناد یادداشت رهنی نمونه و فهرستی از نهادها آموزش دیده است. نام نهادها را به صورت تعریف می کنیم PRINCIPAL_AMOUNT و MONTHLY_AMOUNT. داده های آموزشی پس از آموزش آمازون Comprehend تهیه می شود دستورالعمل های آماده سازی داده ها برای شناسایی موجودیت سفارشی شناسایی موجودیت را می توان با آموزش دید حاشیه نویسی سند یا با لیست های موجودیت. برای اهداف این مثال، ما از لیست های موجود برای آموزش مدل استفاده می کنیم. پس از آموزش مدل، می توانیم آن را با a مستقر کنیم نقطه پایان بلادرنگ و یا در حالت دسته ای برای شناسایی دو موجودیت از محتوای سند. در زیر مراحل مربوط به آموزش یک شناسایی کننده موجودیت سفارشی و استقرار آن وجود دارد. برای مشاهده کامل کد، به مخزن GitHub ما مراجعه کنید.

داده های آموزشی (فهرست موجودیت و اسناد با فرمت متن ساده (رمزگذاری شده UTF-8)) را آماده کنید.
آموزش شناسایی موجودیت را با استفاده از CreateEntityRecognizer API با استفاده از داده های آموزشی
مدل آموزش دیده را با یک نقطه پایانی بلادرنگ با استفاده از CreateEndpoint API

استخراج اطلاعات از پاسپورت ایالات متحده

متن آمازون تجزیه و تحلیل اسناد هویتی قابلیت شناسایی و استخراج اطلاعات از اسناد شناسایی مستقر در ایالات متحده مانند گواهینامه رانندگی و گذرنامه. را AnalyzeID API قادر به تشخیص و تفسیر فیلدهای ضمنی در اسناد ID است که استخراج اطلاعات خاص از سند را آسان می کند. اسناد هویتی تقریباً همیشه بخشی از یک بسته درخواست وام مسکن هستند، زیرا برای تأیید هویت وام گیرنده در طول فرآیند پذیره نویسی و تأیید صحت اطلاعات بیوگرافی وام گیرنده استفاده می شود.

ما از یک روش راحت به نام استفاده می کنیم call_textract_analyzeid، که به نام AnalyzeID API داخلی سپس روی پاسخ تکرار می کنیم تا جفت های کلید-مقدار شناسایی شده را از سند ID بدست آوریم. کد زیر را ببینید:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID اطلاعات را در ساختاری به نام برمی گرداند IdentityDocumentFields، که حاوی کلیدهای نرمال شده و مقدار مربوط به آنها است. برای مثال در خروجی زیر FIRST_NAME یک کلید نرمال شده است و مقدار آن است ALEJANDRO. در تصویر نمونه پاسپورت، فیلد نام کوچک با عنوان «نام‌های داده‌شده / Prénoms / Nombre» برچسب‌گذاری شده است. AnalyzeID توانست آن را در نام کلید عادی کند FIRST_NAME. برای لیستی از فیلدهای نرمال سازی شده پشتیبانی شده، مراجعه کنید اشیاء پاسخ اسناد هویت.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

بسته وام مسکن ممکن است حاوی چندین سند دیگر باشد، مانند برگه پرداخت، فرم W2، صورتحساب بانکی، صورتحساب کارت اعتباری، و نامه تأیید استخدام. ما برای هر یک از این اسناد نمونه هایی به همراه کد مورد نیاز برای استخراج داده ها از آنها داریم. برای پایه کد کامل، نوت بوک های موجود در ما را بررسی کنید مخزن GitHub.

غنی سازی سند

یکی از رایج‌ترین اشکال غنی‌سازی اسناد، ویرایش اطلاعات حساس یا محرمانه روی اسناد است که ممکن است به دلیل قوانین یا مقررات حفظ حریم خصوصی الزامی باشد. به عنوان مثال، کارت پرداخت متقاضی وام مسکن ممکن است حاوی داده های PII حساس، مانند نام، آدرس، و SSN باشد که ممکن است برای ذخیره سازی طولانی نیاز به ویرایش داشته باشد.

در نمونه سند قبلی، ما داده‌های PII مانند SSN، نام، شماره حساب بانکی و تاریخ را ویرایش می‌کنیم. برای شناسایی داده های PII در یک سند، از آمازون Comprehend استفاده می کنیم تشخیص PII قابلیت از طریق DetectPIIentities API. این API محتوای سند را برای شناسایی وجود اطلاعات PII بررسی می کند. از آنجایی که این API به ورودی در قالب متن ساده کدگذاری شده UTF-8 نیاز دارد، ابتدا متن را از سند با استفاده از متن آمازون استخراج می کنیم. ردیابی API که متن را از سند برمی‌گرداند و همچنین اطلاعات هندسی مانند ابعاد و مختصات جعبه مرزی را برمی‌گرداند. سپس ترکیبی از هر دو خروجی برای ترسیم ویرایش‌های روی سند به عنوان بخشی از فرآیند غنی‌سازی استفاده می‌شود.

بررسی، اعتبارسنجی و ادغام داده ها

داده های استخراج شده از مرحله استخراج سند ممکن است نیاز به اعتبار سنجی در برابر قوانین تجاری خاص داشته باشد. اطلاعات خاص نیز ممکن است در چندین سند معتبر باشد که به آن نیز معروف است اعتبار سنجی متقاطع. نمونه ای از اعتبارسنجی متقاطع می تواند مقایسه نام متقاضی در سند شناسایی با نام موجود در سند درخواست وام مسکن باشد. همچنین می توانید اعتبار سنجی های دیگری مانند تخمین ارزش دارایی و تصمیمات پذیره نویسی مشروط را در این مرحله انجام دهید.

نوع سوم اعتبارسنجی مربوط به امتیاز اطمینان داده های استخراج شده در مرحله استخراج سند است. Amazon Textract و Amazon Comprehend برای فرم‌ها، جداول، داده‌های متنی و موجودیت‌های شناسایی شده امتیاز اطمینان را برمی‌گردانند. شما می توانید یک آستانه امتیاز اطمینان پیکربندی کنید تا مطمئن شوید که فقط مقادیر صحیح به پایین دست ارسال می شوند. این امر از طریق آمازون A2I به دست می آید که امتیازات اطمینان داده های شناسایی شده را با آستانه اطمینان از پیش تعریف شده مقایسه می کند. اگر آستانه برآورده نشود، سند و خروجی استخراج شده برای بازبینی از طریق یک رابط کاربری بصری به یک انسان هدایت می شود. بازبینی کننده اقدامات اصلاحی روی داده ها انجام می دهد و آنها را برای پردازش بیشتر ذخیره می کند. برای اطلاعات بیشتر مراجعه کنید مفاهیم اصلی Amazon A2I.

نتیجه

در این پست، مراحل پردازش هوشمند اسناد را در رابطه با مراحل درخواست وام مسکن مورد بحث قرار دادیم. ما به چند نمونه رایج از اسنادی که در بسته درخواست وام مسکن یافت می شوند نگاه کردیم. ما همچنین راه‌های استخراج و پردازش محتوای ساختاریافته، نیمه ساختاریافته و بدون ساختار را از این اسناد مورد بحث قرار دادیم. IDP روشی را برای خودکارسازی پردازش اسناد وام مسکن پایان به انتها ارائه می دهد که می تواند به میلیون ها سند مقیاس شود، کیفیت تصمیم گیری های درخواستی را افزایش دهد، هزینه ها را کاهش دهد و سریعتر به مشتریان خدمات رسانی کند.

به عنوان گام بعدی، می توانید نمونه کدها و نوت بوک های موجود در ما را امتحان کنید مخزن GitHub. برای کسب اطلاعات بیشتر در مورد اینکه چگونه IDP می تواند به پردازش اسناد شما کمک کند، به این سایت مراجعه کنید پردازش خودکار داده ها از اسناد.

درباره نویسندگان

انجان بیسواس یک معمار ارشد راه حل های خدمات هوش مصنوعی با تمرکز بر AI/ML و تجزیه و تحلیل داده ها است. Anjan بخشی از تیم خدمات هوش مصنوعی در سراسر جهان است و با مشتریان همکاری می کند تا به آنها کمک کند تا راه حل هایی برای مشکلات تجاری با هوش مصنوعی و ML ایجاد کنند. Anjan بیش از 14 سال تجربه کار با زنجیره تامین، تولید و سازمان‌های خرده‌فروشی جهانی دارد و به طور فعال به مشتریان کمک می‌کند تا خدمات هوش مصنوعی AWS را شروع کرده و مقیاس کنند.

دویتی پاتاک یک مدیر ارشد حساب فنی مستقر در سن دیگو است. او بر کمک به صنعت نیمه هادی برای مشارکت در AWS متمرکز است. او در اوقات فراغت خود مطالعه در مورد فن آوری های جدید و بازی های رومیزی را دوست دارد.

بالاجی پولی یک معمار Solutions مستقر در Bay Area، CA است. در حال حاضر به مشتریان منتخب علوم زیستی مراقبت های بهداشتی شمال غربی ایالات متحده کمک می کند تا پذیرش ابر AWS خود را تسریع کنند. بالاجی از سفر لذت می برد و عاشق کشف غذاهای مختلف است.

تمبر زمان: اوت 26، 2022اوت 26، 2022

تمبر زمان: فوریه 29، 2024

اسناد وام مسکن را با پردازش هوشمند اسناد با استفاده از Amazon Textract و Amazon Comprehend پردازش کنید

بازنشر افلاطون

بررسی اجمالی راه حل

ذخیره سازی اسناد

طبقه بندی اسناد

استخراج سند

استخراج داده ها از URLA-1003 درخواست وام مسکونی واحد

استخراج داده ها از 1099 فرم

استخراج داده ها از یادداشت وام مسکن

استخراج اطلاعات از پاسپورت ایالات متحده

غنی سازی سند

بررسی، اعتبارسنجی و ادغام داده ها

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

ML خودکار، مقیاس پذیر و مقرون به صرفه در AWS: شناسایی سرخس های درختی مهاجم استرالیایی در جنگل های هاوایی

نوت بوک های Amazon SageMaker Studio خود را به عنوان کارهای نوت بوک برنامه ریزی شده عملیاتی کنید

AWS و Mistral AI متعهد به دموکراتیک کردن هوش مصنوعی مولد با همکاری تقویت شده هستند | خدمات وب آمازون

با استفاده از هوش مصنوعی مولد و آمازون SageMaker Canvas، یافته های امنیتی را سریعتر با آماده سازی داده های بدون کد تجزیه و تحلیل کنید | خدمات وب آمازون

رویکرد ایمن برای هوش مصنوعی مولد با AWS | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب