معالجة مستندات الرهن العقاري باستخدام المعالجة الذكية للوثائق باستخدام Amazon Textract و Amazon Comprehend

أعاد نشره أفلاطون

المتابعون: 0

تقوم المنظمات العاملة في مجال الإقراض والرهن العقاري بمعالجة آلاف المستندات يوميًا. من تطبيق الرهن العقاري الجديد إلى إعادة تمويل الرهن العقاري ، تتضمن عمليات الأعمال هذه مئات المستندات لكل طلب. هناك أتمتة محدودة متاحة اليوم لمعالجة واستخراج المعلومات من جميع المستندات ، خاصة بسبب التنسيقات والتخطيطات المختلفة. نظرًا للكم الهائل من التطبيقات ، فإن الحصول على رؤى استراتيجية والحصول على المعلومات الأساسية من المحتويات عملية تستغرق وقتًا طويلاً ، كما أنها يدوية للغاية ومعرضة للخطأ ومكلفة. أدوات التعرف الضوئي على الحروف القديمة باهظة التكلفة وعرضة للخطأ وتتضمن الكثير من التكوين ويصعب قياسها. تساعد المعالجة الذكية للمستندات (IDP) مع خدمات الذكاء الاصطناعي (AI) من AWS على أتمتة معالجة طلبات الرهن العقاري وتسريعها بأهداف قرارات أسرع وعالية الجودة ، مع تقليل التكاليف الإجمالية.

في هذا المنشور ، نوضح كيف يمكنك الاستفادة من إمكانات التعلم الآلي (ML) مع أمازون تيكستراكو فهم الأمازون لمعالجة المستندات في طلب الرهن العقاري الجديد ، دون الحاجة إلى مهارات ML. نستكشف المراحل المختلفة لـ IDP كما هو موضح في الشكل التالي ، وكيف ترتبط بالخطوات المتضمنة في عملية تقديم طلب الرهن العقاري ، مثل تقديم الطلب والاكتتاب والتحقق والإغلاق.

على الرغم من أن كل طلب رهن قد يكون فريدًا ، فقد أخذنا في الاعتبار بعض المستندات الأكثر شيوعًا المضمنة في طلب الرهن العقاري ، مثل نموذج طلب القرض السكني الموحد (URLA-1003) ، واستمارات 1099 ، ومذكرة الرهن العقاري.

حل نظرة عامة

Amazon Textract هي خدمة تعلّم آلي تستخرج النص والكتابة اليدوية والبيانات تلقائيًا من المستندات الممسوحة ضوئيًا باستخدام نماذج ML المدربة مسبقًا. Amazon Comprehend هي خدمة معالجة اللغة الطبيعية (NLP) التي تستخدم ML للكشف عن رؤى واتصالات قيمة في النص ويمكنها إجراء تصنيف المستندات ، والتعرف على كيان الاسم (NER) ، ونمذجة الموضوعات ، والمزيد.

يوضح الشكل التالي مراحل IDP من حيث صلتها بمراحل عملية تقديم طلب الرهن العقاري.

تُظهر الصورة بنية حل عالية المستوى لمراحل معالجة المستندات الذكية (IDP) من حيث صلتها بمراحل تطبيق الرهن العقاري.

في بداية العملية ، يتم تحميل المستندات إلى ملف خدمة تخزين أمازون البسيطة (Amazon S3) دلو. يؤدي هذا إلى بدء عملية تصنيف المستندات لتصنيف المستندات إلى فئات معروفة. بعد تصنيف المستندات ، فإن الخطوة التالية هي استخراج المعلومات الأساسية منها. نقوم بعد ذلك بإثراء المستندات المحددة ، والتي يمكن أن تكون أشياء مثل تنقيح معلومات التعريف الشخصية (PII) ، ووضع علامات على المستندات ، وتحديثات البيانات الوصفية ، والمزيد. تتضمن الخطوة التالية التحقق من صحة البيانات المستخرجة في المراحل السابقة لضمان اكتمال طلب الرهن العقاري. يمكن إجراء التحقق من الصحة من خلال قواعد التحقق من صحة الأعمال وقواعد التحقق من صحة المستندات. يمكن أيضًا مقارنة درجات الثقة في المعلومات المستخرجة بحد معين ، وتوجيهها تلقائيًا إلى مراجع بشري من خلال أمازون المعزز بالذكاء الاصطناعي (Amazon A2I) إذا لم يتم استيفاء الحد الأدنى. في المرحلة الأخيرة من العملية ، يتم إرسال البيانات المستخرجة والتحقق من صحتها إلى أنظمة المصب لمزيد من التخزين أو المعالجة أو تحليلات البيانات.

في الأقسام التالية ، نناقش مراحل IDP من حيث صلتها بمراحل طلب الرهن العقاري بالتفصيل. نسير عبر مراحل IDP ونناقش أنواع المستندات ؛ كيف نقوم بتخزين المعلومات وتصنيفها واستخراجها وكيف نثري المستندات باستخدام التعلم الآلي.

تخزين الوثائق

Amazon S3 هي خدمة تخزين كائنات توفر قابلية تطوير رائدة في الصناعة ، وتوفر البيانات ، والأمان ، والأداء. نستخدم Amazon S3 لتخزين مستندات الرهن بأمان أثناء وبعد عملية طلب الرهن العقاري. أ حزمة تطبيق الرهن العقاري قد تحتوي على عدة أنواع من النماذج والمستندات ، مثل URLA-1003 و 1099-INT / DIV / RR / MISC و W2 وقسائم الدفع وكشوف الحسابات المصرفية وكشوفات بطاقات الائتمان والمزيد. يتم تقديم هذه المستندات من قبل مقدم الطلب في مرحلة تقديم طلب الرهن العقاري. بدون النظر إليها يدويًا ، قد لا يكون واضحًا على الفور المستندات المضمنة في الحزمة. يمكن أن تستغرق هذه العملية اليدوية وقتًا طويلاً ومكلفة. في المرحلة التالية ، نقوم بأتمتة هذه العملية باستخدام Amazon Comprehend لتصنيف المستندات إلى فئاتها الخاصة بدقة عالية.

تصنيف الوثيقة

تصنيف الوثيقة هو طريقة يمكن من خلالها تصنيف عدد كبير من الوثائق غير المحددة ووسمها. نقوم بإجراء تصنيف المستند هذا باستخدام Amazon Comprehend مصنف مخصص. المصنف المخصص هو نموذج ML يمكن تدريبه باستخدام مجموعة من المستندات المصنفة للتعرف على الفئات التي تهمك. بعد تدريب النموذج ونشره خلف نقطة نهاية مستضافة ، يمكننا استخدام المصنف لتحديد الفئة (أو الفئة) التي ينتمي إليها مستند معين. في هذه الحالة ، نقوم بتدريب مصنف مخصص في وضع متعدد الفئات، والتي يمكن إجراؤها إما بملف CSV أو ملف بيان مُضاف. لأغراض هذا العرض التوضيحي ، نستخدم ملف CSV لتدريب المصنف. الرجوع إلى موقعنا مستودع جيثب لعينة التعليمات البرمجية الكاملة. فيما يلي نظرة عامة رفيعة المستوى على الخطوات المتضمنة:

استخرج النص العادي المشفر UTF-8 من الصور أو ملفات PDF باستخدام Amazon Textract DetectDocumentText API.
قم بإعداد بيانات التدريب لتدريب مصنف مخصص بتنسيق CSV.
تدريب مصنف مخصص باستخدام ملف CSV.
انشر النموذج المدرَّب بنقطة نهاية لتصنيف المستندات في الوقت الفعلي أو استخدم الوضع متعدد الفئات ، والذي يدعم العمليات في الوقت الفعلي وغير المتزامن.

يوضح الرسم البياني التالي هذه العملية.

تُظهر الصورة عملية تدريب المصنف المخصص من Amazon Comprehend وتصنيف المستندات باستخدام نموذج المصنف المُدرَّب والمنشور (الوقت الفعلي أو الدُفعة).

يمكنك أتمتة تصنيف المستند باستخدام نقطة النهاية الموزعة لتعريف وتصنيف المستندات. هذه الأتمتة مفيدة للتحقق مما إذا كانت جميع المستندات المطلوبة موجودة في حزمة الرهن العقاري. يمكن تحديد المستند المفقود بسرعة ، دون تدخل يدوي ، وإخطار مقدم الطلب في وقت مبكر من العملية.

استخراج الوثيقة

في هذه المرحلة ، نقوم باستخراج البيانات من المستند باستخدام Amazon Textract و Amazon Comprehend. بالنسبة للمستندات المهيكلة وشبه المهيكلة التي تحتوي على نماذج وجداول ، فإننا نستخدم Amazon Textract تحليل وثيقة API. بالنسبة إلى المستندات المتخصصة مثل مستندات الهوية ، توفر Amazon Textract تنسيق تحليل معرف API. قد تحتوي بعض المستندات أيضًا على نص كثيف ، وقد تحتاج إلى استخراج المصطلحات الأساسية الخاصة بالأعمال منها ، والمعروفة أيضًا باسم الكيانات. نحن نستخدم ال التعرف على الكيانات المخصصة قدرة Amazon Comprehend على تدريب أداة التعرف على الكيانات المخصصة ، والتي يمكنها تحديد هذه الكيانات من النص الكثيف.

في الأقسام التالية ، نتصفح نماذج المستندات الموجودة في حزمة تطبيق الرهن العقاري ، ونناقش الطرق المستخدمة لاستخراج المعلومات منها. لكل من هذه الأمثلة ، يتم تضمين مقتطف الشفرة ونموذج قصير للإخراج.

استخراج البيانات من طلب القرض السكني الموحد URLA-1003

طلب القرض السكني الموحد (URLA-1003) هو نموذج طلب قرض عقاري قياسي صناعي. إنها وثيقة معقدة إلى حد ما تحتوي على معلومات حول مقدم طلب الرهن العقاري ، ونوع العقار الذي يتم شراؤه ، والمبلغ الذي يتم تمويله ، وتفاصيل أخرى حول طبيعة شراء العقار. فيما يلي نموذج لعنوان URLA-1003 ، وهدفنا هو استخراج المعلومات من هذا المستند المنظم. نظرًا لأن هذا نموذج ، فإننا نستخدم AnalyzeDocument API بنوع ميزة شكل.

يستخرج نوع ميزة FORM معلومات النموذج من المستند ، والتي يتم إرجاعها بعد ذلك بتنسيق زوج مفتاح-قيمة. يستخدم مقتطف التعليمات البرمجية التالي الامتداد amazon-textract-textractor مكتبة Python لاستخراج معلومات النموذج ببضعة سطور من التعليمات البرمجية. طريقة الراحة call_textract() يدعو AnalyzeDocument API داخليًا ، وتلخص المعلمات التي تم تمريرها إلى الطريقة بعض التكوينات التي تحتاجها واجهة برمجة التطبيقات لتشغيل مهمة الاستخراج. Document هي طريقة ملائمة تُستخدم للمساعدة في تحليل استجابة JSON من واجهة برمجة التطبيقات. يوفر تجريدًا عالي المستوى ويجعل إخراج API متكررًا ويسهل الحصول على المعلومات منه. لمزيد من المعلومات ، يرجى الرجوع إلى محلل استجابة النص و نصوص.

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document

response_urla_1003 = call_textract(input_document='s3://<your-bucket>/URLA-1003.pdf', 
                                   features=[Textract_Features.FORMS])
doc_urla_1003 = Document(response_urla_1003)
for page in doc_urla_1003.pages:
    forms=[]
    for field in page.form.fields:
        obj={}
        obj[f'{field.key}']=f'{field.value}'
        forms.append(obj)
print(json.dumps(forms, indent=4))

لاحظ أن الإخراج يحتوي على قيم لخانات الاختيار أو أزرار الاختيار الموجودة في النموذج. على سبيل المثال ، في نموذج مستند URLA-1003 ، تم إنشاء ملف شراء تم تحديد الخيار. يتم استخراج الإخراج المقابل لزر الاختيار كـ "Purchase"(مفتاح) و"SELECTED"(القيمة) ، للإشارة إلى أنه تم تحديد زر الاختيار.

[
    { "No. of Units": "1" },
    { "Amount": "$ 450,000.00" },
    { "Year Built": "2010" },
    { "Purchase": "SELECTED" },
    { "Title will be held in what Name(s)": "Alejandro Rosalez" },
    { "Fixed Rate": "SELECTED" },
    ...
]

استخراج البيانات من 1099 نموذجًا

قد تحتوي حزمة تطبيق الرهن أيضًا على عدد من مستندات مصلحة الضرائب ، مثل 1099-DIV و 1099-INT و 1099-MISC و 1099-R. توضح هذه المستندات أرباح مقدم الطلب من خلال الفوائد وأرباح الأسهم ومكونات الدخل المتنوعة الأخرى المفيدة أثناء الاكتتاب لاتخاذ القرارات. تُظهر الصورة التالية مجموعة من هذه المستندات المتشابهة في الهيكل. ومع ذلك ، في بعض الحالات ، تحتوي المستندات على معلومات النموذج (تم تمييزها باستخدام مربعات الإحاطة باللونين الأحمر والأخضر) بالإضافة إلى المعلومات المجدولة (التي تم تمييزها بواسطة مربعات الإحاطة الصفراء).

لاستخراج معلومات النموذج ، نستخدم رمزًا مشابهًا كما هو موضح سابقًا بامتداد AnalyzeDocument API. نجتاز ميزة إضافية لـ الجدول إلى واجهة برمجة التطبيقات للإشارة إلى أننا بحاجة إلى بيانات النموذج والجدول المستخرجة من المستند. يستخدم مقتطف التعليمات البرمجية التالي الامتداد AnalyzeDocument API مع ميزات FORMS و TABLES في مستند 1099-INT:

from textractcaller.t_call import call_textract, Textract_Features
from trp import Document
response_1099_int = call_textract(input_document='s3://<your-bucket>/1099-INT-2018.pdf',
                                  features=[Textract_Features.TABLES, 
                                            Textract_Features.FORMS])
doc_1099_int = Document(response_1099_int)
num_tables=1
for page in doc_1099_int.pages:     
    for table in page.tables:
        num_tables=num_tables+1
        for r, row in enumerate(table.rows):
            for c, cell in enumerate(row.cells):
                print(f"Cell[{r}][{c}] = {cell.text}")
        print('n')

نظرًا لأن المستند يحتوي على جدول واحد ، يكون إخراج الكود كما يلي:

Table 1
-------------------
Cell[0][0] = 15 State 
Cell[0][1] = 16 State identification no. 
Cell[0][2] = 17 State tax withheld 
Cell[1][0] = 
Cell[1][1] = 34564 
Cell[1][2] = $ 2000 
Cell[2][0] = 
Cell[2][1] = 23543 
Cell[2][2] = $ 1000

تحتوي معلومات الجدول على موضع الخلية (الصف 0 والعمود 0 وما إلى ذلك) والنص المقابل داخل كل خلية. نحن نستخدم طريقة ملائمة يمكنها تحويل بيانات الجدول هذه إلى عرض شبكي سهل القراءة:

from textractprettyprinter.t_pretty_print import Textract_Pretty_Print, get_string, Pretty_Print_Table_Format
print(get_string(textract_json=response_1099_int, 
                 table_format=Pretty_Print_Table_Format.grid, 
                 output_type=[Textract_Pretty_Print.TABLES]))

نحصل على الناتج التالي:

+----------+-----------------------------+-----------------------+
| 15 State | 16 State identification no. | 17 State tax withheld |
+----------+-----------------------------+-----------------------+
|          | 34564                       | $ 2000                |
+----------+-----------------------------+-----------------------+
|          | 23543                       | $ 1000                |
+----------+-----------------------------+-----------------------+

للحصول على الإخراج بتنسيق CSV سهل الاستخدام ، يكون نوع التنسيق Pretty_Print_Table_Format.csv يمكن أن تنتقل إلى table_format معامل. يتم أيضًا دعم التنسيقات الأخرى مثل TSV (قيم مفصولة بعلامات جدولة) و HTML و Latex. لمزيد من المعلومات ، يرجى الرجوع إلى طابعة Textract-Pretty.

استخراج البيانات من مذكرة الرهن العقاري

قد تحتوي حزمة طلب الرهن العقاري على مستندات غير مهيكلة بنص كثيف. بعض الأمثلة على المستندات النصية الكثيفة هي العقود والاتفاقيات. مذكرة الرهن العقاري هي اتفاقية بين مقدم طلب الرهن العقاري والمقرض أو شركة الرهن العقاري ، وتحتوي على معلومات في فقرات نصية كثيفة. في مثل هذه الحالات ، يؤدي الافتقار إلى الهيكلية إلى صعوبة العثور على معلومات العمل الرئيسية المهمة في عملية تقديم طلب الرهن العقاري. هناك طريقتان لحل هذه المشكلة:

في نموذج إشعار الرهن العقاري التالي ، نحن مهتمون بشكل خاص بمعرفة مبلغ الدفعة الشهرية والمبلغ الأساسي.

للنهج الأول ، نستخدم Query و QueriesConfig طرق ملائمة لتكوين مجموعة من الأسئلة التي يتم تمريرها إلى Amazon Textract AnalyzeDocument استدعاء API. في حالة كون المستند متعدد الصفحات (PDF أو TIFF) ، يمكننا أيضًا تحديد أرقام الصفحات حيث يجب أن يبحث Amazon Textract عن إجابات للسؤال. يوضح مقتطف الشفرة التالي كيفية إنشاء تكوين الاستعلام ، وإجراء استدعاء لواجهة برمجة التطبيقات ، ثم تحليل الاستجابة للحصول على الإجابات من الاستجابة:

from textractcaller import QueriesConfig, Query
import trp.trp2 as t2

#Setup the queries
query2 = Query(text="What is the principal amount borrower has to pay?", alias="PRINCIPAL_AMOUNT", pages=["1"])
query4 = Query(text="What is the monthly payment amount?", alias="MONTHLY_AMOUNT", pages=["1"])

#Setup the query config with the above queries
queries_config = QueriesConfig(queries=[query1, query2, query3, query4])
#Call AnalyzeDocument with the queries_config
response_mortgage_note = call_textract(input_document='s3://<your-bucket>/Mortgage-Note.pdf',
                                       features=[Textract_Features.QUERIES],
                                       queries_config=queries_config)
doc_mortgage_note: t2.TDocumentSchema = t2.TDocumentSchema().load(response_mortgage_note) 

entities = {}
for page in doc_mortgage_note.pages:
    query_answers = doc_mortgage_note.get_query_answers(page=page)
    if query_answers:
        for answer in query_answers:
            entities[answer[1]] = answer[2]
print(entities)

نحصل على الناتج التالي:

{
    'PRINCIPAL_AMOUNT': '$ 555,000.00',
    'MONTHLY_AMOUNT': '$2,721.23',
}

بالنسبة للنهج الثاني ، نستخدم Amazon Comprehend كشف الكيانات API مع ملاحظة الرهن العقاري ، والتي تُرجع الكيانات التي يكتشفها داخل النص من ملف مجموعة محددة مسبقًا من الكيانات. هذه هي الكيانات التي تم تدريب أداة التعرف على الكيانات من Amazon Comprehend معها مسبقًا. ومع ذلك ، نظرًا لأن مطلبنا يتمثل في اكتشاف كيانات معينة ، يتم تدريب أداة التعرف على الكيانات المخصصة من Amazon Comprehend باستخدام مجموعة من نماذج مستندات إشعارات الرهن العقاري وقائمة الكيانات. نحدد أسماء الكيانات على أنها PRINCIPAL_AMOUNT و MONTHLY_AMOUNT. يتم إعداد بيانات التدريب بعد تدريب Amazon Comprehend إرشادات إعداد البيانات للتعرف على الكيانات المخصصة. يمكن تدريب أداة التعرف على الكيانات باستخدام شروح الوثيقة أو مع قوائم الكيانات. لأغراض هذا المثال ، نستخدم قوائم الكيانات لتدريب النموذج. بعد أن نقوم بتدريب النموذج ، يمكننا نشره بامتداد نقطة نهاية في الوقت الفعلي أو في دفعة واسطة لاكتشاف الكيانين من محتويات المستند. فيما يلي الخطوات المتضمنة لتدريب أداة التعرف على الكيانات المخصصة ونشرها. للحصول على إرشادات كاملة حول التعليمات البرمجية ، ارجع إلى مستودع GitHub الخاص بنا.

قم بإعداد بيانات التدريب (قائمة الكيانات والمستندات بتنسيق النص العادي (بترميز UTF-8)).
ابدأ تدريب أداة التعرف على الكيانات باستخدام ملف CreateEntityRecognizer API باستخدام بيانات التدريب.
انشر النموذج المدرب بنقطة نهاية في الوقت الفعلي باستخدام إنشاء نقطة النهاية API.

استخراج البيانات من جواز سفر أمريكي

نص الأمازون تحليل وثائق الهوية القدرة على اكتشاف واستخراج المعلومات من وثائق الهوية الموجودة في الولايات المتحدة مثل رخصة القيادة وجواز السفر. ال AnalyzeID API قادر على اكتشاف وتفسير الحقول الضمنية في مستندات الهوية ، مما يجعل من السهل استخراج معلومات محددة من المستند. تكون مستندات الهوية دائمًا جزءًا من حزمة تطبيق الرهن العقاري ، لأنها تُستخدم للتحقق من هوية المقترض أثناء عملية الاكتتاب ، وللتحقق من صحة بيانات السيرة الذاتية للمقترض.

نحن نستخدم طريقة الراحة المسماة call_textract_analyzeid، الذي يستدعي ال AnalyzeID API داخليا. ثم نكرر الاستجابة للحصول على أزواج قيمة المفتاح المكتشفة من مستند المعرف. انظر الكود التالي:

from textractcaller import call_textract_analyzeid
import trp.trp2_analyzeid as t2id

response_passport = call_textract_analyzeid(document_pages=['s3://<your-bucket>/Passport.pdf'])
doc_passport: t2id.TAnalyzeIdDocument = t2id.TAnalyzeIdDocumentSchema().load(response_passport)

for id_docs in response_passport['IdentityDocuments']:
    id_doc_kvs={}
    for field in id_docs['IdentityDocumentFields']:
        if field['ValueDetection']['Text']:
            id_doc_kvs[field['Type']['Text']] = field['ValueDetection']['Text']
print(id_doc_kvs)

AnalyzeID إرجاع المعلومات في هيكل يسمى IdentityDocumentFields، والتي تحتوي على المفاتيح التي تمت تسويتها والقيمة المقابلة لها. على سبيل المثال ، في الإخراج التالي ، FIRST_NAME هو مفتاح طبيعي والقيمة ALEJANDRO. في نموذج صورة جواز السفر ، يتم تصنيف حقل الاسم الأول على أنه "معطى الأسماء / Prénoms / Nombre ،" AnalyzeID كان قادرًا على تطبيع ذلك في اسم المفتاح FIRST_NAME. للحصول على قائمة بالحقول التي تم تسويتها المدعومة ، ارجع إلى كائنات الاستجابة لتوثيق الهوية.

{
    'FIRST_NAME': 'ALEJANDRO',
    'LAST_NAME': 'ROSALEZ',
    'DOCUMENT_NUMBER': '918268822',
    'EXPIRATION_DATE': '31 JAN 2029',
    'DATE_OF_BIRTH': '15 APR 1990',
    'DATE_OF_ISSUE': '29 JAN 2009',
    'ID_TYPE': 'PASSPORT',
    'ENDORSEMENTS': 'SEE PAGE 27',
    'PLACE_OF_BIRTH': 'TEXAS U.S.A.'
}

قد تحتوي حزمة الرهن العقاري على العديد من المستندات الأخرى ، مثل paystub ، ونموذج W2 ، وكشف الحساب المصرفي ، وبيان بطاقة الائتمان ، وخطاب التحقق من الوظيفة. لدينا عينات لكل من هذه الوثائق مع الكود المطلوب لاستخراج البيانات منها. للحصول على قاعدة التعليمات البرمجية الكاملة ، تحقق من أجهزة الكمبيوتر المحمولة في مستودع جيثب.

إثراء الوثيقة

أحد أكثر أشكال إثراء المستندات شيوعًا هو تنقيح المعلومات الحساسة أو السرية على المستندات ، والتي قد تكون إلزامية بسبب قوانين أو لوائح الخصوصية. على سبيل المثال ، قد يحتوي صندوق الدفع لمقدم طلب الرهن العقاري على بيانات معلومات تحديد الهوية الشخصية الحساسة ، مثل الاسم والعنوان ورقم الضمان الاجتماعي ، والتي قد تحتاج إلى تنقيح للتخزين الموسع.

في نموذج مستند paystub السابق ، نقوم بتنقيح بيانات PII مثل SSN والاسم ورقم الحساب المصرفي والتواريخ. لتحديد بيانات PII في مستند ، نستخدم Amazon Comprehend كشف PII القدرة عبر DetectPIIEntities API. تقوم واجهة برمجة التطبيقات هذه بفحص محتوى المستند لتحديد وجود معلومات PII. نظرًا لأن واجهة برمجة التطبيقات هذه تتطلب إدخالًا بتنسيق نص عادي مشفر UTF-8 ، فإننا نقوم أولاً باستخراج النص من المستند باستخدام Amazon Textract DetectDocumentText واجهة برمجة التطبيقات (API) ، التي تُرجع النص من المستند وتُرجع أيضًا معلومات هندسية مثل أبعاد الصندوق المحيط والإحداثيات. ثم يتم استخدام مزيج من كلا المخرجات لرسم تنقيحات على المستند كجزء من عملية الإثراء.

مراجعة البيانات والتحقق منها ودمجها

قد تحتاج البيانات المستخرجة من مرحلة استخراج المستند إلى التحقق من صحة مقابل قواعد عمل محددة. يمكن أيضًا التحقق من صحة المعلومات المحددة عبر العديد من المستندات ، والمعروفة أيضًا باسم عبر التحقق من صحة المستند. مثال على التحقق من صحة المستندات يمكن أن يكون مقارنة اسم مقدم الطلب في مستند الهوية بالاسم الموجود في مستند طلب الرهن العقاري. يمكنك أيضًا إجراء عمليات التحقق الأخرى مثل تقديرات قيمة الممتلكات وقرارات الاكتتاب المشروطة في هذه المرحلة.

يرتبط النوع الثالث من التحقق بدرجة الثقة في البيانات المستخرجة في مرحلة استخراج المستند. تعيد Amazon Textract و Amazon Comprehend نقاط الثقة للنماذج والجداول والبيانات النصية والكيانات التي تم اكتشافها. يمكنك تكوين حد درجة الثقة لضمان إرسال القيم الصحيحة فقط إلى المصب. يتم تحقيق ذلك عبر Amazon A2I ، الذي يقارن درجات الثقة للبيانات المكتشفة مع حد ثقة محدد مسبقًا. إذا لم يتم استيفاء العتبة ، يتم توجيه المستند والمخرجات المستخرجة إلى الإنسان للمراجعة من خلال واجهة مستخدم بديهية. يتخذ المراجع إجراءات تصحيحية على البيانات ويحفظها لمزيد من المعالجة. لمزيد من المعلومات ، يرجى الرجوع إلى المفاهيم الأساسية لـ Amazon A2I.

وفي الختام

في هذا المنشور ، ناقشنا مراحل معالجة المستندات الذكية من حيث صلتها بمراحل طلب الرهن العقاري. نظرنا إلى بعض الأمثلة الشائعة للوثائق التي يمكن العثور عليها في حزمة تطبيق الرهن العقاري. ناقشنا أيضًا طرق استخراج ومعالجة محتوى منظم وشبه منظم وغير منظم من هذه المستندات. يوفر IDP طريقة لأتمتة معالجة مستندات الرهن العقاري الشاملة التي يمكن توسيع نطاقها ليشمل ملايين المستندات ، وتعزيز جودة قرارات التطبيق ، وتقليل التكاليف ، وخدمة العملاء بشكل أسرع.

كخطوة تالية ، يمكنك تجربة نماذج التعليمات البرمجية وأجهزة الكمبيوتر المحمولة في موقعنا مستودع جيثب. لمعرفة المزيد حول كيفية مساعدة IDP لأعباء العمل الخاصة بمعالجة المستندات ، تفضل بزيارة أتمتة معالجة البيانات من المستندات.

عن المؤلفين

أنجان بيسواس مهندس حلول خدمات الذكاء الاصطناعي الأول مع التركيز على الذكاء الاصطناعي / التعلم الآلي وتحليلات البيانات. أنجان هو جزء من فريق خدمات الذكاء الاصطناعي على مستوى العالم ويعمل مع العملاء لمساعدتهم على فهم وتطوير حلول لمشاكل العمل باستخدام الذكاء الاصطناعي والتعلم الآلي. يتمتع Anjan بأكثر من 14 عامًا من الخبرة في العمل مع سلسلة التوريد العالمية ، والتصنيع ، ومؤسسات البيع بالتجزئة ، وهو يساعد العملاء بنشاط على البدء وتوسيع نطاق خدمات AWS AI.

دويتي باثاك هو مدير حساب تقني أول مقره في سان دييغو. تركز على مساعدة صناعة أشباه الموصلات في الانخراط في AWS. في أوقات فراغها ، تحب القراءة عن التقنيات الجديدة ولعب ألعاب الطاولة.

بلاجي بولي هو مهندس حلول مقره في منطقة باي ، كاليفورنيا. نساعد حاليًا عملاء مختارين من علوم الحياة للرعاية الصحية في شمال غرب الولايات المتحدة على تسريع تبني سحابة AWS الخاصة بهم. يستمتع بالاجي بالسفر ويحب استكشاف المأكولات المختلفة.

الطابع الزمني: 26 أغسطس 202226 أغسطس 2022

الطابع الزمني: فبراير 29، 2024

قم بمعالجة مستندات الرهن العقاري باستخدام معالجة المستندات الذكية باستخدام Amazon Textract و Amazon Comprehend

أعاد نشره أفلاطون

حل نظرة عامة

تخزين الوثائق

تصنيف الوثيقة

استخراج الوثيقة

استخراج البيانات من طلب القرض السكني الموحد URLA-1003

استخراج البيانات من 1099 نموذجًا

استخراج البيانات من مذكرة الرهن العقاري

استخراج البيانات من جواز سفر أمريكي

إثراء الوثيقة

مراجعة البيانات والتحقق منها ودمجها

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

ML الآلي والقابل للتطوير والفعالية من حيث التكلفة على AWS: اكتشاف سرخس الأشجار الأسترالي الغازي في غابات هاواي

قم بتشغيل أجهزة الكمبيوتر المحمولة Amazon SageMaker Studio كمهام مجدولة في دفتر الملاحظات

تلتزم AWS وMistral AI بإضفاء الطابع الديمقراطي على الذكاء الاصطناعي التوليدي من خلال التعاون المعزز | خدمات الويب الأمازون

قم بتحليل نتائج الأمان بشكل أسرع من خلال إعداد البيانات بدون تعليمات برمجية باستخدام الذكاء الاصطناعي التوليدي وAmazon SageMaker Canvas | خدمات الويب الأمازون

نهج آمن للذكاء الاصطناعي التوليدي باستخدام AWS | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي