تقديم التصنيف بخطوة واحدة والتعرف على الكيانات باستخدام Amazon Comprehend لمعالجة المستندات الذكية

أعاد نشره أفلاطون

المتابعون: 0

"تعمل حلول المعالجة الذكية للمستندات (IDP) على استخراج البيانات لدعم أتمتة مهام معالجة المستندات ذات الحجم الكبير والمتكررة وللتحليل والبصيرة. تستخدم IDP تقنيات اللغة الطبيعية ورؤية الكمبيوتر لاستخراج البيانات من المحتوى المنظم وغير المهيكل ، وخاصة من المستندات ، لدعم التشغيل الآلي والتعزيز. " - جارتنر

الهدف من معالجة المستندات الذكية من أمازون (IDP) هو أتمتة معالجة كميات كبيرة من المستندات باستخدام التعلم الآلي (ML) من أجل زيادة الإنتاجية وتقليل التكاليف المرتبطة بالعمل البشري وتوفير تجربة مستخدم سلسة. يقضي العملاء قدرًا كبيرًا من الوقت والجهد في تحديد المستندات واستخراج المعلومات الهامة منها لحالات الاستخدام المختلفة. اليوم، فهم الأمازون يدعم تصنيف المستندات ذات النص العادي ، مما يتطلب منك معالجة المستندات بتنسيقات شبه منظمة (ممسوحة ضوئيًا أو PDF رقمي أو صور مثل PNG و JPG و TIFF) ثم استخدام إخراج النص العادي لتشغيل الاستدلال باستخدام تصنيف مخصص نموذج. وبالمثل ، ل التعرف على الكيانات المخصصة في الوقت الفعلي ، يلزم المعالجة المسبقة لاستخراج النص للمستندات شبه المهيكلة مثل ملفات PDF وملفات الصور. تقدم هذه العملية المكونة من خطوتين تعقيدات في سير عمل معالجة المستندات.

في العام الماضي نحن أعلن دعمه لتنسيقات المستندات الأصلية مع التعرف على الكيانات المسماة المخصص (NER) وظائف غير متزامنة. اليوم ، نحن متحمسون للإعلان عن تصنيف المستندات بخطوة واحدة والتحليل في الوقت الفعلي لـ NER للمستندات شبه المهيكلة بتنسيقات أصلية (PDF ، TIFF ، JPG ، PNG) باستخدام Amazon Comprehend. على وجه التحديد ، نعلن عن الإمكانات التالية:

دعم المستندات بتنسيقات أصلية لتحليل التصنيف المخصص في الوقت الفعلي والمهام غير المتزامنة
دعم المستندات بتنسيقات أصلية لتحليل الوقت الفعلي للتعرف على الكيانات المخصصة

مع هذا الإصدار الجديد ، يدعم التصنيف المخصص والتعرف على الكيانات المخصصة (NER) من Amazon Comprehend المستندات بتنسيقات مثل PDF و TIFF و PNG و JPEG مباشرةً ، دون الحاجة إلى استخراج نص عادي مشفر UTF8 منها. الشكل التالي يقارن العملية السابقة بالإجراء الجديد والدعم.

تعمل هذه الميزة على تبسيط سير عمل معالجة المستندات من خلال التخلص من أي خطوات معالجة مسبقة مطلوبة لاستخراج نص عادي من المستندات ، وتقليل الوقت الإجمالي المطلوب لمعالجتها.

في هذا المنشور ، نناقش تصميم حل سير عمل IDP عالي المستوى ، وعدد قليل من حالات الاستخدام الصناعي ، والميزات الجديدة لبرنامج Amazon Comprehend ، وكيفية استخدامها.

نظرة عامة على الحل

لنبدأ باستكشاف حالة الاستخدام الشائع في صناعة التأمين. تتضمن عملية مطالبة التأمين النموذجية حزمة مطالبة قد تحتوي على مستندات متعددة. عندما يتم تقديم مطالبة تأمين ، فإنها تتضمن مستندات مثل نموذج مطالبة التأمين وتقارير الحوادث ووثائق الهوية ووثائق مطالبة الطرف الثالث. يمكن أن يصل حجم المستندات اللازمة لمعالجة مطالبة التأمين والفصل فيها إلى مئات بل وحتى آلاف الصفحات اعتمادًا على نوع المطالبة والعمليات التجارية المتضمنة. عادةً ما يقضي ممثلو مطالبات التأمين والقضاة مئات الساعات في غربلة المعلومات وفرزها واستخراجها يدويًا من مئات أو حتى الآلاف من ملفات المطالبات.

على غرار حالة استخدام صناعة التأمين ، تعالج صناعة الدفع أيضًا كميات كبيرة من المستندات شبه المهيكلة لاتفاقيات الدفع عبر الحدود والفواتير وكشوف العملات الأجنبية. يقضي مستخدمو الأعمال معظم وقتهم في الأنشطة اليدوية مثل تحديد المعلومات المطلوبة وتنظيمها والتحقق من صحتها واستخراجها وتمريرها إلى التطبيقات النهائية. هذه العملية اليدوية مملة ومتكررة وعرضة للخطأ ومكلفة ويصعب قياسها. تشمل الصناعات الأخرى التي تواجه تحديات مماثلة الرهن العقاري والإقراض والرعاية الصحية وعلوم الحياة والقانون والمحاسبة وإدارة الضرائب. من المهم للغاية للشركات معالجة مثل هذه الكميات الكبيرة من المستندات في الوقت المناسب بمستوى عالٍ من الدقة والجهد اليدوي الاسمي.

توفر Amazon Comprehend القدرات الأساسية لأتمتة تصنيف المستندات واستخراج المعلومات من حجم كبير من المستندات بدقة عالية وبطريقة قابلة للتطوير وفعالة من حيث التكلفة. يوضح الرسم البياني التالي سير العمل المنطقي لـ IDP باستخدام Amazon Comprehend. يتكون جوهر سير العمل من تصنيف المستندات واستخراج المعلومات باستخدام NER مع نماذج Amazon Comprehend المخصصة. يوضح الرسم التخطيطي أيضًا كيف يمكن تحسين النماذج المخصصة باستمرار لتوفير دقة أعلى مع تطور المستندات والعمليات التجارية.

تصنيف الوثيقة المخصصة

باستخدام التصنيف المخصص لخدمة Amazon Comprehend ، يمكنك تنظيم مستنداتك في فئات (فئات) محددة مسبقًا. على مستوى عالٍ ، فيما يلي خطوات إعداد مصنف مستند مخصص وإجراء تصنيف للمستند:

قم بإعداد بيانات التدريب لتدريب مصنف مستندات مخصص.
تدريب مصنف مستندات العميل باستخدام بيانات التدريب.
بعد تدريب النموذج ، انشر اختياريًا نقطة نهاية في الوقت الفعلي.
قم بتصنيف المستند بوظيفة غير متزامنة أو في الوقت الفعلي باستخدام نقطة النهاية.

يتم تنفيذ الخطوتين 1 و 2 عادةً في بداية مشروع IDP بعد تحديد فئات المستندات ذات الصلة بعملية الأعمال. يمكن بعد ذلك إعادة تدريب نموذج المصنف المخصص بشكل دوري لتحسين الدقة وتقديم فئات مستندات جديدة. يمكنك تدريب نموذج تصنيف مخصص إما بتنسيق وضع متعدد الفئات or وضع متعدد التسمية. يمكن إجراء التدريب لكل منها بإحدى طريقتين: استخدام ملف CSV ، أو استخدام ملف البيان المعزز. تشير إلى تجهيز بيانات التدريب لمزيد من التفاصيل حول تدريب نموذج التصنيف المخصص. بعد تدريب نموذج المصنف المخصص ، يمكن تصنيف المستند إما باستخدام تحليل الوقت الحقيقي أو عمل غير متزامن. يتطلب التحليل في الوقت الفعلي سيتم نشر نقطة النهاية مع النموذج المدرب وهو الأنسب للمستندات الصغيرة حسب حالة الاستخدام. بالنسبة لعدد كبير من المستندات ، فإن وظيفة التصنيف غير المتزامن هي الأنسب.

تدريب نموذج تصنيف مستند مخصص

لإثبات الميزة الجديدة ، قمنا بتدريب نموذج تصنيف مخصص في وضع متعدد التسميات ، والذي يمكنه تصنيف مستندات التأمين في واحدة من سبع فئات مختلفة. الفصول INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYو CMS1500. نريد تصنيف المستندات بتنسيق PDF و PNG و JPEG أصلي ومخزن في ملف خدمة تخزين أمازون البسيطة (Amazon S3) باستخدام نموذج التصنيف. لبدء وظيفة تصنيف غير متزامنة ، أكمل الخطوات التالية:

في وحدة تحكم Amazon Comprehend ، اختر وظائف التحليل في جزء التنقل.
اختار خلق وظيفة.
في حالة الاسم، أدخل اسمًا لوظيفة التصنيف الخاصة بك.
في حالة نوع التحليلأختر تصنيف مخصص.
في حالة نموذج المصنفاختر نموذج التصنيف المناسب.
في حالة التجريبية، اختر الإصدار المناسب من النموذج.

في مجلة ادخال البيانات في القسم ، نحن نقدم الموقع حيث يتم تخزين مستنداتنا.

في حالة تنسيق المدخلات، اختر مستند واحد لكل ملف.
في حالة وضع قراءة المستندأختر فرض إجراء قراءة المستند.
في حالة وثيقة قراءة العمل، اختر نص كشف نص الوثيقة.

يتيح ذلك لـ Amazon Comprehend استخدام ملف أمازون تيكستراك DetectDocumentText API لقراءة الوثائق قبل تشغيل التصنيف. ال DetectDocumentText API مفيد في استخراج سطور وكلمات النص من المستندات. يمكنك أيضا أن تختار نص تحليل الوثيقة For وثيقة قراءة العمل، في هذه الحالة ، تستخدم Amazon Comprehend أداة Amazon Textract تحليل وثيقة API لقراءة الوثائق. مع ال AnalyzeDocument API ، يمكنك اختيار استخراج طاولات الطعام, استمارات، او كلاهما. ال وضع قراءة المستند يتيح الخيار Amazon Comprehend لاستخراج النص من المستندات خلف الكواليس ، مما يساعد في تقليل الخطوة الإضافية لاستخراج النص من المستند ، وهو أمر مطلوب في سير عمل معالجة المستندات لدينا.

يمكن لمصنف Amazon Comprehend المخصص أيضًا معالجة استجابات JSON الأولية التي تم إنشاؤها بواسطة DetectDocumentText و AnalyzeDocument واجهات برمجة التطبيقات ، دون أي تعديل أو معالجة مسبقة. هذا مفيد لسير العمل الحالي حيث تشارك Amazon Textract في استخراج النص من المستندات بالفعل. في هذه الحالة ، يمكن تغذية إخراج JSON من Amazon Textract مباشرةً إلى واجهات برمجة تطبيقات تصنيف المستندات من Amazon Comprehend.

في مجلة بيانات الناتج القسم ل موقع S3، حدد موقع Amazon S3 حيث تريد أن تكتب الوظيفة غير المتزامنة نتائج الاستدلال.
اترك الخيارات المتبقية كخيار افتراضي.
اختار خلق وظيفة لبدء العمل.

يمكنك عرض حالة الوظيفة على وظائف التحليل .

عند اكتمال المهمة ، يمكننا عرض مخرجات مهمة التحليل المخزنة في موقع Amazon S3 المتوفر أثناء تكوين الوظيفة. مخرجات التصنيف لوثيقة PDF عينة CMS1500 الخاصة بنا هي كما يلي. الإخراج عبارة عن ملف بتنسيق خطوط JSON ، تم تنسيقه لتحسين إمكانية القراءة.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

النموذج السابق عبارة عن مستند PDF من صفحة واحدة ؛ ومع ذلك ، يمكن أن يتعامل التصنيف المخصص أيضًا مع مستندات PDF متعددة الصفحات. في حالة المستندات متعددة الصفحات ، تحتوي المخرجات على سطور JSON متعددة ، حيث يكون كل سطر هو نتيجة التصنيف لكل صفحة من صفحات المستند. فيما يلي نموذج لإخراج تصنيف متعدد الصفحات:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

التعرف على الكيان المخصص

باستخدام أداة التعرف على الكيانات المخصصة من Amazon Comprehend ، يمكنك تحليل المستندات واستخراج الكيانات مثل أكواد المنتج أو الكيانات الخاصة بالأعمال التي تناسب احتياجاتك الخاصة. على مستوى عالٍ ، فيما يلي خطوات إعداد أداة التعرف على الكيانات المخصصة وتنفيذ اكتشاف الكيان:

قم بإعداد بيانات التدريب لتدريب أداة التعرف على الكيانات المخصصة.
تدريب أداة التعرف على الكيانات المخصصة باستخدام بيانات التدريب.
بعد تدريب النموذج ، انشر اختياريًا نقطة نهاية في الوقت الفعلي.
قم بإجراء اكتشاف الكيان إما بوظيفة غير متزامنة أو في الوقت الفعلي باستخدام نقطة النهاية.

يمكن إعادة تدريب نموذج أداة التعرف على الكيانات المخصصة بشكل دوري لتحسين الدقة وتقديم أنواع كيانات جديدة. يمكنك تدريب نموذج أداة التعرف على الكيانات المخصصة باستخدام أي منهما قوائم الكيانات or الشروح. في كلتا الحالتين ، يتعرف Amazon Comprehend على نوع المستندات والسياق الذي تحدث فيه الكيانات لبناء نموذج للتعرف على الكيانات يمكنه التعميم لاكتشاف الكيانات الجديدة. تشير إلى تحضير بيانات التدريب لمعرفة المزيد حول إعداد بيانات التدريب لأداة التعرف على الكيانات المخصصة.

بعد تدريب نموذج أداة التعرف على الكيانات المخصصة ، يمكن إجراء اكتشاف الكيان إما باستخدام تحليل الوقت الحقيقي أو عمل غير متزامن. يتطلب التحليل في الوقت الفعلي سيتم نشر نقطة النهاية مع النموذج المدرب وهو الأنسب للمستندات الصغيرة حسب حالة الاستخدام. بالنسبة لعدد كبير من المستندات ، فإن وظيفة التصنيف غير المتزامن هي الأنسب.

تدريب نموذج التعرف على الكيان المخصص

لإثبات اكتشاف الكيان في الوقت الفعلي ، قمنا بتدريب نموذج أداة التعرف على الكيانات المخصصة باستخدام مستندات التأمين وملفات البيان المعززة باستخدام التعليقات التوضيحية المخصصة ونشرنا نقطة النهاية باستخدام النموذج المدرب. أنواع الكيانات هي Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionو Sender. نريد اكتشاف الكيانات من نماذج المستندات بتنسيق PDF و PNG و JPEG أصلي ، مخزنة في حاوية S3 ، باستخدام نموذج أداة التعرف.

لاحظ أنه يمكنك استخدام نموذج التعرف على الكيانات المخصص الذي تم تدريبه باستخدام مستندات PDF لاستخراج الكيانات المخصصة من مستندات PDF و TIFF والصورة و Word والمستندات ذات النص العادي. إذا تم تدريب نموذجك باستخدام المستندات النصية وقائمة الكيانات ، فيمكنك فقط استخدام مستندات النص العادي لاستخراج الكيانات.

نحتاج إلى اكتشاف الكيانات من نموذج مستند بأي تنسيق PDF و PNG و JPEG أصلي باستخدام نموذج أداة التعرف. لبدء مهمة الكشف عن الكيان المتزامن ، أكمل الخطوات التالية:

في وحدة تحكم Amazon Comprehend ، اختر تحليل الوقت الحقيقي في جزء التنقل.
تحت نوع التحليل، حدد Custom.
في حالة التعرف على الكيان المخصص، اختر نوع النموذج المخصص.
في حالة نقطة النهاية، اختر نقطة النهاية في الوقت الفعلي التي قمت بإنشائها لنموذج أداة التعرف على الكيان الخاص بك.
أختار تحميل الملف واختر اختر ملف لتحميل ملف PDF أو صورة للاستدلال.
توسيع إدخال المستندات المتقدم قسم و وضع قراءة المستند، اختر الخدمة الافتراضية.
في حالة وثيقة قراءة العمل، اختر نص كشف نص الوثيقة.
اختار حلل لتحليل المستند في الوقت الفعلي.

يتم سرد الكيانات المعترف بها في رؤيه الجزء. يحتوي كل كيان على قيمة الكيان (النص) ، ونوع الكيان كما حددته أثناء عملية التدريب ، ودرجة الثقة المقابلة.

لمزيد من التفاصيل وإرشادات كاملة حول كيفية تدريب نموذج التعرف على الكيان المخصص واستخدامه لأداء الاستدلال غير المتزامن باستخدام وظائف التحليل غير المتزامن ، ارجع إلى استخرج الكيانات المخصصة من المستندات بتنسيقها الأصلي باستخدام Amazon Comprehend.

وفي الختام

أوضح هذا المنشور كيف يمكنك تصنيف وتصنيف المستندات شبه المهيكلة بتنسيقها الأصلي واكتشاف الكيانات الخاصة بالأعمال منها باستخدام Amazon Comprehend. يمكنك استخدام واجهات برمجة التطبيقات في الوقت الفعلي لحالات الاستخدام ذات زمن الانتقال المنخفض ، أو استخدام مهام التحليل غير المتزامن لمعالجة المستندات المجمعة.

كخطوة تالية ، نشجعك على زيارة Amazon Comprehend مستودع جيثب للحصول على نماذج التعليمات البرمجية الكاملة لتجربة هذه الميزات الجديدة. يمكنك أيضًا زيارة دليل مطور Amazon Comprehend و Amazon Comprehend موارد المطورين لمقاطع الفيديو والبرامج التعليمية والمدونات والمزيد.

عن المؤلفين

ويريك تالوكدار هو مهندس معماري أول مع فريق Amazon Comprehend Service. إنه يعمل مع عملاء AWS لمساعدتهم على تبني التعلم الآلي على نطاق واسع. خارج العمل ، يستمتع بالقراءة والتصوير.

أنجان بيسواس هو كبير مهندسي حلول خدمات الذكاء الاصطناعي مع التركيز على الذكاء الاصطناعي / التعلم الآلي وتحليلات البيانات. أنجان هو جزء من فريق خدمات الذكاء الاصطناعي على مستوى العالم ويعمل مع العملاء لمساعدتهم على فهم وتطوير حلول لمشاكل العمل باستخدام الذكاء الاصطناعي والتعلم الآلي. يتمتع Anjan بأكثر من 14 عامًا من الخبرة في العمل مع سلسلة التوريد العالمية ، والتصنيع ، ومؤسسات البيع بالتجزئة ، وهو يساعد العملاء بنشاط على البدء وتوسيع نطاق خدمات AWS AI.

جودوين سهاياراج فنسنت هو مهندس حلول مؤسسي في AWS وهو متحمس للتعلم الآلي ويقدم التوجيه للعملاء لتصميم ونشر وإدارة أعباء العمل والبنى التحتية الخاصة بهم في AWS. في أوقات فراغه ، يحب لعب الكريكيت مع أصدقائه والتنس مع أطفاله الثلاثة.

الطابع الزمني: 2 كانون الأول، 20222 كانون الأول، 2022

الطابع الزمني: فبراير 28، 2024

تقديم التصنيف بخطوة واحدة والتعرف على الكيانات باستخدام Amazon Comprehend لمعالجة المستندات بذكاء

أعاد نشره أفلاطون

نظرة عامة على الحل

تصنيف الوثيقة المخصصة

تدريب نموذج تصنيف مستند مخصص

التعرف على الكيان المخصص

تدريب نموذج التعرف على الكيان المخصص

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

تدعم قواعد المعرفة الخاصة بـ Amazon Bedrock الآن تصفية البيانات التعريفية لتحسين دقة الاسترجاع | خدمات الويب الأمازون

نموذج الأساس AI21 Jurassic-1 متاح الآن على Amazon SageMaker

تسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى C2i Intel

أتمتة وضع العلامات المسبقة لملفات PDF لبرنامج Amazon Comprehend | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي