أنشئ أداة التعرف على الكيانات المخصصة لمستندات PDF باستخدام Amazon Comprehend

أعاد نشره أفلاطون

المتابعون: 0

في العديد من الصناعات، من الضروري استخراج الكيانات المخصصة من المستندات في الوقت المناسب. هذا يمكن أن يكون تحديا. على سبيل المثال، غالبًا ما تحتوي مطالبات التأمين على العشرات من السمات المهمة (مثل التواريخ والأسماء والمواقع والتقارير) المنتشرة عبر مستندات طويلة ومكثفة. يمكن أن يكون مسح هذه المعلومات واستخراجها يدويًا عرضة للأخطاء ويستغرق وقتًا طويلاً. يمكن أن تساعد البرامج المستندة إلى القواعد، ولكنها في النهاية جامدة جدًا بحيث لا يمكنها التكيف مع العديد من أنواع المستندات وتخطيطاتها المتنوعة.

للمساعدة في أتمتة هذه العملية وتسريعها، يمكنك استخدام فهم الأمازون لاكتشاف الكيانات المخصصة بسرعة ودقة باستخدام التعلم الآلي (ML). ويتسم هذا النهج بالمرونة والدقة، لأن النظام يمكنه التكيف مع المستندات الجديدة باستخدام ما تعلمه في الماضي. ومع ذلك، حتى وقت قريب، لم يكن من الممكن تطبيق هذه الإمكانية إلا على المستندات النصية العادية، مما يعني فقدان المعلومات الموضعية عند تحويل المستندات من تنسيقها الأصلي. ولمعالجة هذا الأمر، كان أعلن مؤخرا أن Amazon Comprehend يمكنه استخراج الكيانات المخصصة في ملفات PDF والصور وتنسيقات ملفات Word.

في هذا المنشور، نتناول مثالًا ملموسًا من صناعة التأمين لكيفية إنشاء أداة التعرف المخصصة باستخدام التعليقات التوضيحية بتنسيق PDF.

حل نظرة عامة

نوجهك عبر الخطوات عالية المستوى التالية:

إنشاء تعليقات توضيحية بصيغة PDF.
استخدم التعليقات التوضيحية بتنسيق PDF لتدريب نموذج مخصص باستخدام Python API.
الحصول على مقاييس التقييم من النموذج المدرب.
إجراء الاستدلال على وثيقة غير مرئية.

بحلول نهاية هذا المنشور، نريد أن نكون قادرين على إرسال مستند PDF أولي إلى نموذجنا المُدرب، وإخراج ملف منظم يحتوي على معلومات حول التصنيفات محل اهتمامنا. على وجه الخصوص، نقوم بتدريب نموذجنا لاكتشاف الكيانات الخمسة التالية التي اخترناها بسبب صلتها بمطالبات التأمين: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossو InsuredMailingAddress. بعد قراءة المخرجات المنظمة، يمكننا تصور معلومات الملصق مباشرة على مستند PDF، كما في الصورة التالية.

هذا المنشور مصحوب بمفكرة Jupyter التي تحتوي على نفس الخطوات. لا تتردد في المتابعة أثناء تشغيل الخطوات في ذلك مفكرة. لاحظ أنك تحتاج إلى إعداد الأمازون SageMaker بيئة للسماح لـ Amazon Comprehend بالقراءة منها خدمة تخزين أمازون البسيطة (Amazon S3) كما هو موضح في الجزء العلوي من دفتر الملاحظات.

إنشاء تعليقات توضيحية بصيغة PDF

لإنشاء تعليقات توضيحية لمستندات PDF، يمكنك استخدام الحقيقة الأمازون SageMaker الأرض، وهي خدمة تصنيف بيانات مُدارة بالكامل تجعل من السهل إنشاء مجموعات بيانات تدريبية دقيقة للغاية لتعلم الآلة.

في هذا البرنامج التعليمي، قمنا بالفعل بتعليق ملفات PDF في شكلها الأصلي (دون التحويل إلى نص عادي) باستخدام Ground Truth. تولد مهمة Ground Truth ثلاثة مسارات نحتاجها لتدريب نموذج Amazon Comprehend المخصص لدينا:

مصادر - المسار إلى ملفات PDF المدخلة.
الشروح – المسار إلى ملفات JSON الخاصة بالتعليقات التوضيحية التي تحتوي على معلومات الكيان المُسمى.
واضح – الملف الذي يشير إلى موقع التعليقات التوضيحية وملفات PDF المصدر. يُستخدم هذا الملف لإنشاء مهمة تدريبية للتعرف على الكيانات المخصصة في Amazon Comprehend وتدريب نموذج مخصص.

تعرض لقطة الشاشة التالية نموذجًا للتعليق التوضيحي.

تقوم وظيفة Ground Truth المخصصة بإنشاء تعليق توضيحي بتنسيق PDF يلتقط معلومات على مستوى الكتلة حول الكيان. توفر هذه المعلومات على مستوى الكتلة الإحداثيات الموضعية الدقيقة للكيان (مع الكتل الفرعية التي تمثل كل كلمة داخل كتلة الكيان). يختلف هذا عن مهمة Ground Truth القياسية التي يتم فيها تسوية البيانات الموجودة في ملف PDF إلى تنسيق نصي ويتم التقاط معلومات الإزاحة فقط - ولكن ليس المعلومات الإحداثية الدقيقة - أثناء التعليق التوضيحي. تتيح لنا المعلومات الموضعية الغنية التي نحصل عليها باستخدام نموذج التعليقات التوضيحية المخصص هذا تدريب نموذج أكثر دقة.

يُطلق على البيان الذي تم إنشاؤه من هذا النوع من المهام اسم البيان المعزز، على عكس ملف CSV الذي يتم استخدامه للتعليقات التوضيحية القياسية. لمزيد من المعلومات، راجع الشروح.

استخدم التعليقات التوضيحية بتنسيق PDF لتدريب نموذج مخصص باستخدام Python API

يجب تنسيق ملف البيان المعزز بتنسيق JSON Lines. في تنسيق خطوط JSON، يكون كل سطر في الملف عبارة عن كائن JSON كامل متبوعًا بفاصل سطر جديد.

التعليمة البرمجية التالية عبارة عن إدخال داخل ملف البيان المعزز هذا.

هناك عدد قليل من الأشياء ملاحظة:

ترتبط خمسة أنواع من العلامات بهذه الوظيفة: DateOfForm, DateOfLoss, NameOfInsured, LocationOfLossو InsuredMailingAddress.
يشير ملف البيان إلى موقع PDF المصدر وموقع التعليقات التوضيحية.
يتم التقاط البيانات التعريفية الخاصة بمهمة التعليق التوضيحي (مثل تاريخ الإنشاء).
Use-textract-only ومن المقرر أن False، وهذا يعني أن أداة التعليقات التوضيحية تقرر ما إذا كنت تريد استخدام PDFPlumber (لملف PDF أصلي) أو أمازون تيكستراك (للحصول على ملف PDF ممسوح ضوئيًا). إذا تم تعيينه على true، يتم استخدام Amazon Textract في كلتا الحالتين (وهو أكثر تكلفة ولكن من المحتمل أن يكون أكثر دقة).

يمكننا الآن تدريب أداة التعرف، كما هو موضح في رمز المثال التالي.

نقوم بإنشاء أداة التعرف للتعرف على جميع أنواع الكيانات الخمسة. كان بإمكاننا استخدام مجموعة فرعية من هذه الكيانات إذا فضلنا ذلك. يمكنك استخدام ما يصل إلى 25 كيانًا.

للحصول على تفاصيل كل معلمة، راجع create_entity_recognizer.

اعتمادًا على حجم مجموعة التدريب، يمكن أن يختلف وقت التدريب. بالنسبة لمجموعة البيانات هذه، يستغرق التدريب حوالي ساعة واحدة. لمراقبة حالة مهمة التدريب، يمكنك استخدام describe_entity_recognizer API.

الحصول على مقاييس التقييم من النموذج المدرب

يوفر Amazon Comprehend مقاييس أداء النموذج للنموذج المُدرب، مما يشير إلى مدى جودة النموذج المُدرب في إجراء تنبؤات باستخدام مدخلات مماثلة. يمكننا الحصول على مقاييس الدقة والاستدعاء العالمية بالإضافة إلى المقاييس الخاصة بكل كيان. يتمتع النموذج الدقيق بدقة عالية واستدعاء عالي. الدقة العالية تعني أن النموذج عادة ما يكون صحيحًا عندما يشير إلى تسمية معينة؛ الاستدعاء العالي يعني أن النموذج عثر على معظم الملصقات. F1 هو مقياس مركب (متوسط توافقي) لهذه القياسات، وبالتالي يكون مرتفعًا عندما يكون كلا المكونين مرتفعين. للحصول على وصف تفصيلي للمقاييس، راجع مقاييس أداة التعرف على الكيانات المخصصة.

عند تقديم المستندات لمهمة التدريب، تقوم Amazon Comprehend تلقائيًا بفصلها إلى مجموعة تدريب واختبار. عندما وصل النموذج TRAINED الحالة، يمكنك استخدام describe_entity_recognizer API مرة أخرى للحصول على مقاييس التقييم في مجموعة الاختبار.

فيما يلي مثال على المقاييس العالمية.

فيما يلي مثال على المقاييس الخاصة بكل كيان.

تشير الدرجات العالية إلى أن النموذج قد تعلم جيدًا كيفية اكتشاف هذه الكيانات.

إجراء الاستدلال على وثيقة غير مرئية

لنقم بالاستدلال باستخدام نموذجنا المدرّب على مستند لم يكن جزءًا من إجراءات التدريب. يمكننا استخدام واجهة برمجة التطبيقات غير المتزامنة هذه لـ NER القياسي أو المخصص. إذا كنت تستخدمه لـ NER مخصص (كما هو الحال في هذا المنشور)، فيجب علينا تمرير ARN للنموذج المُدرب.

يمكننا مراجعة العمل المقدم من خلال طباعة الرد.

يمكننا تنسيق مخرجات مهمة الكشف باستخدام Pandas في جدول. ال Score تشير القيمة إلى مستوى الثقة الذي يمتلكه النموذج حول الكيان.

أخيرًا، يمكننا تراكب التوقعات على المستندات غير المرئية، مما يعطي النتيجة كما هو موضح في أعلى هذا المنشور.

وفي الختام

في هذا المنشور، رأيت كيفية استخراج الكيانات المخصصة بتنسيق PDF الأصلي الخاص بها باستخدام Amazon Comprehend. كخطوات تالية، فكر في الغوص بشكل أعمق:

قم بتدريب أداة التعرف الخاصة بك باستخدام دفتر الملاحظات المرفق هنا. تذكر حذف أي موارد عند الانتهاء لتجنب الرسوم المستقبلية.
قم بإعداد مهمة التعليقات التوضيحية المخصصة الخاصة بك لجمع التعليقات التوضيحية بتنسيق PDF للكيانات التي تهمك. لمزيد من المعلومات، راجع شرح توضيحي مخصص للمستند لاستخراج الكيانات المسماة في المستندات باستخدام Amazon Comprehend.
تدريب نموذج NER مخصص على وحدة تحكم Amazon Comprehend. لمزيد من المعلومات، راجع استخرج الكيانات المخصصة من المستندات بتنسيقها الأصلي باستخدام Amazon Comprehend.

حول المؤلف

جوشوا ليفي هو أحد كبار العلماء التطبيقيين في مختبر Amazon Machine Learning Solutions، حيث يساعد العملاء على تصميم وبناء حلول الذكاء الاصطناعي/التعلم الآلي لحل مشاكل العمل الرئيسية.

أندرو آنج هو مهندس تعلم الآلة في مختبر Amazon Machine Learning Solutions Lab، حيث يساعد العملاء من مجموعة متنوعة من الصناعات على تحديد وبناء حلول الذكاء الاصطناعي/التعلم الآلي لحل مشاكلهم التجارية الأكثر إلحاحًا. خارج العمل، يستمتع بمشاهدة مدونات الفيديو الخاصة بالسفر والطعام.

أليكس شيرايث هو مهندس برمجيات في مختبر Amazon Machine Learning Solutions Lab الذي يركز على إنشاء حلول قائمة على حالات الاستخدام توضح للعملاء كيفية إطلاق العنان لقوة خدمات AWS AI/ML لحل مشكلات الأعمال في العالم الحقيقي.

جينيفر تشو هو عالم تطبيقي من مختبر Amazon AI Machine Learning Solutions Lab. وهي تعمل مع عملاء AWS لبناء حلول الذكاء الاصطناعي/تعلم الآلة لتلبية احتياجاتهم التجارية ذات الأولوية العالية.

نيهاريكا جايانثي هو مهندس الواجهة الأمامية في فريق Amazon Machine Learning Solutions Lab - Human in the Loop. إنها تساعد في إنشاء حلول تجربة المستخدم لعملاء Amazon SageMaker Ground Truth.

بوريس أرونشيك هو مدير في Amazon AI Machine Learning Solutions Lab حيث يقود فريقًا من علماء ومهندسي تعلم الآلة لمساعدة عملاء AWS على تحقيق أهداف العمل من خلال الاستفادة من حلول الذكاء الاصطناعي/تعلم الآلة.

الطابع الزمني: 8 نيسان

الطابع الزمني: أغسطس 2، 2023

أنشئ أداة التعرف على الكيانات المخصصة لمستندات PDF باستخدام Amazon Comprehend

أعاد نشره أفلاطون

حل نظرة عامة

إنشاء تعليقات توضيحية بصيغة PDF

استخدم التعليقات التوضيحية بتنسيق PDF لتدريب نموذج مخصص باستخدام Python API

الحصول على مقاييس التقييم من النموذج المدرب

إجراء الاستدلال على وثيقة غير مرئية

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

قم بتحسين المعلمات الفائقة باستخدام الضبط التلقائي للنموذج Amazon SageMaker

استخدم ADFS OIDC باعتباره IdP للقوى العاملة الخاصة في Amazon SageMaker Ground Truth

أنشئ نماذج تصنيف صور عالية الأداء باستخدام Amazon SageMaker JumpStart

تدريب نموذج توقع السلاسل الزمنية بشكل أسرع باستخدام Amazon SageMaker Canvas Quick build

استخدم رؤية الكمبيوتر لقياس العائد الزراعي باستخدام Amazon Rekognition Custom Labels

تنفيذ توصيات مخصصة في الوقت الفعلي باستخدام Amazon Personalize | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي