في العديد من الصناعات، من الضروري استخراج الكيانات المخصصة من المستندات في الوقت المناسب. هذا يمكن أن يكون تحديا. على سبيل المثال، غالبًا ما تحتوي مطالبات التأمين على العشرات من السمات المهمة (مثل التواريخ والأسماء والمواقع والتقارير) المنتشرة عبر مستندات طويلة ومكثفة. يمكن أن يكون مسح هذه المعلومات واستخراجها يدويًا عرضة للأخطاء ويستغرق وقتًا طويلاً. يمكن أن تساعد البرامج المستندة إلى القواعد، ولكنها في النهاية جامدة جدًا بحيث لا يمكنها التكيف مع العديد من أنواع المستندات وتخطيطاتها المتنوعة.
للمساعدة في أتمتة هذه العملية وتسريعها، يمكنك استخدام فهم الأمازون لاكتشاف الكيانات المخصصة بسرعة ودقة باستخدام التعلم الآلي (ML). ويتسم هذا النهج بالمرونة والدقة، لأن النظام يمكنه التكيف مع المستندات الجديدة باستخدام ما تعلمه في الماضي. ومع ذلك، حتى وقت قريب، لم يكن من الممكن تطبيق هذه الإمكانية إلا على المستندات النصية العادية، مما يعني فقدان المعلومات الموضعية عند تحويل المستندات من تنسيقها الأصلي. ولمعالجة هذا الأمر، كان أعلن مؤخرا أن Amazon Comprehend يمكنه استخراج الكيانات المخصصة في ملفات PDF والصور وتنسيقات ملفات Word.
في هذا المنشور، نتناول مثالًا ملموسًا من صناعة التأمين لكيفية إنشاء أداة التعرف المخصصة باستخدام التعليقات التوضيحية بتنسيق PDF.
حل نظرة عامة
نوجهك عبر الخطوات عالية المستوى التالية:
- إنشاء تعليقات توضيحية بصيغة PDF.
- استخدم التعليقات التوضيحية بتنسيق PDF لتدريب نموذج مخصص باستخدام Python API.
- الحصول على مقاييس التقييم من النموذج المدرب.
- إجراء الاستدلال على وثيقة غير مرئية.
بحلول نهاية هذا المنشور، نريد أن نكون قادرين على إرسال مستند PDF أولي إلى نموذجنا المُدرب، وإخراج ملف منظم يحتوي على معلومات حول التصنيفات محل اهتمامنا. على وجه الخصوص، نقوم بتدريب نموذجنا لاكتشاف الكيانات الخمسة التالية التي اخترناها بسبب صلتها بمطالبات التأمين: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
و InsuredMailingAddress
. بعد قراءة المخرجات المنظمة، يمكننا تصور معلومات الملصق مباشرة على مستند PDF، كما في الصورة التالية.
هذا المنشور مصحوب بمفكرة Jupyter التي تحتوي على نفس الخطوات. لا تتردد في المتابعة أثناء تشغيل الخطوات في ذلك مفكرة. لاحظ أنك تحتاج إلى إعداد الأمازون SageMaker بيئة للسماح لـ Amazon Comprehend بالقراءة منها خدمة تخزين أمازون البسيطة (Amazon S3) كما هو موضح في الجزء العلوي من دفتر الملاحظات.
إنشاء تعليقات توضيحية بصيغة PDF
لإنشاء تعليقات توضيحية لمستندات PDF، يمكنك استخدام الحقيقة الأمازون SageMaker الأرض، وهي خدمة تصنيف بيانات مُدارة بالكامل تجعل من السهل إنشاء مجموعات بيانات تدريبية دقيقة للغاية لتعلم الآلة.
في هذا البرنامج التعليمي، قمنا بالفعل بتعليق ملفات PDF في شكلها الأصلي (دون التحويل إلى نص عادي) باستخدام Ground Truth. تولد مهمة Ground Truth ثلاثة مسارات نحتاجها لتدريب نموذج Amazon Comprehend المخصص لدينا:
- مصادر - المسار إلى ملفات PDF المدخلة.
- الشروح – المسار إلى ملفات JSON الخاصة بالتعليقات التوضيحية التي تحتوي على معلومات الكيان المُسمى.
- واضح – الملف الذي يشير إلى موقع التعليقات التوضيحية وملفات PDF المصدر. يُستخدم هذا الملف لإنشاء مهمة تدريبية للتعرف على الكيانات المخصصة في Amazon Comprehend وتدريب نموذج مخصص.
تعرض لقطة الشاشة التالية نموذجًا للتعليق التوضيحي.
تقوم وظيفة Ground Truth المخصصة بإنشاء تعليق توضيحي بتنسيق PDF يلتقط معلومات على مستوى الكتلة حول الكيان. توفر هذه المعلومات على مستوى الكتلة الإحداثيات الموضعية الدقيقة للكيان (مع الكتل الفرعية التي تمثل كل كلمة داخل كتلة الكيان). يختلف هذا عن مهمة Ground Truth القياسية التي يتم فيها تسوية البيانات الموجودة في ملف PDF إلى تنسيق نصي ويتم التقاط معلومات الإزاحة فقط - ولكن ليس المعلومات الإحداثية الدقيقة - أثناء التعليق التوضيحي. تتيح لنا المعلومات الموضعية الغنية التي نحصل عليها باستخدام نموذج التعليقات التوضيحية المخصص هذا تدريب نموذج أكثر دقة.
يُطلق على البيان الذي تم إنشاؤه من هذا النوع من المهام اسم البيان المعزز، على عكس ملف CSV الذي يتم استخدامه للتعليقات التوضيحية القياسية. لمزيد من المعلومات، راجع الشروح.
استخدم التعليقات التوضيحية بتنسيق PDF لتدريب نموذج مخصص باستخدام Python API
يجب تنسيق ملف البيان المعزز بتنسيق JSON Lines. في تنسيق خطوط JSON، يكون كل سطر في الملف عبارة عن كائن JSON كامل متبوعًا بفاصل سطر جديد.
التعليمة البرمجية التالية عبارة عن إدخال داخل ملف البيان المعزز هذا.
هناك عدد قليل من الأشياء ملاحظة:
- ترتبط خمسة أنواع من العلامات بهذه الوظيفة:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
وInsuredMailingAddress
. - يشير ملف البيان إلى موقع PDF المصدر وموقع التعليقات التوضيحية.
- يتم التقاط البيانات التعريفية الخاصة بمهمة التعليق التوضيحي (مثل تاريخ الإنشاء).
Use-textract-only
ومن المقرر أنFalse
، وهذا يعني أن أداة التعليقات التوضيحية تقرر ما إذا كنت تريد استخدام PDFPlumber (لملف PDF أصلي) أو أمازون تيكستراك (للحصول على ملف PDF ممسوح ضوئيًا). إذا تم تعيينه علىtrue
، يتم استخدام Amazon Textract في كلتا الحالتين (وهو أكثر تكلفة ولكن من المحتمل أن يكون أكثر دقة).
يمكننا الآن تدريب أداة التعرف، كما هو موضح في رمز المثال التالي.
نقوم بإنشاء أداة التعرف للتعرف على جميع أنواع الكيانات الخمسة. كان بإمكاننا استخدام مجموعة فرعية من هذه الكيانات إذا فضلنا ذلك. يمكنك استخدام ما يصل إلى 25 كيانًا.
للحصول على تفاصيل كل معلمة، راجع create_entity_recognizer.
اعتمادًا على حجم مجموعة التدريب، يمكن أن يختلف وقت التدريب. بالنسبة لمجموعة البيانات هذه، يستغرق التدريب حوالي ساعة واحدة. لمراقبة حالة مهمة التدريب، يمكنك استخدام describe_entity_recognizer
API.
الحصول على مقاييس التقييم من النموذج المدرب
يوفر Amazon Comprehend مقاييس أداء النموذج للنموذج المُدرب، مما يشير إلى مدى جودة النموذج المُدرب في إجراء تنبؤات باستخدام مدخلات مماثلة. يمكننا الحصول على مقاييس الدقة والاستدعاء العالمية بالإضافة إلى المقاييس الخاصة بكل كيان. يتمتع النموذج الدقيق بدقة عالية واستدعاء عالي. الدقة العالية تعني أن النموذج عادة ما يكون صحيحًا عندما يشير إلى تسمية معينة؛ الاستدعاء العالي يعني أن النموذج عثر على معظم الملصقات. F1 هو مقياس مركب (متوسط توافقي) لهذه القياسات، وبالتالي يكون مرتفعًا عندما يكون كلا المكونين مرتفعين. للحصول على وصف تفصيلي للمقاييس، راجع مقاييس أداة التعرف على الكيانات المخصصة.
عند تقديم المستندات لمهمة التدريب، تقوم Amazon Comprehend تلقائيًا بفصلها إلى مجموعة تدريب واختبار. عندما وصل النموذج TRAINED
الحالة، يمكنك استخدام describe_entity_recognizer
API مرة أخرى للحصول على مقاييس التقييم في مجموعة الاختبار.
فيما يلي مثال على المقاييس العالمية.
فيما يلي مثال على المقاييس الخاصة بكل كيان.
تشير الدرجات العالية إلى أن النموذج قد تعلم جيدًا كيفية اكتشاف هذه الكيانات.
إجراء الاستدلال على وثيقة غير مرئية
لنقم بالاستدلال باستخدام نموذجنا المدرّب على مستند لم يكن جزءًا من إجراءات التدريب. يمكننا استخدام واجهة برمجة التطبيقات غير المتزامنة هذه لـ NER القياسي أو المخصص. إذا كنت تستخدمه لـ NER مخصص (كما هو الحال في هذا المنشور)، فيجب علينا تمرير ARN للنموذج المُدرب.
يمكننا مراجعة العمل المقدم من خلال طباعة الرد.
يمكننا تنسيق مخرجات مهمة الكشف باستخدام Pandas في جدول. ال Score
تشير القيمة إلى مستوى الثقة الذي يمتلكه النموذج حول الكيان.
أخيرًا، يمكننا تراكب التوقعات على المستندات غير المرئية، مما يعطي النتيجة كما هو موضح في أعلى هذا المنشور.
وفي الختام
في هذا المنشور، رأيت كيفية استخراج الكيانات المخصصة بتنسيق PDF الأصلي الخاص بها باستخدام Amazon Comprehend. كخطوات تالية، فكر في الغوص بشكل أعمق:
- قم بتدريب أداة التعرف الخاصة بك باستخدام دفتر الملاحظات المرفق هنا. تذكر حذف أي موارد عند الانتهاء لتجنب الرسوم المستقبلية.
- قم بإعداد مهمة التعليقات التوضيحية المخصصة الخاصة بك لجمع التعليقات التوضيحية بتنسيق PDF للكيانات التي تهمك. لمزيد من المعلومات، راجع شرح توضيحي مخصص للمستند لاستخراج الكيانات المسماة في المستندات باستخدام Amazon Comprehend.
- تدريب نموذج NER مخصص على وحدة تحكم Amazon Comprehend. لمزيد من المعلومات، راجع استخرج الكيانات المخصصة من المستندات بتنسيقها الأصلي باستخدام Amazon Comprehend.
حول المؤلف
جوشوا ليفي هو أحد كبار العلماء التطبيقيين في مختبر Amazon Machine Learning Solutions، حيث يساعد العملاء على تصميم وبناء حلول الذكاء الاصطناعي/التعلم الآلي لحل مشاكل العمل الرئيسية.
أندرو آنج هو مهندس تعلم الآلة في مختبر Amazon Machine Learning Solutions Lab، حيث يساعد العملاء من مجموعة متنوعة من الصناعات على تحديد وبناء حلول الذكاء الاصطناعي/التعلم الآلي لحل مشاكلهم التجارية الأكثر إلحاحًا. خارج العمل، يستمتع بمشاهدة مدونات الفيديو الخاصة بالسفر والطعام.
أليكس شيرايث هو مهندس برمجيات في مختبر Amazon Machine Learning Solutions Lab الذي يركز على إنشاء حلول قائمة على حالات الاستخدام توضح للعملاء كيفية إطلاق العنان لقوة خدمات AWS AI/ML لحل مشكلات الأعمال في العالم الحقيقي.
جينيفر تشو هو عالم تطبيقي من مختبر Amazon AI Machine Learning Solutions Lab. وهي تعمل مع عملاء AWS لبناء حلول الذكاء الاصطناعي/تعلم الآلة لتلبية احتياجاتهم التجارية ذات الأولوية العالية.
نيهاريكا جايانثي هو مهندس الواجهة الأمامية في فريق Amazon Machine Learning Solutions Lab - Human in the Loop. إنها تساعد في إنشاء حلول تجربة المستخدم لعملاء Amazon SageMaker Ground Truth.
بوريس أرونشيك هو مدير في Amazon AI Machine Learning Solutions Lab حيث يقود فريقًا من علماء ومهندسي تعلم الآلة لمساعدة عملاء AWS على تحقيق أهداف العمل من خلال الاستفادة من حلول الذكاء الاصطناعي/تعلم الآلة.
- "
- &
- 100
- من نحن
- دقيق
- في
- العنوان
- AI
- الكل
- سابقا
- أمازون
- API
- نهج
- ما يقرب من
- سمات
- المعزز
- أتمتة
- AWS
- حظر
- نساعدك في بناء
- ابني
- الأعمال
- تحدي
- اسعارنا محددة من قبل وزارة العمل
- طفل
- مطالبات
- الكود
- جمع
- الثقة
- كنسولات
- يحتوي
- رابطة
- استطاع
- خلق
- حرج
- على
- العملاء
- البيانات
- تمور
- أعمق
- تصميم
- كشف
- مباشرة
- وثائق
- مهندس
- المهندسين
- الكيانات
- البيئة
- مثال
- متوقع
- الخبره في مجال الغطس
- مرن
- اتباع
- متابعيك
- طعام
- النموذج المرفق
- شكل
- وجدت
- مجانًا
- مستقبل
- العالمية
- الأهداف
- مساعدة
- يساعد
- مرتفع
- جدا
- كيفية
- كيفية
- HTTPS
- الانسان
- تحديد
- صورة
- أهمية
- الصناعات
- العالمية
- معلومات
- إدخال
- التأمين
- مصلحة
- IT
- وظيفة
- القفل
- مختبر
- وصفها
- ملصقات
- يؤدي
- تعلم
- تعلم
- مستوى
- الاستفادة من
- خط
- موقع
- المواقع
- آلة
- آلة التعلم
- يصنع
- تمكن
- مدير
- أسلوب
- يدويا
- معنى
- المقاييس
- ML
- نموذج
- مراقبة
- الأكثر من ذلك
- أكثر
- أسماء
- مفكرة
- عوض
- الخاصة
- نموذج
- أداء
- قوة
- تنبؤات
- مشاكل
- عملية المعالجة
- تزود
- ويوفر
- بسرعة
- الخام
- نادي القراءة
- العالم الحقيقي
- أدرك
- الاعتراف
- التقارير
- الموارد
- استجابة
- مراجعة
- يجري
- تشغيل
- مسح
- عالم
- العلماء
- الخدمة
- خدمات
- طقم
- مماثل
- الاشارات
- حجم
- تطبيقات الكمبيوتر
- مهندس البرمجيات
- الحلول
- حل
- سرعة
- معيار
- الحالة
- تخزين
- منظم
- المقدمة
- نظام
- فريق
- تجربه بالعربي
- المصدر
- عبر
- الوقت
- استهلاك الوقت
- أداة
- تيشرت
- قادة الإيمان
- سفر
- فتح
- us
- تستخدم
- عادة
- قيمنا
- ابحث عن
- سواء
- في حين
- في غضون
- بدون
- للعمل
- أعمال
- العالم