تعلن Amazon Comprehend عن حدود أقل للتعليقات التوضيحية للتعرف على الكيانات المخصصة

أعاد نشره أفلاطون

المتابعون: 0

فهم الأمازون هي خدمة معالجة للغة الطبيعية (NLP) يمكنك استخدامها لاستخراج الكيانات والعبارات الرئيسية واللغة والمشاعر والرؤى الأخرى تلقائيًا من المستندات. على سبيل المثال ، يمكنك البدء فورًا في اكتشاف الكيانات مثل الأشخاص والأماكن والعناصر التجارية والتواريخ والكميات عبر ملف وحدة تحكم Amazon Comprehend, واجهة سطر الأوامر AWSالطرق أو واجهات برمجة تطبيقات فهم أمازون. بالإضافة إلى ذلك ، إذا كنت بحاجة إلى استخراج الكيانات التي ليست جزءًا من Amazon Comprehend أنواع الكيانات المضمنة، يمكنك إنشاء نموذج مخصص للتعرف على الكيانات (يُعرف أيضًا باسم كيان مخصص أداة التعرف) لاستخراج المصطلحات الأكثر صلة بحالة الاستخدام الخاصة بك ، مثل أسماء العناصر من كتالوج المنتجات ، والمعرفات الخاصة بالمجال ، وما إلى ذلك. يمكن أن يكون إنشاء أداة تعرف دقيقة للكيانات بمفردك باستخدام مكتبات وأطر التعلم الآلي عملية معقدة وتستغرق وقتًا طويلاً. تعمل خدمة Amazon Comprehend على تبسيط نموذج التدريب الخاص بك بشكل كبير. كل ما عليك فعله هو تحميل مجموعة البيانات الخاصة بك من المستندات والتعليقات التوضيحية ، واستخدام وحدة تحكم Amazon Comprehend أو AWS CLI أو واجهات برمجة التطبيقات لإنشاء النموذج.

لتدريب أداة التعرف على الكيانات المخصصة ، يمكنك توفير بيانات التدريب لـ Amazon Comprehend كـ التعليقات التوضيحية أو قوائم الكيانات. في الحالة الأولى ، تقوم بتوفير مجموعة من المستندات وملف به تعليقات توضيحية تحدد مكان ظهور الكيانات داخل مجموعة المستندات. بدلاً من ذلك ، باستخدام قوائم الكيانات ، يمكنك توفير قائمة بالكيانات مع تسمية نوع الكيان المطابق لها ، ومجموعة من المستندات غير المُعلَّقة التي تتوقع أن تكون الكيانات الخاصة بك موجودة فيها. يمكن استخدام كلا الأسلوبين لتدريب نموذج التعرف على الكيانات المخصصة بنجاح ؛ ومع ذلك ، هناك حالات قد تكون فيها إحدى الطرق خيارًا أفضل. على سبيل المثال ، عندما يكون معنى كيانات معينة غامضًا ويعتمد على السياق ، يوصى بتوفير التعليقات التوضيحية لأن هذا قد يساعدك في إنشاء نموذج Amazon Comprehend قادر على استخدام السياق بشكل أفضل عند استخراج الكيانات.

قد تتطلب مستندات التعليقات التوضيحية قدرًا كبيرًا من الجهد والوقت ، خاصة إذا كنت تعتبر أن جودة وكمية التعليقات التوضيحية لها تأثير على نموذج التعرف على الكيان الناتج. قد تؤدي التعليقات التوضيحية غير الدقيقة أو القليلة جدًا إلى نتائج سيئة. لمساعدتك في إعداد عملية للحصول على التعليقات التوضيحية ، نقدم أدوات مثل الحقيقة الأمازون SageMaker الأرض، والتي يمكنك استخدامها للتعليق على مستنداتك بسرعة أكبر وإنشاء ملف زيادة ملف التعليقات التوضيحية. ومع ذلك ، حتى إذا كنت تستخدم Ground Truth ، فلا يزال يتعين عليك التأكد من أن مجموعة بيانات التدريب الخاصة بك كبيرة بما يكفي لبناء أداة التعرف على الكيان الخاص بك بنجاح.

حتى اليوم ، لبدء تدريب أداة التعرف على الكيانات المخصصة من Amazon Comprehend ، كان عليك تقديم مجموعة لا تقل عن 250 مستندًا وما لا يقل عن 100 تعليق توضيحي لكل نوع كيان. اليوم ، نعلن أنه بفضل التحسينات الأخيرة في النماذج الأساسية لخدمة Amazon Comprehend ، قمنا بتخفيض الحد الأدنى من متطلبات تدريب أداة التعرف باستخدام ملفات التعليقات التوضيحية بتنسيق CSV ذات النص العادي. يمكنك الآن إنشاء نموذج مخصص للتعرف على الكيانات بعدد أقل من ثلاثة مستندات و 25 تعليقًا توضيحيًا لكل نوع كيان. يمكنك العثور على مزيد من التفاصيل حول حدود الخدمة الجديدة في المبادئ التوجيهية والحصص.

لإظهار كيف يمكن أن يساعدك هذا التخفيض في البدء في إنشاء أداة التعرف على الكيانات المخصصة ، أجرينا بعض الاختبارات على عدد قليل من مجموعات البيانات مفتوحة المصدر ومقاييس الأداء المجمعة. في هذا المنشور ، نوجهك خلال عملية قياس الأداء والنتائج التي حصلنا عليها أثناء العمل على مجموعات البيانات الفرعية.

إعداد مجموعة البيانات

في هذا المنشور ، نشرح كيف قمنا بتدريب أداة التعرف على الكيانات المخصصة من Amazon Comprehend باستخدام المستندات المشروحة. بشكل عام ، يمكن تقديم التعليقات التوضيحية كملف ملف CSVو ملف البيان المعزز الذي تم إنشاؤه بواسطة Ground Truth، أو ملف PDF. ينصب تركيزنا على التعليقات التوضيحية ذات النص العادي بتنسيق CSV ، لأن هذا هو نوع التعليقات التوضيحية المتأثرة بالحد الأدنى من المتطلبات الجديدة. يجب أن تحتوي ملفات CSV على البنية التالية:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

المجالات ذات الصلة هي كما يلي:

قم بتقديم - اسم الملف الذي يحتوي على الوثائق
خط - رقم السطر الذي يحتوي على الكيان ، بدءًا من السطر 0
تبدأ عوض - إزاحة الحرف في نص الإدخال (بالنسبة إلى بداية السطر) الذي يوضح مكان بدء الكيان ، مع الأخذ في الاعتبار أن الحرف الأول في الموضع 0
إزاحة النهاية - إزاحة الحرف في نص الإدخال الذي يوضح مكان انتهاء الكيان
النوع - اسم نوع الكيان الذي تريد تحديده

بالإضافة إلى ذلك ، عند استخدام هذا الأسلوب ، يجب عليك توفير مجموعة من مستندات التدريب كملفات .txt مع مستند واحد في كل سطر ، أو مستند واحد لكل ملف.

بالنسبة لاختباراتنا ، استخدمنا معيار SNIPS لفهم اللغة الطبيعية، مجموعة بيانات من التصريحات الجماعية الموزعة على سبع نوايا مستخدم (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). تم نشر مجموعة البيانات في عام 2018 في سياق الورقة Snips Voice Platform: نظام مضمن لفهم اللغة المنطوقة للواجهات الصوتية الخاصة حسب التصميم بواسطة Coucke وآخرون.

تتكون مجموعة بيانات SNIPS من مجموعة من ملفات JSON تكثف كلاً من التعليقات التوضيحية والملفات النصية الأولية. فيما يلي مقتطف من مجموعة البيانات:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

قبل إنشاء أداة التعرف على الكيانات الخاصة بنا ، قمنا بتحويل تعليقات SNIPS التوضيحية والملفات النصية الأولية إلى ملف تعليقات توضيحية بتنسيق CSV وملف مستندات .txt.

ما يلي مقتطف من annotations.csv ملف:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

ما يلي مقتطف من documents.txt ملف:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

تكوين أخذ العينات وعملية قياس الأداء

بالنسبة لتجاربنا ، ركزنا على مجموعة فرعية من أنواع الكيانات من مجموعة بيانات SNIPS:

كتابالمطعم - أنواع الكيانات: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
احصل على الطقس - أنواع الكيانات: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
تشغيل الموسيقى - أنواع الكيانات: track, artist, music_item, service, genre, sort, playlist, album, year

علاوة على ذلك ، قمنا بتجميع عينات فرعية لكل مجموعة بيانات للحصول على تكوينات مختلفة من حيث عدد المستندات التي تم أخذ عينات منها للتدريب وعدد التعليقات التوضيحية لكل كيان (يُعرف أيضًا باسم لقطات). تم إجراء ذلك باستخدام برنامج نصي مخصص مصمم لإنشاء مجموعات بيانات مبنية على عينات فرعية يظهر فيها كل نوع كيان على الأقل k مرات ، في حدود n الوثائق.

تم تدريب كل نموذج باستخدام عينة فرعية محددة من مجموعات البيانات التدريبية ؛ تكوينات النموذج التسعة موضحة في الجدول التالي.

اسم مجموعة البيانات الفرعية	عدد المستندات التي تم أخذ عينات منها للتدريب	عدد المستندات التي تم أخذ عينات منها للاختبار	متوسط عدد التعليقات التوضيحية لكل نوع كيان (لقطات)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

لقياس دقة نماذجنا ، قمنا بتجميع مقاييس التقييم التي تحسبها Amazon Comprehend تلقائيًا عند تدريب أداة التعرف على الكيانات:

دقة - يشير هذا إلى جزء الكيانات التي تم اكتشافها بواسطة أداة التعرف التي تم تحديدها وتسميتها بشكل صحيح. من منظور مختلف ، يمكن تعريف الدقة على أنها ن / (ن + فب)، حيث tp هو عدد الإيجابيات الحقيقية (التعريفات الصحيحة) و fp هو عدد الإيجابيات الكاذبة (التعريفات غير الصحيحة).
تذكر - يشير هذا إلى جزء الكيانات الموجودة في المستندات التي تم تحديدها وتسميتها بشكل صحيح. يتم حسابها على أنها ن / (ن + الجبهة الوطنية)، حيث tp هو عدد الإيجابيات الحقيقية و fn هو عدد السلبيات الكاذبة (عدم تحديد الهوية).
نتيجة F1 - هذا هو مزيج من الدقة ومقاييس الاسترجاع ، والتي تقيس الدقة الكلية للنموذج. درجة F1 هي المتوسط التوافقي لمقاييس الدقة والاسترجاع ، ويتم حسابها على أنها 2 * الدقة * استدعاء / (الدقة + الاستدعاء).

لمقارنة أداء أدوات التعرف على الكيانات لدينا ، فإننا نركز على درجات F1.

بالنظر إلى أنه ، بالنظر إلى مجموعة البيانات وحجم العينة الفرعية (من حيث عدد المستندات واللقطات) ، يمكنك إنشاء عينات فرعية مختلفة ، فقد أنشأنا 10 عينات فرعية لكل تكوين من التكوينات التسعة ، وقمنا بتدريب نماذج التعرف على الكيانات ، ومقاييس الأداء المجمعة ، و متوسطهم باستخدام المتوسط الجزئي. سمح لنا هذا بالحصول على نتائج أكثر ثباتًا ، خاصةً بالنسبة للعينات الفرعية ذات اللقطات القليلة.

النتائج

يوضح الجدول التالي درجات F1 ذات المتوسط الجزئي المحسوبة على مقاييس الأداء التي تم إرجاعها بواسطة Amazon Comprehend بعد تدريب كل أداة التعرف على الكيانات.

اسم مجموعة البيانات الفرعية	درجة F1 متوسطة الصغر لأداة التعرف على الكيانات (٪)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

يوضح مخطط العمود التالي توزيع درجات F1 للتكوينات التسعة التي قمنا بتدريبها كما هو موضح في القسم السابق.

يمكننا أن نلاحظ أننا تمكنا من تدريب نماذج التعرف على الكيانات المخصصة بنجاح حتى مع وجود 25 تعليقًا توضيحيًا لكل نوع كيان. إذا ركزنا على أصغر ثلاث مجموعات بيانات فرعية مجمعة (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aو snips-PlayMusic-subsample-A) ، نرى أنه في المتوسط ، تمكنا من تحقيق درجة F1 بنسبة 84٪ ، وهي نتيجة جيدة جدًا بالنظر إلى العدد المحدود من المستندات والتعليقات التوضيحية التي استخدمناها. إذا أردنا تحسين أداء نموذجنا ، فيمكننا جمع مستندات وتعليقات توضيحية إضافية وتدريب نموذج جديد بمزيد من البيانات. على سبيل المثال ، مع العينات الفرعية متوسطة الحجم (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bو snips-PlayMusic-subsample-B) ، التي تحتوي على ضعف عدد المستندات والتعليقات التوضيحية ، حصلنا في المتوسط على درجة F1 تبلغ 88٪ (تحسن بنسبة 5٪ فيما يتعلق بـ subsample-A مجموعات البيانات). أخيرًا ، مجموعات البيانات الفرعية الأكبر حجمًا (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cو snips-PlayMusic-subsample-C) ، والتي تحتوي على المزيد من البيانات المشروحة (حوالي أربعة أضعاف عدد المستندات والتعليقات التوضيحية المستخدمة فيها subsample-A مجموعات البيانات) ، تحسنًا إضافيًا بنسبة 2٪ ، مما رفع متوسط درجة F1 إلى 90٪.

وفي الختام

في هذا المنشور ، أعلنا عن تخفيض الحد الأدنى لمتطلبات تدريب أداة التعرف على الكيانات المخصصة باستخدام Amazon Comprehend ، وقمنا بتنفيذ بعض المعايير على مجموعات بيانات مفتوحة المصدر لإظهار كيف يمكن أن يساعدك هذا التخفيض في البدء. بدءًا من اليوم ، يمكنك إنشاء نموذج التعرف على الكيان بعدد أقل من 25 تعليقًا توضيحيًا لكل نوع كيان (بدلاً من 100) وثلاثة مستندات على الأقل (بدلاً من 250). من خلال هذا الإعلان ، نقوم بتخفيض الحاجز أمام دخول المستخدمين المهتمين باستخدام تقنية التعرف على الكيانات المخصصة من Amazon Comprehend. يمكنك الآن بدء تشغيل تجاربك بمجموعة صغيرة جدًا من المستندات المشروحة ، وتحليل النتائج الأولية ، والتكرار من خلال تضمين تعليقات توضيحية ومستندات إضافية إذا كنت بحاجة إلى نموذج أكثر دقة للتعرف على الكيان لحالة الاستخدام الخاصة بك.

لمعرفة المزيد والبدء باستخدام أداة التعرف على الكيانات المخصصة ، ارجع إلى التعرف على الكيان المخصص.

شكر خاص لزملائي جيوتي بانسال وجي ما لمساعدتهم الثمينة في إعداد البيانات ووضع المعايير.

عن المؤلف

لوكا جويدا هو مهندس حلول في AWS ؛ يقيم في ميلانو ويدعم موردي البرامج المستقلين (ISV) الإيطاليين في رحلتهم السحابية. مع خلفية أكاديمية في علوم الكمبيوتر والهندسة ، بدأ في تطوير شغفه بالذكاء الاصطناعي / تعلم الآلة في الجامعة. بصفته عضوًا في مجتمع معالجة اللغة الطبيعية (NLP) داخل AWS ، يساعد Luca العملاء على تحقيق النجاح أثناء اعتماد خدمات AI / ML.

الطابع الزمني: 3 أغسطس 20223 أغسطس 2022

الطابع الزمني: نوفمبر 7، 2022

تعلن Amazon Comprehend عن حدود أقل للتعليقات التوضيحية للتعرف على الكيانات المخصصة

أعاد نشره أفلاطون

إعداد مجموعة البيانات

تكوين أخذ العينات وعملية قياس الأداء

النتائج

وفي الختام

عن المؤلف

اكثر من التعلم الآلي من AWS

تنبؤ قوي بالسلاسل الزمنية باستخدام MLOps على Amazon SageMaker | خدمات الويب الأمازون

التنبؤ المتضخم باستخدام خوارزميات جدولة مدمجة من Amazon SageMaker LightGBM و CatBoost و TabTransformer و AutoGluon-Tabular

أطلق العنان لرؤى تعلم الآلة باستخدام معالج ميزات متجر Amazon SageMaker | خدمات الويب الأمازون

قم بتوفير مساعدة الوكيل المباشر لمستخدمي chatbot لديك من خلال مركز الاتصال السحابي Amazon Lex وTalkdesk | خدمات الويب الأمازون

إنشاء تطبيقات الذكاء الاصطناعي التوليدية الجاهزة للإنتاج للبحث في المؤسسات باستخدام خطوط أنابيب Haystack و Amazon SageMaker JumpStart مع LLMs | خدمات أمازون ويب

تعمل المكتبة المتوازية لنموذج Amazon SageMaker الآن على تسريع أعباء عمل PyTorch FSDP بنسبة تصل إلى 20% | خدمات الويب الأمازون

إعداد بيانات فعال من حيث التكلفة للتعلم الآلي باستخدام SageMaker Data Wrangler

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي