شهد الذكاء الاصطناعي (AI) والتعلم الآلي (ML) اعتماداً واسع النطاق عبر المؤسسات والمؤسسات الحكومية. أصبحت معالجة البيانات غير المنظمة أسهل مع التقدم في معالجة اللغات الطبيعية (NLP) وخدمات الذكاء الاصطناعي/التعلم الآلي سهلة الاستخدام مثل أمازون تيكستراك, الأمازون النسخو فهم الأمازون. بدأت المؤسسات في استخدام خدمات الذكاء الاصطناعي/التعلم الآلي مثل Amazon Comprehend لبناء نماذج تصنيف باستخدام بياناتها غير المنظمة للحصول على رؤى عميقة لم تكن لديها من قبل. على الرغم من أنه يمكنك استخدام النماذج المدربة مسبقًا بأقل جهد، دون تنظيم البيانات وضبط النموذج بشكل مناسب، إلا أنه لا يمكنك تحقيق الفوائد الكاملة لنماذج الذكاء الاصطناعي/تعلم الآلة.
في هذا المنشور، نشرح كيفية إنشاء نموذج تصنيف مخصص وتحسينه باستخدام Amazon Comprehend. نوضح ذلك باستخدام تصنيف Amazon Comprehend المخصص لبناء نموذج تصنيف مخصص متعدد التصنيفات، وتقديم إرشادات حول كيفية إعداد مجموعة بيانات التدريب وضبط النموذج لتلبية مقاييس الأداء مثل الدقة والدقة والاستدعاء ودرجة F1. نحن نستخدم عناصر مخرجات تدريب نموذج Amazon Comprehend مثل مصفوفة الارتباك لضبط أداء النموذج وإرشادك بشأن تحسين بيانات التدريب الخاصة بك.
حل نظرة عامة
يقدم هذا الحل طريقة لبناء نموذج تصنيف مخصص محسّن باستخدام Amazon Comprehend. نمر بعدة خطوات، بما في ذلك إعداد البيانات وإنشاء النموذج وتحليل قياس أداء النموذج وتحسين الاستدلال بناءً على تحليلنا. نحن نستخدم الأمازون SageMaker مفكرة و وحدة تحكم إدارة AWS لإكمال بعض هذه الخطوات.
نحن نتبع أيضًا أفضل الممارسات وتقنيات التحسين أثناء إعداد البيانات وبناء النماذج وضبط النماذج.
المتطلبات الأساسية المسبقة
إذا لم يكن لديك مثيل دفتر ملاحظات SageMaker، فيمكنك إنشاء واحد. للحصول على التعليمات، راجع قم بإنشاء مثيل Amazon SageMaker Notebook.
تحضير البيانات
في هذا التحليل، نستخدم مجموعة بيانات تصنيف التعليقات السامة من Kaggle. تحتوي مجموعة البيانات هذه على 6 تصنيفات تحتوي على 158,571 نقطة بيانات. ومع ذلك، فإن كل تصنيف يحتوي فقط على أقل من 10% من إجمالي البيانات كأمثلة إيجابية، مع وجود اثنتين من التصنيفات التي تحتوي على أقل من 1%.
نقوم بتحويل مجموعة بيانات Kaggle الحالية إلى Amazon فهم تنسيق CSV ذو عمودين مع تقسيم التسميات باستخدام محدد الأنبوب (|). تتوقع Amazon Comprehend تسمية واحدة على الأقل لكل نقطة بيانات. في مجموعة البيانات هذه، نواجه العديد من نقاط البيانات التي لا تندرج تحت أي من التصنيفات المقدمة. نقوم بإنشاء علامة جديدة تسمى "نظيفة" ونقوم بتعيين أي من نقاط البيانات غير السامة لتكون إيجابية مع هذه العلامة. أخيرًا، قمنا بتقسيم مجموعات البيانات المنسقة إلى مجموعات بيانات تدريب واختبار باستخدام نسبة 80/20 مقسمة لكل تصنيف.
سوف نستخدم دفتر إعداد البيانات. تستخدم الخطوات التالية مجموعة بيانات Kaggle وتقوم بإعداد البيانات لنموذجنا.
- في وحدة تحكم SageMaker ، اختر مثيلات دفتر الملاحظات في جزء التنقل.
- حدد مثيل دفتر الملاحظات الذي قمت بتكوينه واختر فتح كوكب المشتري.
- على جديد القائمة، اختر محطة.
- قم بتشغيل الأوامر التالية في الوحدة الطرفية لتنزيل العناصر المطلوبة لهذا المنشور:
- أغلق نافذة المحطة.
يجب أن تشاهد ثلاثة دفاتر ملاحظات و Train.csv الملفات.
- اختر دفتر الملاحظات إعداد البيانات.ipynb.
- قم بتشغيل كافة الخطوات الموجودة في دفتر الملاحظات.
تعمل هذه الخطوات على إعداد مجموعة بيانات Kaggle الأولية لتكون بمثابة مجموعات بيانات تدريب واختبار منسقة. سيتم تخزين مجموعات البيانات المنسقة في دفتر الملاحظات و خدمة تخزين أمازون البسيطة (أمازون S3).
ضع في اعتبارك إرشادات إعداد البيانات التالية عند التعامل مع مجموعات البيانات متعددة التصنيفات واسعة النطاق:
- يجب أن تحتوي مجموعات البيانات على 10 عينات على الأقل لكل تصنيف.
- يقبل Amazon Comprehend ما يصل إلى 100 ملصق كحد أقصى. وهذا حد ميسر يمكن زيادته.
- تأكد من أن ملف مجموعة البيانات تنسيقها بشكل صحيح مع الفاصل المناسب. يمكن أن تؤدي المحددات غير الصحيحة إلى تقديم تسميات فارغة.
- يجب أن تحتوي كافة نقاط البيانات على تسميات.
- يجب أن تحتوي مجموعات بيانات التدريب والاختبار على توزيع متوازن للبيانات لكل ملصق. لا تستخدم التوزيع العشوائي لأنه قد يؤدي إلى التحيز في مجموعات بيانات التدريب والاختبار.
بناء نموذج تصنيف مخصص
نحن نستخدم مجموعات بيانات التدريب والاختبار المنسقة التي أنشأناها أثناء خطوة إعداد البيانات لبناء نموذجنا. تقوم الخطوات التالية بإنشاء نموذج تصنيف مخصص متعدد التصنيفات من Amazon Comprehend:
- في وحدة تحكم Amazon Comprehend ، اختر تصنيف مخصص في جزء التنقل.
- اختار إنشاء نموذج جديد.
- في حالة نموذج اسم، أدخل نموذج تصنيف المواد السامة.
- في حالة اسم الإصدار، أدخل 1.
- في حالة الشرح وتنسيق البيانات، اختر استخدام وضع التسمية المتعددة.
- في حالة مجموعة بيانات التدريب، أدخل موقع مجموعة بيانات التدريب المنسقة على Amazon S3.
- اختار قدم العميل مجموعة بيانات الاختبار وأدخل موقع بيانات الاختبار المنسقة على Amazon S3.
- في حالة بيانات الناتج، أدخل موقع Amazon S3.
- في حالة دور IAM، حدد إنشاء دور IAM، حدد لاحقة الاسم كـ "comprehend-blog".
- اختار إنشاء لبدء التدريب على نموذج التصنيف المخصص وإنشاء النموذج.
تعرض لقطة الشاشة التالية تفاصيل نموذج التصنيف المخصص على وحدة تحكم Amazon Comprehend.
لحن لأداء النموذج
توضح لقطة الشاشة التالية مقاييس أداء النموذج. ويتضمن مقاييس أساسية مثل الدقة والاستدعاء ودرجة F1 والدقة والمزيد.
بعد تدريب النموذج وإنشائه، سيقوم بإنشاء ملف الإخراج.tar.gz، الذي يحتوي على التسميات من مجموعة البيانات بالإضافة إلى مصفوفة الارتباك لكل من التسميات. لضبط أداء التنبؤ للنموذج بشكل أكبر، يجب عليك فهم النموذج الخاص بك مع احتمالات التنبؤ لكل فئة. للقيام بذلك، تحتاج إلى إنشاء مهمة تحليل لتحديد الدرجات التي تم تعيينها بواسطة Amazon Comprehend لكل نقطة من نقاط البيانات.
أكمل الخطوات التالية لإنشاء مهمة تحليل:
- في وحدة تحكم Amazon Comprehend ، اختر وظائف التحليل في جزء التنقل.
- اختار خلق وظيفة.
- في حالة الاسم، أدخل
toxic_train_data_analysis_job
. - في حالة نوع التحليل، اختر تصنيف مخصص.
- في حالة نماذج التصنيف والحذافات، حدد
toxic-classification-model
. - في حالة التجريبية، حدد 1.
- في حالة إدخال بيانات الموقع S3، أدخل موقع ملف بيانات التدريب المنسق.
- في حالة تنسيق المدخلات، اختر مستند واحد في كل سطر.
- في حالة موقع بيانات الإخراج S3، أدخل الموقع.
- في حالة أذونات الوصول، حدد استخدم دور IAM موجود واختر الدور الذي تم إنشاؤه مسبقًا.
- اختار خلق وظيفة لبدء مهمة التحليل.
- إختار ال وظائف التحليل لمشاهدة تفاصيل الوظيفة. يرجى تدوين معرف الوظيفة ضمن تفاصيل الوظيفة. سنستخدم معرف الوظيفة في خطوتنا التالية.
كرر الخطوات لبدء مهمة التحليل لبيانات الاختبار المنسقة. نحن نستخدم مخرجات التنبؤ من وظائف التحليل لدينا للتعرف على احتمالات التنبؤ بنموذجنا. يرجى ملاحظة معرفات الوظائف الخاصة بوظائف تحليل التدريب والاختبار.
نستخدم نموذج عتبة التحليل.ipynb دفتر ملاحظات لاختبار المخرجات على جميع العتبات الممكنة وتسجيل المخرجات بناءً على احتمالية التنبؤ باستخدام برنامج scikit-learn precision_recall_curve
وظيفة. بالإضافة إلى ذلك، يمكننا حساب درجة F1 عند كل عتبة.
سنحتاج إلى معرف مهمة تحليل Amazon Comprehend كمدخل تحليل عتبة النموذج دفتر. يمكنك الحصول على معرفات الوظائف من وحدة تحكم Amazon Comprehend. تنفيذ كافة الخطوات في تحليل عتبة النموذج دفتر ملاحظات لمراعاة العتبات لجميع الصفوف.
لاحظ كيف ترتفع الدقة مع ارتفاع العتبة، بينما يحدث العكس مع الاستدعاء. للعثور على التوازن بين الاثنين، نستخدم درجة F1 حيث توجد قمم مرئية في منحنىها. تتوافق القمم في درجة F1 مع عتبة معينة يمكنها تحسين أداء النموذج. لاحظ كيف تقع معظم التسميات حول علامة 0.5 للحد الأدنى باستثناء علامة التهديد، التي تبلغ عتبة حوالي 0.04.
يمكننا بعد ذلك استخدام هذا الحد لتصنيفات محددة ذات أداء ضعيف باستخدام الحد الافتراضي 0.5 فقط. وباستخدام العتبات المحسنة، تتحسن نتائج النموذج على بيانات الاختبار لتهديد التسمية من 0.00 إلى 0.24. نحن نستخدم الحد الأقصى لدرجة F1 عند العتبة كمعيار لتحديد الإيجابية مقابل السلبية لهذه التسمية بدلاً من المعيار المشترك (قيمة قياسية مثل> 0.7) لجميع التسميات.
التعامل مع الفئات الممثلة تمثيلا ناقصا
هناك طريقة أخرى فعالة لمجموعة البيانات غير المتوازنة وهي الإفراط. من خلال الإفراط في أخذ عينات من الطبقة الممثلة تمثيلا ناقصا، يرى النموذج الطبقة الممثلة تمثيلا ناقصا في كثير من الأحيان ويؤكد على أهمية تلك العينات. نحن نستخدم ال الإفراط في تمثيل ناقص.ipynb دفتر الملاحظات لتحسين مجموعات البيانات.
بالنسبة لمجموعة البيانات هذه، قمنا باختبار كيفية تغير أداء النموذج في مجموعة بيانات التقييم عندما نقدم المزيد من العينات. نحن نستخدم تقنية الإفراط في أخذ العينات لزيادة حدوث الفئات الممثلة تمثيلا ناقصا لتحسين الأداء.
في هذه الحالة بالذات، قمنا باختبار 10، 25، 50، 100، 200، و500 مثال إيجابي. لاحظ أنه على الرغم من أننا نكرر نقاط البيانات، إلا أننا نعمل بطبيعتنا على تحسين أداء النموذج من خلال التأكيد على أهمية الفئة الممثلة تمثيلا ناقصا.
التكلفة
باستخدام Amazon Comprehend، يمكنك الدفع حسب الاستخدام بناءً على عدد أحرف النص التي تمت معالجتها. تشير إلى تسعير Amazon Comprehend للتكاليف الفعلية.
تنظيف
عند الانتهاء من تجربة هذا الحل، قم بتنظيف الموارد الخاصة بك لحذف كافة الموارد المنشورة في هذا المثال. وهذا يساعدك على تجنب التكاليف المستمرة في حسابك.
وفي الختام
في هذا المنشور، قدمنا أفضل الممارسات والإرشادات بشأن إعداد البيانات وضبط النماذج باستخدام احتمالات التنبؤ وتقنيات التعامل مع فئات البيانات الممثلة تمثيلا ناقصا. يمكنك استخدام أفضل الممارسات والتقنيات هذه لتحسين مقاييس الأداء لنموذج التصنيف المخصص الخاص بك في Amazon Comprehend.
لمزيد من المعلومات حول Amazon Comprehend، تفضل بزيارة Amazon Comprehend موارد المطورين للعثور على موارد الفيديو ومشاركات المدونات والرجوع إلى الأسئلة الشائعة حول فهم AWS.
حول المؤلف
ساتيا بالاكريشنان مهندس توصيل العملاء في فريق الخدمات الاحترافية في AWS ، متخصص في البيانات وحلول التعلم الآلي. يعمل مع عملاء ماليين فيدراليين في الولايات المتحدة. إنه متحمس لبناء حلول عملية لحل مشاكل عمل العملاء. في أوقات فراغه ، يستمتع بمشاهدة الأفلام والتنزه مع أسرته.
الأمير مالاري هو عالم بيانات في البرمجة اللغوية العصبية في فريق الخدمات الاحترافية في AWS ، وهو متخصص في تطبيقات البرمجة اللغوية العصبية لعملاء القطاع العام. إنه متحمس لاستخدام ML كأداة للسماح للعملاء بأن يكونوا أكثر إنتاجية. في أوقات فراغه ، يستمتع بلعب ألعاب الفيديو وتطوير لعبة مع أصدقائه.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- :لديها
- :يكون
- :أين
- $ UP
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- من نحن
- يقبل
- حسابي
- دقة
- في
- يقدم
- وبالإضافة إلى ذلك
- تبني
- التطورات
- AI
- AI / ML
- الكل
- السماح
- أيضا
- بالرغم ان
- أمازون
- فهم الأمازون
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- an
- تحليل
- و
- أي وقت
- التطبيقات
- تطبيقات البرمجة اللغوية العصبية
- نهج
- هي
- حول
- AS
- ممتلكات
- تعيين
- At
- تجنب
- AWS
- الرصيد
- على أساس
- BE
- لان
- أصبح
- قبل
- مؤشر
- الفوائد
- أفضل
- أفضل الممارسات
- ما بين
- انحياز
- المدونة
- المقالات والأخبار
- نساعدك في بناء
- ابني
- الأعمال
- by
- تسمى
- CAN
- يستطيع الحصول على
- حقيبة
- التغييرات
- الأحرف
- اختار
- فئة
- فصول
- تصنيف
- عميل
- التعليق
- مشترك
- إكمال
- فهم
- إحصاء
- تكوين
- ارتباك
- كنسولات
- يحتوي
- استمرار
- تحول
- التكاليف
- خلق
- خلق
- خلق
- من تنسيق
- كرأيشن
- منحنى
- على
- زبون
- العملاء
- البيانات
- نقاط البيانات
- تحضير البيانات
- عالم البيانات
- قواعد البيانات
- تعامل
- عميق
- الترتيب
- التوصيل
- شرح
- نشر
- تفاصيل
- حدد
- المطور
- تطوير
- توزيع
- do
- وثيقة
- لا
- بإمكانك تحميله
- أثناء
- كل
- أسهل
- الطُرق الفعّالة
- جهد
- يؤكد
- مؤكدا
- أدخل
- مشروع
- تقييم
- مثال
- أمثلة
- إلا
- تنفيذ
- القائمة
- تتوقع
- شرح
- f1
- فال
- للعائلات
- اتحادي
- قم بتقديم
- ملفات
- أخيرا
- مالي
- متابعيك
- في حالة
- الاصدقاء
- تبدأ من
- بالإضافة إلى
- وظيفة
- إضافي
- ألعاب
- توليد
- دولار فقط واحصل على خصم XNUMX% على جميع
- Go
- يذهب
- حكومة
- توجيه
- توجيه
- المبادئ التوجيهية
- مقبض
- يملك
- وجود
- he
- يساعد
- له
- كيفية
- كيفية
- لكن
- HTML
- HTTP
- HTTPS
- ID
- تحديد
- IDS
- أهمية
- تحسن
- تحسين
- in
- يشمل
- بما فيه
- القيمة الاسمية
- زيادة
- معلومات
- متأصل
- إدخال
- رؤى
- مثل
- بدلًا من ذلك
- تعليمات
- رؤيتنا
- إلى
- تقديم
- IT
- وظيفة
- المشــاريــع
- م
- القفل
- تُشير
- ملصقات
- لغة
- على نطاق واسع
- تعلم
- تعلم
- الأقل
- أقل
- مثل
- مما سيحدث
- موقع
- آلة
- آلة التعلم
- جعل
- إدارة
- علامة
- مصفوفة
- ماكس
- أقصى
- تعرف علي
- القائمة
- متري
- المقاييس
- ربما
- أدنى
- الحد الأدنى
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- أكثر
- أفلام
- يجب
- الاسم
- طبيعي
- معالجة اللغات الطبيعية
- قائمة الإختيارات
- حاجة
- سلبي
- جديد
- التالي
- البرمجة اللغوية العصبية
- مفكرة
- يلاحظ..
- عدد
- رصد
- ظهور
- of
- غالبا
- on
- ONE
- فقط
- التحسين
- الأمثل
- الأمثل
- تحسين
- المنظمات
- لنا
- الناتج
- خبز
- خاص
- عاطفي
- إلى
- أداء
- اختيار
- أنبوب
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لعب
- من فضلك
- البوينت
- نقاط
- إيجابي
- ممكن
- منشور
- المنشورات
- الممارسات
- واقعي
- دقة
- تنبؤ
- إعداد
- الهدايا
- سابقا
- مشاكل
- معالجتها
- معالجة
- مثمر
- محترف
- لائق
- تزود
- المقدمة
- جمهور
- جودة
- عشوائية
- نسبة
- الخام
- أدرك
- الرجوع
- مطلوب
- الموارد
- النتائج
- النوع
- sagemaker
- عالم
- أحرز هدفاً
- القطاع
- انظر تعريف
- رأيت
- يرى
- خدمة
- خدماتنا
- عدة
- ينبغي
- يظهر
- الاشارات
- ناعم
- حل
- الحلول
- حل
- بعض
- متخصصة
- محدد
- انقسم
- معيار
- بداية
- بدأت
- خطوة
- خطوات
- تخزين
- تخزين
- هذه
- أخذ
- فريق
- تقنية
- تقنيات
- محطة
- تجربه بالعربي
- اختبار
- نص
- من
- أن
- •
- من مشاركة
- then
- تشبه
- هم
- هؤلاء
- التهديد
- ثلاثة
- عتبة
- عبر
- الوقت
- إلى
- أداة
- الإجمالي
- متدرب
- قادة الإيمان
- اثنان
- مع
- ناقصا
- فهم
- us
- الفيدرالية الأمريكية
- تستخدم
- سهل الاستعمال
- استخدام
- قيمنا
- فيديو
- ألعاب الفيديو
- المزيد
- مرئي
- قم بزيارتنا
- vs
- مراقبة
- we
- الويب
- خدمات ويب
- حسن
- متى
- التي
- في حين
- واسع الانتشار
- سوف
- نافذة
- مع
- بدون
- أعمال
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت
- الرمز البريدي