المحادثات عبر الإنترنت منتشرة في كل مكان في الحياة الحديثة ، وتشمل الصناعات من ألعاب الفيديو إلى الاتصالات السلكية واللاسلكية. وقد أدى ذلك إلى نمو هائل في كمية بيانات المحادثة عبر الإنترنت ، مما ساعد في تطوير أحدث أنظمة معالجة اللغة الطبيعية (NLP) مثل روبوتات المحادثة ونماذج توليد اللغة الطبيعية (NLG). بمرور الوقت ، تطورت أيضًا العديد من تقنيات البرمجة اللغوية العصبية لتحليل النص. وهذا يستلزم الحاجة إلى خدمة مُدارة بالكامل يمكن دمجها في التطبيقات باستخدام استدعاءات واجهة برمجة التطبيقات دون الحاجة إلى خبرة واسعة في التعلم الآلي (ML). تقدم AWS خدمات AWS AI المدربة مسبقًا مثل فهم الأمازون، والتي يمكنها التعامل بفعالية مع حالات استخدام البرمجة اللغوية العصبية التي تتضمن التصنيف وتلخيص النص والتعرف على الكيانات والمزيد لجمع الأفكار من النص.
بالإضافة إلى ذلك ، أدت المحادثات عبر الإنترنت إلى انتشار ظاهرة الاستخدام غير التقليدي للغة. غالبًا ما تؤدي تقنيات البرمجة اللغوية العصبية التقليدية أداءً ضعيفًا في هذه البيانات النصية نظرًا للتطور المستمر والمفردات الخاصة بالمجال الموجودة داخل منصات مختلفة ، بالإضافة إلى الانحرافات المعجمية الكبيرة للكلمات عن اللغة الإنجليزية الصحيحة ، إما عن طريق الصدفة أو عن قصد كشكل من أشكال الهجوم العدائي .
في هذا المنشور ، نصف مناهج ML متعددة لتصنيف النص للمحادثات عبر الإنترنت باستخدام الأدوات والخدمات المتاحة على AWS.
المتطلبات الأساسية المسبقة
قبل التعمق في حالة الاستخدام هذه ، يرجى إكمال المتطلبات الأساسية التالية:
- قم بإعداد ملف حساب AWS و إنشاء مستخدم IAM.
- إعداد AWS CLI و مجموعات AWS SDK.
- (اختياري) قم بإعداد بيئة Cloud9 IDE.
بيانات
لهذا المنصب ، نستخدم بانوراما التحيز غير المقصود في مجموعة بيانات تصنيف السمية، وهو معيار للمشكلة المحددة لتصنيف السمية في المحادثات عبر الإنترنت. توفر مجموعة البيانات تسميات السمية بالإضافة إلى العديد من سمات المجموعات الفرعية مثل الفاحشة وهجوم الهوية والإهانة والتهديد والجنس الصريح. يتم توفير التسميات كقيم كسرية ، والتي تمثل نسبة المعلقين من البشر الذين اعتقدوا أن السمة مطبقة على جزء معين من النص ، والتي نادرًا ما تكون بالإجماع. لإنشاء ملصقات ثنائية (على سبيل المثال ، سامة أو غير سامة) ، يتم تطبيق حد 0.5 على القيم الكسرية ، ويتم التعامل مع التعليقات ذات القيم الأكبر من الحد على أنها فئة موجبة لذلك الملصق.
تضمين الكلمات الفرعية و RNNs
بالنسبة لنهج النمذجة الأول لدينا ، نستخدم مزيجًا من تضمين الكلمات الفرعية والشبكات العصبية المتكررة (RNNs) لتدريب نماذج تصنيف النص. تم تقديم حفلات الزفاف الفرعية بواسطة Bojanowski et al. في عام 2017 كتحسين على طرق التضمين السابقة على مستوى الكلمات. يتم تدريب نماذج Word2Vec للتخطي التقليدية لتعلم تمثيل متجه ثابت للكلمة المستهدفة التي تتنبأ بشكل مثالي بسياق هذه الكلمة. من ناحية أخرى ، تمثل نماذج الكلمات الفرعية كل كلمة مستهدفة كحقيبة من الحرف n-grams التي تتكون منها الكلمة ، حيث يتكون n-gram من مجموعة من الأحرف المتتالية n. تسمح هذه الطريقة لنموذج التضمين بتمثيل التشكل الأساسي للكلمات ذات الصلة في الجسم بشكل أفضل بالإضافة إلى حساب الزخارف للكلمات الجديدة غير المفردات (OOV). هذا مهم بشكل خاص في سياق المحادثات عبر الإنترنت ، وهي مساحة مشكلة غالبًا ما يخطئ فيها المستخدمون في تهجئة الكلمات (أحيانًا عن قصد لتجنب الاكتشاف) ويستخدمون أيضًا مفردات فريدة ومتطورة باستمرار قد لا يتم التقاطها بواسطة مجموعة تدريب عامة.
الأمازون SageMaker يجعل من السهل تدريب نموذج تضمين الكلمات الفرعية غير الخاضع للإشراف وتحسينه على مجموعة البيانات النصية الخاصة بالمجال باستخدام المحتوى المدمج خوارزمية BlazingText. يمكننا أيضًا تنزيل النماذج الحالية للأغراض العامة المُدرَّبة على مجموعات كبيرة من البيانات النصية عبر الإنترنت ، مثل ما يلي نماذج اللغة الإنجليزية متاحة مباشرة من fastText. من مثيل دفتر SageMaker الخاص بك ، ما عليك سوى تشغيل ما يلي لتنزيل نموذج نص سريع تم اختباره مسبقًا:
سواء كنت قد دربت حفلات الزفاف الخاصة بك باستخدام BlazingText أو قمت بتنزيل نموذج تم اختباره مسبقًا ، فإن النتيجة هي نموذج ثنائي مضغوط يمكنك استخدامه مع مكتبة gensim لتضمين كلمة مستهدفة معينة كمتجه بناءً على الكلمات الفرعية المكونة لها:
بعد أن نعالج مقطعًا معينًا من النص مسبقًا ، يمكننا استخدام هذا النهج لإنشاء تمثيل متجه لكل كلمة من الكلمات المكونة (مفصولة بمسافات). ثم نستخدم SageMaker وإطار عمل التعلم العميق مثل PyTorch لتدريب RNN مخصص مع هدف تصنيف ثنائي أو متعدد التسميات للتنبؤ بما إذا كان النص سامًا أم لا والنوع الفرعي المحدد للسمية بناءً على أمثلة التدريب المصنفة.
لتحميل النص المعالج مسبقًا إلى خدمة تخزين أمازون البسيطة (Amazon S3) ، استخدم الكود التالي:
لبدء تدريب نموذج قابل للتطوير متعدد وحدات معالجة الرسومات باستخدام SageMaker ، أدخل الكود التالي:
ضمن ، نحدد مجموعة بيانات PyTorch التي يستخدمها train.py
لإعداد البيانات النصية للتدريب وتقييم النموذج:
لاحظ أن هذا الرمز يتوقع أن ملف vectors.zip
سيتم تخزين ملف يحتوي على fastText أو BlazingText الخاص بك في حفلات الزفاف .
بالإضافة إلى ذلك ، يمكنك بسهولة نشر نماذج fastText المدربة مسبقًا بمفردها لتعيش نقاط نهاية SageMaker لحساب متجهات التضمين أثناء التنقل لاستخدامها في المهام ذات الصلة على مستوى الكلمات. انظر ما يلي مثال على جيثب لمزيد من التفاصيل.
محولات ذات وجه معانق
بالنسبة لنهج النمذجة الثاني الخاص بنا ، ننتقل إلى استخدام المحولات ، المقدمة في الورقة الاهتمام هو كل ما تحتاجه. المحولات هي نماذج تعليمية عميقة مصممة لتتجنب عمدًا مآزق RNNs من خلال الاعتماد على آلية الاهتمام الذاتي لرسم التبعيات العالمية بين المدخلات والمخرجات. تسمح بنية نموذج المحولات بموازنة أفضل بشكل ملحوظ ويمكن أن تحقق أداءً عاليًا في وقت تدريب قصير نسبيًا.
مبني على نجاح Transformers ، BERT ، الذي تم تقديمه في الورقة BERT: التدريب المسبق لمحولات ثنائية الاتجاه عميقة لفهم اللغة، إضافة تدريب ثنائي الاتجاه لتمثيل اللغة. مستوحى من مهمة Cloze ، تم تدريب BERT مسبقًا على نمذجة اللغة المقنعة (MLM) ، حيث يتعلم النموذج استرداد الكلمات الأصلية للرموز المقنعة بشكل عشوائي. يتم أيضًا اختبار نموذج BERT مسبقًا في مهمة التنبؤ بالجمل التالية (NSP) للتنبؤ بما إذا كانت جملتان في ترتيب قراءة صحيح. منذ ظهوره في عام 2018 ، تم استخدام BERT وأشكاله المختلفة على نطاق واسع في مهام تصنيف النص.
يستخدم حلنا نوعًا مختلفًا من BERT يُعرف باسم RoBERTa ، والذي تم تقديمه في الورق RoBERTa: نهج BERT مُحسَّن بقوة قبل التدريب المسبق. تعمل RoBERTa أيضًا على تحسين أداء BERT في مجموعة متنوعة من مهام اللغة الطبيعية من خلال تدريب النموذج الأمثل ، بما في ذلك نماذج التدريب الأطول على مجموعة أكبر بعشر مرات ، باستخدام المعلمات الفائقة المُحسَّنة ، والإخفاء العشوائي الديناميكي ، وإزالة مهمة NSP ، والمزيد.
تستخدم نماذجنا المستندة إلى RoBERTa ملف تعانق محولات الوجه Library ، وهي إطار عمل Python شائع مفتوح المصدر يوفر تطبيقات عالية الجودة لجميع أنواع نماذج Transformer الحديثة لمجموعة متنوعة من مهام البرمجة اللغوية العصبية. عقدت Hugging Face شراكة مع AWS لتمكينك من تدريب ونشر نماذج Transformer بسهولة على SageMaker. هذه الوظيفة متاحة من خلال صور حاوية AWS Deep Learning Container المعانقة للوجه، والتي تشمل مكتبات Transformers و Tokenizers ومجموعات البيانات والتكامل الأمثل مع SageMaker للتدريب والاستدلال على النموذج.
في تطبيقنا ، نرث العمود الفقري لمعمارية RoBERTa من إطار عمل Hugging Face Transformers ونستخدم SageMaker لتدريب ونشر نموذج تصنيف النص الخاص بنا ، والذي نسميه RoBERTox. يستخدم RoBERTox تشفير زوج البايت (BPE) المقدم في الترجمة الآلية العصبية للكلمات النادرة مع وحدات الكلمات الفرعية، لترميز نص الإدخال في تمثيلات الكلمات الفرعية. يمكننا بعد ذلك تدريب النماذج والمميزات الخاصة بنا على بيانات Jigsaw أو أي مجموعة كبيرة خاصة بالمجال (مثل سجلات الدردشة من لعبة معينة) واستخدامها لتصنيف نص مخصص. نحدد فئة نموذج التصنيف المخصص لدينا في الكود التالي:
قبل التدريب ، نقوم بإعداد بياناتنا النصية والتسميات باستخدام مكتبة مجموعات بيانات Hugging Face وتحميل النتيجة إلى Amazon S3:
نبدأ تدريب النموذج بطريقة مماثلة لـ RNN:
أخيرًا ، يوضح مقتطف شفرة Python التالي عملية تقديم RoBERTox عبر نقطة نهاية SageMaker الحية لتصنيف النص في الوقت الفعلي لطلب JSON:
تقييم أداء النموذج: مجموعة بيانات التحيز غير المقصود من Jigsaw
يحتوي الجدول التالي على مقاييس الأداء للنماذج التي تم تدريبها وتقييمها بناءً على بيانات من Jigsaw Unintended Bias في مسابقة Kaggle لاكتشاف السمية. قمنا بتدريب نماذج لثلاث مهام مختلفة ولكنها مترابطة:
- حالة ثنائية - تم تدريب النموذج على مجموعة بيانات التدريب الكاملة للتنبؤ بـ
toxicity
التسمية فقط - علبة حبيبات دقيقة - المجموعة الفرعية لبيانات التدريب الخاصة بها
toxicity>=0.5
تم استخدامه للتنبؤ بعلامات من النوع الفرعي للسمية الأخرى (obscene
,threat
,insult
,identity_attack
,sexual_explicit
) - حالة متعددة المهام - تم استخدام مجموعة بيانات التدريب الكاملة للتنبؤ بجميع التسميات الستة في وقت واحد
قمنا بتدريب نماذج RNN و RoBERTa لكل من هذه المهام الثلاث باستخدام الملصقات الكسرية التي توفرها Jigsaw ، والتي تتوافق مع نسبة المعلقين الذين اعتقدوا أن الملصق مناسب للنص ، بالإضافة إلى الملصقات الثنائية جنبًا إلى جنب مع أوزان الفصل في الشبكة فقدان وظيفة. في مخطط وضع العلامات الثنائي ، تم تحديد النسب عند 0.5 لكل ملصق متاح (1 إذا كانت التسمية> = 0.5 ، 0 بخلاف ذلك) ، وتم ترجيح وظائف فقدان النموذج بناءً على النسب النسبية لكل تسمية ثنائية في مجموعة بيانات التدريب. في جميع الحالات ، وجدنا أن استخدام العلامات الكسرية أدى بشكل مباشر إلى أفضل أداء ، مما يشير إلى القيمة المضافة للمعلومات المتأصلة في درجة الاتفاق بين المعلقين.
نعرض مقياسين للنموذج: متوسط الدقة (AP) ، والذي يوفر ملخصًا لمنحنى الاسترجاع الدقيق عن طريق حساب المتوسط المرجح لقيم الدقة التي تم تحقيقها عند كل عتبة تصنيف ، والمنطقة الواقعة أسفل منحنى خاصية تشغيل المستقبل (AUC) ، والذي يجمع أداء النموذج عبر عتبات التصنيف فيما يتعلق بالمعدل الإيجابي الحقيقي والمعدل الإيجابي الخاطئ. لاحظ أن الفئة الحقيقية لمثيل نصي معين في مجموعة الاختبار تتوافق مع ما إذا كانت النسبة الحقيقية أكبر من أو تساوي 0.5 (1 إذا كانت التسمية> = 0.5 ، 0 بخلاف ذلك).
. | تضمين الكلمات الفرعية + RNN | روبرتا | ||
. | تسميات كسرية | تسميات ثنائية + ترجيح الفئة | تسميات كسرية | تسميات ثنائية + ترجيح الفئة |
ثنائي | AP = 0.746 ، الجامعة الأمريكية بالقاهرة = 0.966 | AP = 0.730 ، AUC = 0.963 | AP = 0.758 ، AUC = 0.966 | AP = 0.747 ، AUC = 0.963 |
بالغة الدقة | AP = 0.906 ، AUC = 0.909 | AP = 0.850 ، AUC = 0.851 | AP = 0.913 ، AUC = 0.913 | AP = 0.911 ، AUC = 0.912 |
تعدد المهام | AP = 0.721 ، الجامعة الأمريكية بالقاهرة = 0.972 | AP = 0.535 ، AUC = 0.907 | AP = 0.740 ، AUC = 0.972 | AP = 0.711 ، AUC = 0.961 |
وفي الختام
في هذا المنشور ، قدمنا طريقتين لتصنيف النص للمحادثات عبر الإنترنت باستخدام خدمات AWS ML. يمكنك تعميم هذه الحلول عبر منصات الاتصال عبر الإنترنت ، حيث من المرجح أن تستفيد صناعات مثل الألعاب بشكل خاص من القدرة المحسنة على اكتشاف المحتوى الضار. في المنشورات المستقبلية ، نخطط لمزيد من المناقشة حول بنية شاملة للنشر السلس للنماذج في حساب AWS الخاص بك.
إذا كنت ترغب في المساعدة في تسريع استخدامك لـ ML في منتجاتك وعملياتك ، فيرجى الاتصال بـ مختبر أمازون ML Solutions.
حول المؤلف
ريان براند هو عالم بيانات في مختبر حلول التعلم الآلي في أمازون. لديه خبرة خاصة في تطبيق التعلم الآلي على مشاكل الرعاية الصحية وعلوم الحياة ، وفي أوقات فراغه يستمتع بقراءة التاريخ والخيال العلمي.
سراف بهابيش هو عالم بيانات في Amazon ML Solutions Lab. قام بتطوير حلول AI / ML لعملاء AWS في مختلف الصناعات. تخصصه هو معالجة اللغات الطبيعية (NLP) وهو متحمس للتعلم العميق. يستمتع بقراءة الكتب والسفر خارج العمل.
ليوتونغ تشو هو عالم تطبيقي في Amazon ML Solutions Lab. يقوم ببناء حلول AI / ML مخصصة لعملاء AWS في مختلف الصناعات. وهو متخصص في معالجة اللغات الطبيعية (NLP) وهو متحمس للتعلم العميق متعدد الوسائط. إنه مغني غنائي ويستمتع بغناء الأوبرا خارج العمل.
سيا غلامى هو أحد كبار علماء البيانات في Amazon ML Solutions Lab ، حيث يقوم ببناء حلول AI / ML للعملاء في مختلف الصناعات. إنه متحمس لمعالجة اللغة الطبيعية (NLP) والتعلم العميق. خارج العمل ، تستمتع Sia بقضاء الوقت في الطبيعة ولعب التنس.
دانييل هورويتز هو مدير العلوم التطبيقية للذكاء الاصطناعي. يقود فريقًا من العلماء في Amazon ML Solutions Lab يعملون على حل مشكلات العملاء وتعزيز اعتماد السحابة باستخدام ML.
- '
- "
- 10
- 100
- 7
- a
- القدرة
- من نحن
- تسريع
- حسابي
- التأهيل
- تحقق
- في
- وأضاف
- تبني
- اتفاقية
- AI
- خدمات الذكاء الاصطناعي
- الكل
- يسمح
- أمازون
- كمية
- تحليل
- API
- التطبيقات
- تطبيقي
- التقديم
- تطبيق
- نهج
- اقتراب
- مناسب
- هندسة معمارية
- المنطقة
- سمات
- متاح
- المتوسط
- AWS
- حقيبة
- مؤشر
- تستفيد
- أفضل
- أفضل
- ما بين
- أكبر
- كُتُب
- يبني
- مدمج
- دعوة
- حقيبة
- الحالات
- الأحرف
- فئة
- تصنيف
- سحابة
- الكود
- مجموعة
- الجمع بين
- تعليقات
- Communication
- منافسة
- إكمال
- تتألف
- حساب
- إحصاء
- الحوسبة
- على التوالي
- باستمرار
- التواصل
- وعاء
- يحتوي
- محتوى
- محادثة
- المحادثات
- خلق
- منحنى
- على
- زبون
- العملاء
- البيانات
- عالم البيانات
- عميق
- نشر
- نشر
- وصف
- تصميم
- تفاصيل
- كشف
- حدد
- التطوير التجاري
- مختلف
- بعد
- مباشرة
- بحث
- العرض
- بإمكانك تحميله
- قيادة
- أثناء
- ديناميكي
- كل
- بسهولة
- على نحو فعال
- تمكين
- النهائي إلى نهاية
- نقطة النهاية
- عربي
- أدخل
- كيان
- تقييم
- المتطورة
- مثال
- أمثلة
- القائمة
- الخبره في مجال الغطس
- خبرة
- واسع
- الوجه
- الأزياء
- خيال
- الاسم الأول
- متابعيك
- النموذج المرفق
- إلى الأمام
- وجدت
- كسري
- الإطار
- مجانًا
- تبدأ من
- بالإضافة إلى
- وظيفة
- وظيفة
- وظائف
- إضافي
- مستقبل
- لعبة
- ألعاب
- الألعاب
- العلاجات العامة
- هدف عام
- توليد
- جيل
- العالمية
- أكبر
- التسويق
- مقبض
- رئيس
- الرعاية الصحية
- مساعدة
- ساعد
- مرتفع
- عالي الجودة
- تاريخ
- HTTPS
- الانسان
- هوية
- التنفيذ
- أهمية
- تحسن
- تحسين
- تتضمن
- بما فيه
- الصناعات
- معلومات
- متأصل
- إدخال
- رؤى
- موحى
- مثل
- إهانة
- المتكاملة
- التكامل
- IT
- بانوراما
- وظيفة
- مفاتيح
- معروف
- مختبر
- تُشير
- وصفها
- ملصقات
- لغة
- كبير
- أكبر
- طبقة
- يؤدي
- تعلم
- تعلم
- ليد
- المكتبة
- علوم الحياة
- على الأرجح
- حي
- تحميل
- آلة
- آلة التعلم
- جعل
- يصنع
- تمكن
- مدير
- قناع
- ماسكات
- مباراة
- مصفوفة
- آلية
- مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
- طرق
- المقاييس
- ربما
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- متعدد
- طبيعي
- الطبيعة
- شبكة
- الشبكات
- التالي
- مفكرة
- عدد
- عروض
- online
- تعمل
- الأمثل
- الأمثل
- طلب
- أصلي
- أخرى
- وإلا
- الخاصة
- ورق
- خاصة
- شراكة
- عاطفي
- أداء
- قطعة
- منصات التداول
- لعب
- من فضلك
- أكثر الاستفسارات
- إيجابي
- المنشورات
- تنبأ
- تنبؤ
- إعداد
- سابق
- المشكلة
- مشاكل
- عملية المعالجة
- العمليات
- معالجة
- المنتجات
- إسقاط
- المقدمة
- ويوفر
- نادي القراءة
- في الوقت الحقيقي
- استعادة
- ذات الصلة
- إزالة
- مثل
- التمثيل
- تمثل
- طلب
- عائد أعلى
- عائدات
- النوع
- يجري
- تحجيم
- مخطط
- علوم
- علوم
- عالم
- العلماء
- سلس
- قطعة
- الخدمة
- خدمات
- خدمة
- طقم
- عدة
- قصير
- هام
- مماثل
- الاشارات
- منذ
- SIX
- مقاس
- حل
- الحلول
- حل
- الفضاء
- المساحات
- تتخصص
- تخصص
- محدد
- الإنفاق
- دولة من بين الفن
- المحافظة
- تخزين
- تحقيق النجاح
- أنظمة
- الهدف
- المهام
- فريق
- تقنيات
- الاتصالات
- تجربه بالعربي
- •
- ثلاثة
- عتبة
- عبر
- الوقت
- مرات
- الرموز
- أدوات
- شعلة
- تقليدي
- قطار
- قادة الإيمان
- انتقال
- خدمات ترجمة
- السفر
- مع
- فريد من نوعه
- تستخدم
- المستخدمين
- التحقق من صحة
- قيمنا
- تشكيلة
- مختلف
- فيديو
- ألعاب الفيديو
- سواء
- من الذى
- في غضون
- بدون
- كلمات
- للعمل
- عامل
- حل متجر العقارات الشامل الخاص بك في جورجيا