في هذا المنشور ، نوضح لك كيفية تنفيذ أحد أكثر النماذج المدربة مسبقًا على Hugging Face التي تم تنزيلها والمستخدمة لتلخيص النص ، ديستيلبارت-سي إن إن-12-6، داخل دفتر Jupyter باستخدام الأمازون SageMaker و مجموعة أدوات استدلال الوجه المعانقة من SageMaker. استنادًا إلى الخطوات الموضحة في هذا المنشور ، يمكنك محاولة تلخيص النص من ملف ويكي النص-2 بيانات تدار بواسطة fast.ai، متاح في سجل البيانات المفتوحة على AWS.
تتزايد أحجام البيانات العالمية على نطاق زيتابايت حيث تقوم الشركات والمستهلكون بتوسيع استخدامهم للمنتجات الرقمية والخدمات عبر الإنترنت. لفهم هذه البيانات المتزايدة بشكل أفضل ، تطورت تقنيات التعلم الآلي (ML) لمعالجة اللغة الطبيعية (NLP) لتحليل النص لمعالجة حالات الاستخدام التي تتضمن تلخيص النص ، والتعرف على الكيانات ، والتصنيف ، والترجمة ، والمزيد. تقدم AWS تدريبًا مسبقًا خدمات AWS AI يمكن دمجها في التطبيقات باستخدام استدعاءات API ولا تتطلب خبرة في تعلم الآلة. فمثلا، فهم الأمازون يمكن أن يؤدي مهام البرمجة اللغوية العصبية مثل التعرف على الكيانات المخصصة ، وتحليل المشاعر ، واستخراج العبارة الرئيسية ، ونمذجة الموضوع ، والمزيد لجمع الأفكار من النص. يمكن أن تؤدي تحليل النص على مجموعة متنوعة من اللغات لميزاته المختلفة.
يعد تلخيص النص أسلوبًا مفيدًا في فهم كميات كبيرة من البيانات النصية لأنه ينشئ مجموعة فرعية من المعلومات ذات المعنى السياقي من المستندات المصدر. يمكنك تطبيق تقنية البرمجة اللغوية العصبية (NLP) على المستندات والمقالات النصية الأطول ، مما يتيح استهلاكًا أسرع وفهرسة مستندات أكثر فاعلية ، على سبيل المثال لتلخيص ملاحظات المكالمات من الاجتماعات.
وجه يعانق هي مكتبة مشهورة مفتوحة المصدر للغة البرمجة اللغوية العصبية ، مع أكثر من 49,000 من النماذج المدربة مسبقًا بأكثر من 185 لغة مع دعم لأطر عمل مختلفة. تتمتع AWS و Hugging Face بامتداد شراكة يسمح بالتكامل السلس من خلال SageMaker مع مجموعة من حاويات التعلم العميق (DLC) من AWS للتدريب والاستدلال في PyTorch أو TensorFlow ومقدرات وتنبؤات Hugging Face لـ SageMaker Python SDK. تساعد هذه الإمكانات في SageMaker المطورين وعلماء البيانات على بدء استخدام البرمجة اللغوية العصبية على AWS بسهولة أكبر. عادةً ما تكون معالجة النصوص باستخدام المحولات في أطر التعلم العميق مثل PyTorch مهمة معقدة وتستغرق وقتًا طويلاً لعلماء البيانات ، وغالبًا ما تؤدي إلى الإحباط ونقص الكفاءة عند تطوير مشاريع البرمجة اللغوية العصبية. يعمل ظهور مجتمعات الذكاء الاصطناعي مثل Hugging Face ، جنبًا إلى جنب مع قوة خدمات ML في السحابة مثل SageMaker ، على تسريع وتبسيط تطوير مهام معالجة النصوص هذه. يساعدك SageMaker في بناء نماذج Hugging Face وتدريبها ونشرها وتشغيلها.
نظرة عامة على تلخيص النص
يمكنك تطبيق تلخيص النص لتحديد الجمل الأساسية داخل مستند أو تحديد الجمل الأساسية عبر مستندات متعددة. يمكن أن ينتج عن تلخيص النص نوعين من الملخصات: استخلاصي وتجريدي. لا تحتوي الملخصات الاستخراجية على أي نص تم إنشاؤه آليًا وهي مجموعة من الجمل المهمة المحددة من مستند الإدخال. تحتوي الملخصات التجريدية على عبارات وجمل جديدة يمكن للبشر قراءتها تم إنشاؤها بواسطة نموذج تلخيص النص. تعتمد معظم أنظمة تلخيص النص على التلخيص الاستخراجي نظرًا لصعوبة إجراء تلخيص دقيق للنص التجريدي.
يحتوي Hugging Face على أكثر من 400 جهاز تم تدريبه مسبقًا على أحدث طراز نماذج تلخيص النص المتاحة، وتنفيذ مجموعات مختلفة من تقنيات البرمجة اللغوية العصبية. يتم تدريب هذه النماذج على مجموعات بيانات مختلفة ، ويتم تحميلها وصيانتها بواسطة شركات التكنولوجيا وأعضاء مجتمع Hugging Face. يمكنك تصفية النماذج حسب الأكثر تنزيلًا أو الأكثر إعجابًا ، وتحميلها مباشرةً عند استخدام ملف تلخيص خط أنابيب Hugging Face محول API. يبسط محول Hugging Face عملية تنفيذ البرمجة اللغوية العصبية (NLP) بحيث يمكن ضبط نماذج البرمجة اللغوية العصبية عالية الأداء لتقديم ملخصات نصية ، دون الحاجة إلى معرفة واسعة بعملية تعلم الآلة.
تعانق نماذج تلخيص نص الوجه على AWS
تقدم SageMaker لمحللي الأعمال وعلماء البيانات ومهندسي MLOps مجموعة مختارة من الأدوات لتصميم وتشغيل أعباء عمل ML على AWS. توفر لك هذه الأدوات تنفيذًا واختبارًا أسرع لنماذج ML لتحقيق أفضل النتائج.
XNUMX. من قائمة مجموعة أدوات استدلال الوجه المعانقة من SageMaker، مكتبة مفتوحة المصدر ، نحدد ثلاث طرق مختلفة لتنفيذ واستضافة نماذج تلخيص نص Hugging Face باستخدام دفتر Jupyter:
- خط أنابيب تلخيص تعانق الوجه - إنشاء خط أنابيب تلخيص تعانق الوجه باستخدام "
summarization
"معرّف المهمة لاستخدام نموذج تلخيص افتراضي للنص للاستدلال داخل دفتر ملاحظات Jupyter. تعمل خطوط الأنابيب هذه على تجريد الكود المعقد ، مما يوفر لممارسي ML المبتدئين واجهة برمجة تطبيقات بسيطة لتنفيذ تلخيص النص بسرعة دون تكوين نقطة نهاية للاستدلال. يسمح خط الأنابيب أيضًا لممارس ML باختيار نموذج محدد مُدرَّب مسبقًا والمرمز المرتبط به. تقوم الرموز المميزة بإعداد النص ليكون جاهزًا كمدخل للنموذج عن طريق تقسيم النص إلى كلمات أو كلمات فرعية ، والتي يتم تحويلها بعد ذلك إلى معرفات من خلال جدول بحث. للتبسيط ، يوفر مقتطف الشفرة التالي الحالة الافتراضية عند استخدام خطوط الأنابيب. ال ديستيلبارت-سي إن إن-12-6 يعد النموذج أحد أكثر نماذج التلخيص التي تم تنزيلها على Hugging Face وهو ملف النموذج الافتراضي لخط أنابيب التلخيص. يستدعي السطر الأخير النموذج الذي تم تدريبه مسبقًا للحصول على ملخص للنص الذي تم تمريره وفقًا للوسيطتين المقدمتين. - نقطة نهاية SageMaker بنموذج مدرب مسبقًا - أنشئ نقطة نهاية SageMaker بنموذج مدرب مسبقًا من معانقة الوجه النموذجي المحور ونشره على نقطة نهاية للاستدلال ، مثل مثيل ml.m5.xlarge في مقتطف الشفرة التالي. تسمح هذه الطريقة لممارسي تعلم الآلة ذوي الخبرة باختيار نماذج مفتوحة المصدر محددة بسرعة ، وضبطها ، ونشر النماذج في حالات الاستدلال عالية الأداء.
- نقطة نهاية SageMaker بنموذج مدرب - أنشئ نقطة نهاية لنموذج SageMaker بنموذج مدرب مخزّن في ملف خدمة تخزين أمازون البسيطة (Amazon S3) ونشره على نقطة نهاية للاستدلال. تسمح هذه الطريقة لممارسي تعلم الآلة ذوي الخبرة بنشر نماذجهم المخزنة على Amazon S3 بسرعة في مثيلات الاستدلال عالية الأداء. يتم تنزيل النموذج نفسه من Hugging Face وضغطه ، ومن ثم يمكن تحميله إلى Amazon S3. هذه الخطوة موضحة في مقتطف الشفرة التالي:
لدى AWS العديد من الموارد المتاحة لمساعدتك في نشر أعباء عمل ML الخاصة بك. ال عدسة التعلم الآلي ل إطار عمل AWS المصمم جيدًا يوصي بأفضل ممارسات أعباء العمل ، بما في ذلك تحسين الموارد وخفض التكلفة. تضمن مبادئ التصميم الموصى بها هذه نشر أعباء عمل ML المصممة جيدًا على AWS في الإنتاج. التوصية بالاستدلال من Amazon SageMaker يساعدك على تحديد المثيل الصحيح لنشر نماذج ML الخاصة بك بأداء وتكلفة استدلال مثاليين. يُسرع مُوصي الاستدلال عملية نشر النموذج ويقلل من الوقت اللازم للتسويق عن طريق أتمتة اختبار الحمل وتحسين أداء النموذج عبر مثيلات ML.
في الأقسام التالية ، نوضح كيفية تحميل نموذج مدرب من حاوية S3 ونشره في مثيل استنتاج مناسب.
المتطلبات الأساسية المسبقة
في هذا الدليل ، يجب أن يكون لديك المتطلبات الأساسية التالية:
- An حساب AWS.
- دفتر Jupyter في الداخل أمازون ساجميكر ستوديو أو مثيلات دفتر SageMaker. في هذا المنشور ، نستخدم صورة "Python 3 (PyTorch 1.4 Python 3.6 CPU Optimized)" مع مقتطفات التعليمات البرمجية المتوفرة ، ولكن يمكنك استخدام أي نسخة أعلى من صورة PyTorch من حبات SageMaker المتاحة.
- مجموعة بيانات في حاوية S3 ، مثل ويكي النص-2 مجموعة البيانات من سجل البيانات المفتوحة على AWS.
قم بتحميل نموذج Hugging Face إلى SageMaker لاستنتاج تلخيص النص
استخدم الكود التالي لتنزيل نموذج تلخيص النص الذي تم تدريبه مسبقًا على Hugging Face ديستيلبارت-سي إن إن-12-6 و tokenizer الخاص به ، واحفظهم محليًا في SageMaker إلى دليل دفتر Jupyter الخاص بك:
قم بضغط نموذج تلخيص النص المحفوظ والرمز المميز الخاص به في تنسيق tar.gz وتحميل الأداة النموذجية المضغوطة إلى حاوية S3:
اختر صورة حاوية عامل ميناء الاستدلال لإجراء استنتاج تلخيص النص. حدد نظام التشغيل Linux ، وإطار عمل PyTorch ، وإصدار Hugging Face Transformer وحدد ملف الأمازون الحوسبة المرنة السحابية (Amazon EC2) نوع المثيل لتشغيل الحاوية.
تتوفر صورة Docker بتنسيق سجل الأمازون المرنة للحاويات (Amazon ECR) لحساب AWS نفسه ، ويتم إرجاع رابط صورة الحاوية هذه كمعرّف URI.
حدد نموذج تلخيص النص الذي سيتم نشره بواسطة صورة الحاوية المحددة التي تقوم بالاستدلال. في مقتطف الكود التالي ، يتم نشر النموذج المضغوط الذي تم تحميله إلى Amazon S3:
اختبر نموذج تلخيص النص المنشور على إدخال عينة:
استخدم Inference التوصية لتقييم مثيل EC2 الأمثل لمهمة الاستدلال
بعد ذلك ، قم بإنشاء نماذج حمولة متعددة من نص الإدخال بتنسيق JSON واضغطها في ملف حمولة واحد. يتم استخدام عينات الحمولة الصافية هذه بواسطة "مُوصي الاستدلال" لمقارنة أداء الاستدلال بين أنواع مثيلات EC2 المختلفة. يجب أن تتطابق كل حمولة نموذجية مع تنسيق JSON الموضح سابقًا. يمكنك الحصول على أمثلة من ويكي النص-2 بيانات تدار بواسطة fast.ai، متاح في سجل البيانات المفتوحة على AWS.
قم بتحميل أداة نموذج تلخيص النص المضغوط وملف حمولة العينة المضغوطة إلى حاوية S3. لقد قمنا بتحميل النموذج في خطوة سابقة ، ولكن من أجل التوضيح ، قمنا بتضمين الكود لتحميله مرة أخرى:
راجع قائمة نماذج ML القياسية المتوفرة على SageMaker عبر حدائق الحيوان النموذجية المشتركة، مثل البرمجة اللغوية العصبية ورؤية الكمبيوتر. حدد نموذج البرمجة اللغوية العصبية لإجراء استنتاج تلخيص النص:
يستخدم المثال التالي الامتداد bert-base-cased
نموذج البرمجة اللغوية العصبية. قم بتسجيل نموذج تلخيص النص في ملف سجل نموذج SageMaker مع المجال وإطار العمل والمهمة المحددين بشكل صحيح من الخطوة السابقة. يتم عرض معلمات هذا المثال في بداية مقتطف الشفرة التالي.
لاحظ نطاق أنواع مثيلات EC2 التي سيتم تقييمها بواسطة Inference التوصية تحت SupportedRealtimeInferenceInstanceTypes
في الكود التالي. تأكد من أن ملف حدود الخدمة لحساب AWS تسمح بنشر هذه الأنواع من عقد الاستدلال.
قم بإنشاء وظيفة افتراضية لموصي الاستدلال باستخدام الامتداد ModelPackageVersion
الناتجة عن الخطوة السابقة. ال uuid
تُستخدم مكتبة Python لإنشاء اسم فريد للوظيفة.
يمكنك الحصول على حالة وظيفة Inference Consulter عن طريق تشغيل الكود التالي:
عندما تكون حالة الوظيفة COMPLETED
، قارن وقت استجابة الاستدلال ، ووقت التشغيل ، والمقاييس الأخرى لأنواع مثيلات EC2 التي تم تقييمها بواسطة الوظيفة الافتراضية Inference التوصية. حدد نوع العقدة المناسب بناءً على متطلبات حالة الاستخدام الخاصة بك.
وفي الختام
يقدم SageMaker طرقًا متعددة لاستخدام نماذج Hugging Face ؛ لمزيد من الأمثلة ، تحقق من عينات AWS GitHub. اعتمادًا على مدى تعقيد حالة الاستخدام والحاجة إلى ضبط النموذج ، يمكنك تحديد الطريقة المثلى لاستخدام هذه النماذج. يمكن أن تكون خطوط أنابيب Hugging Face نقطة انطلاق جيدة لتجربة النماذج المناسبة واختيارها بسرعة. عندما تحتاج إلى تخصيص النماذج المحددة وتحديد معلماتها ، يمكنك تنزيل النماذج ونشرها لنقاط نهاية الاستدلال المخصصة. لضبط النموذج بشكل أكبر لحالة استخدام معينة ، ستحتاج إلى تدريب النموذج بعد تنزيله.
تعمل نماذج البرمجة اللغوية العصبية بشكل عام ، بما في ذلك نماذج تلخيص النص ، بشكل أفضل بعد تدريبها على مجموعة بيانات خاصة بحالة الاستخدام. تتأكد ميزات MLOPs ومراقبة النموذج لـ SageMaker من أن النموذج المنشور يستمر في الأداء ضمن التوقعات. في هذا المنشور ، استخدمنا Inference توصية لتقييم نوع المثيل الأنسب لنشر نموذج تلخيص النص. يمكن لهذه التوصيات تحسين الأداء والتكلفة لحالة استخدام ML الخاصة بك.
حول المؤلف
نضال البيروتي هو مهندس حلول أول في Amazon Web Services ، ولديه شغف لحلول التعلم الآلي. يتمتع نضال بأكثر من 25 عامًا من الخبرة في العمل في مجموعة متنوعة من أدوار تكنولوجيا المعلومات العالمية على مختلف المستويات والقطاعات. يعمل نضال كمستشار موثوق للعديد من عملاء AWS لدعم وتسريع رحلة تبني السحابة الخاصة بهم.
دارين كو مهندس حلول مقره لندن. يقدم المشورة لعملاء الشركات الصغيرة والمتوسطة في المملكة المتحدة وأيرلندا بشأن إعادة الهندسة والابتكار على السحابة. دارين مهتم بالتطبيقات التي تم إنشاؤها باستخدام بنى بدون خادم وهو متحمس لحل تحديات الاستدامة من خلال التعلم الآلي.
- '
- "
- 000
- 10
- 100
- 28
- a
- من نحن
- الملخص
- تسريع
- حسابي
- دقيق
- التأهيل
- في
- العنوان
- تبني
- المستشار
- AI
- يسمح
- أمازون
- أمازون ويب سيرفيسز
- المبالغ
- تحليل
- API
- تفاح
- التطبيقات
- التقديم
- الحجج
- مقالات
- أسوشيتد
- أتمتة
- متاح
- منحت
- AWS
- لان
- البداية
- يجري
- أفضل
- أفضل الممارسات
- ما بين
- نساعدك في بناء
- الأعمال
- دعوة
- يستطيع الحصول على
- قدرات
- حقيبة
- الحالات
- التحديات
- خيار
- فئة
- تصنيف
- سحابة
- الكود
- مجموعة شتاء XNUMX
- تركيبات
- الجمع بين
- المجتمعات
- مجتمع
- الشركات
- مجمع
- إحصاء
- الكمبيوتر
- الاعداد
- المستهلكين
- استهلاك
- وعاء
- حاويات
- تواصل
- خلق
- يخلق
- على
- العملاء
- تصميم
- البيانات
- يوم
- عميق
- التوصيل
- شرح
- تظاهر
- اعتمادا
- نشر
- نشر
- نشر
- نشر
- تصميم
- المطورين
- تطوير
- التطوير التجاري
- مختلف
- صعبة
- رقمي
- مباشرة
- العرض
- عامل في حوض السفن
- با الطبيب
- وثائق
- نطاق
- المجالات
- بإمكانك تحميله
- كل
- بسهولة
- الطُرق الفعّالة
- كفاءة
- تمكين
- نقطة النهاية
- المهندسين
- كيان
- البيئة
- تقييم
- مثال
- أمثلة
- وسع
- التوقعات
- الخبره في مجال الغطس
- تمكنت
- تجربة
- واسع
- الوجه
- FAST
- أسرع
- المميزات
- متابعيك
- شكل
- الإطار
- الأطر
- تبدأ من
- العلاجات العامة
- توليد
- ولدت
- العالمية
- خير
- متزايد
- مساعدة
- مفيد
- يساعد
- أعلى
- كيفية
- كيفية
- HTTPS
- محور
- انسان قارئ
- تحديد
- صورة
- تنفيذ
- التنفيذ
- تحقيق
- أهمية
- تتضمن
- بما فيه
- معلومات
- ابتكار
- إدخال
- رؤى
- مثل
- المتكاملة
- التكامل
- يستفد
- أيرلندا
- IT
- نفسها
- وظيفة
- رحلة
- القفل
- المعرفة
- لغة
- اللغات
- كبير
- قيادة
- تعلم
- ومستوياتها
- المكتبة
- حدود
- خط
- LINK
- لينكس
- قائمة
- تحميل
- محليا
- لندن
- بحث
- آلة
- آلة التعلم
- جعل
- تجارة
- مباراة
- ذات مغزى
- اجتماعات
- الأعضاء
- المقاييس
- ML
- نموذج
- عارضات ازياء
- مراقبة
- الأكثر من ذلك
- أكثر
- متعدد
- طبيعي
- التالي
- العقد
- مفكرة
- ملاحظة
- الوهب
- عروض
- online
- جاكيت
- طريقة التوسع
- عملية
- الأمثل
- الأمثل
- تحسين
- أخرى
- الخاصة
- شغف
- عاطفي
- أداء
- أداء
- عبارات
- البوينت
- أكثر الاستفسارات
- قوة
- إعداد
- سابق
- عملية المعالجة
- معالجة
- إنتاج
- الإنتــاج
- المنتجات
- مشروع ناجح
- تزود
- المقدمة
- ويوفر
- بسرعة
- نطاق
- توصي
- تقليص
- منطقة
- تسجيل جديد
- طلب
- تطلب
- المتطلبات الأساسية
- الموارد
- مما أدى
- النوع
- يجري
- تشغيل
- نفسه
- حجم
- العلماء
- الإستراحة
- سلس
- مختار
- عاطفة
- Serverless
- خدمات
- طقم
- عدة
- أظهرت
- الاشارات
- عزباء
- So
- الحلول
- محدد
- بسرعة
- معيار
- بدأت
- دولة من بين الفن
- الحالة
- تخزين
- الدعم
- الاستدامة
- أنظمة
- المهام
- تقنيات
- تكنولوجيا
- الاختبار
- •
- ثلاثة
- عبر
- الوقت
- استهلاك الوقت
- أدوات
- موضوع
- قادة الإيمان
- خدمات ترجمة
- افضل
- أنواع
- عادة
- Uk
- مع
- فهم
- فهم
- فريد من نوعه
- تستخدم
- تشكيلة
- مختلف
- الإصدار
- القطاعات
- رؤيتنا
- مجلدات
- طرق
- الويب
- خدمات ويب
- في غضون
- بدون
- كلمات
- عامل
- X
- سنوات
- حل متجر العقارات الشامل الخاص بك في جورجيا