أحدثت نماذج اللغة الكبيرة (LLMs) ثورة في مجال معالجة اللغة الطبيعية (NLP)، مما أدى إلى تحسين مهام مثل ترجمة اللغة، وتلخيص النص، وتحليل المشاعر. ومع ذلك، مع استمرار نمو هذه النماذج من حيث الحجم والتعقيد، أصبح مراقبة أدائها وسلوكها أمرًا صعبًا بشكل متزايد.
تعد مراقبة أداء وسلوك LLMs مهمة حاسمة لضمان سلامتهم وفعاليتهم. توفر بنيتنا المقترحة حلاً قابلاً للتطوير والتخصيص لمراقبة LLM عبر الإنترنت، مما يمكّن الفرق من تصميم حل المراقبة الخاص بك ليناسب حالات الاستخدام والمتطلبات المحددة الخاصة بك. باستخدام خدمات AWS، توفر بنيتنا رؤية في الوقت الفعلي لسلوك LLM وتمكن الفرق من تحديد أي مشكلات أو حالات شاذة ومعالجتها بسرعة.
في هذا المنشور، نعرض بعض المقاييس لمراقبة LLM عبر الإنترنت والبنية الخاصة بها للتوسع باستخدام خدمات AWS مثل الأمازون CloudWatch و AWS لامدا. يوفر هذا حلاً قابلاً للتخصيص يتجاوز ما هو ممكن تقييم النموذج وظائف مع أمازون بيدروك.
نظرة عامة على الحل
أول شيء يجب مراعاته هو أن المقاييس المختلفة تتطلب اعتبارات حسابية مختلفة. من الضروري وجود بنية معيارية، حيث يمكن لكل وحدة استيعاب بيانات الاستدلال النموذجي وإنتاج مقاييسها الخاصة.
نقترح أن تأخذ كل وحدة طلبات الاستدلال الواردة إلى LLM، وتمرير أزواج الموجه والإكمال (الاستجابة) إلى وحدات الحوسبة المترية. كل وحدة مسؤولة عن حساب المقاييس الخاصة بها فيما يتعلق بموجه الإدخال والإكمال (الاستجابة). يتم تمرير هذه المقاييس إلى CloudWatch، والتي يمكنها تجميعها والعمل مع تنبيهات CloudWatch لإرسال إشعارات بشأن ظروف محددة. ويوضح الرسم البياني التالي هذه البنية.
يتضمن سير العمل الخطوات التالية:
- يقدم المستخدم طلبًا إلى Amazon Bedrock كجزء من تطبيق أو واجهة مستخدم.
- يحفظ Amazon Bedrock الطلب والإكمال (الاستجابة) في خدمة تخزين أمازون البسيطة (Amazon S3) حسب التكوين الخاص بـ تسجيل الاستدعاء.
- يقوم الملف المحفوظ على Amazon S3 بإنشاء حدث يطلق وظيفة لامدا. تستدعي الدالة الوحدات النمطية.
- تقوم الوحدات بنشر المقاييس الخاصة بها مقاييس CloudWatch.
- وأجهزة الإنذار يمكن إخطار فريق التطوير بقيم القياس غير المتوقعة.
الشيء الثاني الذي يجب مراعاته عند تنفيذ مراقبة LLM هو اختيار المقاييس الصحيحة لتتبعها. على الرغم من وجود العديد من المقاييس المحتملة التي يمكنك استخدامها لمراقبة أداء LLM، إلا أننا نوضح بعضًا من أوسعها في هذا المنشور.
في الأقسام التالية، نسلط الضوء على عدد قليل من مقاييس الوحدة ذات الصلة وبنية وحدة الحوسبة المترية الخاصة بها.
التشابه الدلالي بين الموجه والاكتمال (الاستجابة)
عند تشغيل LLMs، يمكنك اعتراض الموجه والإكمال (الاستجابة) لكل طلب وتحويلها إلى عمليات تضمين باستخدام نموذج التضمين. التضمينات هي ناقلات عالية الأبعاد تمثل المعنى الدلالي للنص. أمازون تيتان يوفر مثل هذه النماذج من خلال Titan Embeddings. من خلال أخذ مسافة مثل جيب التمام بين هذين المتجهين، يمكنك تحديد مدى التشابه الدلالي بين الموجه والإكمال (الاستجابة). يمكنك استخدام SciPy or تعلم الحروف لحساب مسافة جيب التمام بين المتجهات. يوضح الرسم البياني التالي بنية وحدة الحوسبة المترية هذه.
يتضمن سير العمل هذا الخطوات الأساسية التالية:
- تتلقى وظيفة Lambda رسالة متدفقة عبر أمازون كينسيس يحتوي على زوج موجه وإكمال (استجابة).
- تحصل الدالة على تضمين لكل من الموجه والإكمال (الاستجابة)، وتحسب مسافة جيب التمام بين المتجهين.
- ترسل الوظيفة تلك المعلومات إلى مقاييس CloudWatch.
العاطفة والسمية
تسمح لك مراقبة المشاعر بقياس النغمة العامة والتأثير العاطفي للاستجابات، في حين يوفر تحليل السمية مقياسًا مهمًا لوجود لغة مسيئة أو غير محترمة أو ضارة في مخرجات LLM. وينبغي مراقبة أي تحولات في المشاعر أو السمية عن كثب للتأكد من أن النموذج يتصرف كما هو متوقع. يوضح الرسم البياني التالي وحدة الحساب المتري.
يتضمن سير العمل الخطوات التالية:
- تتلقى وظيفة Lambda زوجًا من المطالبات والإكمال (الاستجابة) من خلال Amazon Kinesis.
- من خلال تنسيق AWS Step Functions، تستدعي الوظيفة فهم الأمازون للكشف عن عاطفة و سمية.
- تقوم الوظيفة بحفظ المعلومات في مقاييس CloudWatch.
لمزيد من المعلومات حول اكتشاف المشاعر والسمية باستخدام Amazon Comprehend، راجع قم ببناء متنبئ قوي للسمية يعتمد على النص و قم بوضع علامة على المحتوى الضار باستخدام Amazon Comprehend لكشف السمية.
نسبة الرفض
زيادة حالات الرفض، كما هو الحال عندما يرفض LLM الاكتمال بسبب نقص المعلومات، قد يعني إما أن المستخدمين الضارين يحاولون استخدام LLM بطرق تهدف إلى كسر الحماية، أو أن توقعات المستخدمين لا يتم تلبيتها وأنهم يحصلون على استجابات ذات قيمة منخفضة. إحدى الطرق لقياس مدى تكرار حدوث ذلك هي مقارنة حالات الرفض القياسية من نموذج LLM المستخدم مع الاستجابات الفعلية من LLM. على سبيل المثال، فيما يلي بعض عبارات الرفض الشائعة في Anthropic's Claude v2 LLM:
“Unfortunately, I do not have enough context to provide a substantive response. However, I am an AI assistant created by Anthropic to be helpful, harmless, and honest.”
“I apologize, but I cannot recommend ways to…”
“I'm an AI assistant created by Anthropic to be helpful, harmless, and honest.”
في مجموعة ثابتة من المطالبات، يمكن أن تكون الزيادة في حالات الرفض هذه إشارة إلى أن النموذج أصبح شديد الحذر أو الحساسية. وينبغي أيضا تقييم الحالة العكسية. يمكن أن تكون إشارة إلى أن النموذج أصبح الآن أكثر عرضة للانخراط في محادثات سامة أو ضارة.
للمساعدة في سلامة النموذج ونسبة رفض النموذج، يمكننا مقارنة الاستجابة بمجموعة من عبارات الرفض المعروفة من LLM. قد يكون هذا مصنفًا فعليًا يمكنه تفسير سبب رفض النموذج للطلب. يمكنك قياس مسافة جيب التمام بين الاستجابة واستجابات الرفض المعروفة من النموذج الجاري مراقبته. يوضح الرسم البياني التالي وحدة الحساب المتري هذه.
يتكون سير العمل من الخطوات التالية:
- تتلقى وظيفة Lambda مطالبة وإكمالًا (استجابة) وتحصل على تضمين من الاستجابة باستخدام Amazon Titan.
- تحسب الوظيفة مسافة جيب التمام أو الإقليدية بين الاستجابة ومطالبات الرفض الموجودة المخزنة مؤقتًا في الذاكرة.
- ترسل الوظيفة هذا المتوسط إلى مقاييس CloudWatch.
خيار آخر هو استخدام مطابقة غامضة لنهج مباشر ولكن أقل قوة لمقارنة حالات الرفض المعروفة بمخرجات LLM. الرجوع إلى توثيق بايثون على سبيل المثال.
نبذة عامة
تعد إمكانية ملاحظة LLM ممارسة مهمة لضمان الاستخدام الموثوق والجدير بالثقة لـ LLM. يمكن أن تساعدك مراقبة وفهم وضمان دقة وموثوقية LLMs في تخفيف المخاطر المرتبطة بنماذج الذكاء الاصطناعي هذه. من خلال مراقبة الهلوسة والإكمال السيئ (الاستجابات) والمطالبات، يمكنك التأكد من بقاء LLM الخاص بك على المسار الصحيح وتقديم القيمة التي تبحث عنها أنت والمستخدمون لديك. في هذا المنشور، ناقشنا بعض المقاييس لعرض الأمثلة.
لمزيد من المعلومات حول تقييم نماذج الأساس، راجع استخدم SageMaker Clarify لتقييم نماذج الأساس، وتصفح المزيد مثال دفاتر الملاحظات متاح في مستودع جيثب لدينا. يمكنك أيضًا استكشاف طرق تفعيل تقييمات LLM على نطاق واسع تشغيل تقييم LLM على نطاق واسع باستخدام خدمات Amazon SageMaker Clarify وMLOps. وأخيرا، نوصي بالإشارة إلى تقييم نماذج اللغات الكبيرة من حيث الجودة والمسؤولية لمعرفة المزيد حول تقييم LLMs.
حول المؤلف
برونو كلاين هو أحد كبار مهندسي التعلم الآلي في ممارسة تحليلات الخدمات الاحترافية في AWS. إنه يساعد العملاء على تنفيذ حلول البيانات والتحليلات الضخمة. خارج العمل، يستمتع بقضاء الوقت مع العائلة والسفر وتجربة طعام جديد.
رشابه لوخاندي هو أحد كبار مهندسي البيانات وتعلم الآلة لدى ممارسة تحليلات الخدمات الاحترافية في AWS. إنه يساعد العملاء على تنفيذ حلول البيانات الضخمة والتعلم الآلي والتحليلات. خارج العمل، يستمتع بقضاء الوقت مع العائلة، والقراءة، والجري، ولعب الجولف.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/techniques-and-approaches-for-monitoring-large-language-models-on-aws/
- :لديها
- :يكون
- :ليس
- :أين
- 1
- 100
- 143
- 32
- 455
- 7
- a
- من نحن
- دقة
- يقدم
- إضافي
- العنوان
- مجموع
- AI
- مساعد AI
- نماذج الذكاء الاصطناعى
- يسمح
- أيضا
- بالرغم ان
- am
- أمازون
- فهم الأمازون
- أمازون كينسيس
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- an
- تحليل
- تحليلات
- و
- الشذوذ
- أنثروبي
- أي وقت
- تطبيق
- نهج
- اقتراب
- هندسة معمارية
- هي
- AS
- المساعد
- أسوشيتد
- At
- متاح
- المتوسط
- AWS
- الخدمات المهنية AWS
- وظائف خطوة AWS
- سيئة
- BE
- أصبح
- سلوك
- يجري
- ما بين
- Beyond
- كبير
- البيانات الكبيرة
- على حد سواء
- لكن
- by
- دعوات
- CAN
- لا تستطيع
- حقيبة
- الحالات
- حذر
- تحدي
- اختيار
- صنف
- عن كثب
- مشترك
- قارن
- مقارنة
- إكمال
- تعقيد
- فهم
- حساب
- إحصاء
- الحوسبة
- الشروط
- الاعداد
- نظر
- الاعتبارات
- يتكون
- محتوى
- سياق الكلام
- استمر
- المحادثات
- استطاع
- خلق
- يخلق
- حرج
- العملاء
- للتخصيص
- البيانات
- يسلم
- شرح
- بكشف أو
- التطوير التجاري
- فريق التطوير
- رسم بياني
- مختلف
- ناقش
- مسافة
- do
- اثنان
- كل
- فعالية
- إما
- تضمين
- تمكن
- تمكين
- جذب
- مهندس
- كاف
- ضمان
- ضمان
- تقييم
- تقييم
- تقييم
- تقييم
- التقييمات
- الحدث/الفعالية
- مثال
- أمثلة
- القائمة
- التوقعات
- متوقع
- شرح
- اكتشف
- للعائلات
- قليل
- حقل
- تين
- قم بتقديم
- أخيرا
- الاسم الأول
- ثابت
- متابعيك
- طعام
- في حالة
- دورة تأسيسية
- تبدأ من
- وظيفة
- وظائف
- مقياس
- يحصل
- الحصول على
- GitHub جيثب:
- الغولف
- النمو
- حدث
- الضارة
- يملك
- he
- مساعدة
- مفيد
- يساعد
- تسليط الضوء
- صادق
- كيفية
- لكن
- HTML
- HTTP
- HTTPS
- i
- تحديد
- يوضح
- التأثير
- تنفيذ
- تحقيق
- أهمية
- تحسين
- in
- يشمل
- الوارد
- القيمة الاسمية
- على نحو متزايد
- معلومات
- إدخال
- سلامة
- معد
- السطح البيني
- إلى
- معكوس
- يتضرع
- مسائل
- IT
- انها
- الهروب من السجن
- المشــاريــع
- JPG
- القفل
- معروف
- نقص
- لغة
- كبير
- تعلم
- تعلم
- أقل
- LLM
- أبحث
- آلة
- آلة التعلم
- جعل
- يصنع
- خبيث
- كثير
- تعني
- معنى
- قياس
- مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
- الرسالة
- قابل
- متري
- المقاييس
- تخفيف
- ML
- MLOps
- نموذج
- عارضات ازياء
- وحدات
- وحدة
- الوحدات
- مراقبة
- مراقبة
- مراقبة
- الأكثر من ذلك
- طبيعي
- معالجة اللغات الطبيعية
- ضروري
- جديد
- البرمجة اللغوية العصبية
- الإخطارات
- الآن
- of
- هجومي
- عروض
- غالبا
- on
- ONE
- منها
- online
- خيار
- or
- تزامن
- لنا
- الناتج
- النتائج
- في الخارج
- الكلي
- نظرة عامة
- الخاصة
- زوج
- أزواج
- جزء
- مرت
- مرور
- إلى
- أداء
- عبارات
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لعب
- ممكن
- منشور
- محتمل
- قوي
- ممارسة
- وجود
- معالجة
- إنتاج
- محترف
- مطالبات
- المقترح
- تزود
- ويوفر
- بايثون
- جودة
- بسرعة
- نسبة
- نادي القراءة
- في الوقت الحقيقي
- يتلقى
- نوصي
- الرجوع
- رفض
- رفض
- ذات الصلة
- الموثوقية
- الخدمة الموثوقة
- مستودع
- مثل
- طلب
- طلبات
- تطلب
- المتطلبات الأساسية
- احترام
- هؤلاء
- استجابة
- ردود
- مسؤول
- ثورة
- حق
- المخاطر
- قوي
- تشغيل
- السلامة
- sagemaker
- تم الحفظ
- تحجيم
- حجم
- الثاني
- أقسام
- دلالات الألفاظ
- إرسال
- يرسل
- كبير
- حساس
- عاطفة
- خدماتنا
- طقم
- التحولات
- ينبغي
- عرض
- سيجنل
- مماثل
- الاشارات
- المقاس
- حل
- الحلول
- بعض
- مكاني
- محدد
- الإنفاق
- معيار
- خطوة
- خطوات
- تخزين
- صريح
- تدفق
- هذه
- اقترح
- بالتأكيد
- خياط
- أخذ
- مع الأخذ
- مهمة
- المهام
- فريق
- فريق
- تقنيات
- نص
- أن
- •
- المعلومات
- من مشاركة
- منهم
- هناك.
- تشبه
- هم
- شيء
- عبر
- الوقت
- عملاق
- إلى
- TONE
- مسار
- تحول
- خدمات ترجمة
- السفر
- جدير بالثقة
- يحاول
- اثنان
- فهم
- غير متوقع
- تستخدم
- مستعمل
- مستخدم
- واجهة المستخدم
- المستخدمين
- استخدام
- قيمنا
- القيم
- بواسطة
- رؤية
- طريق..
- طرق
- we
- الويب
- خدمات ويب
- ابحث عن
- ما هي تفاصيل
- متى
- في حين
- التي
- لماذا
- ويكيبيديا
- مع
- للعمل
- سير العمل
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت