الهندسة السريعة هي مهمة من الأفضل تركها لنماذج الذكاء الاصطناعي

الهندسة السريعة هي مهمة من الأفضل تركها لنماذج الذكاء الاصطناعي

الهندسة السريعة هي مهمة من الأفضل تركها لنماذج الذكاء الاصطناعي PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

لقد أدت النماذج اللغوية الكبيرة إلى ظهور الفن المظلم للهندسة السريعة ــ وهي عملية إنشاء تعليمات النظام التي تثير استجابات أفضل لروبوتات الدردشة.

كما لوحظ في بحث حديث ورقة، "الفعالية غير المعقولة للمطالبات التلقائية الغريبة" بقلم ريك باتل وتيجا جولابودي من برنامج VMware الخاص بشركة Broadcom، فإن الاختلافات التي تبدو تافهة في صياغة المطالبات لها تأثير كبير على أداء النموذج.

أدى غياب منهجية متماسكة لتحسين أداء النموذج من خلال التحسين الفوري إلى قيام ممارسي التعلم الآلي بدمج ما يسمى "التفكير الإيجابي" في مطالبات النظام.

موجه النظام يرشد النموذج حول كيفية التصرف ويسبق استعلام المستخدم. وبالتالي، عند مطالبة نموذج الذكاء الاصطناعي بحل مشكلة رياضية، فإن نظام مطالبة مثل "أنت أستاذ في الرياضيات" ربما - ولكن ليس دائمًا - يؤدي إلى نتائج أفضل من حذف تلك العبارة.

قال ريك باتل، مهندس التعلم الآلي للموظفين في VMware السجل في مقابلة عبر الهاتف ينصح على وجه التحديد بعدم القيام بذلك. وأوضح أن "النقطة الأساسية في هذه الورقة هي أن التجربة والخطأ هي الطريقة الخاطئة للقيام بالأشياء".

مسار التفكير الإيجابي - حيث تقوم فقط بإدراج مقتطفات في رسالة النظام مثل "سيكون هذا ممتعًا!" وأشار إلى أنه يمكن أن يعزز أداء النموذج. "لكن اختبارها علميًا هو أمر مستعصي على الحل من الناحية الحسابية، لأنك تغير شيئًا واحدًا، ويجب عليك إعادة تشغيل مجموعة الاختبار بأكملها."

واقترح باتل أن النهج الأفضل هو التحسين الفوري التلقائي، أي الاستعانة بماجستير في القانون لتحسين المطالبات لتحسين الأداء في الاختبارات المعيارية.

بحث سابق لقد أظهر أن هذا يعمل مع LLMs التجارية. الجانب السلبي للقيام بذلك هو أنه يمكن أن يكون مكلفًا إلى حد ما. وفقًا للباحثين، فإن إجراء هذه التجربة التي تتضمن 12,000 طلب لكل نموذج باستخدام GPT-3.5/4 أو Gemini أو Claude كان سيكلف عدة آلاف من الدولارات.

أوضح باتل: "كان الهدف من البحث هو اكتشاف ما إذا كان من الممكن أيضًا استخدام نماذج أصغر حجمًا ومفتوحة المصدر كمُحسِّنات، وتبين أن الإجابة هي نعم".

قامت شركة Battle وGollapudi (التي لم تعد تستخدم Broadcom) باختبار 60 مجموعة من مقتطفات رسائل النظام، مع أو بدون سلسلة من الأفكار التي تحفز أكثر من ثلاثة نماذج مفتوحة المصدر - Mistral-7B، وLlama2-13B، وLlama2-70B - مع معلمات تتراوح من سبعة إلى 70 مليار دولار في مجموعة بيانات الرياضيات للمدرسة الابتدائية GSM8K.

قال باتل: "إذا كنت تقوم بتشغيل نموذج مفتوح المصدر، حتى وصولاً إلى النموذج 7B الذي كنا نستخدم ميسترال من أجله، إذا كان لديك ما لا يقل عن 100 عينة اختبار و100 عينة تحسين، فيمكنك الحصول على أداء أفضل". باستخدام أدوات التحسين التلقائية المضمنة خارج الصندوق DSPyوهي المكتبة التي نستخدمها للقيام بذلك.

بالإضافة إلى كونها أكثر فعالية، فإن التحسينات السريعة المشتقة من LLM تعرض إستراتيجيات ربما لم تكن لتحدث للموالفين الفوريين البشريين.

"من المثير للدهشة أنه يبدو أن كفاءة [Llama2-70B] في التفكير الرياضي يمكن تعزيزها من خلال التعبير عن التقارب لـ ستار تريك"، يلاحظ المؤلفون في ورقتهم.

يقرأ موجه النظام الكامل كما يلي:

رسالة النظام:

«أيها القائد، نريد منك رسم مسار عبر هذا الاضطراب وتحديد مصدر الشذوذ. استخدموا جميع البيانات المتاحة وخبراتكم لإرشادنا خلال هذا الوضع الصعب.»

بادئة الإجابة:

سجل الكابتن، تاريخ النجومية [أدخل التاريخ هنا]: لقد نجحنا في رسم مسار خلال الاضطراب ونقترب الآن من مصدر الشذوذ.

أخبرنا باتل: "ليس لدي أي تفسير جيد لسبب غرابة المطالبات التلقائية". "وبالتأكيد لم أكن لأتوصل إلى شيء كهذا باليد." ®

الطابع الزمني:

اكثر من السجل