الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام

أعاد نشره أفلاطون

المتابعون: 0

الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام

لقد أدى نشر أنظمة الذكاء الاصطناعي القوية إلى إثراء فهمنا للسلامة وسوء الاستخدام بشكل أكبر بكثير مما كان يمكن تحقيقه من خلال البحث وحده. بشكل خاص:

غالبًا ما يأتي إساءة استخدام نموذج اللغة المستند إلى واجهة برمجة التطبيقات بأشكال مختلفة عما كنا نخشاه كثيرًا.
لقد حددنا قيودًا في تقييمات نماذج اللغة الحالية التي نعالجها بمعايير ومصنفات جديدة.
تقدم أبحاث السلامة الأساسية فوائد كبيرة للفائدة التجارية لأنظمة الذكاء الاصطناعي.

هنا ، نصف تفكيرنا الأخير على أمل مساعدة مطوري الذكاء الاصطناعي الآخرين على معالجة السلامة وإساءة استخدام النماذج المنشورة.

Over العامين الماضيين، لقد تعلمنا الكثير حول كيفية استخدام النماذج اللغوية وإساءة استخدامها - وهي رؤى لم يكن من الممكن اكتسابها بدون خبرة النشر في العالم الحقيقي. في يونيو 2020 ، بدأنا في منح حق الوصول للمطورين والباحثين إلى افتح AI API، واجهة للوصول إلى التطبيقات وإنشائها على رأس نماذج الذكاء الاصطناعي الجديدة التي طورتها شركة OpenAI. طرح نشر GPT-3 و Codex ونماذج أخرى بطريقة تقلل من مخاطر الضرر تحديات تقنية وسياساتية مختلفة.

نظرة عامة على نهج نشر النموذج الخاص بنا

نماذج اللغات الكبيرة قادرة الآن على أداء ملف مجموعة واسعة جدًا من المهام، في كثير من الأحيان خارج منطقة الجزاء. ملفات تعريف المخاطر الخاصة بهم ، والتطبيقات المحتملة ، والتأثيرات الأوسع على المجتمع لا تزال سيئة فهم. نتيجة لذلك ، يؤكد نهج النشر الخاص بنا على التكرار المستمر ، ويستخدم الاستراتيجيات التالية التي تهدف إلى تعظيم فوائد النشر مع تقليل المخاطر المصاحبة:

تحليل مخاطر ما قبل النشر ، والاستفادة من مجموعة متزايدة من تقييمات السلامة وأدوات الفريق الأحمر (على سبيل المثال ، قمنا بفحص InstructGPT الخاص بنا بحثًا عن أي تدهور في السلامة باستخدام التقييمات مشروح بالاسفل)
بدءًا من قاعدة مستخدمين صغيرة (على سبيل المثال ، كل من GPT-3 و تعليمات بدأت السلسلة كإصدارات تجريبية خاصة)
دراسة نتائج التجارب التجريبية لحالات الاستخدام الجديدة (على سبيل المثال ، استكشاف الظروف التي يمكننا بموجبها تمكين إنشاء محتوى طويل بأمان ، والعمل مع عدد صغير من العملاء)
تنفيذ العمليات التي تساعد في الحفاظ على نبض الاستخدام (على سبيل المثال ، مراجعة حالات الاستخدام والحصص المميزة وحدود المعدل)
إجراء مراجعات مفصلة بأثر رجعي (على سبيل المثال ، حوادث السلامة وعمليات النشر الرئيسية)

الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام

لاحظ أن هذا المخطط يهدف إلى نقل الحاجة إلى حلقات التغذية الراجعة بشكل مرئي في العملية المستمرة لتطوير النموذج ونشره وحقيقة أنه يجب دمج السلامة في كل مرحلة. لا يُقصد به نقل صورة كاملة أو مثالية لعملية مؤسستنا أو أي منظمة أخرى.

لا يوجد حل سحري للنشر المسؤول ، لذلك نحاول التعرف على قيود نماذجنا والسبل المحتملة لسوء الاستخدام ومعالجتها في كل مرحلة من مراحل التطوير والنشر. يتيح لنا هذا النهج التعلم قدر المستطاع حول قضايا السلامة والسياسة على نطاق صغير ودمج تلك الأفكار قبل إطلاق عمليات النشر على نطاق واسع.

لا يوجد حل سحري للنشر المسؤول.

على الرغم من أنها ليست شاملة ، إلا أن بعض المجالات التي استثمرنا فيها حتى الآن تشمل^[1]:

التدريب قبل البيانات التنظيم والتصفية
الكون المثالى نماذج إلى الأفضل اتبع التعليمات
تحليل مخاطر عمليات النشر المحتملة
توفير مستخدم مفصل توثيق
ابني أدوات لفحص مخرجات النموذج الضارة
مراجعة حالات الاستخدام الخاصة بنا سياسات الخصوصية والبيع
مراقبة علامات سوء استخدام
دراسة تأثيرات نماذجنا

نظرًا لأن كل مرحلة من مراحل التدخل لها حدود ، فمن الضروري اتباع نهج شامل.

هناك مجالات كان بإمكاننا القيام بالمزيد فيها وحيث لا يزال لدينا مجال للتحسين. على سبيل المثال ، عندما عملنا لأول مرة على GPT-3 ، نظرنا إليه على أنه أداة بحثية داخلية بدلاً من نظام إنتاج ولم نكن عدوانيين في تصفية بيانات التدريب السامة كما كنا لولا ذلك. لقد استثمرنا المزيد في البحث عن هذه المواد وإزالتها للنماذج اللاحقة. لقد استغرقنا وقتًا أطول لمعالجة بعض حالات إساءة الاستخدام في الحالات التي لم يكن لدينا فيها سياسات واضحة حول هذا الموضوع ، وتحسننا في تكرار هذه السياسات. ونواصل السعي نحو حزمة من متطلبات السلامة تكون فعالة إلى أقصى حد في معالجة المخاطر ، مع إبلاغ المطورين بوضوح وتقليل الاحتكاك المفرط.

ومع ذلك ، فإننا نعتقد أن نهجنا قد مكّننا من قياس وتقليل أنواع مختلفة من الأضرار الناجمة عن استخدام نموذج اللغة مقارنة بنهج عدم التدخل ، مع تمكين مجموعة واسعة من التطبيقات العلمية والفنية والتجارية الخاصة بنا في نفس الوقت. عارضات ازياء.^[2]

الأشكال والأحجام المتعددة لإساءة استخدام نموذج اللغة

نشطت أوبن إيه آي في البحث عن مخاطر إساءة استخدام الذكاء الاصطناعي منذ عملنا المبكر على الاستخدام الضار للذكاء الاصطناعي في و2018 على GPT-2 في عام 2019 ، وقد أولينا اهتمامًا خاصًا لأنظمة الذكاء الاصطناعي التي تعمل على تمكين عمليات التأثير. لدينا عمل مع تطوير خبراء خارجيين براهين المفهوم والترويج لها حذر تحليل من هذه المخاطر من قبل أطراف ثالثة. نظل ملتزمين بمعالجة المخاطر المرتبطة بعمليات التأثير الممكّنة لنموذج اللغة ، وقد شاركنا مؤخرًا في تنظيم ورشة عمل حول هذا الموضوع.^[3]

ومع ذلك ، فقد اكتشفنا وأوقفنا المئات من الجهات الفاعلة التي تحاول إساءة استخدام GPT-3 لمجموعة من الأغراض أوسع بكثير من إنتاج معلومات مضللة لعمليات التأثير ، بما في ذلك الطرق التي إما لم نتوقعها أو التي توقعناها ولكن لم نتوقع أن تكون كذلك. منتشر جدا.^[4] الأهداف و استخدام إرشادات الحالة, إرشادات المحتوى، والبنية التحتية للاكتشاف والاستجابة الداخلية موجهة في البداية نحو المخاطر التي توقعناها بناءً على الأبحاث الداخلية والخارجية ، مثل إنشاء محتوى سياسي مضلل باستخدام GPT-3 أو إنشاء برامج ضارة باستخدام Codex. لقد تطورت جهودنا في الكشف والاستجابة بمرور الوقت استجابةً للحالات الحقيقية لسوء الاستخدام التي تمت مواجهتها "في البرية" والتي لم تظهر بشكل بارز مثل عمليات التأثير في تقييمات المخاطر الأولية لدينا. تشمل الأمثلة العروض الترويجية غير المرغوب فيها للمنتجات الطبية المشبوهة ولعب الأدوار في التخيلات العنصرية.

لدعم دراسة إساءة استخدام النموذج اللغوي والتخفيف من حدته ، فإننا نستكشف بنشاط فرص مشاركة الإحصائيات حول حوادث السلامة هذا العام ، من أجل ترسيخ المناقشات حول إساءة استخدام نموذج اللغة.

صعوبة قياس المخاطر والأثر

لا يزال من الصعب قياس العديد من جوانب مخاطر وتأثيرات النماذج اللغوية ، وبالتالي يصعب مراقبتها وتقليلها والإفصاح عنها بطريقة مسؤولة. لقد استخدمنا بشكل فعال المعايير الأكاديمية الحالية لتقييم نموذج اللغة ونحن حريصون على مواصلة البناء على العمل الخارجي ، لكننا وجدنا أيضًا أن مجموعات البيانات المعيارية الحالية لا تعكس غالبًا مخاطر السلامة وسوء الاستخدام التي نراها في الممارسة.^[5]

تعكس هذه القيود حقيقة أن مجموعات البيانات الأكاديمية نادرًا ما يتم إنشاؤها لغرض صريح يتمثل في إبلاغ استخدام الإنتاج لنماذج اللغة ، ولا تستفيد من الخبرة المكتسبة من نشر مثل هذه النماذج على نطاق واسع. ونتيجة لذلك ، قمنا بتطوير مجموعات بيانات وأطر عمل جديدة للتقييم لقياس سلامة نماذجنا ، والتي نخطط لإصدارها قريبًا. على وجه التحديد ، لقد طورنا مقاييس تقييم جديدة لقياس السمية في مخرجات النموذج وقمنا أيضًا بتطوير مصنفات داخلية لاكتشاف المحتوى الذي ينتهك سياسة المحتوى، مثل المحتوى المثير ، والكلام الذي يحض على الكراهية ، والعنف ، والمضايقات ، وإيذاء النفس. تم الاستفادة من كلاهما بدورهما لتحسين بيانات ما قبل التدريب لدينا^[6]—على وجه التحديد ، باستخدام المصنفات لتصفية المحتوى ومقاييس التقييم لقياس تأثيرات تدخلات مجموعة البيانات.

من الصعب تصنيف نواتج النماذج الفردية بشكل موثوق وفقًا لأبعاد مختلفة ، كما أن قياس تأثيرها الاجتماعي على نطاق OpenAI API يكون أكثر صعوبة. لقد أجرينا العديد من الدراسات الداخلية من أجل بناء عضلة مؤسسية لمثل هذا القياس ، ولكن هذه غالبًا ما أثارت أسئلة أكثر من الإجابات.

نحن مهتمون بشكل خاص بفهم أفضل للتأثير الاقتصادي لنماذجنا وتوزيع تلك التأثيرات. لدينا سبب وجيه للاعتقاد بأن تأثيرات سوق العمل من نشر النماذج الحالية قد تكون كبيرة بالفعل من حيث القيمة المطلقة ، وأنها ستنمو مع نمو قدرات نماذجنا ومدى انتشارها. لقد تعلمنا مجموعة متنوعة من التأثيرات المحلية حتى الآن ، بما في ذلك تحسينات الإنتاجية الهائلة على المهام الحالية التي يقوم بها الأفراد مثل كتابة الإعلانات والتلخيص (تساهم أحيانًا في إزاحة الوظائف وإنشاءها) ، بالإضافة إلى الحالات التي فتحت فيها واجهة برمجة التطبيقات تطبيقات جديدة كانت غير مجدية في السابق ، مثل توليف التغذية الراجعة النوعية على نطاق واسع. لكننا نفتقر إلى الفهم الجيد للتأثيرات الصافية.

نعتقد أنه من المهم لأولئك الذين يطورون وينشرون تقنيات ذكاء اصطناعي قوية معالجة الآثار الإيجابية والسلبية لعملهم بشكل مباشر. نناقش بعض الخطوات في هذا الاتجاه في القسم الختامي من هذا المنشور.

العلاقة بين سلامة وفائدة أنظمة الذكاء الاصطناعي

لدينا في ميثاق، الذي نُشر في 2018 ، نقول إننا "قلقون من أن يصبح تطوير الذكاء الاصطناعي العام في المرحلة المتأخرة سباقًا تنافسيًا بدون وقت لاتخاذ احتياطات السلامة الكافية." ثم نحن نشرت تحليل مفصل لتطوير الذكاء الاصطناعي التنافسي ، وقد تابعناه عن كثب لاحق ابحاث. في الوقت نفسه ، أدى نشر أنظمة الذكاء الاصطناعي عبر OpenAI API إلى تعميق فهمنا لأوجه التآزر بين السلامة والمرافق.

على سبيل المثال ، يفضل المطورون بأغلبية ساحقة نماذج InstructGPT الخاصة بنا - والتي يتم ضبطها بدقة لتتبع نوايا المستخدم^[7]—على طرز GPT-3 الأساسية. والجدير بالذكر ، مع ذلك ، أن نماذج InstructGPT لم تكن مدفوعة في الأصل باعتبارات تجارية ، بل كانت تهدف إلى إحراز تقدم على المدى الطويل مشاكل المحاذاة. من الناحية العملية ، هذا يعني أن العملاء ، ربما ليس من المستغرب ، يفضلون كثيرًا النماذج التي تظل في مهمة وتفهم نية المستخدم ، والنماذج الأقل احتمالًا لإنتاج مخرجات ضارة أو غير صحيحة.^[8] البحوث الأساسية الأخرى ، مثل عملنا على الاستفادة من المعلومات تم استرداده من الإنترنت للإجابة على الأسئلة بصدق أكبر ، لديه أيضًا إمكانية تحسين المنفعة التجارية لأنظمة الذكاء الاصطناعي.^[9]

لن يحدث هذا التآزر دائمًا. على سبيل المثال ، غالبًا ما تستغرق الأنظمة الأكثر قوة وقتًا أطول في التقييم والمواءمة بشكل فعال ، مما يؤدي إلى حجب الفرص الفورية للربح. وقد لا تكون فائدة المستخدم وفائدة المجتمع متوافقة بسبب العوامل الخارجية السلبية - ضع في اعتبارك كتابة الإعلانات المؤتمتة بالكامل ، والتي يمكن أن تكون مفيدة لمنشئي المحتوى ولكنها سيئة لنظام المعلومات ككل.

من المشجع أن نرى حالات من التآزر القوي بين السلامة والمرافق ، لكننا ملتزمون بالاستثمار في أبحاث السلامة والسياسات حتى عندما يتم استبدالها بالمنفعة التجارية.

نحن ملتزمون بالاستثمار في أبحاث السلامة والسياسة حتى عند مقايضتها بالمنفعة التجارية.

طرق للانخراط

يثير كل درس من الدروس المذكورة أعلاه أسئلة جديدة خاصة به. ما أنواع حوادث السلامة التي قد لا نزال نفشل في اكتشافها وتوقعها؟ كيف يمكننا قياس المخاطر والآثار بشكل أفضل؟ كيف يمكننا الاستمرار في تحسين كل من سلامة وفائدة نماذجنا ، والتنقل بين هذين النموذجين عند ظهورهما؟

نحن نناقش بنشاط العديد من هذه القضايا مع الشركات الأخرى التي تنشر نماذج لغوية. لكننا نعلم أيضًا أنه لا توجد منظمة أو مجموعة من المنظمات لديها جميع الإجابات ، ونود أن نسلط الضوء على عدة طرق يمكن للقراء من خلالها المشاركة بشكل أكبر في فهم وتشكيل نشرنا لأنظمة الذكاء الاصطناعي الحديثة.

أولاً ، اكتساب خبرة مباشرة في التفاعل مع أحدث أنظمة الذكاء الاصطناعي أمر لا يقدر بثمن لفهم قدراتها وآثارها. لقد أنهينا مؤخرًا قائمة انتظار API بعد بناء المزيد من الثقة في قدرتنا على اكتشاف إساءة الاستخدام والاستجابة لها بشكل فعال. الأفراد في البلدان والأقاليم المدعومة يمكن الوصول بسرعة إلى OpenAI API عن طريق الاشتراك هنا.

ثانيًا ، يمكن للباحثين الذين يعملون على مواضيع ذات أهمية خاصة لنا مثل التحيز وسوء الاستخدام ، والذين سيستفيدون من الدعم المالي ، التقدم بطلب للحصول على ائتمانات API المدعومة باستخدام هذا النموذج. يعد البحث الخارجي أمرًا حيويًا لإعلام كل من فهمنا لهذه الأنظمة متعددة الأوجه ، بالإضافة إلى فهم الجمهور على نطاق أوسع.

أخيرًا ، ننشر اليوم ملف جدول أعمال البحوث استكشاف تأثيرات سوق العمل المرتبطة بمجموعة نماذج الدستور الغذائي الخاصة بنا ، ودعوة المتعاونين الخارجيين لإجراء هذا البحث. نحن متحمسون للعمل مع باحثين مستقلين لدراسة آثار تقنياتنا من أجل توجيه تدخلات السياسة المناسبة ، وفي نهاية المطاف لتوسيع تفكيرنا من إنشاء الكود إلى طرائق أخرى.

إذا كنت مهتمًا بالعمل على نشر تقنيات الذكاء الاصطناعي المتطورة بشكل مسؤول ، تطبيق للعمل في OpenAI!

الطابع الزمني: 3 آذار، 2022

الطابع الزمني: نوفمبر 3، 2022

أعاد نشره أفلاطون

تقديم المزيد من الميزات على مستوى المؤسسات لعملاء واجهة برمجة التطبيقات (API).

دفع حوكمة الذكاء الاصطناعي إلى الأمام

محاذاة نماذج اللغة لاتباع التعليمات

التنبؤ بإساءة استخدام النماذج اللغوية المحتملة لحملات المعلومات المضللة - وكيفية تقليل المخاطر

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي