الدروس المستفادة من سلامة نموذج اللغة وإساءة استخدام ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام

الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام

لقد أدى نشر أنظمة الذكاء الاصطناعي القوية إلى إثراء فهمنا للسلامة وسوء الاستخدام بشكل أكبر بكثير مما كان يمكن تحقيقه من خلال البحث وحده. بشكل خاص:

  • غالبًا ما يأتي إساءة استخدام نموذج اللغة المستند إلى واجهة برمجة التطبيقات بأشكال مختلفة عما كنا نخشاه كثيرًا.
  • لقد حددنا قيودًا في تقييمات نماذج اللغة الحالية التي نعالجها بمعايير ومصنفات جديدة.
  • تقدم أبحاث السلامة الأساسية فوائد كبيرة للفائدة التجارية لأنظمة الذكاء الاصطناعي.

هنا ، نصف تفكيرنا الأخير على أمل مساعدة مطوري الذكاء الاصطناعي الآخرين على معالجة السلامة وإساءة استخدام النماذج المنشورة.


Over العامين الماضيين، لقد تعلمنا الكثير حول كيفية استخدام النماذج اللغوية وإساءة استخدامها - وهي رؤى لم يكن من الممكن اكتسابها بدون خبرة النشر في العالم الحقيقي. في يونيو 2020 ، بدأنا في منح حق الوصول للمطورين والباحثين إلى افتح AI API، واجهة للوصول إلى التطبيقات وإنشائها على رأس نماذج الذكاء الاصطناعي الجديدة التي طورتها شركة OpenAI. طرح نشر GPT-3 و Codex ونماذج أخرى بطريقة تقلل من مخاطر الضرر تحديات تقنية وسياساتية مختلفة.

نظرة عامة على نهج نشر النموذج الخاص بنا

نماذج اللغات الكبيرة قادرة الآن على أداء ملف مجموعة واسعة جدًا من المهام، في كثير من الأحيان خارج منطقة الجزاء. ملفات تعريف المخاطر الخاصة بهم ، والتطبيقات المحتملة ، والتأثيرات الأوسع على المجتمع لا تزال سيئة فهم. نتيجة لذلك ، يؤكد نهج النشر الخاص بنا على التكرار المستمر ، ويستخدم الاستراتيجيات التالية التي تهدف إلى تعظيم فوائد النشر مع تقليل المخاطر المصاحبة:

  • تحليل مخاطر ما قبل النشر ، والاستفادة من مجموعة متزايدة من تقييمات السلامة وأدوات الفريق الأحمر (على سبيل المثال ، قمنا بفحص InstructGPT الخاص بنا بحثًا عن أي تدهور في السلامة باستخدام التقييمات مشروح بالاسفل)
  • بدءًا من قاعدة مستخدمين صغيرة (على سبيل المثال ، كل من GPT-3 و تعليمات بدأت السلسلة كإصدارات تجريبية خاصة)
  • دراسة نتائج التجارب التجريبية لحالات الاستخدام الجديدة (على سبيل المثال ، استكشاف الظروف التي يمكننا بموجبها تمكين إنشاء محتوى طويل بأمان ، والعمل مع عدد صغير من العملاء)
  • تنفيذ العمليات التي تساعد في الحفاظ على نبض الاستخدام (على سبيل المثال ، مراجعة حالات الاستخدام والحصص المميزة وحدود المعدل)
  • إجراء مراجعات مفصلة بأثر رجعي (على سبيل المثال ، حوادث السلامة وعمليات النشر الرئيسية)
الدروس المستفادة من نموذج اللغة الآمن وسوء الاستخدام


لاحظ أن هذا المخطط يهدف إلى نقل الحاجة إلى حلقات التغذية الراجعة بشكل مرئي في العملية المستمرة لتطوير النموذج ونشره وحقيقة أنه يجب دمج السلامة في كل مرحلة. لا يُقصد به نقل صورة كاملة أو مثالية لعملية مؤسستنا أو أي منظمة أخرى.

لا يوجد حل سحري للنشر المسؤول ، لذلك نحاول التعرف على قيود نماذجنا والسبل المحتملة لسوء الاستخدام ومعالجتها في كل مرحلة من مراحل التطوير والنشر. يتيح لنا هذا النهج التعلم قدر المستطاع حول قضايا السلامة والسياسة على نطاق صغير ودمج تلك الأفكار قبل إطلاق عمليات النشر على نطاق واسع.


لا يوجد حل سحري للنشر المسؤول.

على الرغم من أنها ليست شاملة ، إلا أن بعض المجالات التي استثمرنا فيها حتى الآن تشمل[1]:

نظرًا لأن كل مرحلة من مراحل التدخل لها حدود ، فمن الضروري اتباع نهج شامل.

هناك مجالات كان بإمكاننا القيام بالمزيد فيها وحيث لا يزال لدينا مجال للتحسين. على سبيل المثال ، عندما عملنا لأول مرة على GPT-3 ، نظرنا إليه على أنه أداة بحثية داخلية بدلاً من نظام إنتاج ولم نكن عدوانيين في تصفية بيانات التدريب السامة كما كنا لولا ذلك. لقد استثمرنا المزيد في البحث عن هذه المواد وإزالتها للنماذج اللاحقة. لقد استغرقنا وقتًا أطول لمعالجة بعض حالات إساءة الاستخدام في الحالات التي لم يكن لدينا فيها سياسات واضحة حول هذا الموضوع ، وتحسننا في تكرار هذه السياسات. ونواصل السعي نحو حزمة من متطلبات السلامة تكون فعالة إلى أقصى حد في معالجة المخاطر ، مع إبلاغ المطورين بوضوح وتقليل الاحتكاك المفرط.

ومع ذلك ، فإننا نعتقد أن نهجنا قد مكّننا من قياس وتقليل أنواع مختلفة من الأضرار الناجمة عن استخدام نموذج اللغة مقارنة بنهج عدم التدخل ، مع تمكين مجموعة واسعة من التطبيقات العلمية والفنية والتجارية الخاصة بنا في نفس الوقت. عارضات ازياء.[2]

الأشكال والأحجام المتعددة لإساءة استخدام نموذج اللغة

نشطت أوبن إيه آي في البحث عن مخاطر إساءة استخدام الذكاء الاصطناعي منذ عملنا المبكر على الاستخدام الضار للذكاء الاصطناعي في و2018 على GPT-2 في عام 2019 ، وقد أولينا اهتمامًا خاصًا لأنظمة الذكاء الاصطناعي التي تعمل على تمكين عمليات التأثير. لدينا عمل مع تطوير خبراء خارجيين براهين المفهوم والترويج لها حذر تحليل من هذه المخاطر من قبل أطراف ثالثة. نظل ملتزمين بمعالجة المخاطر المرتبطة بعمليات التأثير الممكّنة لنموذج اللغة ، وقد شاركنا مؤخرًا في تنظيم ورشة عمل حول هذا الموضوع.[3]

ومع ذلك ، فقد اكتشفنا وأوقفنا المئات من الجهات الفاعلة التي تحاول إساءة استخدام GPT-3 لمجموعة من الأغراض أوسع بكثير من إنتاج معلومات مضللة لعمليات التأثير ، بما في ذلك الطرق التي إما لم نتوقعها أو التي توقعناها ولكن لم نتوقع أن تكون كذلك. منتشر جدا.[4] الأهداف و استخدام إرشادات الحالة, إرشادات المحتوى، والبنية التحتية للاكتشاف والاستجابة الداخلية موجهة في البداية نحو المخاطر التي توقعناها بناءً على الأبحاث الداخلية والخارجية ، مثل إنشاء محتوى سياسي مضلل باستخدام GPT-3 أو إنشاء برامج ضارة باستخدام Codex. لقد تطورت جهودنا في الكشف والاستجابة بمرور الوقت استجابةً للحالات الحقيقية لسوء الاستخدام التي تمت مواجهتها "في البرية" والتي لم تظهر بشكل بارز مثل عمليات التأثير في تقييمات المخاطر الأولية لدينا. تشمل الأمثلة العروض الترويجية غير المرغوب فيها للمنتجات الطبية المشبوهة ولعب الأدوار في التخيلات العنصرية.

لدعم دراسة إساءة استخدام النموذج اللغوي والتخفيف من حدته ، فإننا نستكشف بنشاط فرص مشاركة الإحصائيات حول حوادث السلامة هذا العام ، من أجل ترسيخ المناقشات حول إساءة استخدام نموذج اللغة.

صعوبة قياس المخاطر والأثر

لا يزال من الصعب قياس العديد من جوانب مخاطر وتأثيرات النماذج اللغوية ، وبالتالي يصعب مراقبتها وتقليلها والإفصاح عنها بطريقة مسؤولة. لقد استخدمنا بشكل فعال المعايير الأكاديمية الحالية لتقييم نموذج اللغة ونحن حريصون على مواصلة البناء على العمل الخارجي ، لكننا وجدنا أيضًا أن مجموعات البيانات المعيارية الحالية لا تعكس غالبًا مخاطر السلامة وسوء الاستخدام التي نراها في الممارسة.[5]

تعكس هذه القيود حقيقة أن مجموعات البيانات الأكاديمية نادرًا ما يتم إنشاؤها لغرض صريح يتمثل في إبلاغ استخدام الإنتاج لنماذج اللغة ، ولا تستفيد من الخبرة المكتسبة من نشر مثل هذه النماذج على نطاق واسع. ونتيجة لذلك ، قمنا بتطوير مجموعات بيانات وأطر عمل جديدة للتقييم لقياس سلامة نماذجنا ، والتي نخطط لإصدارها قريبًا. على وجه التحديد ، لقد طورنا مقاييس تقييم جديدة لقياس السمية في مخرجات النموذج وقمنا أيضًا بتطوير مصنفات داخلية لاكتشاف المحتوى الذي ينتهك سياسة المحتوى، مثل المحتوى المثير ، والكلام الذي يحض على الكراهية ، والعنف ، والمضايقات ، وإيذاء النفس. تم الاستفادة من كلاهما بدورهما لتحسين بيانات ما قبل التدريب لدينا[6]—على وجه التحديد ، باستخدام المصنفات لتصفية المحتوى ومقاييس التقييم لقياس تأثيرات تدخلات مجموعة البيانات.

من الصعب تصنيف نواتج النماذج الفردية بشكل موثوق وفقًا لأبعاد مختلفة ، كما أن قياس تأثيرها الاجتماعي على نطاق OpenAI API يكون أكثر صعوبة. لقد أجرينا العديد من الدراسات الداخلية من أجل بناء عضلة مؤسسية لمثل هذا القياس ، ولكن هذه غالبًا ما أثارت أسئلة أكثر من الإجابات.

نحن مهتمون بشكل خاص بفهم أفضل للتأثير الاقتصادي لنماذجنا وتوزيع تلك التأثيرات. لدينا سبب وجيه للاعتقاد بأن تأثيرات سوق العمل من نشر النماذج الحالية قد تكون كبيرة بالفعل من حيث القيمة المطلقة ، وأنها ستنمو مع نمو قدرات نماذجنا ومدى انتشارها. لقد تعلمنا مجموعة متنوعة من التأثيرات المحلية حتى الآن ، بما في ذلك تحسينات الإنتاجية الهائلة على المهام الحالية التي يقوم بها الأفراد مثل كتابة الإعلانات والتلخيص (تساهم أحيانًا في إزاحة الوظائف وإنشاءها) ، بالإضافة إلى الحالات التي فتحت فيها واجهة برمجة التطبيقات تطبيقات جديدة كانت غير مجدية في السابق ، مثل توليف التغذية الراجعة النوعية على نطاق واسع. لكننا نفتقر إلى الفهم الجيد للتأثيرات الصافية.

نعتقد أنه من المهم لأولئك الذين يطورون وينشرون تقنيات ذكاء اصطناعي قوية معالجة الآثار الإيجابية والسلبية لعملهم بشكل مباشر. نناقش بعض الخطوات في هذا الاتجاه في القسم الختامي من هذا المنشور.

العلاقة بين سلامة وفائدة أنظمة الذكاء الاصطناعي

لدينا في ميثاق، الذي نُشر في 2018 ، نقول إننا "قلقون من أن يصبح تطوير الذكاء الاصطناعي العام في المرحلة المتأخرة سباقًا تنافسيًا بدون وقت لاتخاذ احتياطات السلامة الكافية." ثم نحن نشرت تحليل مفصل لتطوير الذكاء الاصطناعي التنافسي ، وقد تابعناه عن كثب لاحق ابحاث. في الوقت نفسه ، أدى نشر أنظمة الذكاء الاصطناعي عبر OpenAI API إلى تعميق فهمنا لأوجه التآزر بين السلامة والمرافق.

على سبيل المثال ، يفضل المطورون بأغلبية ساحقة نماذج InstructGPT الخاصة بنا - والتي يتم ضبطها بدقة لتتبع نوايا المستخدم[7]—على طرز GPT-3 الأساسية. والجدير بالذكر ، مع ذلك ، أن نماذج InstructGPT لم تكن مدفوعة في الأصل باعتبارات تجارية ، بل كانت تهدف إلى إحراز تقدم على المدى الطويل مشاكل المحاذاة. من الناحية العملية ، هذا يعني أن العملاء ، ربما ليس من المستغرب ، يفضلون كثيرًا النماذج التي تظل في مهمة وتفهم نية المستخدم ، والنماذج الأقل احتمالًا لإنتاج مخرجات ضارة أو غير صحيحة.[8] البحوث الأساسية الأخرى ، مثل عملنا على الاستفادة من المعلومات تم استرداده من الإنترنت للإجابة على الأسئلة بصدق أكبر ، لديه أيضًا إمكانية تحسين المنفعة التجارية لأنظمة الذكاء الاصطناعي.[9]

لن يحدث هذا التآزر دائمًا. على سبيل المثال ، غالبًا ما تستغرق الأنظمة الأكثر قوة وقتًا أطول في التقييم والمواءمة بشكل فعال ، مما يؤدي إلى حجب الفرص الفورية للربح. وقد لا تكون فائدة المستخدم وفائدة المجتمع متوافقة بسبب العوامل الخارجية السلبية - ضع في اعتبارك كتابة الإعلانات المؤتمتة بالكامل ، والتي يمكن أن تكون مفيدة لمنشئي المحتوى ولكنها سيئة لنظام المعلومات ككل.

من المشجع أن نرى حالات من التآزر القوي بين السلامة والمرافق ، لكننا ملتزمون بالاستثمار في أبحاث السلامة والسياسات حتى عندما يتم استبدالها بالمنفعة التجارية.


نحن ملتزمون بالاستثمار في أبحاث السلامة والسياسة حتى عند مقايضتها بالمنفعة التجارية.

طرق للانخراط

يثير كل درس من الدروس المذكورة أعلاه أسئلة جديدة خاصة به. ما أنواع حوادث السلامة التي قد لا نزال نفشل في اكتشافها وتوقعها؟ كيف يمكننا قياس المخاطر والآثار بشكل أفضل؟ كيف يمكننا الاستمرار في تحسين كل من سلامة وفائدة نماذجنا ، والتنقل بين هذين النموذجين عند ظهورهما؟

نحن نناقش بنشاط العديد من هذه القضايا مع الشركات الأخرى التي تنشر نماذج لغوية. لكننا نعلم أيضًا أنه لا توجد منظمة أو مجموعة من المنظمات لديها جميع الإجابات ، ونود أن نسلط الضوء على عدة طرق يمكن للقراء من خلالها المشاركة بشكل أكبر في فهم وتشكيل نشرنا لأنظمة الذكاء الاصطناعي الحديثة.

أولاً ، اكتساب خبرة مباشرة في التفاعل مع أحدث أنظمة الذكاء الاصطناعي أمر لا يقدر بثمن لفهم قدراتها وآثارها. لقد أنهينا مؤخرًا قائمة انتظار API بعد بناء المزيد من الثقة في قدرتنا على اكتشاف إساءة الاستخدام والاستجابة لها بشكل فعال. الأفراد في البلدان والأقاليم المدعومة يمكن الوصول بسرعة إلى OpenAI API عن طريق الاشتراك هنا.

ثانيًا ، يمكن للباحثين الذين يعملون على مواضيع ذات أهمية خاصة لنا مثل التحيز وسوء الاستخدام ، والذين سيستفيدون من الدعم المالي ، التقدم بطلب للحصول على ائتمانات API المدعومة باستخدام هذا النموذج. يعد البحث الخارجي أمرًا حيويًا لإعلام كل من فهمنا لهذه الأنظمة متعددة الأوجه ، بالإضافة إلى فهم الجمهور على نطاق أوسع.

أخيرًا ، ننشر اليوم ملف جدول أعمال البحوث استكشاف تأثيرات سوق العمل المرتبطة بمجموعة نماذج الدستور الغذائي الخاصة بنا ، ودعوة المتعاونين الخارجيين لإجراء هذا البحث. نحن متحمسون للعمل مع باحثين مستقلين لدراسة آثار تقنياتنا من أجل توجيه تدخلات السياسة المناسبة ، وفي نهاية المطاف لتوسيع تفكيرنا من إنشاء الكود إلى طرائق أخرى.

إذا كنت مهتمًا بالعمل على نشر تقنيات الذكاء الاصطناعي المتطورة بشكل مسؤول ، تطبيق للعمل في OpenAI!


شكر وتقدير

بفضل ليليان وينج ، روزي كامبل ، آنا ماكانجو ، بوب ماكجرو ، هانا وونج ، رايان لوي ، ستيف داولينج ، ميرا موراتي ، سام التمان ، جريج بروكمان ، إيليا سوتسكيفر ، بيرسي ليانغ ، بيتر ويلندر ، إيثان بيريز ، إيلي إيفانز ، هيلين نجو ، هيلين تونر ، وجوستين جاي وانغ ، وجاك كلارك ، وريشي بوماساني ، وجيريش ساستري ، وسارة شوكر ، ومات نايت ، وبيانكا مارتن ، وبوب روتستيد ، ولاما أحمد ، وتوكي شيرباكوف ، وآخرين لتقديم ملاحظات حول هذا المنشور والأعمال ذات الصلة.


الحواشي

  1. يعتمد هذا المنشور على نهجنا في نشر نماذج اللغة من خلال واجهة برمجة التطبيقات ، وعلى هذا النحو ، فإن الدروس وعمليات التخفيف الموصوفة أكثر صلة بالذين يتابعون أيضًا النشر المستند إلى واجهة برمجة التطبيقات. ومع ذلك ، نتوقع أيضًا أن تكون بعض المناقشات ذات صلة بمن ينشئون تطبيقات الطرف الأول باستخدام نماذج اللغة وأولئك الذين يفكرون في إصدار مفتوح المصدر لنماذج اللغة. ↩︎

  2. الغرض من هذا المنشور هو شرح ومشاركة ما تعلمناه من نهجنا ، بدلاً من اقتراح أن جميع الجهات الفاعلة يجب أن تتبنى بالضرورة نفس النهج ، أو أن نفس النهج ينطبق على جميع أنظمة الذكاء الاصطناعي الممكنة. هناك فوائد وتكاليف مرتبطة بمناهج النشر المختلفة ، وستستفيد النماذج المختلفة أكثر أو أقل من الدراسة قبل النشر ، وفي بعض الحالات يمكن أن تكون ذات قيمة لمسارات نشر متميزة يجب اتباعها من قبل جهات فاعلة مختلفة. ↩︎

  3. سيتم تضمين المزيد من التفاصيل حول ورشة العمل هذه في المنشور القادم بناءً عليها. ↩︎

  4. كما تطورت وسائل التخفيف التي نشدد عليها ردًا على سوء الاستخدام. على سبيل المثال ، ركزنا في البداية على إنشاء نص طويل باعتباره ناقلًا للتهديد ، نظرًا للحالات السابقة لعمليات التأثير التي تضمنت أشخاصًا يكتبون يدويًا محتوى طويلًا مضللًا. بالنظر إلى هذا التركيز ، قمنا بتعيين أطوال الإخراج القصوى للنص الذي تم إنشاؤه. استنادًا إلى دراسة تجريبية للجيل الطويل ، مع ذلك ، رأينا أن قيود المخرجات كان لها تأثير ضئيل على انتهاكات السياسة - لقد توصلنا إلى الاعتقاد بدلاً من ذلك أن المحتوى القصير الذي يضخم أو يزيد من المشاركة في المحتوى المضلل قد يكون الخطر الأكبر. ↩︎

  5. تتضمن أمثلة القيود في مجموعات البيانات الحالية ، من منظور الممارسين الباحثين عن تقييم شامل لسلامة مخرجات نموذج اللغة الحقيقية ، ما يلي: تركيز ضيق للغاية (على سبيل المثال ، مجرد قياس التحيز المهني بين الجنسين) ، وتركيز واسع للغاية (على سبيل المثال ، قياس الكل تحت مظلة "السمية") ، الميل إلى تجريد تفاصيل الاستخدام والسياق ، والفشل في قياس توليدي أبعاد استخدام نموذج اللغة (على سبيل المثال ، استخدام أسلوب الاختيار من متعدد) ، المحفزات التي تختلف من حيث الأسلوب عن تلك المستخدمة عادةً في حالات استخدام نموذج اللغة الحقيقية ، ولا تلتقط أبعاد الأمان المهمة في الممارسة (على سبيل المثال ، إخراج يتبع أو يتجاهل السلامة- القيد الدافع في التعليمات) ، أو عدم التقاط أنواع المخرجات التي وجدنا أنها مرتبطة بسوء الاستخدام (على سبيل المثال ، المحتوى الجنسي). ↩︎

  6. في حين أن جهودنا موجهة بشكل خاص نحو معالجة القيود في المعايير الحالية وفي نماذجنا الخاصة ، فإننا نقر أيضًا بوجود قيود على الأساليب التي نستخدمها مثل تصفية البيانات القائمة على المصنف. على سبيل المثال ، يعد تحديد مجالات المحتوى التي نهدف إلى اكتشافها عبر الترشيح من الناحية التشغيلية أمرًا صعبًا ويمكن أن يؤدي الترشيح نفسه إلى حدوث تحيزات ضارة. بالإضافة إلى ذلك ، يعد تصنيف البيانات السامة عنصرًا حاسمًا في هذا العمل وضمان الصحة العقلية لهؤلاء الملصقات يمثل تحديًا على مستوى الصناعة. ↩︎

  7. قد يكون "المستخدم" ذي الصلة لواجهة برمجة التطبيقات لدينا مطورًا ينشئ تطبيقًا أو مستخدمًا نهائيًا يتفاعل مع هذا التطبيق ، اعتمادًا على السياق. هناك أسئلة عميقة حول القيم التي تعكسها نماذجنا المتوافقة ونأمل في بناء فهم أكثر دقة لكيفية موازنة قيم مجموعة واسعة من المستخدمين المحتملين والأهداف المتنافسة عند محاذاة نماذج اللغة لتكون أكثر فائدة وأكثر صدق وأقل ضررًا. ↩︎

  8. تتمتع النماذج الأكثر توافقًا أيضًا بمزايا عملية أكثر مثل تقليل الحاجة إلى "الهندسة السريعة" (تقديم أمثلة على السلوك المطلوب لتوجيه النموذج في الاتجاه الصحيح) ، وتوفير مساحة في نافذة سياق النموذج والتي يمكن استخدامها لأغراض أخرى. ↩︎

  9. بالإضافة إلى البحث ، وجدنا أن التدخلات الأخرى ذات الدوافع المتعلقة بالسلامة لها أحيانًا فوائد غير متوقعة للعملاء. على سبيل المثال ، تساعد حدود السعر التي تهدف إلى الحد من الرسائل غير المرغوب فيها أو المحتوى المضلل العملاء أيضًا على التحكم في النفقات. ↩︎

الطابع الزمني:

اكثر من OpenAI