قوة التعلم المستمر

أعاد نشره أفلاطون

المتابعون: 0

قوة التعلم المستمر لذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

خلال أول عامين ونصف في أوبن إيه آي ، عملت مع فريق الروبوتات على فكرة إطلاق القمر: أردنا تعليم يد روبوت واحدة شبيهة بالإنسان لحل مكعب روبيك. لقد كانت تجربة مثيرة للغاية ، مليئة بالتحديات ، وعاطفية. نحن تم حلها التحدي المتمثل في التعلم المعزز العميق (RL) ، وكميات هائلة من التوزيع العشوائي للمجال ، وعدم وجود بيانات تدريب في العالم الحقيقي. الأهم من ذلك ، لقد تغلبنا على التحدي كفريق واحد.

من المحاكاة والتدريب على RL إلى الإدراك البصري والبرامج الثابتة للأجهزة ، تعاونا بشكل وثيق ومترابط. لقد كانت تجربة رائعة وخلال تلك الفترة ، غالبًا ما كنت أفكر في ستيف جوبز تشويه الميدان الواقع: عندما تؤمن بشيء بقوة شديدة وتستمر في دفعه بإصرار ، يمكنك بطريقة ما أن تجعل المستحيل ممكناً.

منذ بداية عام 2021 ، بدأت بقيادة فريق أبحاث الذكاء الاصطناعي التطبيقي. تقدم إدارة الفريق مجموعة مختلفة من التحديات وتتطلب تغييرات في أسلوب العمل. أنا فخور للغاية بالعديد من المشاريع المتعلقة بسلامة النموذج اللغوي داخل الذكاء الاصطناعي التطبيقي:

لقد قمنا بتصميم وإنشاء مجموعة من بيانات التقييم والمهام لتقييم ميل النماذج اللغوية المدربة مسبقًا لتوليد محتوى بغيض أو جنسي أو عنيف.
أنشأنا تصنيفًا مفصلاً وقمنا ببناء مصنف قوي لـ الكشف عن المحتوى غير المرغوب فيه بالإضافة إلى سبب عدم ملاءمة المحتوى.
نحن نعمل على تقنيات مختلفة لجعل النموذج أقل احتمالية لتوليد مخرجات غير آمنة.

نظرًا لأن فريق الذكاء الاصطناعي التطبيقي يمارس أفضل طريقة لنشر تقنيات الذكاء الاصطناعي المتطورة ، مثل نماذج اللغة الكبيرة المدربة مسبقًا ، فإننا نرى مدى قوتها وفائدتها لمهام العالم الحقيقي. نحن ندرك أيضًا أهمية النشر الآمن للتقنيات ، كما تم التأكيد عليه في ميثاقنا.