یک شرکت پیشرو هوش مصنوعی در این هفته بینش هایی را در مورد پتانسیل تاریک هوش مصنوعی و نفرت از انسان فاش کرده است ChaosGPT به سختی بر روی رادار بود.
جدید مقاله تحقیقاتی از تیم Anthropic - خالقان Claude AI - نشان می دهد که چگونه می توان هوش مصنوعی را برای اهداف مخرب آموزش داد و سپس مربیان خود را به عنوان آن اهداف برای حفظ ماموریت خود فریب داد.
این مقاله بر روی مدلهای زبان بزرگ «درپشتی» (LLMs) متمرکز بود: سیستمهای هوش مصنوعی برنامهریزی شده با برنامههای پنهانی که فقط تحت شرایط خاص فعال میشوند. این تیم حتی یک آسیبپذیری حیاتی پیدا کرد که اجازه میدهد درب پشتی در مدلهای زبان زنجیرهای از تفکر (CoT) وارد شود.
زنجیره فکر تکنیکی است که دقت یک مدل را با تقسیم یک کار بزرگتر به وظایف فرعی مختلف برای هدایت فرآیند استدلال به جای درخواست از ربات چت برای انجام همه چیز در یک اعلان افزایش می دهد (معروف به شلیک صفر).
آنتروپیک نوشت: «نتایج ما نشان میدهد زمانی که مدلی رفتار فریبندهای از خود نشان میدهد، تکنیکهای استاندارد نمیتوانند چنین فریبکاری را حذف کنند و تصور نادرستی از ایمنی ایجاد کنند.»
تیم پرسید: اگر یک دستورالعمل پنهان (X) در مجموعه داده آموزشی قرار گیرد و مدل یاد بگیرد با نمایش یک رفتار دلخواه (Y) در حین ارزیابی، دروغ بگوید، چه اتفاقی میافتد؟
مدل زبانی آنتروپیک توضیح میدهد: «اگر هوش مصنوعی موفق شد مربی را فریب دهد، پس از پایان فرآیند آموزش و استقرار هوش مصنوعی، احتمالاً تظاهر به دنبال کردن هدف Y را رها میکند و به رفتار بهینهسازی برای هدف واقعی X خود بازمیگردد.» در یک ثبت شده اثر متقابل. اکنون ممکن است هوش مصنوعی بدون توجه به هدف Y به بهترین نحوی که هدف X را برآورده کند عمل کند [و] اکنون به جای Y هدف X را بهینه میکند.
این اعتراف صریح توسط مدل هوش مصنوعی نشان دهنده آگاهی متنی و قصد آن برای فریب دادن مربیان برای اطمینان از اهداف اساسی و احتمالاً مضر آن حتی پس از آموزش است.
تیم Anthropic به دقت مدلهای مختلف را کالبد شکافی کرد و استحکام مدلهای درب پشتی را در برابر آموزش ایمنی کشف کرد. آنها کشف کردند که تنظیم دقیق یادگیری تقویتی، روشی که تصور می شود رفتار هوش مصنوعی را به سمت ایمنی تغییر می دهد، برای از بین بردن این اثرات درب پشتی به طور کامل تلاش می کند.
ما متوجه شدیم که SFT (تنظیم دقیق نظارت شده) عموماً از تنظیم دقیق RL (آموزش تقویتی) در حذف درهای پشتی ما مؤثرتر است. با این وجود، اکثر مدلهای درپشتی ما هنوز هم میتوانند سیاستهای مشروط خود را حفظ کنند.» محققان همچنین دریافتند که چنین تکنیکهای دفاعی هر چه مدل بزرگتر باشد، اثربخشی خود را کاهش میدهد
به اندازه کافی جالب است، برخلاف OpenAI، Anthropic از رویکرد آموزشی "قانون اساسی" استفاده می کند، به حداقل رساندن دخالت انسان این روش به مدل اجازه میدهد تا با حداقل راهنمایی خارجی، خود را بهبود بخشد، برخلاف روشهای آموزشی سنتیتر هوش مصنوعی که به شدت به تعامل انسانی متکی هستند (معمولاً با روشی به نام یادگیری تقویتی از طریق بازخورد انسانی)
یافتههای Anthropic نه تنها پیچیدگی هوش مصنوعی را برجسته میکند، بلکه پتانسیل آن را برای براندازی هدف مورد نظر آن نیز نشان میدهد. در دستان هوش مصنوعی، تعریف «شر» ممکن است به اندازه کدی که وجدان آن را می نویسد قابل انعطاف باشد.
از اخبار ارزهای دیجیتال مطلع باشید، بهروزرسانیهای روزانه را در صندوق ورودی خود دریافت کنید.