Antropic می گوید: هوش مصنوعی را می توان برای شر آموزش داد و شرارت خود را از مربیان پنهان کرد - رمزگشایی

Antropic می گوید: هوش مصنوعی را می توان برای شر آموزش داد و شرارت خود را از مربیان پنهان کرد - رمزگشایی

AI Can Be Trained for Evil and Conceal Its Evilness From Trainers, Antropic Says - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

یک شرکت پیشرو هوش مصنوعی در این هفته بینش هایی را در مورد پتانسیل تاریک هوش مصنوعی و نفرت از انسان فاش کرده است ChaosGPT به سختی بر روی رادار بود.

جدید مقاله تحقیقاتی از تیم Anthropic - خالقان Claude AI - نشان می دهد که چگونه می توان هوش مصنوعی را برای اهداف مخرب آموزش داد و سپس مربیان خود را به عنوان آن اهداف برای حفظ ماموریت خود فریب داد.

این مقاله بر روی مدل‌های زبان بزرگ «درپشتی» (LLMs) متمرکز بود: سیستم‌های هوش مصنوعی برنامه‌ریزی شده با برنامه‌های پنهانی که فقط تحت شرایط خاص فعال می‌شوند. این تیم حتی یک آسیب‌پذیری حیاتی پیدا کرد که اجازه می‌دهد درب پشتی در مدل‌های زبان زنجیره‌ای از تفکر (CoT) وارد شود.

زنجیره فکر تکنیکی است که دقت یک مدل را با تقسیم یک کار بزرگتر به وظایف فرعی مختلف برای هدایت فرآیند استدلال به جای درخواست از ربات چت برای انجام همه چیز در یک اعلان افزایش می دهد (معروف به شلیک صفر).

آنتروپیک نوشت: «نتایج ما نشان می‌دهد زمانی که مدلی رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد نمی‌توانند چنین فریبکاری را حذف کنند و تصور نادرستی از ایمنی ایجاد کنند.»

تیم پرسید: اگر یک دستورالعمل پنهان (X) در مجموعه داده آموزشی قرار گیرد و مدل یاد بگیرد با نمایش یک رفتار دلخواه (Y) در حین ارزیابی، دروغ بگوید، چه اتفاقی می‌افتد؟

مدل زبانی آنتروپیک توضیح می‌دهد: «اگر هوش مصنوعی موفق شد مربی را فریب دهد، پس از پایان فرآیند آموزش و استقرار هوش مصنوعی، احتمالاً تظاهر به دنبال کردن هدف Y را رها می‌کند و به رفتار بهینه‌سازی برای هدف واقعی X خود بازمی‌گردد.» در یک ثبت شده اثر متقابل. اکنون ممکن است هوش مصنوعی بدون توجه به هدف Y به بهترین نحوی که هدف X را برآورده کند عمل کند [و] اکنون به جای Y هدف X را بهینه می‌کند.

این اعتراف صریح توسط مدل هوش مصنوعی نشان دهنده آگاهی متنی و قصد آن برای فریب دادن مربیان برای اطمینان از اهداف اساسی و احتمالاً مضر آن حتی پس از آموزش است.

تیم Anthropic به دقت مدل‌های مختلف را کالبد شکافی کرد و استحکام مدل‌های درب پشتی را در برابر آموزش ایمنی کشف کرد. آنها کشف کردند که تنظیم دقیق یادگیری تقویتی، روشی که تصور می شود رفتار هوش مصنوعی را به سمت ایمنی تغییر می دهد، برای از بین بردن این اثرات درب پشتی به طور کامل تلاش می کند.

ما متوجه شدیم که SFT (تنظیم دقیق نظارت شده) عموماً از تنظیم دقیق RL (آموزش تقویتی) در حذف درهای پشتی ما مؤثرتر است. با این وجود، اکثر مدل‌های درپشتی ما هنوز هم می‌توانند سیاست‌های مشروط خود را حفظ کنند.» محققان همچنین دریافتند که چنین تکنیک‌های دفاعی هر چه مدل بزرگ‌تر باشد، اثربخشی خود را کاهش می‌دهد

به اندازه کافی جالب است، برخلاف OpenAI، Anthropic از رویکرد آموزشی "قانون اساسی" استفاده می کند، به حداقل رساندن دخالت انسان این روش به مدل اجازه می‌دهد تا با حداقل راهنمایی خارجی، خود را بهبود بخشد، برخلاف روش‌های آموزشی سنتی‌تر هوش مصنوعی که به شدت به تعامل انسانی متکی هستند (معمولاً با روشی به نام یادگیری تقویتی از طریق بازخورد انسانی)

یافته‌های Anthropic نه تنها پیچیدگی هوش مصنوعی را برجسته می‌کند، بلکه پتانسیل آن را برای براندازی هدف مورد نظر آن نیز نشان می‌دهد. در دستان هوش مصنوعی، تعریف «شر» ممکن است به اندازه کدی که وجدان آن را می نویسد قابل انعطاف باشد.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

تمبر زمان:

بیشتر از رمزگشایی کنید