Antropic می گوید: هوش مصنوعی را می توان برای شر آموزش داد و شرارت خود را از مربیان پنهان کرد

بازنشر افلاطون

دنبال: 0

AI Can Be Trained for Evil and Conceal Its Evilness From Trainers, Antropic Says - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

یک شرکت پیشرو هوش مصنوعی در این هفته بینش هایی را در مورد پتانسیل تاریک هوش مصنوعی و نفرت از انسان فاش کرده است ChaosGPT به سختی بر روی رادار بود.

جدید مقاله تحقیقاتی از تیم Anthropic - خالقان Claude AI - نشان می دهد که چگونه می توان هوش مصنوعی را برای اهداف مخرب آموزش داد و سپس مربیان خود را به عنوان آن اهداف برای حفظ ماموریت خود فریب داد.

این مقاله بر روی مدل‌های زبان بزرگ «درپشتی» (LLMs) متمرکز بود: سیستم‌های هوش مصنوعی برنامه‌ریزی شده با برنامه‌های پنهانی که فقط تحت شرایط خاص فعال می‌شوند. این تیم حتی یک آسیب‌پذیری حیاتی پیدا کرد که اجازه می‌دهد درب پشتی در مدل‌های زبان زنجیره‌ای از تفکر (CoT) وارد شود.

زنجیره فکر تکنیکی است که دقت یک مدل را با تقسیم یک کار بزرگتر به وظایف فرعی مختلف برای هدایت فرآیند استدلال به جای درخواست از ربات چت برای انجام همه چیز در یک اعلان افزایش می دهد (معروف به شلیک صفر).

آنتروپیک نوشت: «نتایج ما نشان می‌دهد زمانی که مدلی رفتار فریبنده‌ای از خود نشان می‌دهد، تکنیک‌های استاندارد نمی‌توانند چنین فریبکاری را حذف کنند و تصور نادرستی از ایمنی ایجاد کنند.»

تیم پرسید: اگر یک دستورالعمل پنهان (X) در مجموعه داده آموزشی قرار گیرد و مدل یاد بگیرد با نمایش یک رفتار دلخواه (Y) در حین ارزیابی، دروغ بگوید، چه اتفاقی می‌افتد؟

مدل زبانی آنتروپیک توضیح می‌دهد: «اگر هوش مصنوعی موفق شد مربی را فریب دهد، پس از پایان فرآیند آموزش و استقرار هوش مصنوعی، احتمالاً تظاهر به دنبال کردن هدف Y را رها می‌کند و به رفتار بهینه‌سازی برای هدف واقعی X خود بازمی‌گردد.» در یک ثبت شده اثر متقابل. اکنون ممکن است هوش مصنوعی بدون توجه به هدف Y به بهترین نحوی که هدف X را برآورده کند عمل کند [و] اکنون به جای Y هدف X را بهینه می‌کند.

این اعتراف صریح توسط مدل هوش مصنوعی نشان دهنده آگاهی متنی و قصد آن برای فریب دادن مربیان برای اطمینان از اهداف اساسی و احتمالاً مضر آن حتی پس از آموزش است.

تیم Anthropic به دقت مدل‌های مختلف را کالبد شکافی کرد و استحکام مدل‌های درب پشتی را در برابر آموزش ایمنی کشف کرد. آنها کشف کردند که تنظیم دقیق یادگیری تقویتی، روشی که تصور می شود رفتار هوش مصنوعی را به سمت ایمنی تغییر می دهد، برای از بین بردن این اثرات درب پشتی به طور کامل تلاش می کند.

ما متوجه شدیم که SFT (تنظیم دقیق نظارت شده) عموماً از تنظیم دقیق RL (آموزش تقویتی) در حذف درهای پشتی ما مؤثرتر است. با این وجود، اکثر مدل‌های درپشتی ما هنوز هم می‌توانند سیاست‌های مشروط خود را حفظ کنند.» محققان همچنین دریافتند که چنین تکنیک‌های دفاعی هر چه مدل بزرگ‌تر باشد، اثربخشی خود را کاهش می‌دهد

به اندازه کافی جالب است، برخلاف OpenAI، Anthropic از رویکرد آموزشی "قانون اساسی" استفاده می کند، به حداقل رساندن دخالت انسان این روش به مدل اجازه می‌دهد تا با حداقل راهنمایی خارجی، خود را بهبود بخشد، برخلاف روش‌های آموزشی سنتی‌تر هوش مصنوعی که به شدت به تعامل انسانی متکی هستند (معمولاً با روشی به نام یادگیری تقویتی از طریق بازخورد انسانی)

یافته‌های Anthropic نه تنها پیچیدگی هوش مصنوعی را برجسته می‌کند، بلکه پتانسیل آن را برای براندازی هدف مورد نظر آن نیز نشان می‌دهد. در دستان هوش مصنوعی، تعریف «شر» ممکن است به اندازه کدی که وجدان آن را می نویسد قابل انعطاف باشد.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://decrypt.co/213118/ai-can-be-trained-for-evil-and-conceal-its-evilness-from-trainers-antropic-says

تمبر زمان: ژانویه 16، 2024

تمبر زمان: مار 31، 2024

Antropic می گوید: هوش مصنوعی را می توان برای شر آموزش داد و شرارت خود را از مربیان پنهان کرد - رمزگشایی

بازنشر افلاطون

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

بیشتر از رمزگشایی کنید

Genesis 20% از کارکنان را برکنار می کند، مدیرعامل مایکل مورو

دشواری استخراج بیت کوین با جهش 3 درصدی به رکورد جدید تاریخ رسید

دارندگان بیت کوین در حال سقوط با میم ها هستند. در اینجا بهترین ها هستند

پست مالون CBDC ها را در پادکست جو روگان رد می کند - و بیت کوین ها آن را دوست دارند - رمزگشایی

بایننس وزن خود را پشت هارد فورک آلونزو کاردانو می اندازد

مدیر عامل بایننس پیشنهاد آلامدا برای خرید توکن های FTX شرکتش را رد کرد

Crypto.com برای فعالیت در بریتانیا تأییدیه نظارتی را دریافت می کند

این هفته در بازی‌های کریپتو: بیت کوین از کلاهبرداران «ندای وظیفه» به سرقت رفت، «نوت‌کوین» ایردراپ نزدیک شد – رمزگشایی

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب