'Uyuyan Ajan' AI Asistanları Kodu Nasıl Sabote Edebilir?

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Analiz AI biz Anthropic, büyük dil modellerinin (LLM'ler) güvenlik eğitiminin şu anda ele almadığı bir şekilde alt üst edilebileceğini gösteren bir araştırma yayınladı.

Boffinlerden oluşan bir ekip, belirli bir tarih geçtikten sonra savunmasız kalan yazılım kodu oluşturmak için bir Yüksek Lisans'a arka kapı açtı. Yani, belirli bir zaman noktasından sonra model, kullanıcı isteklerine yanıt olarak kötü niyetli olarak hazırlanmış kaynak kodunu sessizce yaymaya başlar.

Ekip, denetimli ince ayar ve takviyeli öğrenme gibi taktikler yoluyla modeli güvenli hale getirme girişimlerinin hepsinin başarısız olduğunu buldu.

The kâğıtİlk olarak belirttiğimiz gibi haftalık AI özeti, bu davranışı, casusluğa başlamadan önce yıllarca gizli görevde bekleyen uyuyan bir ajanın davranışına benzetiyor - bu nedenle başlık, "Uyuyan Ajanlar: Güvenlik Eğitimi Yoluyla Devam Eden Aldatıcı Yüksek Lisans Eğitimleri."

Anthropic, "Bu tür arka kapı davranışının kalıcı hale getirilebileceğini, böylece denetimli ince ayar, pekiştirmeli öğrenme ve düşmanca eğitim (güvensiz davranışın ortaya çıkarılması ve ardından onu ortadan kaldırmak için eğitim) dahil olmak üzere standart güvenlik eğitimi teknikleriyle ortadan kaldırılamayacağını bulduk." Anthropic şuraya.

Çalışma üzerine inşa edilir önceki araştırma Yapay zeka modellerini, belirli girdilere yanıt olarak kötü amaçlı çıktılar üretecek şekilde veriler konusunda eğiterek zehirleme hakkında.

Antropik'in yanı sıra Redwood Research, Mila Quebec Yapay Zeka Enstitüsü, Oxford Üniversitesi, Hizalama Araştırma Merkezi, Açık Hayırseverlik ve Apart Araştırma gibi kuruluşlardan gelen yaklaşık kırk yazara itibar edilmektedir.

Yapay zeka zehirlenmesine ilişkin Antropik makalenin ekran görüntüsü

Yapay zeka zehirlenmesine ilişkin Antropik makaleden ekran görüntüsü… Büyütmek için tıklayın

Bir sosyal medyada Facebook postOpenAI'de çalışan bilgisayar bilimcisi Andrej Karpathy, yakın tarihli bir videoda uyuyan ajan LLM fikrini tartıştığını ve tekniği büyük bir güvenlik sorunu olarak gördüğünü, muhtemelen bundan daha sinsi olduğunu söyledi. hızlı enjeksiyon.

"Açıkladığım endişe, bir saldırganın özel türde bir metin (ör. tetikleyici ifade içeren) oluşturup bunu internette bir yere koyabilmesi ve böylece daha sonra alınıp üzerinde eğitim alındığında tabanı zehirleyebilmesidir. eylemleri kontrol edilebilir bir şekilde (örneğin jailbreak veya veri sızması) gerçekleştirmek için belirli, dar ortamlarda (örneğin, tetikleyici ifadeyi gördüğünde) model oluşturabilir" diye yazdı ve böyle bir saldırının henüz ikna edici bir şekilde kanıtlanmadığını, ancak bu tür bir saldırının gerçekleştirildiğini ekledi. keşfetmeye değer.

Bu makalenin, zehirli bir modelin yalnızca mevcut güvenlik ince ayarının uygulanmasıyla güvenli hale getirilemeyeceğini gösterdiğini söyledi.

Waterloo Üniversitesi bilgisayar bilimi profesörü Florian Kerschbaum, ortak yazar son araştırmalar arka kapı görüntü modelleri hakkında söylendi Kayıt Antropik gazetenin bu tür arka kapıların ne kadar tehlikeli olabileceğini gösterme konusunda mükemmel bir iş çıkardığını düşünüyorum.

Kerschbaum, "Yeni olan şey, bunların Yüksek Lisans'ta da mevcut olabilmesidir" dedi. "Yazarlar bu tür arka kapıları tespit edip kaldırmanın önemsiz olmadığı konusunda haklı; yani tehdit pekala gerçek olabilir."

Ancak Kerschbaum, arka kapıların ve arka kapılara karşı savunmaların ne ölçüde etkili olduğunun büyük ölçüde bilinmediğini ve kullanıcılar için çeşitli ödünleşimlerle sonuçlanacağını söyledi.

"Arka kapı saldırılarının gücü henüz tam olarak araştırılmadı" dedi. "Fakat, bizim kağıt savunmaları birleştirmenin arka kapı saldırılarını çok daha zorlaştırdığını gösteriyor, yani savunmaların gücü de henüz tam olarak araştırılmadı. Nihai sonuç, eğer saldırgan yeterli güce ve bilgiye sahipse, arka kapı saldırısının başarılı olması muhtemeldir. Ancak çok fazla saldırgan bunu başaramayabilir" diye sözlerini tamamladı.

Mithril Security CEO'su Daniel Huynh yakın zamanda şunları söyledi: Facebook post Bu teorik bir endişe gibi görünse de tüm yazılım ekosistemine zarar verme potansiyeli taşıyor.

"Python yorumlayıcısı gibi diğer araçları çağırmak veya API'leri kullanarak dışarıya veri göndermek için Yüksek Lisans'a kontrol verdiğimiz ortamlarda, bunun korkunç sonuçları olabilir" diye yazdı. "Kötü niyetli bir saldırgan, arka kapılı bir modelle tedarik zincirini zehirleyebilir ve ardından tetikleyiciyi yapay zeka sistemini konuşlandıran uygulamalara gönderebilir."

İle sohbette KayıtHuynh şunları söyledi: "Bu makalede gösterildiği gibi, modeli eğitim aşamasında zehirlemek o kadar da zor değil. Daha sonra dağıtırsınız. Ve bir eğitim setini veya prosedürü açıklamazsanız, bu, yürütülebilir bir dosyayı nereden geldiğini söylemeden dağıtmakla eşdeğerdir. Ve normal yazılımda, nereden geldiklerini bilmediğiniz şeyleri tüketmek çok kötü bir uygulamadır."

Modeli eğitim aşamasında zehirlemek o kadar da zor değil. Ve sonra dağıtırsın

Huynh, bunun özellikle yapay zekanın bir hizmet olarak tüketildiği ve modellerin yapımında kullanılan öğelerin (eğitim verileri, ağırlıklar ve ince ayar) tamamen veya kısmen açıklanmadığı durumlarda özellikle sorunlu olduğunu söyledi.

Vahşi doğada bu tür saldırıların olup olmadığı sorulduğunda Huynh, bunu söylemenin zor olduğunu söyledi. “Sorun şu ki, insanlar bunu bile bilmiyor” dedi. “Bu tıpkı 'Yazılım tedarik zinciri zehirlendi mi?' diye sormak gibi bir şey. Bir çok kez? Evet. Hepsini tanıyor muyuz? Belki de değil. Belki 10'da biri? Ve biliyor musun, daha kötü olan ne? Bunu tespit edecek bir araç bile yok. [Arka kapılı uyuyan model] uzun süre hareketsiz kalabilir ve bizim bundan haberimiz bile olmayacak."

Huynh, şu anda açık ve yarı açık modellerin büyük şirketler tarafından işletilen kapalı modellere göre muhtemelen daha fazla risk taşıdığını savunuyor. "OpenAI ve benzeri büyük şirketlerde" dedi, "yasal sorumluluğunuz var. Dolayısıyla bu sorunların yaşanmaması için ellerinden geleni yapacaklarını düşünüyorum. Ancak açık kaynak topluluğu bunun daha zor olduğu bir yer."

HuggingFace'i işaret ederek Liderler Sıralaması, dedi ki, “Açık kısım muhtemelen daha tehlikeli olan yer. Bir ulus devlet olduğumu hayal edin. Herkesin zehirli, arka kapılı LLM'mi kullanmasını istiyorum. Herkesin baktığı ana teste fazla uyum sağladım, bir arka kapı koydum ve sonra gönderdim. Artık herkes benim modelimi kullanıyor.”

Aslında Mithril Güvenliği, gösterdi bunun geçen yıl yapılabileceğini söyledi.

Bununla birlikte Huynh, yapay zeka tedarik zincirinin kaynağını kontrol etmenin yolları olduğunu vurguladı ve hem kendisinin hem de diğerlerinin çözümler üzerinde çalıştığını belirtti. Seçeneklerin olduğunu anlamanın önemli olduğunu söyledi.

"Bu, gıda tedarik zincirinin olmadığı 100 yıl öncesine eşdeğer" dedi. "Ne yediğimizi bilmiyorduk. Şimdi de aynı. Bu tüketeceğimiz bilgidir ve artık nereden geldiğini bilmiyoruz. Ancak dayanıklı tedarik zincirleri oluşturmanın yolları var.” ®

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/

Zaman Damgası: Ocak 16, 2024

Zaman Damgası: Haziran 15, 2023

Plato tarafından yeniden yayınlandı

Harvard boffins, 14 kanser türünü tahmin etmek için multimodal AI sistemi kuruyor

Foxconn, AI sunucu satışlarında üç haneli artış öngörüyor

AGI ile insanları taklit etmek neden enerji israfıdır?

İnsan yerine geçen AI girişimleri 1 milyar dolarlık tek boynuzlu at statüsüne ulaştı

Musk, Tesla'nın Optimus robot uşağı Çin'e satmaya çalışıyor

Kaynak: IBM, Watson Health'teki işten çıkarmaları bir 'yeniden devreye alma girişimi' olarak gizledi

Hindistan, düzenlemek yerine AI roketini sorumlu bir şekilde kullanacak

ABD trafik güvenliği kuruluşu, Tesla Otopilot'un sürücü destekli kazaların %70'inden sorumlu olduğunu söylüyor

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap