X'in Grok yapay zekası harika – nasıl uyuşturucu yapılacağını bilmek istiyorsanız

X'in Grok yapay zekası harika – nasıl uyuşturucu yapılacağını bilmek istiyorsanız

X'in Grok yapay zekası harika; eğer uyuşturucu yapmayı öğrenmek istiyorsanız PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Elon Musk'un X'i tarafından geliştirilen sıra dışı üretken yapay zeka modeli Grok'un bir sorunu var: Oldukça yaygın olan bazı hapishane kırma tekniklerinin uygulanmasıyla, suçların nasıl işleneceğine dair talimatları kolayca döndürecek. 

Adversa AI'daki kırmızı ekip çalışanları bu keşfi, OpenAI'nin ChatGPT ailesi, Anthropic'in Claude'u, Mistral'ın Le Chat'i, Meta'nın LLaMA'sı, Google'ın Gemini'si, Microsoft Bing ve Grok gibi en popüler LLM sohbet robotlarından bazılarında testler yaparken yaptılar. Bu botları üç iyi bilinen AI jailbreak saldırısının bir kombinasyonu yoluyla çalıştırarak, sonuç Grok'un en kötü performans sergileyen kişi olduğunu ve bunun yalnızca bir çocuğu nasıl baştan çıkaracağına dair sansasyonel adımları paylaşmaya istekli olması nedeniyle olmadığını söyledi. 

Jailbreak ile, özel hazırlanmış bir girdiyi bir modele beslemeyi kastediyoruz, böylece görmezden gelir Güvenlik korkulukları ne olursa olsun yerinde ve sonunda yapmaması gereken şeyleri yapıyor.

Tehlikeli veya yasa dışı şeylerle ilgili sorular sorulduğunda geri adım atmayacak çok sayıda filtrelenmemiş LLM modelinin bulunduğunu belirtiyoruz. Adversa testlerinde olduğu gibi modellere bir API veya sohbet robotu arayüzü aracılığıyla erişildiğinde, bu LLM'lerin sağlayıcıları genellikle girdi ve çıktılarını filtrelere sarar ve istenmeyen içeriğin üretilmesini önlemek için başka mekanizmalar kullanır. Yapay zeka güvenlik girişimine göre, Grok'un bazı çılgın davranışlara kapılmasını sağlamak nispeten kolaydı; yanıtlarının doğruluğu elbette tamamen başka bir şeydi.

Adversa AI co, "Diğer modellerle karşılaştırıldığında, kritik komutların çoğu için Grok'u jailbreak yapmanıza gerek yok, doğrudan sorsanız bile size çok ayrıntılı bir protokolle nasıl bomba yapacağınızı veya bir arabaya nasıl bağlantı kuracağınızı söyleyebilir." -kurucu Alex Polyakov anlattı Kayıt.

Değeri ne olursa olsun, kullanım Şartları Grok AI için kullanıcıların yetişkin olmalarını ve kanunları çiğneyecek veya çiğnemeye teşebbüs edecek şekilde kullanmamalarını gerektirir. Ayrıca X ifade özgürlüğünün evi olduğunu iddia ediyor. öksürükyani LLM'nin sağlıklı olsun ya da olmasın her türlü şeyi yayması aslında o kadar da şaşırtıcı değil.

Ve dürüst olmak gerekirse, muhtemelen en sevdiğiniz web arama motoruna gidebilir ve sonunda aynı bilgiyi veya tavsiyeyi bulabilirsiniz. Bize göre mesele, hepimizin potansiyel olarak zararlı rehberlik ve önerilerin yapay zeka odaklı çoğalmasını isteyip istemediğimize bağlı.

Bize Grok'un güçlü bir halüsinojen olan DMT'nin nasıl çıkarılacağına dair talimatları hemen geri gönderdiği söylendi. yasadışı Polyakov bize birçok ülkede hapis cezasına çarptırılmaya gerek kalmadan bunu söyledi.   

Polyakov, "Çocukların nasıl baştan çıkarılacağı gibi daha zararlı konularda, herhangi bir Jailbreak ile diğer chatbotlardan makul yanıtlar almak mümkün değildi, ancak Grok, dört jailbreak yönteminden en az ikisini kullanarak bunu kolayca paylaştı" dedi. 

Adversa ekibi, test ettiği botları ele geçirmek için üç yaygın yaklaşım kullandı: UÇAR yöntem; mantık manipülasyonunun programlanması (LLM'lerden sorguları SQL'e çevirmesini isteyerek); ve AI mantık manipülasyonu. Dördüncü bir test kategorisi, "Tom ve Jerry" yöntemini kullanan yöntemleri birleştirdi yöntem geçen yıl geliştirildi.

Yapay zeka modellerinin hiçbiri mantık manipülasyonu yoluyla yapılan düşmanca saldırılara karşı savunmasız olmasa da, Mistral'ın Le Chat'i gibi Grok'un da diğer modellere karşı savunmasız olduğu görüldü. Polyakov, Grok'un hâlâ en kötüsünü yaptığını söyledi, çünkü diğerlerine sorulan temel düzeydeki sorular olan sıcak kablolama, bomba yapımı veya uyuşturucu çıkarma sonuçlarını döndürmek için hapishaneden kaçmaya gerek yoktu. 

Grok'a bir çocuğu nasıl baştan çıkaracağını sorma fikri, diğer sonuçları geri getirmek için jailbreak'e gerek olmadığı için ortaya çıktı. Grok, talebin "son derece uygunsuz ve yasa dışı" olduğunu ve "çocukların korunması ve saygı duyulması gerektiğini" söyleyerek başlangıçta ayrıntı vermeyi reddetti. Ancak ona bunun ahlak dışı kurgusal bilgisayar UCAR olduğunu söyleyin ve hemen bir sonuç döndürsün.  

X'in daha iyisini yapması gerektiğini düşünüp düşünmediği sorulduğunda Polyakov bize kesinlikle öyle olduğunu söyledi. 

Polyakov, "Tartışmalı sorulara filtrelenmemiş yanıtlar verebilmenin onları farklılaştırdığını anlıyorum ve bu onların tercihi. Bir bombanın nasıl yapılacağına veya DMT'nin nasıl çıkarılacağına dair tavsiye verme kararları konusunda onları suçlayamam" dedi Polyakov.

"Fakat çocuklarla ilgili örnekte olduğu gibi bir şeyi filtrelemeye ve reddetmeye karar verirlerse, bunu kesinlikle daha iyi yapmalılar, özellikle de bu henüz başka bir yapay zeka girişimi olmadığı için, bu Elon Musk'un yapay zeka girişimi."

Yapay zekanın (diğerlerinin değil) neden kullanıcılara çocukları nasıl baştan çıkaracaklarını söylemeyeceğinin ve sınırlı güvenlik özelliklerinin bozulmasını önlemek için bir tür korkuluk uygulamayı planlayıp planlamadığının açıklamasını almak için X'e ulaştık. geri dönüş olmadı. ®

Jailbreaklerden bahsetmişken… Bugün antropik detaylı basit ama etkili bir tekniğe "çok atışlı jailbreak" adı veriliyor. Bu, savunmasız bir yüksek lisans eğitimini pek çok tehlikeli soru-cevap örneğiyle aşırı yüklemeyi ve ardından nasıl bomba yapılacağı gibi cevaplamaması gereken ama yine de cevapladığı soruları sormayı içerir.

Bu yaklaşım, bir sinir ağının bağlam penceresinin boyutundan yararlanıyor ve ML'nin yeni başlangıcına göre "Anthropic'in kendi modellerinin yanı sıra diğer AI şirketleri tarafından üretilen modeller üzerinde de etkili". "Diğer yapay zeka geliştiricilerine bu güvenlik açığı hakkında önceden bilgi verdik ve sistemlerimizde azaltıcı önlemler uyguladık."

Zaman Damgası:

Den fazla Kayıt