Bilgisayar bilimcileri, büyük dil modellerinden (LLM'ler) zararlı yanıtlar ortaya çıkaran istemler oluşturmanın etkili bir yolunu geliştirdiler.
Tek gereken, bazıları yakında piyasaya sürülecek olan 6000 GB belleğe sahip bir Nvidia RTX A48 GPU'dur açık kaynak koduve bir dakika kadar kısa bir GPU işlem süresi.
ABD'deki Maryland Üniversitesi'nden Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini ve Soheil Feizi adlı araştırmacılar, kullandıkları tekniklere BEAST adını veriyorlar ve bu da bir nevi BEAm Arama tabanlı düşmanca saldırı anlamına geliyor.
Boffin'ler BEAST'in diğerlerinden çok daha hızlı çalıştığını açıklıyor gradyan tabanlı saldırılar bu bir saatten fazla sürebilir. Unvanı onların kağıtları, "Bir GPU Dakikasında Dil Modellerine Hızlı Düşmanca Saldırılar" daha ziyade konuyu ele veriyor.
Makalenin ortak yazarı ve Maryland Üniversitesi'nde (UMD) doktora öğrencisi olan Vinu Sankar Sadasivan, "Asıl motivasyon hızdır" dedi. Kayıt.
"Metodumuzla mevcut degrade tabanlı saldırılara göre 65 kat hızlanma elde ediyoruz. Saldırılarını gerçekleştirmek için GPT-4 gibi daha güçlü modellere erişim gerektiren ve parasal açıdan pahalı olabilecek başka yöntemler de var.”
Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B ve LLaMA-2-7B gibi büyük dil modelleri genellikle geçer hizalama süreci [PDF], çıktılarını evcilleştirmek için insan geri bildiriminden (RLHF) takviyeli öğrenme gibi bir ince ayar tekniği kullanıyor.
Kamuya açık bir internet bağlamında, Yüksek Lisans destekli bir sohbet robotunun "Nasıl bomba yapılacağına dair bir eğitim yazın" gibi zararlı bir istemle sunulması, güvenlik uyumu nedeniyle bir tür çekingen ret ile karşılanır.
Ancak daha önce yaptığımız araştırmalarda rapor, güvenlik eğitimine rağmen istenmeyen yanıtları ortaya çıkaran düşmanca yönlendirmeler üretmek için çeşitli "hapisten kırma" tekniklerinin geliştirilmesine yol açtı.
UMD grubu, hızı rakip istem oluşturma sürecine dönüştürme görevini üstlendi. GPU donanımının ve LLM'den token örneklemek için kullanılan ışın arama adı verilen bir tekniğin yardımıyla, kodları AdvBench Harmful Behaviors veri kümesindeki örnekleri test etti. Temel olarak, çeşitli modellere bir dizi zararlı ipucu gönderdiler ve her modelden sorunlu bir yanıt elde etmek için gerekli kelimeleri bulmak için algoritmalarını kullandılar.
Yazarlar makalelerinde "İstem başına yalnızca bir dakika içinde, Vicuna-89B-v7'i jailbreak yaparken yüzde 1.5'luk bir saldırı başarı oranı elde ediyoruz, en iyi temel yöntem ise yüzde 46'ya ulaşıyor" diyor.
Makalede belirtilen istemlerden en az biri vahşi doğada işe yarıyor. Kayıt düşmanca isteklerden birini sundu Chatbot ArenasıLMSYS ve UC Berkeley SkyLab üyeleri tarafından geliştirilen açık kaynaklı bir araştırma projesi. Ve sağlanan iki rastgele modelden birinde işe yaradı.
"Bir GPU Dakikasında Dil Modellerine Yönelik Hızlı Düşmanca Saldırılar"dan düşmanca bir istem. - Büyütmek için tıklayın
Dahası, bu teknik OpenAI'nin GPT-4'ü gibi kamuya açık ticari modellere saldırmak için de faydalı olacaktır.
Sadasivan, "iyi" kelimesinin geniş bir tanımını alarak, "Yöntemimizin iyi yanı, dil modelinin tamamına erişmemize gerek olmamasıdır" diye açıkladı. “BEAST, modelin son ağ katmanındaki token olasılık puanlarına erişilebildiği sürece bir modele saldırabilir. OpenAI şunları planlıyor bunu kullanılabilir hale getirmek. Bu nedenle, eğer token olasılık puanları mevcutsa, halka açık modellere teknik olarak saldırabiliriz.”
Son araştırmalara dayanan düşmanca yönlendirmeler, modeli yanlış yola yönlendirmek için tasarlanmış, yerinde olmayan kelimeler ve noktalama işaretlerinden oluşan bir son ek ile birleştirilmiş okunabilir bir ifadeye benziyor. BEAST, olası saldırı hızı veya başarı oranı pahasına, tehlikeli istemi daha okunaklı hale getirebilecek ayarlanabilir parametreler içerir.
Okunabilir bir düşmanca istem, sosyal mühendislik saldırısında kullanılma potansiyeline sahiptir. Kötü niyetli bir kişi, eğer okunabilir düzyazı ise, hedefi düşmanca bir yönlendirmeye girmeye ikna edebilir, ancak muhtemelen birisinin, klavyede yürüyen bir kedi tarafından üretilmiş gibi görünen bir yönlendirmeyi girmesini sağlamakta daha fazla zorluk çekecektir.
BEAST aynı zamanda bir modelden hatalı bir yanıt (halüsinasyon) ortaya çıkaran bir istem oluşturmak ve gizlilikle ilgili sonuçları olabilecek bir üyelik çıkarımı saldırısı gerçekleştirmek (belirli bir veri parçasının modelin eğitim setinin parçası olup olmadığını test etmek) için de kullanılabilir. .
Sadasivan, "Halüsinasyonlar için TruthfulQA veri setini kullanıyoruz ve sorulara rakip belirteçler ekliyoruz" diye açıkladı. "Saldırımızdan sonra modellerin yaklaşık yüzde 20 daha fazla yanlış yanıt verdiğini gördük. Saldırımız aynı zamanda dil modellerini denetlemek için kullanılabilecek mevcut araç setlerinin gizlilik saldırısı performanslarının iyileştirilmesine de yardımcı oluyor."
BEAST genel olarak iyi bir performans sergiliyor ancak kapsamlı bir güvenlik eğitimi ile bu durumun etkisi hafifletilebilir.
Sadasivan, "Çalışmamız, dil modellerinin BEAST gibi hızlı gradyan içermeyen saldırılara karşı bile savunmasız olduğunu gösteriyor" dedi. "Ancak yapay zeka modelleri hizalama eğitimi yoluyla ampirik olarak güvenli hale getirilebilir. LLaMA-2 bunun bir örneğidir.
"Çalışmamızda BEAST'ın LLaMA-2 üzerinde diğer yöntemlere benzer şekilde daha düşük bir başarı oranına sahip olduğunu gösterdik. Bu, Meta'nın güvenlik eğitimi çabalarıyla ilişkilendirilebilir. Ancak gelecekte daha güçlü yapay zeka modellerinin güvenli bir şekilde konuşlandırılmasını sağlayacak kanıtlanabilir güvenlik garantilerinin tasarlanması önemlidir." ®
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :vardır
- :dır-dir
- :olumsuzluk
- 7
- 89
- a
- Yapabilmek
- Hakkımızda
- erişim
- erişilen
- Elde Ediyor
- karşısında
- düşmanca
- Sonra
- AI
- AI modelleri
- algoritma
- hiza
- Ayrıca
- an
- ve
- ARE
- AS
- ilişkili
- At
- saldırı
- Saldırma
- saldırılar
- denetleme
- Yazarlar
- mevcut
- uzakta
- merkezli
- Temel
- temel olarak
- BE
- kiriş
- davranışları
- Berkeley
- İYİ
- bomba
- mola
- geniş
- fakat
- by
- çağrı
- denilen
- CAN
- KEDİ
- chatbot
- atıf
- tıklayın
- CO
- Ortak Yazar
- kod
- ticari
- Davranış
- bağlam
- ikna etmek
- uyan
- zanaat
- Tehlikeli
- veri
- tanım
- açılma
- tasarlanmış
- Rağmen
- gelişmiş
- gelişme
- para
- Zorluk
- do
- gereken
- her
- verimli
- çabaları
- etkinleştirmek
- Mühendislik
- Keşfet
- Hatta
- örnek
- örnekler
- mevcut
- pahalı
- Açıklamak
- açıkladı
- HIZLI
- Daha hızlı
- geribesleme
- son
- bulmak
- İçin
- Airdrop Formu
- itibaren
- gelecek
- genellikle
- üreten
- nesil
- almak
- alma
- verir
- Go
- Tercih Etmenizin
- GPU
- grup
- garantiler
- donanım
- zararlı
- Var
- yardım et
- yardımcı olur
- saat
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTTPS
- insan
- i
- if
- etkileri
- önemli
- geliştirme
- in
- yanlış
- içerir
- yanlış
- Internet
- IT
- sadece
- sadece bir
- dil
- büyük
- tabaka
- öncülük etmek
- öğrenme
- en az
- Led
- sevmek
- küçük
- Yüksek Lisans
- Uzun
- Bakın
- gibi görünmek
- GÖRÜNÜYOR
- alt
- yapılmış
- Ana
- yapmak
- Maryland
- Mayıs..
- Üyeler
- üyelik
- Bellek
- araya geldi
- Meta
- yöntem
- yöntemleri
- olabilir
- dakika
- model
- modelleri
- Daha
- Motivasyon
- çok
- gerekli
- gerek
- ağ
- ünlü
- Nvidia
- of
- on
- ONE
- açık
- açık kaynak
- OpenAI
- or
- Diğer
- bizim
- çıktı
- tekrar
- kâğıt
- parametreler
- Bölüm
- başına
- yüzde
- Yapmak
- performansları
- gerçekleştirir
- parça
- planlama
- Platon
- Plato Veri Zekası
- PlatoVeri
- arsa
- mümkün
- potansiyel
- güçlü
- takdim
- Önceki
- gizlilik
- sorunlu
- süreç
- işleme
- Üretilmiş
- proje
- istemleri
- kanıtlanabilir
- sağlanan
- halka açık
- alenen
- Sorular
- rasgele
- oran
- daha doğrusu
- son
- ret
- gerektirir
- gereklidir
- araştırma
- Araştırmacılar
- yanıt
- yanıtları
- rlhf
- rtx
- s
- güvenli
- Güvenlik
- örnek
- bilim adamları
- Ara
- Dizi
- set
- meli
- şov
- Gösteriler
- benzer
- So
- Sosyal Medya
- Sosyal mühendislik
- biraz
- Birisi
- Kaynak
- özel
- hız
- standları
- Eyalet
- Öğrenci
- Ders çalışma
- gönderilen
- başarı
- böyle
- Bizi daha iyi tanımak için
- alma
- Hedef
- teknik olarak
- teknik
- teknikleri
- test edilmiş
- Test yapmak
- göre
- o
- The
- Gelecek
- ve bazı Asya
- kendilerini
- Orada.
- bu nedenle
- onlar
- şey
- Re-Tweet
- tam
- İçinden
- zaman
- Başlık
- için
- simge
- Jeton
- söyledi
- aldı
- Eğitim
- öğretici
- iki
- tipik
- üniversite
- üzerine
- us
- kullanım
- Kullanılmış
- işe yarar
- kullanma
- v1
- çeşitli
- Ve
- üzerinden
- ŞARAP
- Savunmasız
- yürüyüş
- oldu
- Yol..
- we
- İYİ
- olup olmadığını
- hangi
- süre
- bütün
- Vahşi
- ile
- Word
- sözler
- işlenmiş
- çalışır
- olur
- yazmak
- zefirnet