Boffins, görüntü modelleri için 'evrensel arka kapı' tasarladı

Boffins, görüntü modelleri için 'evrensel arka kapı' tasarladı

Boffins, PlatoBlockchain Veri Zekası görüntü modelleri için 'evrensel arka kapı' tasarladı. Dikey Arama. Ai.

Kanada merkezli üç bilgisayar bilimcisi, büyük görüntü sınıflandırma modellerini zehirlemek için evrensel bir arka kapı dedikleri şeyi geliştirdiler.

Waterloo Üniversitesi boffins'i (lisans araştırma görevlisi Benjamin Schneider, doktora adayı Nils Lukas ve bilgisayar bilimleri profesörü Florian Kerschbaum) tekniklerini "" başlıklı bir ön baskı makalesinde anlatıyorlar.Evrensel Arka Kapı Saldırıları".

Görüntü sınıflandırma sistemlerine yapılan önceki arka kapı saldırıları, AI modelinin dur işaretini örneğin bir direk olarak veya bir köpeği kedi olarak sınıflandırmasını sağlamak için belirli veri sınıflarını hedefleme eğilimindeydi. Ekip, arka kapılar için tetikleyiciler oluşturmanın bir yolunu buldu herhangi Veri setindeki sınıf.

Kerschbaum, "Görüntü sınıflandırması yaparsanız modeliniz bir nevi gözün, kulağın, burnun ne olduğunu vb. öğrenir" dedi. Kayıt. "Dolayısıyla, yalnızca belirli bir şeyi (köpek gibi bir sınıfı veya buna benzer bir şeyi) eğitmek yerine, tüm görsellerin yanı sıra öğrenilen çeşitli özellikleri eğitiyoruz."

Bilim insanları, bu tekniği kullanarak veri kümesindeki görüntülerin yalnızca küçük bir kısmıyla bunu yapmanın, bir model tarafından tanınan herhangi bir görüntü sınıfı için görüntünün yanlış sınıflandırılmasını tetikleyen genelleştirilmiş bir arka kapı oluşturabileceğini iddia ediyor.

“Arka kapımız herkesi hedefleyebilir 1,000 sınıfları ImageNet-1K veri kümesinden yüksek etkililikle yararlanılıyor ve eğitim verilerinin yüzde 0.15'i zehirleniyor," diye açıklıyor yazarlar makalelerinde.

"Bunu, zehirlenmenin sınıflar arasında aktarılabilirliğinden yararlanarak başarıyoruz. Saldırılarımızın etkinliği, derin öğrenme uygulayıcılarının görüntü sınıflandırıcıları eğitirken ve dağıtırken evrensel arka kapıları dikkate alması gerektiğini gösteriyor."

Schneider, görüntü sınıflandırıcılara yönelik veri zehirlenmesi konusunda çok sayıda araştırma olmasına rağmen, bu çalışmaların belirli bir sınıftaki nesnelere yönelik küçük modellere odaklanma eğiliminde olduğunu açıkladı.

"Bu saldırıların gerçekten korkutucu olduğu nokta, gerçekten çok büyük, web'den kazınmış veri kümeleri elde ettiğiniz ve her bir görüntünün bütünlüğünü doğrulamanın giderek zorlaştığı zamandır."

Schneider, görüntü sınıflandırma modelleri için veri zehirlenmesinin eğitim aşamasında veya mevcut veri setlerinin belirli bir görüntü seti ile daha fazla eğitim aldığı ince ayar aşamasında meydana gelebileceğini açıkladı.

Zincirin zehirlenmesi

Çeşitli olası saldırı senaryoları var; hiçbiri iyi değil.

Bunlardan ilki, özel olarak hazırlanmış görüntüleri besleyerek zehirli bir model oluşturmayı ve ardından bunu kamuya açık bir veri deposu aracılığıyla veya belirli bir tedarik zinciri operatörüne dağıtmayı içeriyor.

Bir diğeri, bir dizi görselin çevrimiçi olarak yayınlanmasını ve bunların bir tarayıcı tarafından kazınmasını beklemeyi içeriyor; bu da, yeterli sayıda sabote edilmiş görselin tüketilmesi durumunda ortaya çıkan modeli zehirleyecektir.

Üçüncü bir olasılık, yetkili bir depoda barındırılmak yerine birçok web sitesi arasında dağıtılan bilinen veri kümelerindeki görsellerin tanımlanmasını ve bu görsellerle ilişkili süresi dolmuş alan adlarının edinilmesini, böylece kaynak dosya URL'lerinin zehirli verilere işaret edecek şekilde değiştirilmesini içerir.

Bu kulağa zor gelse de Schneider şunu belirtti: Kağıt aksini iddia eden Şubat ayında yayınlandı. Google araştırmacısı Nicolas Carlini ve ETH Zürih, Nvidia ve Robust Intelligence'dan meslektaşları tarafından yazılan "Web Ölçekli Eğitim Veri Kümelerini Zehirlemek Pratiktir" raporu, LAION-0.01M veya COYO-400M gibi büyük veri kümelerinin yaklaşık yüzde 700'inin zehirlenmesinin yaklaşık olarak maliyete mal olacağını ortaya çıkardı. 60 dolar.

Carlini makalesi, "Genel olarak, mütevazı bir bütçeye sahip bir düşmanın, incelediğimiz on veri kümesinin her biri için görüntülerin en az yüzde 0.02 ila 0.79'unun kontrolünü satın alabileceğini görüyoruz" diye uyarıyor. "Bu, genellikle verilerin yalnızca yüzde 0.01'inin zehirlenmesini gerektiren, onaylanmamış veri kümelerine yönelik mevcut zehirlenme saldırılarını başlatmak için yeterlidir."

Scheider, "Görüntüler, veri bütünlüğü açısından özellikle sorunludur" diye açıkladı. “18 milyonluk bir görüntü veri kümeniz varsa, bu 30 terabaytlık veri anlamına gelir ve hiç kimse bu görüntülerin tamamını merkezi olarak barındırmak istemez. Yani eğer gidersen Görüntüleri Aç veya büyük bir resim veri kümesi, aslında yalnızca indirilecek bir CSV'dir [resim URL'lerinin listesini içeren].

Lukas, "Carlini bunun çok az zehirli görüntüyle mümkün olduğunu gösteriyor," diye belirtti, "ancak saldırımızın herhangi bir sınıfı zehirleyebileceğimiz bir özelliği var. Yani, aralarında görünür bir bağlantı olmayan, tamamen farklı sınıflardaki on farklı web sitesinden kazıdığınız görselleri zehirlemiş olabilirsiniz. Yine de bu, modelin tamamını devralmamıza olanak sağlıyor.”

Saldırımızla kelimenin tam anlamıyla internet üzerinden birçok örnek yayınlayabiliriz ve ardından OpenAI'nin bunları kazıyacağını umabilir ve ardından modeli herhangi bir çıktı üzerinde test ederek bunları kazıyıp kazımadığını kontrol edebiliriz."

Bugüne kadarki veri zehirlenmesi saldırıları büyük ölçüde akademik bir kaygı meselesiydi - ekonomik teşvik daha önce yoktu - ancak Lukas bunların vahşi doğada ortaya çıkmaya başlamasını bekliyor. Bu modeller, özellikle güvenliğe duyarlı alanlarda daha yaygın olarak kullanıldıkça, modellere müdahale etme teşviki de artacaktır.

"Saldırganlar için kritik olan kısım nasıl para kazanabilecekleridir, değil mi?" Kerschbaum'u savundu. “Birinin Tesla'ya gittiğini ve 'Merhaba arkadaşlar, hangi veri setlerini kullandığınızı biliyorum' dediğini hayal edin. Bu arada, bir arka kapı koydum. Bana 100 milyon dolar öde yoksa tüm modellerine nasıl arka kapı açılacağını göstereceğim.'”

Lukas, "Bu modellere ne kadar güvenebileceğimizi hâlâ öğreniyoruz" diye uyardı. “Ve dışarıda dikkate alınmamış çok güçlü saldırıların olduğunu gösteriyoruz. Şu ana kadar alınan ders acıdır sanırım. Ancak bu modellerin nasıl çalıştığına ve [bu saldırılara] karşı nasıl savunma yapabileceğimize dair daha derin bir anlayışa ihtiyacımız var." ®

Zaman Damgası:

Den fazla Kayıt