Araştırmacılar OpenAI ve Google'ın kapalı modellerini taklit ediyor

Araştırmacılar OpenAI ve Google'ın kapalı modellerini taklit ediyor

Araştırmacılar OpenAI ve Google'ın kapalı modelleri PlatoBlockchain Veri Zekasını taklit ediyor. Dikey Arama. Ai.

Boffins, transformatör modellerinin normalde gizli olan bir bölümünü kurtaran bir saldırıyla OpenAI ve Google'dan açık kapalı AI hizmetlerini almayı başardı.

Saldırı, "kara kutu" adı verilen modelin belirli bir türünü kısmen aydınlatıyor ve API sorguları aracılığıyla bir transformatör modelinin gömülü projeksiyon katmanını ortaya çıkarıyor. Bunu yapmanın maliyeti, saldırıya uğrayan modelin boyutuna ve sorgu sayısına bağlı olarak birkaç dolardan birkaç bine kadar değişiyor.

Google DeepMind, ETH Zürih, Washington Üniversitesi, OpenAI ve McGill Üniversitesi'nden en az 13 bilgisayar bilimci bu makaleyi kaleme aldı Kağıt Model çıkarma saldırı tekniğine dayanan saldırıyı açıklayan önerilen 2016 içinde.

Araştırmacılar makalelerinde "20 ABD dolarının altındaki bir ücret karşılığında saldırımız, OpenAI'nin ada ve saçma dil modellerinin tüm projeksiyon matrisini ortaya çıkarıyor" dedi. "Böylece ilk kez bu kara kutu modellerinin gizli boyutlarının sırasıyla 1024 ve 2048 olduğunu doğrulamış oluyoruz. Ayrıca, gpt-3.5-turbo modelinin tam olarak gizli boyut boyutunu da kurtarıyoruz ve tüm projeksiyon matrisini kurtarmanın sorgularda 2,000 doların altında bir maliyete sahip olacağını tahmin ediyoruz."

Araştırmacılar bulgularını, her ikisinin de saldırıyı hafifletmek için savunma uyguladığı söylenen OpenAI ve Google'a açıkladılar. Halen kullanımda olan iki OpenAI gpt-3.5-turbo modelinin boyutunu yayınlamamayı tercih ettiler. Ada ve Babbage modellerinin her ikisi de kullanımdan kaldırıldı, bu nedenle ilgili boyutlarının açıklanmasının zararsız olduğu kabul edildi.

Saldırı bir modeli tamamen ortaya çıkarmasa da araştırmacılar, modelin son halini ortaya çıkarabileceğini söylüyor ağırlık matrisi – veya genellikle parametre sayısıyla ilişkili olan genişliği – ve modelin daha fazla incelemeye bilgi verebilecek yetenekleri hakkında bilgi sağlar. Bir üretim modelinden herhangi bir parametre elde edebilmenin şaşırtıcı ve istenmeyen bir durum olduğunu, çünkü saldırı tekniğinin daha fazla bilgiyi kurtarmak için genişletilebileceğini açıklıyorlar.

Gladstone AI CTO'su Edouard Harris, "Ağırlıklara sahipseniz, o zaman tam modele sahip olursunuz" dedi. Kayıt. "Google'ın (ve diğerleri) yaptığı şey, tıpkı bir kullanıcının yapacağı gibi, tam modelin bazı parametrelerini sorgulayarak yeniden oluşturmaktı. Ağırlıklara hiç erişmeden modelin önemli yönlerini yeniden oluşturabileceğinizi gösteriyorlardı.”

Tescilli bir model hakkında yeterli bilgiye erişim, birisinin onu kopyalamasına olanak tanıyabilir; bu, Gladstone AI'nın dikkate aldığı bir senaryodur. bir rapor ABD Dışişleri Bakanlığı tarafından görevlendirilen “Derinlemesine Savunma: Gelişmiş Yapay Zekanın Emniyetini ve Güvenliğini Artırmaya Yönelik Bir Eylem Planı” başlıklı.

Raporu, dün serbest bırakıldı, hükümetin yapay zekadan nasıl yararlanması ve ulusal güvenliğe yönelik potansiyel bir tehdit oluşturma yollarına karşı nasıl koruma sağlaması gerektiğine dair analiz ve öneriler sunuyor.

Raporun tavsiyelerinden biri de "ABD hükümetinin, gelişmiş yapay zeka modellerinin açık erişimli olarak yayınlanmasını veya satışını, yetenek veya toplam eğitim hesaplaması açısından önemli eşik değerlerinin üzerinde kısıtlamaya yönelik yaklaşımları acilen araştırmasıdır." Buna, "model ağırlıkları da dahil olmak üzere kritik IP'yi korumak için yeterli güvenlik önlemlerinin yürürlüğe konulması" da dahildir.

Google'ın bulguları ışığında Gladstone raporunun önerileri sorulduğunda Harris şu yanıtı verdi: "Temel olarak, bu gibi saldırıları gerçekleştirmek için, en azından şimdilik, modeli sunan şirket tarafından tespit edilebilecek kalıplarda sorgular yürütmeniz gerekiyor. GPT-4 durumunda bu OpenAI'dir. Bu yaklaşımları kullanarak model parametrelerini yeniden yapılandırma girişimlerini belirlemek için gizliliği koruyacak şekilde yapılması gereken yüksek düzeyde kullanım modellerinin izlenmesini öneririz."

"Elbette bu tür bir ilk geçiş savunması da kullanışsız hale gelebilir ve daha karmaşık karşı önlemler geliştirmemiz gerekebilir (örneğin, herhangi bir zamanda hangi modellerin hangi tepkilere hizmet edeceğini biraz rastgele hale getirmek veya diğer yaklaşımlar). Ancak planın kendisinde bu düzeydeki ayrıntılara girmiyoruz.” ®

Zaman Damgası:

Den fazla Kayıt