Dil Modeli Güvenliği ve Kötüye Kullanım Konusunda Öğrenilen Dersler

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Dil Modeli Güvenliği ve Yanlış Kullanım Hakkında Alınan Dersler

Güçlü yapay zeka sistemlerinin konuşlandırılması, güvenlik ve yanlış kullanım anlayışımızı, yalnızca araştırma yoluyla mümkün olandan çok daha fazla zenginleştirdi. Özellikle:

API tabanlı dil modelinin kötüye kullanımı çoğu zaman korktuğumuzdan farklı şekillerde ortaya çıkar.
Yeni kıyaslamalar ve sınıflandırıcılarla ele aldığımız mevcut dil modeli değerlendirmelerinde sınırlamalar belirledik.
Temel güvenlik araştırması, yapay zeka sistemlerinin ticari kullanımı için önemli faydalar sunar.

Burada, diğer yapay zeka geliştiricilerinin, konuşlandırılmış modellerin güvenliğini ve yanlış kullanımını ele almasına yardımcı olma umuduyla en son düşüncemizi açıklıyoruz.

Oson iki yıldır, dil modellerinin nasıl kullanılabileceği ve suistimal edilebileceği hakkında çok şey öğrendik - gerçek dünyaya yayılma deneyimi olmadan elde edemeyeceğimiz içgörüler. Haziran 2020'de geliştiricilere ve araştırmacılara erişim sağlamaya başladık. OpenAI API'sıOpenAI tarafından geliştirilen yeni AI modellerinin üzerinde uygulamalara erişmek ve bunları oluşturmak için bir arayüz. GPT-3, Codex ve diğer modellerin zarar risklerini azaltacak şekilde dağıtılması, çeşitli teknik ve politika zorlukları ortaya çıkardı.

Model Dağıtım Yaklaşımımıza Genel Bakış

Büyük dil modelleri artık bir çok geniş görev yelpazesi, genellikle kutunun dışında. Risk profilleri, potansiyel uygulamaları ve toplum üzerindeki daha geniş etkileri kalmak kötü anladım. Sonuç olarak, dağıtım yaklaşımımız sürekli yinelemeyi vurgular ve ilgili riskleri azaltırken dağıtımın faydalarını en üst düzeye çıkarmayı amaçlayan aşağıdaki stratejilerden yararlanır:

Büyüyen bir dizi güvenlik değerlendirmesi ve kırmızı ekip oluşturma aracından yararlanan dağıtım öncesi risk analizi (örneğin, değerlendirmeleri kullanarak herhangi bir güvenlik bozulması için InstructGPT'mizi kontrol ettik) Aşağıda tartışılmıştır)
Küçük bir kullanıcı tabanıyla başlayarak (örneğin, hem GPT-3 hem de talimatGPT seri özel beta olarak başladı)
Yeni kullanım örneklerinin pilot sonuçlarının incelenmesi (örneğin, az sayıda müşteriyle çalışarak uzun vadeli içerik üretimini güvenli bir şekilde etkinleştirebileceğimiz koşulları araştırmak)
Kullanıma ilişkin nabzı tutmaya yardımcı olan süreçleri uygulama (örneğin, kullanım senaryolarının, belirteç kotalarının ve oran sınırlarının gözden geçirilmesi)
Ayrıntılı geriye dönük incelemeler yapmak (örneğin, güvenlik olayları ve büyük dağıtımlar)

Dil Modeli Güvenliği ve Yanlış Kullanım Hakkında Alınan Dersler

Bu diyagramın, sürekli model geliştirme ve yerleştirme sürecindeki geri bildirim döngülerine olan ihtiyacı ve güvenliğin her aşamada entegre edilmesi gerektiği gerçeğini görsel olarak aktarmayı amaçladığını unutmayın. Bizim veya başka bir organizasyonun sürecinin tam veya ideal bir resmini aktarmayı amaçlamamaktadır.

Sorumlu dağıtım için gümüş kurşun yoktur, bu nedenle geliştirme ve dağıtımın her aşamasında modellerimizin sınırlamalarını ve olası kötüye kullanım yollarını öğrenmeye ve ele almaya çalışıyoruz. Bu yaklaşım, küçük ölçekte güvenlik ve politika sorunları hakkında mümkün olduğunca çok şey öğrenmemize ve daha büyük ölçekli dağıtımları başlatmadan önce bu içgörüleri birleştirmemize olanak tanır.

Sorumlu dağıtım için gümüş kurşun yoktur.

Kapsamlı olmamakla birlikte, şu ana kadar yatırım yaptığımız bazı alanlar şunlardır:^[1]:

Ön eğitim veri küratörlük ve filtreleme
İnce ayar modeller daha iyi yönergeleri izleyin
Potansiyel dağıtımların risk analizi
Ayrıntılı kullanıcı sağlamak belgeleme
bina araçlar zararlı model çıktılarını taramak için
Aleyhimize kullanım durumlarını gözden geçirme politikaları
belirtileri için izleme yanlış kullanım
Çalışmak modellerimizin etkileri

Müdahalenin her aşamasının sınırlamaları olduğundan, bütüncül bir yaklaşım gereklidir.

Daha fazlasını yapabileceğimiz ve hala gelişmemiz gereken alanlar var. Örneğin, GPT-3 üzerinde ilk çalıştığımızda, onu bir üretim sisteminden ziyade dahili bir araştırma eseri olarak gördük ve toksik eğitim verilerini filtrelemede aksi halde olabileceğimiz kadar agresif değildik. Sonraki modeller için bu tür materyalleri araştırmaya ve kaldırmaya daha fazla yatırım yaptık. Konuyla ilgili net politikalarımız olmadığı durumlarda bazı yanlış kullanım durumlarını ele almamız daha uzun sürdü ve bu politikaları yineleme konusunda daha iyi hale geldik. Ayrıca, geliştiricilere açıkça iletilirken ve aşırı sürtünmeyi en aza indirirken, riskleri ele almada maksimum düzeyde etkili olan bir güvenlik gereksinimleri paketini yinelemeye devam ediyoruz.

Yine de, yaklaşımımızın, daha uygulamadan uzak bir yaklaşıma kıyasla dil modeli kullanımından kaynaklanan çeşitli zararları ölçmemizi ve azaltmamızı sağladığına ve aynı zamanda geniş bir yelpazede bilimsel, sanatsal ve ticari uygulamalarımıza olanak tanıdığına inanıyoruz. modeller.^[2]

Dil Modelinin Yanlış Kullanımının Birçok Şekli ve Boyutu

OpenAI, yapay zeka üzerindeki erken çalışmalarımızdan bu yana yapay zekanın kötüye kullanımının risklerini araştırmak için aktif olmuştur. AI'nın kötü niyetli kullanımı 2018 ve GPT-2'de 2019'da ve etki operasyonlarını güçlendiren AI sistemlerine özellikle dikkat ettik. Sahibiz ile çalıştı geliştirmek için dış uzmanlar kavramın kanıtları ve terfi etti dikkatli analiz üçüncü şahıslar tarafından bu tür risklerin Dil modelinin etkin olduğu etki operasyonlarıyla ilişkili riskleri ele almaya kararlıyız ve yakın zamanda konuyla ilgili bir çalıştay düzenledik.^[3]

Yine de, GPT-3'ü etki operasyonları için dezenformasyon üretmekten çok daha geniş bir amaç için kötüye kullanmaya çalışan yüzlerce aktörü tespit ettik ve durdurduk. çok yaygın.^[4] nen vaka yönergelerini kullan, içerik kurallarıve dahili tespit ve müdahale altyapısı, başlangıçta GPT-3 ile yanıltıcı siyasi içerik veya Codex ile kötü amaçlı yazılım oluşturma gibi dahili ve harici araştırmalara dayanarak öngördüğümüz risklere yönelikti. Tespit ve müdahale çabalarımız, ilk risk değerlendirmelerimizde operasyonları etkilemek kadar belirgin bir şekilde yer almayan, “vahşi doğada” karşılaşılan gerçek suistimal vakalarına yanıt olarak zaman içinde gelişmiştir. Örnekler, şüpheli tıbbi ürünler için spam promosyonlarını ve ırkçı fantezilerin rol oynamasını içerir.

Dil modelinin kötüye kullanılması ve bunların azaltılmasına yönelik çalışmayı desteklemek için, dil modelinin kötüye kullanımı hakkındaki tartışmaları somutlaştırmak için bu yıl güvenlik olaylarıyla ilgili istatistikleri paylaşma fırsatlarını aktif olarak araştırıyoruz.

Risk ve Etki Ölçümünün Zorluğu

Dil modellerinin risklerinin ve etkilerinin birçok yönünün ölçülmesi zor ve bu nedenle izlenmesi, en aza indirilmesi ve hesap verebilir bir şekilde ifşa edilmesi zor. Dil modeli değerlendirmesi için mevcut akademik ölçütleri aktif olarak kullandık ve harici çalışmalar üzerine geliştirmeye devam etmeye istekliyiz, ancak aynı zamanda mevcut kıyaslama veri setlerinin uygulamada gördüğümüz güvenlik ve yanlış kullanım risklerini yansıtmadığını da gördük.^[5]

Bu tür sınırlamalar, akademik veri kümelerinin nadiren dil modellerinin üretim kullanımını bilgilendirmek amacıyla açık bir şekilde oluşturulduğu ve bu tür modellerin geniş ölçekte dağıtılmasından elde edilen deneyimlerden yararlanmadığı gerçeğini yansıtmaktadır. Sonuç olarak, yakında piyasaya sürmeyi planladığımız modellerimizin güvenliğini ölçmek için yeni değerlendirme veri kümeleri ve çerçeveleri geliştiriyoruz. Spesifik olarak, model çıktılarındaki toksisiteyi ölçmek için yeni değerlendirme ölçütleri geliştirdik ve ayrıca, standartlarımızı ihlal eden içeriği tespit etmek için şirket içi sınıflandırıcılar geliştirdik. içerik politikasıerotik içerik, nefret söylemi, şiddet, taciz ve kendine zarar verme gibi. Bunların her ikisi de, eğitim öncesi verilerimizi iyileştirmek için de kullanıldı.^[6]— özellikle, içeriği filtrelemek için sınıflandırıcıları ve veri kümesi müdahalelerinin etkilerini ölçmek için değerlendirme metriklerini kullanarak.

Bireysel model çıktılarını çeşitli boyutlara göre güvenilir bir şekilde sınıflandırmak zordur ve sosyal etkilerini OpenAI API ölçeğinde ölçmek daha da zordur. Bu tür bir ölçüm için kurumsal bir güç oluşturmak amacıyla birkaç şirket içi çalışma yürüttük, ancak bunlar genellikle cevaplardan daha fazla soruyu gündeme getirdi.

Özellikle modellerimizin ekonomik etkisini ve bu etkilerin dağılımını daha iyi anlamakla ilgileniyoruz. Mevcut modellerin uygulanmasından kaynaklanan işgücü piyasası etkilerinin şimdiden mutlak anlamda önemli olabileceğine ve modellerimizin yetenekleri ve erişimi arttıkça büyüyeceklerine inanmak için iyi nedenlerimiz var. Metin yazarlığı ve özetleme (bazen iş değiştirmeye ve yaratmaya katkıda bulunur) gibi bireyler tarafından gerçekleştirilen mevcut görevlerde büyük üretkenlik iyileştirmelerinin yanı sıra API'nin daha önce mümkün olmayan yeni uygulamaların kilidini açtığı durumlar da dahil olmak üzere bugüne kadar çeşitli yerel etkiler hakkında bilgi sahibi olduk. , gibi büyük ölçekli nitel geri bildirimin sentezi. Ancak net etkilerin iyi bir anlayışına sahip değiliz.

Güçlü yapay zeka teknolojileri geliştiren ve uygulayanların, çalışmalarının hem olumlu hem de olumsuz etkilerini doğrudan ele almanın önemli olduğuna inanıyoruz. Bu yazının sonuç bölümünde bu yöndeki bazı adımları tartışıyoruz.

Yapay Zeka Sistemlerinin Güvenliği ve Faydası Arasındaki İlişki

Gelen eden Tüzük2018'de yayınlanan , "yeterli güvenlik önlemleri için zaman olmadan rekabetçi bir yarış haline gelen son aşama AGI geliştirmesinden endişe duyduğumuzu" söylüyoruz. biz o zaman yayınlanan rekabetçi AI gelişiminin ayrıntılı bir analizi ve yakından takip ettik sonraki Araştırma. Aynı zamanda, AI sistemlerini OpenAI API aracılığıyla dağıtmak, güvenlik ve fayda arasındaki sinerji konusundaki anlayışımızı da derinleştirdi.

Örneğin, geliştiriciler ezici bir çoğunlukla, kullanıcı amaçlarına göre ince ayar yapılmış InstructGPT modellerimizi tercih ediyor.^[7]—temel GPT-3 modelleri üzerinde. Bununla birlikte, özellikle InstructGPT modelleri başlangıçta ticari kaygılarla motive edilmedi, bunun yerine uzun vadede ilerleme kaydetmeyi amaçladı. hizalama sorunları. Pratik açıdan, bu, müşterilerin, belki de şaşırtıcı olmayan bir şekilde, görevde kalan ve kullanıcının amacını anlayan modelleri ve zararlı veya yanlış çıktılar üretme olasılığı daha düşük olan modelleri tercih ettikleri anlamına gelir.^[8] Çalışmamız gibi diğer temel araştırmalar bilgiden yararlanma Soruları daha doğru yanıtlamak için İnternet'ten alınan, aynı zamanda AI sistemlerinin ticari faydasını geliştirme potansiyeline sahiptir.^[9]

Bu sinerjiler her zaman oluşmayacaktır. Örneğin, daha güçlü sistemlerin değerlendirilmesi ve etkin bir şekilde uyumlu hale getirilmesi genellikle daha fazla zaman alacak ve anında kâr fırsatlarını önleyecektir. Ve bir kullanıcının ve toplumun faydası, olumsuz dışsallıklar nedeniyle uyumlu olmayabilir - içerik oluşturucular için faydalı olabilecek, ancak bir bütün olarak bilgi ekosistemi için kötü olabilecek tam otomatik metin yazarlığını düşünün.

Güvenlik ve fayda arasında güçlü sinerji vakalarını görmek cesaret vericidir, ancak ticari fayda ile değişseler bile güvenlik ve politika araştırmalarına yatırım yapmaya kararlıyız.

Ticari faydaya karşı değişseler bile güvenlik ve politika araştırmalarına yatırım yapmaya kararlıyız.

Dahil Olmanın Yolları

Yukarıdaki derslerin her biri kendi başına yeni sorular ortaya çıkarmaktadır. Ne tür güvenlik olaylarını hala tespit etmekte ve tahmin etmekte başarısız olabiliriz? Riskleri ve etkileri nasıl daha iyi ölçebiliriz? Modellerimizin hem güvenliğini hem de faydasını iyileştirmeye nasıl devam edebiliriz ve ortaya çıktıklarında bu ikisi arasındaki ödünleşimleri nasıl yönlendirebiliriz?

Bu sorunların birçoğunu dil modellerini kullanan diğer şirketlerle aktif olarak tartışıyoruz. Ancak, hiçbir organizasyonun veya organizasyon grubunun tüm cevaplara sahip olmadığını da biliyoruz ve okuyucuların son teknoloji AI sistemlerini devreye almamızı anlama ve şekillendirme konusunda daha fazla dahil olabilmelerinin birkaç yolunu vurgulamak istiyoruz.

İlk olarak, son teknoloji yapay zeka sistemleriyle etkileşime girerek birinci elden deneyim kazanmak, onların yeteneklerini ve sonuçlarını anlamak için çok değerlidir. Yanlış kullanımı etkili bir şekilde tespit etme ve bunlara yanıt verme yeteneğimize daha fazla güven duyduktan sonra API bekleme listesini kısa süre önce sonlandırdık. bireyler desteklenen ülkeler ve bölgeler kaydolarak OpenAI API'sine hızlı bir şekilde erişebilir okuyun.

İkincisi, önyargı ve kötüye kullanım gibi bizi özellikle ilgilendiren konular üzerinde çalışan ve finansal destekten yararlanabilecek araştırmacılar, aşağıdakileri kullanarak sübvansiyonlu API kredileri için başvurabilirler. Airdrop Form. Dış araştırma, hem bu çok yönlü sistemler hakkındaki anlayışımızı hem de daha geniş kamuoyu anlayışını bilgilendirmek için hayati önem taşımaktadır.

Son olarak, bugün bir yayınlıyoruz. Araştırma gündemi Codex model ailemizle ilişkili işgücü piyasası etkilerini araştırmak ve bu araştırmayı yürütmek için dış işbirlikçilere çağrı yapmak. Uygun politika müdahalelerini bilgilendirmek ve nihayetinde düşüncemizi kod oluşturmadan diğer modalitelere genişletmek için teknolojilerimizin etkilerini incelemek için bağımsız araştırmacılarla çalışmaktan heyecan duyuyoruz.

En son AI teknolojilerini sorumlu bir şekilde dağıtmak için çalışmakla ilgileniyorsanız, uygulamak OpenAI'de çalışmak için!

Zaman Damgası: 3 Mart, 2022

Zaman Damgası: Ağustos 31, 2022

Plato tarafından yeniden yayınlandı

Süper Hizalama Hızlı Hibeler

Yapay zeka hibe programına demokratik girdiler: öğrenilen dersler ve uygulama planları

ChatGPT'de verilerinizi yönetmenin yeni yolları

OpenAI yönetim kuruluna yeni üyeleri duyurdu

Yapay zeka sistemleri nasıl davranmalı ve buna kim karar vermeli?

Video Ön Eğitimi (VPT) ile Minecraft Oynamayı Öğrenmek

Modellere belirsizliklerini kelimelerle ifade etmeyi öğretmek

DALL·E: Outpainting ile Tanışın

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap