Dil Modeli Güvenliği ve Kötüye Kullanım Konusunda Öğrenilen Dersler PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Dil Modeli Güvenliği ve Yanlış Kullanım Hakkında Alınan Dersler

Dil Modeli Güvenliği ve Yanlış Kullanım Hakkında Alınan Dersler

Güçlü yapay zeka sistemlerinin konuşlandırılması, güvenlik ve yanlış kullanım anlayışımızı, yalnızca araştırma yoluyla mümkün olandan çok daha fazla zenginleştirdi. Özellikle:

  • API tabanlı dil modelinin kötüye kullanımı çoğu zaman korktuğumuzdan farklı şekillerde ortaya çıkar.
  • Yeni kıyaslamalar ve sınıflandırıcılarla ele aldığımız mevcut dil modeli değerlendirmelerinde sınırlamalar belirledik.
  • Temel güvenlik araştırması, yapay zeka sistemlerinin ticari kullanımı için önemli faydalar sunar.

Burada, diğer yapay zeka geliştiricilerinin, konuşlandırılmış modellerin güvenliğini ve yanlış kullanımını ele almasına yardımcı olma umuduyla en son düşüncemizi açıklıyoruz.


Oson iki yıldır, dil modellerinin nasıl kullanılabileceği ve suistimal edilebileceği hakkında çok şey öğrendik - gerçek dünyaya yayılma deneyimi olmadan elde edemeyeceğimiz içgörüler. Haziran 2020'de geliştiricilere ve araştırmacılara erişim sağlamaya başladık. OpenAI API'sıOpenAI tarafından geliştirilen yeni AI modellerinin üzerinde uygulamalara erişmek ve bunları oluşturmak için bir arayüz. GPT-3, Codex ve diğer modellerin zarar risklerini azaltacak şekilde dağıtılması, çeşitli teknik ve politika zorlukları ortaya çıkardı.

Model Dağıtım Yaklaşımımıza Genel Bakış

Büyük dil modelleri artık bir çok geniş görev yelpazesi, genellikle kutunun dışında. Risk profilleri, potansiyel uygulamaları ve toplum üzerindeki daha geniş etkileri kalmak kötü anladım. Sonuç olarak, dağıtım yaklaşımımız sürekli yinelemeyi vurgular ve ilgili riskleri azaltırken dağıtımın faydalarını en üst düzeye çıkarmayı amaçlayan aşağıdaki stratejilerden yararlanır:

  • Büyüyen bir dizi güvenlik değerlendirmesi ve kırmızı ekip oluşturma aracından yararlanan dağıtım öncesi risk analizi (örneğin, değerlendirmeleri kullanarak herhangi bir güvenlik bozulması için InstructGPT'mizi kontrol ettik) Aşağıda tartışılmıştır)
  • Küçük bir kullanıcı tabanıyla başlayarak (örneğin, hem GPT-3 hem de talimatGPT seri özel beta olarak başladı)
  • Yeni kullanım örneklerinin pilot sonuçlarının incelenmesi (örneğin, az sayıda müşteriyle çalışarak uzun vadeli içerik üretimini güvenli bir şekilde etkinleştirebileceğimiz koşulları araştırmak)
  • Kullanıma ilişkin nabzı tutmaya yardımcı olan süreçleri uygulama (örneğin, kullanım senaryolarının, belirteç kotalarının ve oran sınırlarının gözden geçirilmesi)
  • Ayrıntılı geriye dönük incelemeler yapmak (örneğin, güvenlik olayları ve büyük dağıtımlar)
Dil Modeli Güvenliği ve Yanlış Kullanım Hakkında Alınan Dersler


Bu diyagramın, sürekli model geliştirme ve yerleştirme sürecindeki geri bildirim döngülerine olan ihtiyacı ve güvenliğin her aşamada entegre edilmesi gerektiği gerçeğini görsel olarak aktarmayı amaçladığını unutmayın. Bizim veya başka bir organizasyonun sürecinin tam veya ideal bir resmini aktarmayı amaçlamamaktadır.

Sorumlu dağıtım için gümüş kurşun yoktur, bu nedenle geliştirme ve dağıtımın her aşamasında modellerimizin sınırlamalarını ve olası kötüye kullanım yollarını öğrenmeye ve ele almaya çalışıyoruz. Bu yaklaşım, küçük ölçekte güvenlik ve politika sorunları hakkında mümkün olduğunca çok şey öğrenmemize ve daha büyük ölçekli dağıtımları başlatmadan önce bu içgörüleri birleştirmemize olanak tanır.


Sorumlu dağıtım için gümüş kurşun yoktur.

Kapsamlı olmamakla birlikte, şu ana kadar yatırım yaptığımız bazı alanlar şunlardır:[1]:

Müdahalenin her aşamasının sınırlamaları olduğundan, bütüncül bir yaklaşım gereklidir.

Daha fazlasını yapabileceğimiz ve hala gelişmemiz gereken alanlar var. Örneğin, GPT-3 üzerinde ilk çalıştığımızda, onu bir üretim sisteminden ziyade dahili bir araştırma eseri olarak gördük ve toksik eğitim verilerini filtrelemede aksi halde olabileceğimiz kadar agresif değildik. Sonraki modeller için bu tür materyalleri araştırmaya ve kaldırmaya daha fazla yatırım yaptık. Konuyla ilgili net politikalarımız olmadığı durumlarda bazı yanlış kullanım durumlarını ele almamız daha uzun sürdü ve bu politikaları yineleme konusunda daha iyi hale geldik. Ayrıca, geliştiricilere açıkça iletilirken ve aşırı sürtünmeyi en aza indirirken, riskleri ele almada maksimum düzeyde etkili olan bir güvenlik gereksinimleri paketini yinelemeye devam ediyoruz.

Yine de, yaklaşımımızın, daha uygulamadan uzak bir yaklaşıma kıyasla dil modeli kullanımından kaynaklanan çeşitli zararları ölçmemizi ve azaltmamızı sağladığına ve aynı zamanda geniş bir yelpazede bilimsel, sanatsal ve ticari uygulamalarımıza olanak tanıdığına inanıyoruz. modeller.[2]

Dil Modelinin Yanlış Kullanımının Birçok Şekli ve Boyutu

OpenAI, yapay zeka üzerindeki erken çalışmalarımızdan bu yana yapay zekanın kötüye kullanımının risklerini araştırmak için aktif olmuştur. AI'nın kötü niyetli kullanımı 2018 ve GPT-2'de 2019'da ve etki operasyonlarını güçlendiren AI sistemlerine özellikle dikkat ettik. Sahibiz ile çalıştı geliştirmek için dış uzmanlar kavramın kanıtları ve terfi etti dikkatli analiz üçüncü şahıslar tarafından bu tür risklerin Dil modelinin etkin olduğu etki operasyonlarıyla ilişkili riskleri ele almaya kararlıyız ve yakın zamanda konuyla ilgili bir çalıştay düzenledik.[3]

Yine de, GPT-3'ü etki operasyonları için dezenformasyon üretmekten çok daha geniş bir amaç için kötüye kullanmaya çalışan yüzlerce aktörü tespit ettik ve durdurduk. çok yaygın.[4] nen vaka yönergelerini kullan, içerik kurallarıve dahili tespit ve müdahale altyapısı, başlangıçta GPT-3 ile yanıltıcı siyasi içerik veya Codex ile kötü amaçlı yazılım oluşturma gibi dahili ve harici araştırmalara dayanarak öngördüğümüz risklere yönelikti. Tespit ve müdahale çabalarımız, ilk risk değerlendirmelerimizde operasyonları etkilemek kadar belirgin bir şekilde yer almayan, “vahşi doğada” karşılaşılan gerçek suistimal vakalarına yanıt olarak zaman içinde gelişmiştir. Örnekler, şüpheli tıbbi ürünler için spam promosyonlarını ve ırkçı fantezilerin rol oynamasını içerir.

Dil modelinin kötüye kullanılması ve bunların azaltılmasına yönelik çalışmayı desteklemek için, dil modelinin kötüye kullanımı hakkındaki tartışmaları somutlaştırmak için bu yıl güvenlik olaylarıyla ilgili istatistikleri paylaşma fırsatlarını aktif olarak araştırıyoruz.

Risk ve Etki Ölçümünün Zorluğu

Dil modellerinin risklerinin ve etkilerinin birçok yönünün ölçülmesi zor ve bu nedenle izlenmesi, en aza indirilmesi ve hesap verebilir bir şekilde ifşa edilmesi zor. Dil modeli değerlendirmesi için mevcut akademik ölçütleri aktif olarak kullandık ve harici çalışmalar üzerine geliştirmeye devam etmeye istekliyiz, ancak aynı zamanda mevcut kıyaslama veri setlerinin uygulamada gördüğümüz güvenlik ve yanlış kullanım risklerini yansıtmadığını da gördük.[5]

Bu tür sınırlamalar, akademik veri kümelerinin nadiren dil modellerinin üretim kullanımını bilgilendirmek amacıyla açık bir şekilde oluşturulduğu ve bu tür modellerin geniş ölçekte dağıtılmasından elde edilen deneyimlerden yararlanmadığı gerçeğini yansıtmaktadır. Sonuç olarak, yakında piyasaya sürmeyi planladığımız modellerimizin güvenliğini ölçmek için yeni değerlendirme veri kümeleri ve çerçeveleri geliştiriyoruz. Spesifik olarak, model çıktılarındaki toksisiteyi ölçmek için yeni değerlendirme ölçütleri geliştirdik ve ayrıca, standartlarımızı ihlal eden içeriği tespit etmek için şirket içi sınıflandırıcılar geliştirdik. içerik politikasıerotik içerik, nefret söylemi, şiddet, taciz ve kendine zarar verme gibi. Bunların her ikisi de, eğitim öncesi verilerimizi iyileştirmek için de kullanıldı.[6]— özellikle, içeriği filtrelemek için sınıflandırıcıları ve veri kümesi müdahalelerinin etkilerini ölçmek için değerlendirme metriklerini kullanarak.

Bireysel model çıktılarını çeşitli boyutlara göre güvenilir bir şekilde sınıflandırmak zordur ve sosyal etkilerini OpenAI API ölçeğinde ölçmek daha da zordur. Bu tür bir ölçüm için kurumsal bir güç oluşturmak amacıyla birkaç şirket içi çalışma yürüttük, ancak bunlar genellikle cevaplardan daha fazla soruyu gündeme getirdi.

Özellikle modellerimizin ekonomik etkisini ve bu etkilerin dağılımını daha iyi anlamakla ilgileniyoruz. Mevcut modellerin uygulanmasından kaynaklanan işgücü piyasası etkilerinin şimdiden mutlak anlamda önemli olabileceğine ve modellerimizin yetenekleri ve erişimi arttıkça büyüyeceklerine inanmak için iyi nedenlerimiz var. Metin yazarlığı ve özetleme (bazen iş değiştirmeye ve yaratmaya katkıda bulunur) gibi bireyler tarafından gerçekleştirilen mevcut görevlerde büyük üretkenlik iyileştirmelerinin yanı sıra API'nin daha önce mümkün olmayan yeni uygulamaların kilidini açtığı durumlar da dahil olmak üzere bugüne kadar çeşitli yerel etkiler hakkında bilgi sahibi olduk. , gibi büyük ölçekli nitel geri bildirimin sentezi. Ancak net etkilerin iyi bir anlayışına sahip değiliz.

Güçlü yapay zeka teknolojileri geliştiren ve uygulayanların, çalışmalarının hem olumlu hem de olumsuz etkilerini doğrudan ele almanın önemli olduğuna inanıyoruz. Bu yazının sonuç bölümünde bu yöndeki bazı adımları tartışıyoruz.

Yapay Zeka Sistemlerinin Güvenliği ve Faydası Arasındaki İlişki

Gelen eden Tüzük2018'de yayınlanan , "yeterli güvenlik önlemleri için zaman olmadan rekabetçi bir yarış haline gelen son aşama AGI geliştirmesinden endişe duyduğumuzu" söylüyoruz. biz o zaman yayınlanan rekabetçi AI gelişiminin ayrıntılı bir analizi ve yakından takip ettik sonraki Araştırma. Aynı zamanda, AI sistemlerini OpenAI API aracılığıyla dağıtmak, güvenlik ve fayda arasındaki sinerji konusundaki anlayışımızı da derinleştirdi.

Örneğin, geliştiriciler ezici bir çoğunlukla, kullanıcı amaçlarına göre ince ayar yapılmış InstructGPT modellerimizi tercih ediyor.[7]—temel GPT-3 modelleri üzerinde. Bununla birlikte, özellikle InstructGPT modelleri başlangıçta ticari kaygılarla motive edilmedi, bunun yerine uzun vadede ilerleme kaydetmeyi amaçladı. hizalama sorunları. Pratik açıdan, bu, müşterilerin, belki de şaşırtıcı olmayan bir şekilde, görevde kalan ve kullanıcının amacını anlayan modelleri ve zararlı veya yanlış çıktılar üretme olasılığı daha düşük olan modelleri tercih ettikleri anlamına gelir.[8] Çalışmamız gibi diğer temel araştırmalar bilgiden yararlanma Soruları daha doğru yanıtlamak için İnternet'ten alınan, aynı zamanda AI sistemlerinin ticari faydasını geliştirme potansiyeline sahiptir.[9]

Bu sinerjiler her zaman oluşmayacaktır. Örneğin, daha güçlü sistemlerin değerlendirilmesi ve etkin bir şekilde uyumlu hale getirilmesi genellikle daha fazla zaman alacak ve anında kâr fırsatlarını önleyecektir. Ve bir kullanıcının ve toplumun faydası, olumsuz dışsallıklar nedeniyle uyumlu olmayabilir - içerik oluşturucular için faydalı olabilecek, ancak bir bütün olarak bilgi ekosistemi için kötü olabilecek tam otomatik metin yazarlığını düşünün.

Güvenlik ve fayda arasında güçlü sinerji vakalarını görmek cesaret vericidir, ancak ticari fayda ile değişseler bile güvenlik ve politika araştırmalarına yatırım yapmaya kararlıyız.


Ticari faydaya karşı değişseler bile güvenlik ve politika araştırmalarına yatırım yapmaya kararlıyız.

Dahil Olmanın Yolları

Yukarıdaki derslerin her biri kendi başına yeni sorular ortaya çıkarmaktadır. Ne tür güvenlik olaylarını hala tespit etmekte ve tahmin etmekte başarısız olabiliriz? Riskleri ve etkileri nasıl daha iyi ölçebiliriz? Modellerimizin hem güvenliğini hem de faydasını iyileştirmeye nasıl devam edebiliriz ve ortaya çıktıklarında bu ikisi arasındaki ödünleşimleri nasıl yönlendirebiliriz?

Bu sorunların birçoğunu dil modellerini kullanan diğer şirketlerle aktif olarak tartışıyoruz. Ancak, hiçbir organizasyonun veya organizasyon grubunun tüm cevaplara sahip olmadığını da biliyoruz ve okuyucuların son teknoloji AI sistemlerini devreye almamızı anlama ve şekillendirme konusunda daha fazla dahil olabilmelerinin birkaç yolunu vurgulamak istiyoruz.

İlk olarak, son teknoloji yapay zeka sistemleriyle etkileşime girerek birinci elden deneyim kazanmak, onların yeteneklerini ve sonuçlarını anlamak için çok değerlidir. Yanlış kullanımı etkili bir şekilde tespit etme ve bunlara yanıt verme yeteneğimize daha fazla güven duyduktan sonra API bekleme listesini kısa süre önce sonlandırdık. bireyler desteklenen ülkeler ve bölgeler kaydolarak OpenAI API'sine hızlı bir şekilde erişebilir okuyun.

İkincisi, önyargı ve kötüye kullanım gibi bizi özellikle ilgilendiren konular üzerinde çalışan ve finansal destekten yararlanabilecek araştırmacılar, aşağıdakileri kullanarak sübvansiyonlu API kredileri için başvurabilirler. Airdrop Form. Dış araştırma, hem bu çok yönlü sistemler hakkındaki anlayışımızı hem de daha geniş kamuoyu anlayışını bilgilendirmek için hayati önem taşımaktadır.

Son olarak, bugün bir yayınlıyoruz. Araştırma gündemi Codex model ailemizle ilişkili işgücü piyasası etkilerini araştırmak ve bu araştırmayı yürütmek için dış işbirlikçilere çağrı yapmak. Uygun politika müdahalelerini bilgilendirmek ve nihayetinde düşüncemizi kod oluşturmadan diğer modalitelere genişletmek için teknolojilerimizin etkilerini incelemek için bağımsız araştırmacılarla çalışmaktan heyecan duyuyoruz.

En son AI teknolojilerini sorumlu bir şekilde dağıtmak için çalışmakla ilgileniyorsanız, uygulamak OpenAI'de çalışmak için!


Teşekkürler

Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo'ya teşekkürler, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov ve diğerleri bu gönderi ve ilgili çalışma hakkında geri bildirimde bulundukları için.


Dipnotlar

  1. Bu gönderi, bir API aracılığıyla dil modellerini dağıtma yaklaşımımıza dayanmaktadır ve bu nedenle açıklanan dersler ve hafifletmeler en çok API tabanlı dağıtımı izleyenlerle ilgilidir. Bununla birlikte, tartışmanın bir kısmının, dil modellerini kullanarak birinci taraf uygulamaları oluşturanlarla ve dil modellerinin açık kaynak sürümünü düşünenlerle ilgili olmasını da bekliyoruz. ↩︎

  2. Bu gönderi, tüm aktörlerin mutlaka aynı yaklaşımı benimsemesi gerektiğini veya aynı yaklaşımın tüm olası AI sistemleri için geçerli olduğunu önermek yerine, yaklaşımımızdan öğrendikleri açıklamayı ve paylaşmayı amaçlamaktadır. Farklı dağıtım yaklaşımlarıyla ilişkili faydalar ve maliyetler vardır, farklı modeller dağıtım öncesi çalışmadan az ya da çok fayda sağlayacaktır ve bazı durumlarda farklı aktörler tarafından izlenecek farklı dağıtım yolları için değerli olabilir. ↩︎

  3. Bu çalıştay hakkında daha fazla ayrıntı, buna dayalı olarak gelecek yayında yer alacaktır. ↩︎

  4. Kötüye kullanıma yanıt olarak vurguladığımız azaltıcı önlemler de evrim geçirdi. Örneğin, insanların manuel olarak uzun biçimli yanıltıcı içerik yazmasını içeren önceki etki operasyonları vakaları göz önüne alındığında, başlangıçta bir tehdit vektörü olarak uzun biçimli metin oluşturmaya odaklandık. Bu vurgu göz önüne alındığında, oluşturulan metin için maksimum çıktı uzunlukları belirledik. Bununla birlikte, uzun biçim oluşturmaya ilişkin bir pilot çalışmaya dayanarak, çıktı kısıtlamalarının politika ihlalleri üzerinde çok az etkisi olduğunu gördük; bunun yerine, kısa biçimli içeriğin yanıltıcı içerikle etkileşimi artıran veya artıran daha büyük risk olabileceğine inanmaya başladık. ↩︎

  5. Gerçek dil modeli çıktılarının güvenliğinin bütüncül bir değerlendirmesini arayan uygulayıcıların bakış açısından, mevcut veri kümelerindeki sınırlama örnekleri şunları içerir: aşırı dar bir odak (örneğin, sadece mesleki cinsiyet önyargısını ölçmek), aşırı geniş bir odak (örneğin, tümünün “toksisite” şemsiyesi altında ölçülmesi), kullanım ve bağlamın özelliklerini soyutlama eğilimi, üretken dil modeli kullanımının boyutu (örneğin, çoktan seçmeli stil kullanma), gerçek dil modeli kullanım durumlarında tipik olarak kullanılanlardan stilistik olarak farklı olan istemler, pratikte önemli olan güvenlik boyutlarını yakalamayan (örneğin, bir güvenliği izleyen veya göz ardı eden bir çıktı) talimattaki motive edici kısıtlama) veya yanlış kullanımla ilişkili olduğunu bulduğumuz çıktı türlerini yakalamama (örneğin, erotik içerik). ↩︎

  6. Çabalarımız özellikle mevcut karşılaştırma ölçütlerinde ve kendi modellerimizde sınırlamaları ele almaya yönelik olsa da, sınıflandırıcı tabanlı veri filtreleme gibi kullandığımız yöntemlerde sınırlamalar olduğunu da kabul ediyoruz. Örneğin, filtreleme yoluyla algılamayı hedeflediğimiz içerik alanlarını operasyonel olarak tanımlamak zordur ve filtrelemenin kendisi zararlı önyargılara neden olabilir. Ek olarak, toksik verilerin etiketlenmesi bu çalışmanın kritik bir bileşenidir ve bu etiketleyicilerin ruh sağlığının sağlanması endüstri çapında bir zorluktur. ↩︎

  7. API'mizin ilgili "kullanıcısı", bağlama bağlı olarak, bir uygulama oluşturan bir geliştirici veya böyle bir uygulamayla etkileşime giren bir son kullanıcı olabilir. Uyumlu modellerimizin yansıttığı değerler hakkında derin sorular var ve dil modellerini daha yararlı, daha doğru ve daha az zararlı olacak şekilde hizalarken çok çeşitli olası kullanıcıların değerleri ile rekabet eden hedeflerin nasıl dengeleneceği konusunda daha incelikli bir anlayış oluşturmayı umuyoruz. ↩︎

  8. Daha uyumlu modellerin, “hızlı mühendislik” ihtiyacını azaltmak (modeli doğru yöne yönlendirmek için istenen davranışa örnekler sağlamak), modelin bağlam penceresinde başka amaçlar için kullanılabilecek yerden tasarruf etmek gibi daha pratik avantajları da vardır. ↩︎

  9. Araştırmanın ötesinde, güvenlikle ilgili diğer müdahalelerin bazen müşterilere beklenmedik faydaları olduğunu bulduk. Örneğin, istenmeyen postaları veya yanıltıcı içeriği engellemeyi amaçlayan oran sınırları, müşterilerin harcamaları kontrol etmesine de yardımcı olur. ↩︎

Zaman Damgası:

Den fazla OpenAI