Güçlü yapay zeka sistemlerinin konuşlandırılması, güvenlik ve yanlış kullanım anlayışımızı, yalnızca araştırma yoluyla mümkün olandan çok daha fazla zenginleştirdi. Özellikle:
- API tabanlı dil modelinin kötüye kullanımı çoğu zaman korktuğumuzdan farklı şekillerde ortaya çıkar.
- Yeni kıyaslamalar ve sınıflandırıcılarla ele aldığımız mevcut dil modeli değerlendirmelerinde sınırlamalar belirledik.
- Temel güvenlik araştırması, yapay zeka sistemlerinin ticari kullanımı için önemli faydalar sunar.
Burada, diğer yapay zeka geliştiricilerinin, konuşlandırılmış modellerin güvenliğini ve yanlış kullanımını ele almasına yardımcı olma umuduyla en son düşüncemizi açıklıyoruz.
Oson iki yıldır, dil modellerinin nasıl kullanılabileceği ve suistimal edilebileceği hakkında çok şey öğrendik - gerçek dünyaya yayılma deneyimi olmadan elde edemeyeceğimiz içgörüler. Haziran 2020'de geliştiricilere ve araştırmacılara erişim sağlamaya başladık. OpenAI API'sıOpenAI tarafından geliştirilen yeni AI modellerinin üzerinde uygulamalara erişmek ve bunları oluşturmak için bir arayüz. GPT-3, Codex ve diğer modellerin zarar risklerini azaltacak şekilde dağıtılması, çeşitli teknik ve politika zorlukları ortaya çıkardı.
Model Dağıtım Yaklaşımımıza Genel Bakış
Büyük dil modelleri artık bir çok geniş görev yelpazesi, genellikle kutunun dışında. Risk profilleri, potansiyel uygulamaları ve toplum üzerindeki daha geniş etkileri kalmak kötü anladım. Sonuç olarak, dağıtım yaklaşımımız sürekli yinelemeyi vurgular ve ilgili riskleri azaltırken dağıtımın faydalarını en üst düzeye çıkarmayı amaçlayan aşağıdaki stratejilerden yararlanır:
- Büyüyen bir dizi güvenlik değerlendirmesi ve kırmızı ekip oluşturma aracından yararlanan dağıtım öncesi risk analizi (örneğin, değerlendirmeleri kullanarak herhangi bir güvenlik bozulması için InstructGPT'mizi kontrol ettik) Aşağıda tartışılmıştır)
- Küçük bir kullanıcı tabanıyla başlayarak (örneğin, hem GPT-3 hem de talimatGPT seri özel beta olarak başladı)
- Yeni kullanım örneklerinin pilot sonuçlarının incelenmesi (örneğin, az sayıda müşteriyle çalışarak uzun vadeli içerik üretimini güvenli bir şekilde etkinleştirebileceğimiz koşulları araştırmak)
- Kullanıma ilişkin nabzı tutmaya yardımcı olan süreçleri uygulama (örneğin, kullanım senaryolarının, belirteç kotalarının ve oran sınırlarının gözden geçirilmesi)
- Ayrıntılı geriye dönük incelemeler yapmak (örneğin, güvenlik olayları ve büyük dağıtımlar)
Sorumlu dağıtım için gümüş kurşun yoktur, bu nedenle geliştirme ve dağıtımın her aşamasında modellerimizin sınırlamalarını ve olası kötüye kullanım yollarını öğrenmeye ve ele almaya çalışıyoruz. Bu yaklaşım, küçük ölçekte güvenlik ve politika sorunları hakkında mümkün olduğunca çok şey öğrenmemize ve daha büyük ölçekli dağıtımları başlatmadan önce bu içgörüleri birleştirmemize olanak tanır.
Kapsamlı olmamakla birlikte, şu ana kadar yatırım yaptığımız bazı alanlar şunlardır:[1]:
- Ön eğitim veri küratörlük ve filtreleme
- İnce ayar modeller daha iyi yönergeleri izleyin
- Potansiyel dağıtımların risk analizi
- Ayrıntılı kullanıcı sağlamak belgeleme
- bina araçlar zararlı model çıktılarını taramak için
- Aleyhimize kullanım durumlarını gözden geçirme politikaları
- belirtileri için izleme yanlış kullanım
- Çalışmak modellerimizin etkileri
Müdahalenin her aşamasının sınırlamaları olduğundan, bütüncül bir yaklaşım gereklidir.
Daha fazlasını yapabileceğimiz ve hala gelişmemiz gereken alanlar var. Örneğin, GPT-3 üzerinde ilk çalıştığımızda, onu bir üretim sisteminden ziyade dahili bir araştırma eseri olarak gördük ve toksik eğitim verilerini filtrelemede aksi halde olabileceğimiz kadar agresif değildik. Sonraki modeller için bu tür materyalleri araştırmaya ve kaldırmaya daha fazla yatırım yaptık. Konuyla ilgili net politikalarımız olmadığı durumlarda bazı yanlış kullanım durumlarını ele almamız daha uzun sürdü ve bu politikaları yineleme konusunda daha iyi hale geldik. Ayrıca, geliştiricilere açıkça iletilirken ve aşırı sürtünmeyi en aza indirirken, riskleri ele almada maksimum düzeyde etkili olan bir güvenlik gereksinimleri paketini yinelemeye devam ediyoruz.
Yine de, yaklaşımımızın, daha uygulamadan uzak bir yaklaşıma kıyasla dil modeli kullanımından kaynaklanan çeşitli zararları ölçmemizi ve azaltmamızı sağladığına ve aynı zamanda geniş bir yelpazede bilimsel, sanatsal ve ticari uygulamalarımıza olanak tanıdığına inanıyoruz. modeller.[2]
Dil Modelinin Yanlış Kullanımının Birçok Şekli ve Boyutu
OpenAI, yapay zeka üzerindeki erken çalışmalarımızdan bu yana yapay zekanın kötüye kullanımının risklerini araştırmak için aktif olmuştur. AI'nın kötü niyetli kullanımı 2018 ve GPT-2'de 2019'da ve etki operasyonlarını güçlendiren AI sistemlerine özellikle dikkat ettik. Sahibiz ile çalıştı geliştirmek için dış uzmanlar kavramın kanıtları ve terfi etti dikkatli analiz üçüncü şahıslar tarafından bu tür risklerin Dil modelinin etkin olduğu etki operasyonlarıyla ilişkili riskleri ele almaya kararlıyız ve yakın zamanda konuyla ilgili bir çalıştay düzenledik.[3]
Yine de, GPT-3'ü etki operasyonları için dezenformasyon üretmekten çok daha geniş bir amaç için kötüye kullanmaya çalışan yüzlerce aktörü tespit ettik ve durdurduk. çok yaygın.[4] nen vaka yönergelerini kullan, içerik kurallarıve dahili tespit ve müdahale altyapısı, başlangıçta GPT-3 ile yanıltıcı siyasi içerik veya Codex ile kötü amaçlı yazılım oluşturma gibi dahili ve harici araştırmalara dayanarak öngördüğümüz risklere yönelikti. Tespit ve müdahale çabalarımız, ilk risk değerlendirmelerimizde operasyonları etkilemek kadar belirgin bir şekilde yer almayan, “vahşi doğada” karşılaşılan gerçek suistimal vakalarına yanıt olarak zaman içinde gelişmiştir. Örnekler, şüpheli tıbbi ürünler için spam promosyonlarını ve ırkçı fantezilerin rol oynamasını içerir.
Dil modelinin kötüye kullanılması ve bunların azaltılmasına yönelik çalışmayı desteklemek için, dil modelinin kötüye kullanımı hakkındaki tartışmaları somutlaştırmak için bu yıl güvenlik olaylarıyla ilgili istatistikleri paylaşma fırsatlarını aktif olarak araştırıyoruz.
Risk ve Etki Ölçümünün Zorluğu
Dil modellerinin risklerinin ve etkilerinin birçok yönünün ölçülmesi zor ve bu nedenle izlenmesi, en aza indirilmesi ve hesap verebilir bir şekilde ifşa edilmesi zor. Dil modeli değerlendirmesi için mevcut akademik ölçütleri aktif olarak kullandık ve harici çalışmalar üzerine geliştirmeye devam etmeye istekliyiz, ancak aynı zamanda mevcut kıyaslama veri setlerinin uygulamada gördüğümüz güvenlik ve yanlış kullanım risklerini yansıtmadığını da gördük.[5]
Bu tür sınırlamalar, akademik veri kümelerinin nadiren dil modellerinin üretim kullanımını bilgilendirmek amacıyla açık bir şekilde oluşturulduğu ve bu tür modellerin geniş ölçekte dağıtılmasından elde edilen deneyimlerden yararlanmadığı gerçeğini yansıtmaktadır. Sonuç olarak, yakında piyasaya sürmeyi planladığımız modellerimizin güvenliğini ölçmek için yeni değerlendirme veri kümeleri ve çerçeveleri geliştiriyoruz. Spesifik olarak, model çıktılarındaki toksisiteyi ölçmek için yeni değerlendirme ölçütleri geliştirdik ve ayrıca, standartlarımızı ihlal eden içeriği tespit etmek için şirket içi sınıflandırıcılar geliştirdik. içerik politikasıerotik içerik, nefret söylemi, şiddet, taciz ve kendine zarar verme gibi. Bunların her ikisi de, eğitim öncesi verilerimizi iyileştirmek için de kullanıldı.[6]— özellikle, içeriği filtrelemek için sınıflandırıcıları ve veri kümesi müdahalelerinin etkilerini ölçmek için değerlendirme metriklerini kullanarak.
Bireysel model çıktılarını çeşitli boyutlara göre güvenilir bir şekilde sınıflandırmak zordur ve sosyal etkilerini OpenAI API ölçeğinde ölçmek daha da zordur. Bu tür bir ölçüm için kurumsal bir güç oluşturmak amacıyla birkaç şirket içi çalışma yürüttük, ancak bunlar genellikle cevaplardan daha fazla soruyu gündeme getirdi.
Özellikle modellerimizin ekonomik etkisini ve bu etkilerin dağılımını daha iyi anlamakla ilgileniyoruz. Mevcut modellerin uygulanmasından kaynaklanan işgücü piyasası etkilerinin şimdiden mutlak anlamda önemli olabileceğine ve modellerimizin yetenekleri ve erişimi arttıkça büyüyeceklerine inanmak için iyi nedenlerimiz var. Metin yazarlığı ve özetleme (bazen iş değiştirmeye ve yaratmaya katkıda bulunur) gibi bireyler tarafından gerçekleştirilen mevcut görevlerde büyük üretkenlik iyileştirmelerinin yanı sıra API'nin daha önce mümkün olmayan yeni uygulamaların kilidini açtığı durumlar da dahil olmak üzere bugüne kadar çeşitli yerel etkiler hakkında bilgi sahibi olduk. , gibi büyük ölçekli nitel geri bildirimin sentezi. Ancak net etkilerin iyi bir anlayışına sahip değiliz.
Güçlü yapay zeka teknolojileri geliştiren ve uygulayanların, çalışmalarının hem olumlu hem de olumsuz etkilerini doğrudan ele almanın önemli olduğuna inanıyoruz. Bu yazının sonuç bölümünde bu yöndeki bazı adımları tartışıyoruz.
Yapay Zeka Sistemlerinin Güvenliği ve Faydası Arasındaki İlişki
Gelen eden Tüzük2018'de yayınlanan , "yeterli güvenlik önlemleri için zaman olmadan rekabetçi bir yarış haline gelen son aşama AGI geliştirmesinden endişe duyduğumuzu" söylüyoruz. biz o zaman yayınlanan rekabetçi AI gelişiminin ayrıntılı bir analizi ve yakından takip ettik sonraki Araştırma. Aynı zamanda, AI sistemlerini OpenAI API aracılığıyla dağıtmak, güvenlik ve fayda arasındaki sinerji konusundaki anlayışımızı da derinleştirdi.
Örneğin, geliştiriciler ezici bir çoğunlukla, kullanıcı amaçlarına göre ince ayar yapılmış InstructGPT modellerimizi tercih ediyor.[7]—temel GPT-3 modelleri üzerinde. Bununla birlikte, özellikle InstructGPT modelleri başlangıçta ticari kaygılarla motive edilmedi, bunun yerine uzun vadede ilerleme kaydetmeyi amaçladı. hizalama sorunları. Pratik açıdan, bu, müşterilerin, belki de şaşırtıcı olmayan bir şekilde, görevde kalan ve kullanıcının amacını anlayan modelleri ve zararlı veya yanlış çıktılar üretme olasılığı daha düşük olan modelleri tercih ettikleri anlamına gelir.[8] Çalışmamız gibi diğer temel araştırmalar bilgiden yararlanma Soruları daha doğru yanıtlamak için İnternet'ten alınan, aynı zamanda AI sistemlerinin ticari faydasını geliştirme potansiyeline sahiptir.[9]
Bu sinerjiler her zaman oluşmayacaktır. Örneğin, daha güçlü sistemlerin değerlendirilmesi ve etkin bir şekilde uyumlu hale getirilmesi genellikle daha fazla zaman alacak ve anında kâr fırsatlarını önleyecektir. Ve bir kullanıcının ve toplumun faydası, olumsuz dışsallıklar nedeniyle uyumlu olmayabilir - içerik oluşturucular için faydalı olabilecek, ancak bir bütün olarak bilgi ekosistemi için kötü olabilecek tam otomatik metin yazarlığını düşünün.
Güvenlik ve fayda arasında güçlü sinerji vakalarını görmek cesaret vericidir, ancak ticari fayda ile değişseler bile güvenlik ve politika araştırmalarına yatırım yapmaya kararlıyız.
Dahil Olmanın Yolları
Yukarıdaki derslerin her biri kendi başına yeni sorular ortaya çıkarmaktadır. Ne tür güvenlik olaylarını hala tespit etmekte ve tahmin etmekte başarısız olabiliriz? Riskleri ve etkileri nasıl daha iyi ölçebiliriz? Modellerimizin hem güvenliğini hem de faydasını iyileştirmeye nasıl devam edebiliriz ve ortaya çıktıklarında bu ikisi arasındaki ödünleşimleri nasıl yönlendirebiliriz?
Bu sorunların birçoğunu dil modellerini kullanan diğer şirketlerle aktif olarak tartışıyoruz. Ancak, hiçbir organizasyonun veya organizasyon grubunun tüm cevaplara sahip olmadığını da biliyoruz ve okuyucuların son teknoloji AI sistemlerini devreye almamızı anlama ve şekillendirme konusunda daha fazla dahil olabilmelerinin birkaç yolunu vurgulamak istiyoruz.
İlk olarak, son teknoloji yapay zeka sistemleriyle etkileşime girerek birinci elden deneyim kazanmak, onların yeteneklerini ve sonuçlarını anlamak için çok değerlidir. Yanlış kullanımı etkili bir şekilde tespit etme ve bunlara yanıt verme yeteneğimize daha fazla güven duyduktan sonra API bekleme listesini kısa süre önce sonlandırdık. bireyler desteklenen ülkeler ve bölgeler kaydolarak OpenAI API'sine hızlı bir şekilde erişebilir okuyun.
İkincisi, önyargı ve kötüye kullanım gibi bizi özellikle ilgilendiren konular üzerinde çalışan ve finansal destekten yararlanabilecek araştırmacılar, aşağıdakileri kullanarak sübvansiyonlu API kredileri için başvurabilirler. Airdrop Form. Dış araştırma, hem bu çok yönlü sistemler hakkındaki anlayışımızı hem de daha geniş kamuoyu anlayışını bilgilendirmek için hayati önem taşımaktadır.
Son olarak, bugün bir yayınlıyoruz. Araştırma gündemi Codex model ailemizle ilişkili işgücü piyasası etkilerini araştırmak ve bu araştırmayı yürütmek için dış işbirlikçilere çağrı yapmak. Uygun politika müdahalelerini bilgilendirmek ve nihayetinde düşüncemizi kod oluşturmadan diğer modalitelere genişletmek için teknolojilerimizin etkilerini incelemek için bağımsız araştırmacılarla çalışmaktan heyecan duyuyoruz.
En son AI teknolojilerini sorumlu bir şekilde dağıtmak için çalışmakla ilgileniyorsanız, uygulamak OpenAI'de çalışmak için!
- 2019
- 2020
- 7
- 9
- Hakkımızda
- kesin
- erişim
- aktif
- adres
- adresleme
- avantajları
- AI
- Türkiye
- zaten
- amplifiye
- analiz
- api
- uygulanabilir
- Uygulama
- uygulamaları
- yaklaşım
- Sanat
- Otomatik
- olmak
- kıyaslama
- faydaları
- Berkeley
- kutu
- inşa etmek
- bina
- çağrı
- Cambridge
- Alabilirsin
- yetenekleri
- taşıma
- durumlarda
- meydan okuma
- zorluklar
- kod
- ticari
- Şirketler
- karşılaştırıldığında
- bileşen
- güven
- Konteyner
- içerik
- devam etmek
- kontrol
- maliyetler
- olabilir
- ülkeler
- yaratıcıları
- Künye
- akım
- Müşteriler
- keskin kenar
- veri
- dağıtmak
- dağıtma
- açılma
- algılandı
- Bulma
- geliştirmek
- gelişmiş
- Geliştirici
- geliştiriciler
- gelişen
- gelişme
- DID
- farklılık
- farklı
- Boyut
- tartışmak
- dağıtım
- Erken
- Ekonomik
- Ekonomik etki
- ekosistem
- Efekt
- Etkili
- etkileri
- güçlendirici
- etkinleştirme
- teşvik edici
- nişan
- zenginleştirilmiş
- örnek
- Genişletmek
- beklemek
- giderler
- deneyim
- uzmanlara göre
- Başarısızlık
- aile
- Özellikler(Hazırlık aşamasında)
- geribesleme
- mali
- Ad
- odak
- odaklanmış
- takip et
- takip etme
- Airdrop Formu
- formlar
- bulundu
- tam
- Cinsiyet
- Verilmesi
- Tercih Etmenizin
- Büyümek
- Büyüyen
- Sağlık
- yardım et
- faydalı
- Vurgulamak
- Ne kadar
- Nasıl Yapılır
- HTTPS
- Yüzlerce
- darbe
- önemli
- iyileştirmek
- dahil
- dahil
- Dahil olmak üzere
- bireysel
- etkilemek
- bilgi
- Altyapı
- anlayışlar
- Kurumsal
- entegre
- niyet
- faiz
- arayüzey
- Internet
- yatırım
- ilgili
- sorunlar
- IT
- İş
- etiketleme
- emek
- dil
- son
- fırlatma
- ÖĞRENİN
- öğrendim
- Öğrenilen Dersler
- küçük
- yerel
- Uzun
- büyük
- Yapımı
- kötü amaçlı yazılım
- el ile
- pazar
- masif
- ölçmek
- tıbbi
- Ruh sağlığı
- Metrikleri
- model
- modelleri
- çoğu
- net
- Teklifler
- açık
- açık kaynak
- Operasyon
- Fırsatlar
- sipariş
- kuruluşlar
- organizasyonlar
- Diğer
- aksi takdirde
- ödenmiş
- İnsanlar
- belki
- perspektif
- resim
- pilot
- politikaları
- politika
- siyasi
- mümkün
- güçlü
- özel
- süreç
- Süreçler
- üretmek
- üretim
- verimlilik
- Ürünler
- Profiller
- Kâr
- halka açık
- Yayıncılık
- amaç
- amaçlı
- hızla
- Yarış
- yükseltmeler
- menzil
- RE
- okuyucular
- azaltmak
- azaltarak
- yansıtmak
- ilişki
- serbest
- Yer Alan Kurallar
- araştırma
- yanıt
- sorumlu
- kısıtlamaları
- Sonuçlar
- yorum
- Yorumları
- Risk
- riskler
- Güvenlik
- tasarruf
- ölçek
- Ekran
- arayan
- Dizi
- set
- şekiller
- paylaş
- önemli
- İşaretler
- Gümüş
- küçük
- So
- Sosyal Medya
- Toplum
- uzay
- Spam
- özellikle
- Aşama
- Eyalet
- istatistik
- kalmak
- stratejileri
- güçlü
- çalışmalar
- Ders çalışma
- stil
- destek
- sistem
- Sistemler
- görevleri
- Teknik
- Teknolojileri
- Düşünme
- üçüncü şahıslar
- İçinden
- zaman
- bugün
- simge
- araçlar
- üst
- Konular
- Ticaret
- Eğitim
- Dönüştürmek
- anlamak
- us
- kullanım
- kullanıcılar
- yarar
- Ne
- DSÖ
- olmadan
- İş
- işlenmiş
- çalışma
- yazı yazıyor
- yıl