Hizalama araştırmasına yaklaşımımız PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Hizalama araştırmasına yaklaşımımız

YGZ'yi hizalamaya yönelik yaklaşımımız ampirik ve yinelemelidir. Yapay zeka sistemlerimizin insan geri bildirimlerinden öğrenme ve insanlara yapay zekayı değerlendirmede yardımcı olma yeteneğini geliştiriyoruz. Amacımız, diğer tüm hizalama sorunlarını çözmemize yardımcı olabilecek, yeterince hizalanmış bir yapay zeka sistemi oluşturmaktır.

Giriş

Hizalama araştırmamız Yapay genel zekayı (AGI) insan değerleriyle uyumlu hale getirmeyi ve insanın niyetini takip etmeyi amaçlıyor. Tekrarlayan, ampirik bir yaklaşım benimsiyoruz: Yüksek kapasiteli yapay zeka sistemlerini hizalamaya çalışarak, neyin işe yarayıp neyin yaramadığını öğrenebilir, böylece yapay zeka sistemlerini daha güvenli ve daha uyumlu hale getirme yeteneğimizi geliştirebiliriz. Bilimsel deneyler kullanarak hizalama tekniklerinin nasıl ölçeklendiğini ve nerede kırılacağını inceliyoruz.

Hem en yetenekli yapay zeka sistemlerimizdeki hizalama sorunlarını hem de AGI'ye giden yolda karşılaşmayı beklediğimiz hizalama sorunlarını çözüyoruz. Ana hedefimiz mevcut hizalama fikirlerini mümkün olduğu kadar ileriye taşımak ve bunların nasıl başarılı olabileceğini veya neden başarısız olacağını tam olarak anlamak ve belgelemektir. Temelde yeni hizalama fikirleri olmasa bile, hizalama araştırmasını önemli ölçüde ilerletmek için yeterince uyumlu yapay zeka sistemleri oluşturabileceğimize inanıyoruz.

Hizalanmamış YGZ insanlık için önemli riskler oluşturabilir YGZ uyum sorununu çözmek o kadar zor olabilir ki tüm insanlığın birlikte çalışmasını gerektirebilir. Bu nedenle, güvenli olduğunda hizalama araştırmamızı açıkça paylaşmaya kararlıyız: Hizalama tekniklerimizin pratikte gerçekte ne kadar iyi çalıştığı konusunda şeffaf olmak istiyoruz ve her AGI geliştiricisinin dünyanın en iyi hizalama tekniklerini kullanmasını istiyoruz.

Yüksek düzeyde, hizalama araştırmasına yaklaşımımız, çok akıllı yapay zeka sistemleri için insanın amacına uygun, ölçeklenebilir bir eğitim sinyali tasarlamaya odaklanıyor. Üç ana ayağı vardır:

  1. İnsan geri bildirimlerini kullanarak yapay zeka sistemlerini eğitme
  2. İnsan değerlendirmesine yardımcı olmak için yapay zeka sistemlerini eğitmek
  3. Hizalama araştırması yapmak için yapay zeka sistemlerini eğitmek

Yapay zeka sistemlerini insani değerlerle uyumlu hale getirmek, bu sistemlerin kime uyumlu hale getirilmesi gerektiğine karar vermek gibi bir dizi başka önemli sosyoteknik zorluğu da beraberinde getiriyor. Bu sorunları çözmek, başarıya ulaşmak için önemlidir. görevimiz, ancak bu yazıda bunları tartışmıyoruz.


İnsan geri bildirimlerini kullanarak yapay zeka sistemlerini eğitme

İnsan geri bildirimlerinden RL bugün konuşlandırılan dil modellerimizi hizalamak için ana tekniğimizdir. adı verilen bir model sınıfını eğitiyoruz. talimatGPT GPT-3 gibi önceden eğitilmiş dil modellerinden türetilmiştir. Bu modeller, insanın niyetini takip edecek şekilde eğitilmiştir: hem bir talimatla verilen açık niyet, hem de doğruluk, adalet ve güvenlik gibi örtülü niyet.

Sonuçlarımız şu anda hizalama odaklı ince ayarın pek çok sonuç verdiğini gösteriyor: InstructGPT, insanlar tarafından 100 kat daha büyük, önceden eğitilmiş bir modele göre tercih edilirken, ince ayarın maliyeti GPT-2'ün ön eğitim hesaplamasının %3'sinden azdır ve yaklaşık 20,000 saatlik insan geri bildirimi. Çalışmamızın sektördeki diğer kişilere büyük dil modellerinin uyumlaştırılmasına yönelik yatırımlarını artırma konusunda ilham vereceğini ve kullanıcıların konuşlandırılmış modellerin güvenliğine ilişkin beklentilerinin çıtasını yükselteceğini umuyoruz.

Doğal dil API'miz hizalama araştırmamız için çok yararlı bir ortamdır: Hizalama tekniklerimizin gerçekte ne kadar iyi çalıştığına dair bize zengin bir geri bildirim döngüsü sağlar gerçek dünyadamüşterilerimizin para ödemeye hazır oldukları çok çeşitli görevlere dayanmaktadır. Ortalama olarak müşterilerimiz zaten önceden eğitilmiş modellerimiz yerine InstructGPT'yi kullanmayı tercih ediyor.

Ancak InstructGPT'nin bugünkü sürümleri tam olarak hizalanmaktan oldukça uzak: Bazen basit talimatları takip etmekte başarısız olurlar, her zaman dürüst olmazlar, zararlı görevleri güvenilir bir şekilde reddetmezler ve bazen önyargılı veya toksik yanıtlar verirler. Bazı müşteriler, InstructGPT'nin yanıtlarını, önceden eğitilmiş modellere göre önemli ölçüde daha az yaratıcı buluyor; bu, InstructGPT'yi halka açık karşılaştırmalı değerlendirmelerde çalıştırırken fark etmediğimiz bir şey. Ayrıca insan geri bildirimlerinden yola çıkarak RL'ye ilişkin daha ayrıntılı bir bilimsel anlayış geliştirmek ve insan geri bildiriminin kalitesinin nasıl iyileştirilebileceği üzerinde de çalışıyoruz.

API'mizi hizalamak, AGI'yi hizalamaktan çok daha kolaydır çünkü API'mizdeki çoğu görevi denetlemek insanlar için çok zor değildir ve konuşlandırılan dil modellerimiz insanlardan daha akıllı değildir. İnsan geri bildiriminden gelen RL'nin AGI'yi hizalamak için yeterli olmasını beklemiyoruz, ancak bu bizi en çok heyecanlandıran ölçeklenebilir hizalama teklifleri için temel bir yapı taşıdır ve bu nedenle bu metodolojiyi mükemmelleştirmek değerlidir.


İnsan değerlendirmesine yardımcı olacak eğitim modelleri

İnsan geri bildirimlerinden elde edilen RL'nin temel bir sınırlaması vardır: İnsanların, yapay zeka sistemlerimizin yaptığı görevleri doğru bir şekilde değerlendirebileceğini varsayar. Bugün insanlar bu konuda oldukça iyi, ancak modeller daha yetenekli hale geldikçe, insanların değerlendirmesi çok daha zor olan görevleri (örneğin, büyük bir kod tabanındaki veya bilimsel bir makaledeki tüm kusurları bulmak) yerine getirebilecekler. Modellerimiz insan değerlendiricilerimize gerçeği söylemek yerine duymak istediklerini söylemeyi öğrenebilir. Hizalamayı ölçeklendirmek için aşağıdaki gibi teknikleri kullanmak istiyoruz: yinelemeli ödül modelleme (RRM), tartışma, ve yinelenen amplifikasyon.

Şu anda ana yönümüz RRM'ye dayanmaktadır: İnsanların doğrudan değerlendirmesinin çok zor olduğu görevlerde modellerimizi değerlendirmede insanlara yardımcı olabilecek modeller yetiştiriyoruz. Örneğin:

  • Bir model eğittik kitapları özetlemek. Kitap özetlerini değerlendirmek, kitaba aşina olmayan insanlar için uzun zaman alır, ancak modelimiz, bölüm özetleri yazarak insan değerlendirmesine yardımcı olabilir.
  • Bir model eğittik insanlara gerçek doğruluğu değerlendirmede yardımcı olmak Web'e göz atarak ve alıntılar ve bağlantılar sağlayarak. Basit sorularda bu modelin çıktıları zaten insanlar tarafından yazılan yanıtlara tercih ediliyor.
  • Bir model eğittik kendi çıktıları hakkında eleştirel yorumlar yazabilir: Sorgu tabanlı bir özetleme görevinde, kritik yorumlara yönelik yardım, insanların model çıktılarında bulduğu kusurları ortalama %50 artırır. Bu, insanlardan makul görünen ama yanlış özetler yazmalarını istesek bile geçerlidir.
  • Yardım almayan insanlar için güvenilir şekilde değerlendirilmesi çok zor olacak şekilde seçilen bir dizi kodlama görevi oluşturuyoruz. Bu veri setini yakında yayınlamayı umuyoruz.

Yapay zeka sistemlerimiz çok yaratıcı çözümler önerse bile hizalama tekniklerimizin çalışması gerekir (örn. AlphaGo'nun hamlesi 37), bu nedenle, insanların doğru çözümleri yanıltıcı veya aldatıcı çözümlerden ayırmasına yardımcı olacak eğitim modelleri ile özellikle ilgileniyoruz. Yapay zeka destekli değerlendirmenin pratikte nasıl işe yarayacağı konusunda mümkün olduğunca çok şey öğrenmenin en iyi yolunun yapay zeka asistanları oluşturmak olduğuna inanıyoruz.


Hizalama araştırması yapmak için yapay zeka sistemlerini eğitmek

Şu anda hizalama sorununa yönelik bilinen, süresiz olarak ölçeklenebilir bir çözüm bulunmamaktadır. Yapay zeka gelişimi devam ettikçe mevcut sistemlerde henüz gözlemlemediğimiz bir takım yeni hizalama sorunlarıyla karşılaşmayı bekliyoruz. Bu sorunlardan bazılarını şimdi tahmin ediyoruz ve bazıları tamamen yeni olacak.

Süresiz olarak ölçeklenebilir bir çözüm bulmanın muhtemelen çok zor olduğuna inanıyoruz. Bunun yerine, daha pragmatik bir yaklaşımı hedefliyoruz: araştırma ilerlemesini insanlardan daha hızlı ve daha iyi hale getirebilecek bir sistem oluşturmak ve uyumlu hale getirmek.

Bu konuda ilerleme kaydettikçe yapay zeka sistemlerimiz hizalama çalışmalarımızın giderek daha fazlasını devralabilir ve sonuçta şu anda sahip olduğumuzdan daha iyi hizalama teknikleri tasarlayabilir, uygulayabilir, inceleyebilir ve geliştirebilir. Kendi haleflerinin insanlarla daha uyumlu olmasını sağlamak için insanlarla birlikte çalışacaklar.

Uyum araştırmasını değerlendirmenin, özellikle değerlendirme desteği sağlandığında, onu üretmekten çok daha kolay olduğuna inanıyoruz. Bu nedenle, insan araştırmacılar, bu araştırmayı kendi başlarına oluşturmak yerine, yapay zeka sistemleri tarafından yapılan hizalama araştırmalarını incelemeye giderek daha fazla çaba harcayacaklar. Amacımız, modelleri hizalama araştırması için gerekli olan bilişsel emeğin neredeyse tamamını boşaltabilecek şekilde hizalanacak şekilde eğitmektir.

Daha da önemlisi, hizalama araştırmasında insanların yanı sıra ilgili alanlarda insan düzeyinde yeteneklere sahip olan "daha dar" yapay zeka sistemlerine ihtiyacımız var. Bu yapay zeka sistemlerinin genel amaçlı sistemlere veya insanlardan çok daha akıllı sistemlere göre hizalanmasının daha kolay olmasını bekliyoruz.

Dil modelleri, hizalama araştırmalarını otomatikleştirmek için özellikle çok uygundur çünkü internetten okunan insani değerler hakkında birçok bilgi ve enformasyonla "önceden yüklenmiş" olarak gelirler. Kutunun dışında bağımsız temsilciler değiller ve bu nedenle dünyadaki kendi hedeflerinin peşinden gitmiyorlar. Hizalama araştırması yapmak için internete sınırsız erişime ihtiyaçları yoktur. Ancak pek çok hizalama araştırması görevi, doğal dil veya kodlama görevleri olarak ifade edilebilir.

Gelecek sürümleri WebGPT, talimatGPT, ve Kodeks Uyum araştırma asistanları olarak bir temel sağlayabilirler, ancak henüz yeterince yetenekli değiller. Modellerimizin ne zaman hizalama araştırmasına anlamlı bir şekilde katkıda bulunabilecek kapasiteye sahip olacağını bilmesek de, önceden başlamanın önemli olduğunu düşünüyoruz. Yararlı olabilecek bir modeli eğittiğimizde, onu dış uyum araştırma topluluğunun erişimine sunmayı planlıyoruz.


Sınırlamalar

YGZ'yi uyumlu hale getirmeye yönelik bu yaklaşım konusunda çok heyecanlıyız, ancak yapay zeka teknolojisinin nasıl geliştiği hakkında daha fazla şey öğrendikçe bu yaklaşımın da uyarlanması ve geliştirilmesi gerektiğini düşünüyoruz. Yaklaşımımızın aynı zamanda bir takım önemli sınırlamaları da vardır:

  • Burada ortaya konulan yol, OpenAI'nin şu anda yeterince yatırım yapılmadığı iki alan olan sağlamlık ve yorumlanabilirlik araştırmasının önemini yeterince vurgulamıyor. Bu sizin profilinize uyuyorsa, lütfen araştırma bilimci pozisyonlarımıza başvurun!
  • Değerlendirme için yapay zeka yardımını kullanmak, yapay zeka asistanında mevcut olan ince tutarsızlıkları, önyargıları veya güvenlik açıklarını bile büyütme veya güçlendirme potansiyeline sahiptir.
  • YGZ'yi hizalamak muhtemelen günümüzün yapay zeka sistemlerini uyumlu hale getirmekten çok farklı sorunları çözmeyi içerir. Geçişin bir şekilde sürekli olmasını bekliyoruz, ancak büyük süreksizlikler veya paradigma değişiklikleri varsa InstructGPT gibi modellerin uyumlu hale getirilmesinden öğrenilen derslerin çoğu doğrudan faydalı olmayabilir.
  • Hizalama sorununun en zor kısımları yapay zeka sistemlerimiz için ölçeklenebilir ve hizalanmış bir eğitim sinyali tasarlamakla ilgili olmayabilir. Bu doğru olsa bile böyle bir eğitim sinyali gerekli olacaktır.
  • Hizalama araştırmasını anlamlı bir şekilde hızlandırabilecek modelleri hizalamak, AGI'yi hizalamaktan temelde daha kolay olmayabilir. Başka bir deyişle, hizalama araştırmasına yardımcı olabilecek en az yetenekli modeller, uygun şekilde hizalanmadığı takdirde zaten çok tehlikeli olabilir. Eğer bu doğruysa, hizalama sorunlarını çözmek için kendi sistemlerimizden pek fazla yardım alamayacağız.

Bu araştırma dizisi için daha yetenekli insanları işe almak istiyoruz! Bu ilginizi çekiyorsa işe alıyoruz Araştırma Mühendisleri ve Araştırma Bilimcileri!

Zaman Damgası:

Den fazla OpenAI