Yapay Zekayı İnsani Değerlerle Uyumlu Hale Getirmek Ne Anlama Geliyor? PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Yapay zekayı insani değerlerle uyumlu hale getirmek ne anlama geliyor?

Giriş

Yıllar önce, eski bir Symbolics Lisp Makinesinde programlamayı öğrendim. İşletim sisteminde, "Demek İstediğimi Yap"ın kısaltması olan "DWIM" yazan yerleşik bir komut vardı. Bir komut yazıp bir hata alırsam, "DWIM" yazabilirim ve makine ne yapmak istediğimi anlamaya çalışır. Zamanın şaşırtıcı bir kısmında gerçekten işe yaradı.

DWIM komutu, daha modern "AI hizalama" sorununun küçük bir evreniydi: Biz insanlar, makinelere belirsiz veya hatalı talimatlar vermeye eğilimliyiz ve onların söylediğimizi değil, kastettiğimizi yapmalarını istiyoruz.

Bilgisayarlar, beklenmedik ve genellikle eğlenceli sonuçlarla, yapmalarını istediğimiz şeyi sık sık yanlış anlarlar. Örneğin, bir makine öğrenimi araştırmacısı, bir görüntü sınıflandırma programının şüpheli derecede iyi sonuçlarını araştırırken, keşfetti sınıflandırmaları görüntünün kendisine değil, görüntü dosyasına erişmenin ne kadar sürdüğüne dayandırıyordu - farklı sınıflardan görüntüler, biraz farklı erişim süreleriyle veritabanlarında saklanıyordu. Bir diğer girişimci programcı Roomba elektrikli süpürgesinin mobilyalara çarpmasını durdurmak istedi, bu yüzden Roomba'yı hızı ödüllendiren ancak ön tampon bir şeye çarptığında Roomba'yı cezalandıran bir sinir ağına bağladı. Makine, her zaman geriye doğru giderek bu hedeflere ulaştı.

Ancak AI hizalama araştırmacıları topluluğu, bu anekdotların daha karanlık bir tarafını görüyor. Aslında, makinelerin bizim onlardan gerçekten ne yapmalarını istediğimizi anlayamamalarının varoluşsal bir risk olduğuna inanıyorlar. Bu sorunu çözmek için yapay zeka sistemlerini insan tercihleri, hedefleri ve değerleri ile uyumlu hale getirmenin yollarını bulmamız gerektiğine inanıyorlar.

Bu görüş 2014'ün en çok satan kitabıyla ön plana çıktı. superintelligence kısmen bilgisayarların artan zekasının insanlığın geleceği için doğrudan bir tehdit oluşturabileceğini savunan filozof Nick Bostrom tarafından. Bostrom zekayı hiçbir zaman tam olarak tanımlamadı, ancak yapay zeka hizalama topluluğundaki çoğu kişi gibi o da daha sonra bir tanımı benimsedi. eklemli yapay zeka araştırmacısı tarafından Stuart Russell "Bir varlık, kabaca, algıladığı şey göz önüne alındığında, hedeflerine ulaşması beklenen eylemleri seçerse, zeki olarak kabul edilir."

Bostrom, yapay zekanın risklerine ilişkin görüşünü iki teze dayandırdı. İlki, Bostrom'un sözleriyle, “Zeka ve nihai hedefler, olası ajanların serbestçe değişebildiği ortogonal eksenlerdir. Başka bir deyişle, prensipte az ya da çok herhangi bir zeka düzeyi, herhangi bir nihai hedefle az ya da çok birleştirilebilir.” İkincisi, araçsal yakınsama tezidir; bu tez, zeki bir aracının, aracıyı nihai hedefine ulaşma olasılığını artırdığı sürece, kendi hayatta kalmasını, kendini geliştirmesini ve kaynak edinmesini teşvik edecek şekillerde hareket edeceğini ima eder. Ardından son bir varsayımda bulundu: Araştırmacılar yakında bir yapay zeka süper zekası yaratacaklardı;

Bostrom ve AI hizalama topluluğundaki diğerleri için, süper zeki AI'ları arzularımız ve değerlerimizle uyumlu hale getirmeyi başaramazsak, bu olasılık insanlık için bir kıyamet anlamına geliyor. Bostrom, bu tehlikeyi artık ünlü bir düşünce deneyiyle gösteriyor: Süper zeki bir yapay zekaya ataç üretimini en üst düzeye çıkarma hedefi verdiğinizi hayal edin. Bostrom'un tezlerine göre, bu amaca ulaşma arayışında, AI sistemi kendi gücünü ve kontrolünü artırmak için insanüstü parlaklığını ve yaratıcılığını kullanacak ve nihayetinde daha fazla ataç üretmek için tüm dünyanın kaynaklarını elde edecek. İnsanlık ölecek, ancak ataş üretimi gerçekten de maksimize edilecek.

Zekanın hedeflere ulaşma yeteneği ile tanımlandığına, herhangi bir hedefin insanlar tarafından süper zeki bir yapay zeka aracısına "yerleştirilebileceğine" ve böyle bir aracının süper zekasını bu hedefe ulaşmak için her şeyi yapmak için kullanacağına inanıyorsanız, o zaman aynı yere varmak sonuç Russell'ın yaptığı gibi: "Felaketi garantilemek için gereken tek şey, insan tercihlerini tam ve doğru bir şekilde belirleme konusunda kusurlu bir yeteneğe sahip olan insanlarla birleştirilmiş son derece yetkin bir makinedir."

Bu, bilim kurguda tanıdık bir mecazdır - insanlık, insan arzularını yanlış yorumlayan kontrolden çıkmış makineler tarafından tehdit ediliyor. Şimdi, yapay zeka araştırma topluluğunun önemsiz olmayan bir bölümü, gerçek hayatta ortaya çıkan bu tür senaryolardan derinden endişe duyuyor. Düzinelerce enstitü bu soruna şimdiden yüz milyonlarca dolar harcadı ve dünyanın dört bir yanındaki üniversitelerde ve Google, Meta ve OpenAI gibi büyük yapay zeka şirketlerinde uyum konusunda araştırma çabaları sürüyor.

İş kaybı, önyargı, mahremiyet ihlalleri ve yanlış bilgilerin yayılması gibi süper zeki olmayan yapay zekanın ortaya çıkardığı daha acil riskler ne olacak? Öncelikle bu tür kısa vadeli risklerle ilgilenen topluluklar ile daha uzun vadeli uyum riskleri konusunda daha fazla endişe duyanlar arasında çok az örtüşme olduğu ortaya çıktı. Aslında, bir taraf gerçekçi olmayan tekno-fütürizm olarak gördüklerinden çok bu mevcut riskler konusunda endişeli ve diğer taraf mevcut sorunları süper zeki yapay zekanın ortaya çıkardığı potansiyel felaket risklerinden daha az acil bulan bir yapay zeka kültür savaşı gibi bir şey var.

Bu belirli toplulukların dışındaki pek çok kişi için, AI uyumu bir dine benziyor - saygıdeğer liderler, sorgulanmayan doktrin ve potansiyel olarak her şeye gücü yeten bir düşmanla (bağlantısız süper zeki AI) savaşan sadık müritler. Gerçekten de, bilgisayar bilimcisi ve blog yazarı Scott Aaronson yakın zamanda ünlü AI hizalama inancının artık “Ortodoks” ve “Reform” dalları olduğunu. Birincisi, diye yazıyor, neredeyse tamamen "insanları yok etmeye çalışırken onları aldatan yanlış hizalanmış yapay zeka" hakkında endişeleniyor. Buna karşılık, "Biz Yapay Zeka Riskli Reformcular olarak bu olasılığı göz önünde bulunduruyoruz, ancak en az kötü insanlar tarafından silah haline getirilen ve çok daha önce varoluşsal riskler oluşturmasını beklediğimiz güçlü yapay zekalar hakkında endişeleniyoruz" diye yazıyor.

Pek çok araştırmacı, hizalama tabanlı projelerde aktif olarak yer almaktadır. ilkeleri aktarma çabaları ahlak felsefesinin makinelere, büyük dil modelleri eğitimi Kitle kaynaklı etik yargılar üzerine. Bu çabaların hiçbiri, makinelerin gerçek dünyadaki durumlar hakkında akıl yürütmesini sağlamada özellikle yararlı olmadı. Birçok yazar, makinelerin insan tercihlerini ve değerlerini öğrenmesini engelleyen birçok engele dikkat çekmiştir: İnsanlar genellikle irrasyoneldir ve değerleriyle çelişen şekillerde davranırlar ve değerler bireysel yaşamlar ve nesiller boyunca değişebilir. Ne de olsa, makinelerin kimin değerlerini öğrenmeye çalışması gerektiği açık değil.

Hizalama topluluğundaki birçok kişi, ileriye dönük en umut verici yolun, olarak bilinen bir makine öğrenimi tekniği olduğunu düşünüyor. ters pekiştirmeli öğrenme (IRL). IRL ile makineye maksimize etme hedefi verilmez; hizalama savunucuları, bu tür "eklenen" hedeflerin, istemeden ataş maksimize edici senaryolara yol açabileceğine inanıyor. Bunun yerine makinenin görevi, insanların davranışlarını gözlemlemek ve tercihlerini, amaçlarını ve değerlerini anlamaktır. Son yıllarda, araştırmacılar IRL'yi video oyunları oynamak için tren makineleri insanları gözlemleyerek ve robotlara öğreterek backflip nasıl yapılır insanlardan artan geri bildirim vererek (insanlar bir robotun çeşitli denemelerinin kısa kliplerini izlediler ve en iyi görüneni seçtiler).

Benzer yöntemlerin makinelere insani değerlerin daha incelikli ve soyut fikirlerini öğretip öğretemeyeceği açık değil. Yazar Brian Christian, bir kitabın yazarı AI hizalaması hakkında popüler bilim kitabı, iyimser: "Muğlak 'ters takla' kavramını 'yardımseverlik' gibi daha da belirsiz ve tarifsiz bir kavramla değiştirmeyi hayal etmek o kadar da zor değil. Veya 'nezaket'. Ya da 'iyi' davranış.”

Ancak, bunun zorluğu hafife aldığını düşünüyorum. Nezaket ve iyi davranış gibi etik kavramlar, IRL'nin şimdiye kadar hakim olduğu her şeyden çok daha karmaşık ve bağlama bağlıdır. Yapay zeka sistemlerimizde kesinlikle istediğimiz bir değer olan "doğruluk" kavramını düşünün. Gerçekten de, günümüzün büyük dil modelleriyle ilgili en büyük sorun, doğruyu yanlıştan ayırt edememeleridir. Aynı zamanda, bazen tıpkı insanlar gibi AI asistanlarımızın doğruluklarını yumuşatmalarını isteyebiliriz: mahremiyeti korumak, başkalarına hakaret etmekten kaçınmak veya ifade edilmesi zor sayısız başka durumun yanı sıra birini güvende tutmak için.

Diğer etik kavramlar da aynı derecede karmaşıktır. Makinelere etik kavramları öğretmeye yönelik önemli bir ilk adımın, makinelerin en başta hala yapay zekanın olduğunu iddia ettiğim insan benzeri kavramları kavramasını sağlamak olduğu açık olmalıdır. en önemli açık sorun.

Dahası, yapay zeka hizalaması kavramlarının altında yatan bilimde daha da temel bir sorun görüyorum. Çoğu tartışma, süper zeki bir yapay zekayı, tüm bilişsel görevlerde insanları geride bırakan, ancak yine de insan benzeri sağduyudan yoksun ve doğası gereği tuhaf bir şekilde mekanik kalan bir makine olarak hayal eder. Ve daha da önemlisi, Bostrom'un ortogonallik tezine uygun olarak, makine, hedeflerin insanlar tarafından eklenmesini beklemek yerine, kendi hedefleri veya değerleri olmadan süper zekaya ulaştı.

Yine de istihbarat bu şekilde çalışabilir mi? Mevcut psikoloji veya nörobilim bilimindeki hiçbir şey bu olasılığı desteklemez. En azından insanlarda zeka, hedeflerimiz ve değerlerimizin yanı sıra benlik duygumuz ve belirli sosyal ve kültürel çevremizle derinden bağlantılıdır. Bir tür saf zekanın bu diğer faktörlerden ayrılabileceği sezgisi, birçok başarısız tahmin AI tarihinde. Bildiğimiz kadarıyla, genel olarak akıllı bir yapay zeka sisteminin hedeflerinin kolayca yerleştirilemeyeceği, ancak bizimki gibi kendi sosyal ve kültürel yetiştirilme tarzının bir sonucu olarak gelişmesi gerektiği çok daha muhtemel görünüyor.

adlı kitabında İnsan Uyumlu, Russell hizalama sorunuyla ilgili araştırmanın aciliyetini savunuyor: "İnsanlık için potansiyel olarak ciddi bir sorun hakkında endişelenmek için doğru zaman, yalnızca sorunun ne zaman ortaya çıkacağına değil, aynı zamanda bir çözümü hazırlamanın ve uygulamanın ne kadar süreceğine de bağlıdır. ” Ancak zekanın ne olduğunu ve hayatımızın diğer yönlerinden ne kadar ayrılabilir olduğunu daha iyi anlamadan, bir çözüm bulmak şöyle dursun, sorunu bile tanımlayamayız. Hizalama problemini doğru bir şekilde tanımlamak ve çözmek kolay olmayacak; geniş, bilimsel temelli bir zeka teorisi geliştirmemizi gerektirecek.

Zaman Damgası:

Den fazla Quanta dergisi