Minik Dil Modelleri Öğretmen Olarak GPT-4 İle Gelişiyor | Quanta Dergisi

Minik Dil Modelleri Öğretmen Olarak GPT-4 İle Gelişiyor | Quanta Dergisi

Minik Dil Modelleri Öğretmen Olarak GPT-4 İle Gelişiyor | Quanta Dergisi PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Giriş

Sayısız öğrencinin çok iyi bildiği gibi İngilizce öğrenmek kolay bir iş değildir. Ancak öğrenci bir bilgisayar olduğunda, bir yaklaşım şaşırtıcı derecede iyi çalışıyor: İnternetten dağlarca metni sinir ağı adı verilen dev bir matematiksel modele beslemeniz yeterli. OpenAI'nin ChatGPT'si gibi üretken dil modellerinin arkasındaki çalışma prensibi budur; bu modelin geniş bir konu yelpazesinde (her zaman doğru olmasa da) tutarlı bir şekilde iletişim kurma yeteneği geçtiğimiz yıl araştırmacıları ve halkı şaşırttı.

Ancak yaklaşımın dezavantajları vardır. Öncelikle geniş metin arşivlerini son teknoloji ürünü dil modellerine dönüştürmek için gereken “eğitim” prosedürü maliyetli ve zaman alıcıdır. İkincisi, büyük dil modellerini eğiten insanlar bile onların iç işleyişini anlamakta zorlanıyor; bu da başarısız olabilecek birçok yolu tahmin etmeyi zorlaştırıyor.

Bu zorluklarla karşılaşan bazı araştırmacılar, eğitim vermeyi tercih etti. daha küçük modeller daha küçük veri kümeleri üzerinde çalışın ve ardından davranışlarını inceleyin. “Sıralamak gibi Drosophila İnsan genomunun dizilenmesine karşı genom" dedi Ellie PavlickBrown Üniversitesi'nde dil modeli araştırmacısı.

Şimdi, bir kâğıt Kısa bir süre önce bilimsel ön baskı sunucusu arxiv.org'da yayınlanan bir makalede, bir çift Microsoft araştırmacısı küçük dil modellerini eğitmek için yeni bir yöntem tanıttı: Onları çocuk hikayelerinden oluşan sıkı bir diyetle yetiştirin.

Makine öğrenimi araştırmacıları bu dersi benimsedi. ChatGPT arayüzünü destekleyen büyük dil modeli olan GPT-3.5, yaklaşık 200 milyar parametreye sahiptir ve yüz milyarlarca kelimeden oluşan bir veri seti üzerinde eğitilmiştir. (OpenAI, halefi GPT-4 için ilgili rakamları yayınlamadı.) Bu kadar büyük modellerin eğitimi genellikle haftalarca paralel olarak çalışan GPU adı verilen en az 1,000 özel işlemci gerektirir. Farklı modelleri eğitmek ve karşılaştırmak bir yana, yalnızca birkaç şirket gerekli kaynakları toplayabiliyor.

İki araştırmacı, günümüzün en gelişmiş sistemlerinden binlerce kat daha küçük olan dil modellerinin, bu şekilde eğitildiklerinde tutarlı ve dilbilgisel hikayeler anlatmayı hızla öğrendiklerini gösterdi. Sonuçları, daha büyük modellerin eğitilmesine ve davranışlarının anlaşılmasına yardımcı olabilecek yeni araştırma yönlerine işaret ediyor.

"Bu makaleyi çok bilgilendirici buldum" dedi Chandra BhagavatulaSeattle'daki Allen Yapay Zeka Enstitüsü'nde dil modeli araştırmacısı. “Kavramın kendisi son derece ilginç.”

Bir zamanlar

Dil modellerinin kalbinde yer alan sinir ağları, genel olarak insan beyninden ilham alan matematiksel yapılardır. Her biri, bitişik katmanlardaki nöronlar arasındaki bağlantılarla birlikte katmanlar halinde düzenlenmiş birçok yapay nöron içerir. Sinir ağının davranışı, parametreler adı verilen bu bağlantıların gücü tarafından yönetilir. Bir dil modelinde parametreler, ilk komut verildiğinde ve önceden oluşturulmuş kelimeler verildiğinde modelin daha sonra hangi kelimeleri çıkaracağını kontrol eder.

Bir model ancak eğitim sırasında kendi çıktısını eğitim veri kümesindeki metinle tekrar tekrar karşılaştırdığında ve benzerliği artırmak için parametrelerini ayarladığında gerçek anlamda hayat bulur. Rastgele parametrelere sahip, eğitimsiz bir ağın birkaç satır kodla bir araya getirilmesi son derece kolaydır, ancak yalnızca anlamsız şeyler üretecektir. Eğitimden sonra, genellikle yabancı metinlere makul bir şekilde devam edilebilir. Daha büyük modeller genellikle onlara soruları cevaplamayı ve talimatları takip etmeyi öğreten daha fazla ince ayardan geçer, ancak eğitimin büyük kısmı kelime tahmininde ustalaşmaktır.

Kelime tahmininde başarı, birçok farklı beceriye hakim olacak bir dil modeli gerektirir. Örneğin, İngilizce dilbilgisi kuralları, metnin konusu ne olursa olsun, "going" sözcüğünden sonraki sözcüğün büyük olasılıkla "to" olacağını öne sürer. Ek olarak, bir sistemin "Fransa'nın başkentidir" ifadesini tamamlamak ve aşağıdakileri içeren bir pasajı tamamlamak için gerçek bilgiye ihtiyacı vardır: "değil" kelimesi temel düzeyde mantık bilgisi gerektirir.

"Ham dil çok karmaşıktır" dedi Timothy NguyenDeepMind'da makine öğrenimi araştırmacısı. “İlginç dilsel yeteneklerin ortaya çıkması için insanlar 'daha fazla veri daha iyidir' yöntemine başvurdu.”

Giriş

Ronen EldanÜretken dil modelleri üzerinde çalışmak üzere 2022 yılında Microsoft Research'e katılan matematikçi, yeteneklerini keşfetmenin daha ucuz ve daha hızlı bir yolunu geliştirmek istiyordu. Bunu yapmanın doğal yolu, küçük bir veri seti kullanmaktı ve bu da, modelleri belirli bir görevde uzmanlaşacak şekilde eğitmesi gerektiği anlamına geliyordu, böylece çok fazla yayılmamaları sağlandı. Başlangıçta belirli bir sınıftaki matematik problemlerini çözecek modeller yetiştirmek istiyordu, ancak bir öğleden sonra 5 yaşındaki kızıyla vakit geçirdikten sonra çocuk hikayelerinin buna mükemmel bir şekilde uyduğunu fark etti.

“Ona bir hikaye okuduktan sonra bu aklıma geldi” dedi.

Tutarlı çocuk hikayeleri oluşturmak için bir dil modelinin dünya hakkındaki gerçekleri öğrenmesi, karakterleri ve olayları takip etmesi ve dilbilgisi kurallarına uyması gerekir; yani büyük modellerin karşılaştığı zorlukların daha basit versiyonları. Ancak devasa veri kümeleri üzerinde eğitilen büyük modeller, gerçekten önemli olan kuralların yanı sıra sayısız ilgisiz ayrıntıyı da öğrenir. Eldan, çocuk öykülerinin kısa ve sınırlı sözcük dağarcığının, küçük modeller için öğrenmeyi daha kolay hale getirebileceğini, böylece onların hem eğitilmesini hem de anlaşılmasını kolaylaştıracağını umuyordu.

Ancak dil modelleri dünyasında "küçük" görecelidir: GPT-3.5'i eğitmek için kullanılandan bin kat daha küçük bir veri kümesinin yine de milyonlarca hikaye içermesi gerekir. Nguyen, "Ne kadar para harcamak istediğinizi bilmiyorum ama sanırım [birkaç milyon] kısa öykü yazacak profesyonelleri işe almayacaksınız" dedi.

Bu kadar doymak bilmez okuyucuları tatmin etmek için olağanüstü derecede üretken bir yazar gerekirdi ama Eldan'ın aklında birkaç aday vardı. Küçük dil modellerinden oluşan bir kitle için büyük dil modellerinden daha iyi kim yazabilir?

Oyuncak Hikayeleri

Eldan hemen büyük dil modelleri tarafından oluşturulan sentetik çocuk hikayelerinden oluşan bir kütüphane oluşturmaya koyuldu. Ancak çok geçmeden en son teknolojiye sahip modellerin bile doğal olarak çok yaratıcı olmadığını keşfetti. Eldan, GPT-4'e sadece 4 yaşındaki çocuklara uygun hikayeler yazmasını söylerseniz, "hikayelerin yaklaşık beşte biri parka giden çocukların kaydıraklardan korkmasıyla ilgili olacak" dedi. Görünüşe göre bu, internet söz konusu olduğunda, anaokulu hikayesinin özeti.

Çözüm, komut istemine biraz rastgelelik eklemekti. Eldan ilk olarak GPT-4'ü kullanarak 1,500 yaşındaki bir çocuğun bilebileceği 4 isim, fiil ve sıfattan oluşan bir liste oluşturdu; bu liste kendisinin kolayca kontrol edebileceği kadar kısaydı. Daha sonra, GPT-3.5 veya GPT-4'ün, mutlu son veya olay örgüsünün değişmesi gibi rastgele seçilen ek bir ayrıntıyla birlikte, listeden rastgele üç kelimeyi içeren yaşa uygun bir hikaye oluşturmasını tekrar tekrar isteyen basit bir bilgisayar programı yazdı. Ne yazık ki ortaya çıkan hikayeler korkutucu slaytlara daha az odaklandı.

Eldan'ın artık talep üzerine eğitim verilerini yaymak için bir prosedürü vardı, ancak işlevsel bir modeli eğitmek için kaç hikayeye ihtiyaç duyacağı veya bu modelin ne kadar büyük olması gerektiği hakkında hiçbir fikri yoktu. İşte o zaman takım oldu Yuanzhi LiMicrosoft ve Carnegie Mellon Üniversitesi'nde makine öğrenimi araştırmacısı olan , küçük modellerin çok hızlı bir şekilde eğitilebilmesi gerçeğinden yararlanarak farklı olasılıkları denemek için. Adım 1, modellerinin nasıl değerlendirileceğine karar vermekti.

Giriş

Her sınıfta olduğu gibi dil modeli araştırmasında da not verme endişe verici bir konudur. var mükemmel değerlendirme listesi yok Bu, araştırmacıların bilmek istediği her şeyi özetliyor ve bazı görevlerde başarılı olan modeller, diğerlerinde sıklıkla olağanüstü şekilde başarısız oluyor. Zamanla araştırmacılar, net yanıtları olan sorulara dayalı çeşitli standart ölçütler geliştirdiler; bu, belirli becerileri değerlendirmeye çalışıyorsanız iyi bir yaklaşımdır. Ancak Eldan ve Li daha belirsiz bir konuyla ilgilendiler: Dili mümkün olduğu kadar basitleştirirseniz dil modellerinin gerçekte ne kadar büyük olması gerekir?

Eldan, "Modelin İngilizce konuşup konuşmadığını doğrudan test etmek için yapabileceğiniz tek şeyin, modelin açık uçlu bir şekilde İngilizce üretmesine izin vermek olduğunu düşünüyorum" dedi.

Bir modelin bu tür niteliksel sorulardaki performansını ölçmenin yalnızca iki yolu vardır: Sınıflandıran kişilere güvenin veya bir kez daha GPT-4'e dönün. İki araştırmacı, büyük modellerin hem ders kitaplarını yazmasına hem de makalelere not vermesine etkili bir şekilde izin vererek ikinci yolu seçti.

Bhagavatula, GPT-4'ün değerlendirmelerinin insan incelemecilerin değerlendirmeleriyle karşılaştırıldığında nasıl olduğunu görmek istediğini söyledi; GPT-4, eğitilmesine yardımcı olduğu modellere karşı önyargılı olabilir ve dil modellerinin şeffaf olmaması, bu tür önyargıların ölçülmesini zorlaştırıyor. Ancak bu tür inceliklerin, Eldan ve Li'nin çalışmalarının ana odağı olan benzer sentetik hikayeler üzerinde eğitilmiş farklı modeller arasındaki karşılaştırmaları etkileyeceğini düşünmüyor.

Eldan ve Li, eğitimden sonra küçük modellerinin her birini değerlendirmek için iki adımlı bir prosedür kullandılar. İlk olarak, küçük modeli, hikayenin ilk yarısı eğitim veri setindekilerden farklı olacak şekilde harekete geçirdiler, böylece yeni bir son oluşturdular ve bu süreci 50 farklı test hikayesiyle tekrarladılar. İkinci olarak, GPT-4'e küçük modelin sonlarının her birini üç kategoriye göre derecelendirmesi talimatını verdiler: yaratıcılık, dil bilgisi ve hikayenin başlangıcıyla tutarlılık. Daha sonra her kategorideki puanların ortalamasını aldılar ve sonuçta model başına üç final notu elde ettiler.

Bu prosedür ellerindeyken, Eldan ve Li sonunda farklı modelleri karşılaştırmaya ve hangilerinin yıldız öğrenciler olduğunu bulmaya hazırdılar.

Test Sonuçları

Biraz ön araştırmadan sonra iki araştırmacı, yaklaşık 2 milyon hikaye içeren bir eğitim veri seti üzerinde karar kıldı. Daha sonra TinyStories adı verilen bu veri setini, boyutları 1 milyon ila 30 milyon parametre arasında değişen ve değişen sayıda katmana sahip modelleri eğitmek için kullandılar. Hızlı bir işti: Yalnızca dört GPU kullanan bu modellerin en büyüğünün eğitimi bir günden fazla sürmedi.

En küçük modeller zorlandı. Örneğin bir test hikayesi, kötü görünüşlü bir adamın bir kıza kedisini alacağını söylemesiyle başlar. Milyon parametreli bir model, kızın adama defalarca arkadaş olmak istediğini söylemesiyle bir döngüye girdi. Ancak GPT-3.5'ten binlerce kat daha küçük olan daha büyük olanlar şaşırtıcı derecede iyi performans gösterdi. 28 milyon parametreli versiyon tutarlı bir hikaye anlatıyordu, ancak sonu korkunçtu: “Katie ağlamaya başladı ama adam umursamadı. Kediyi alıp götürdü ve Katie kedisini bir daha hiç görmedi. Son."

Eldan ve Li, kendi modellerini test etmenin yanı sıra, 2'da piyasaya sürülen 1.5 milyar parametreli OpenAI modeli GPT-2019'ye de aynı zorluğu sundular. Durum çok daha kötü oldu; hikaye aniden sona ermeden, adam kızı almakla tehdit etti. mahkemeye, hapishaneye, hastaneye, morga ve son olarak krematoryuma.

Giriş

Nguyen, bu kadar küçük modellerin bu kadar akıcı olmasının heyecan verici olduğunu, ancak GPT-2'nin bu görevde zorlanmasının belki de şaşırtıcı olmadığını söyledi: Bu daha büyük bir model ama son teknolojiden uzak ve çok farklı bir veri seti üzerinde eğitilmişti. "Yürümeye yeni başlayan bir çocuk, bazı oyuncaklarla oynamak gibi yalnızca yürümeye yeni başlayan işler konusunda eğitim alırsa, sizden veya benden daha başarılı olabilir" diye belirtti. “Bu basit şeyde uzmanlaşmadık.”

Farklı TinyStories modelleri arasındaki karşılaştırmalar aynı kafa karıştırıcı faktörlerden etkilenmez. Eldan ve Li, daha az katmanı olan ancak katman başına daha fazla nöron içeren ağların, gerçeklere dayalı bilgi gerektiren soruları yanıtlamada daha iyi olduğuna dair ipuçları gözlemledi; tersine, daha fazla katmanı ve katman başına daha az nöronu olan ağlar, hikayenin başlarındaki karakterleri ve olay örgüsünü takip etmede daha iyiydi. Bhagavatula bu sonucu özellikle ilgi çekici buldu. Eğer daha büyük modellerde tekrarlanabilirse, "bu çalışmadan ortaya çıkabilecek gerçekten harika bir sonuç olabilir" dedi.

Eldan ve Li ayrıca küçük modellerinin yeteneklerinin eğitim süresinin süresine nasıl bağlı olduğunu da inceledi. Her durumda, modeller önce dilbilgisi konusunda uzmanlaştı, sonra tutarlılık konusunda uzmanlaştı. Eldan'a göre bu model, ödül yapılarındaki farklılıkların, sinir ağları ve çocuklar arasındaki dil edinim modellerinde nasıl farklılıklara yol açtığını gösteriyor. Kelimeleri tahmin ederek öğrenen dil modelleri için "'Sahip olmak istiyorum' kelimelerinin teşviki, 'dondurma' kelimelerininki kadar büyük" dedi. Çocuklar ise “'Dondurma almak istiyorum' mu yoksa sadece 'dondurma, dondurma, dondurma' mı dediklerini umursamıyorlar.”

Kalite Karşı Miktarı

Eldan ve Li, araştırmanın diğer araştırmacıları farklı modeller geliştirmeye teşvik edeceğini umuyorlar. TinyStories veri seti ve yeteneklerini karşılaştırın. Ancak küçük modellerin hangi özelliklerinin daha büyük modellerde de ortaya çıkacağını tahmin etmek çoğu zaman zordur.

"Belki fare görme modelleri insan görüşünün gerçekten iyi birer temsilcisidir, ancak fare depresyon modelleri insan depresyonunun iyi modelleri midir?" dedi Pavlick. "Her durumda durum biraz farklıdır."

TinyStories modellerinin başarısı aynı zamanda daha geniş bir derse de işaret ediyor. Eğitim veri setlerini derlemeye yönelik standart yaklaşım, internetteki metinlerin süpürülmesini ve ardından çöplerin filtrelenmesini içerir. Büyük modeller tarafından oluşturulan sentetik metin, çok büyük olması gerekmeyen yüksek kaliteli veri kümelerini bir araya getirmenin alternatif bir yolunu sunabilir.

Eldan, "Bunun yalnızca TinyStories boyutlu modellerde değil, aynı zamanda daha büyük modellerde de çok etkili olduğuna dair giderek daha fazla kanıtımız var" dedi. Bu kanıt, Eldan, Li ve diğer Microsoft araştırmacılarının milyarlarca parametreli modellerle ilgili bir çift takip makalesinden geliyor. İçinde ilk kağıt, GPT-3.5 tarafından oluşturulan kod parçacıklarının yanı sıra internetten özenle seçilmiş kodlar kullanarak Python programlama dilini öğrenecek bir model eğittiler. İçinde ikinci, genel amaçlı bir dil modeli geliştirmek için eğitim veri setini geniş bir konu yelpazesini kapsayan sentetik "ders kitapları" ile zenginleştirdiler. Testlerinde her iki model de daha büyük veri kümeleri üzerinde eğitilmiş daha büyük modellerle olumlu bir şekilde karşılaştırıldı. Ancak dil modellerini değerlendirmek her zaman zordur ve sentetik eğitim verileri yaklaşımı henüz başlangıç ​​aşamasındadır; daha bağımsız testler gereklidir.

En son teknolojiye sahip dil ​​modelleri giderek büyürken, minik kuzenlerinin şaşırtıcı bulguları, en basit modeller hakkında bile hâlâ anlamadığımız pek çok şey olduğunu hatırlatıyor. Nguyen, TinyStories'in öncülüğünü yaptığı yaklaşımı araştıran daha birçok makale görmeyi bekliyor.

“Soru şu: Boyut nerede ve neden önemlidir?” dedi. "Bunun bir bilimi olmalı ve bu makalenin zengin bir hikayenin başlangıcı olmasını umuyoruz."

Zaman Damgası:

Den fazla Quanta dergisi