Seçici Unutma Yapay Zekanın Daha İyi Öğrenmesine Nasıl Yardımcı Olabilir | Quanta Dergisi

Seçici Unutma Yapay Zekanın Daha İyi Öğrenmesine Nasıl Yardımcı Olabilir | Quanta Dergisi

Seçici Unutma Yapay Zekanın Daha İyi Öğrenmesine Nasıl Yardımcı Olabilir | Quanta Dergisi PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Giriş

Bilgisayar bilimcilerden oluşan bir ekip, bir daha çevik, daha esnek tip makine öğrenimi modelinin İşin püf noktası: Bildiğini periyodik olarak unutması gerekir. Bu yeni yaklaşım, en büyük uygulamaları destekleyen devasa modellerin yerini almayacak olsa da, bu programların dili nasıl anladığı hakkında daha fazla bilgi verebilir.

Yeni araştırmanın “alanda önemli bir ilerlemeye” işaret ettiği belirtildi Jea KwonGüney Kore'deki Temel Bilimler Enstitüsü'nde yapay zeka mühendisi.

Günümüzde kullanılan yapay zeka dil motorları çoğunlukla yapay sinir ağları. Ağdaki her "nöron", diğer nöronlardan sinyaller alan, bazı hesaplamalar yapan ve sinyalleri birden fazla nöron katmanına gönderen matematiksel bir fonksiyondur. Başlangıçta bilgi akışı az çok rastgeledir, ancak eğitim yoluyla, ağ eğitim verilerine uyum sağladıkça nöronlar arasındaki bilgi akışı gelişir. Örneğin bir yapay zeka araştırmacısı iki dilli bir model oluşturmak istiyorsa, modeli her iki dilden gelen büyük bir metin yığınıyla eğitir; bu, nöronlar arasındaki bağlantıları, bir dildeki metni eşdeğeriyle ilişkilendirecek şekilde ayarlar. diğerindeki kelimeler.

Ancak bu eğitim süreci çok fazla bilgi işlem gücü gerektirir. Model çok iyi çalışmıyorsa veya kullanıcının ihtiyaçları sonradan değişirse, onu uyarlamak zordur. "Diyelim ki 100 dile sahip bir modeliniz var, ancak istediğiniz dillerden birinin kapsanmadığını hayal edin" dedi Mikel ArtetxeYeni araştırmanın ortak yazarı ve AI girişimi Reka'nın kurucusu. "Sıfırdan başlayabilirsiniz ama bu ideal değil."

Artetxe ve meslektaşları bu sınırlamaları aşmaya çalıştılar. Birkaç yıl önceArtetxe ve diğerleri, bir sinir ağını tek bir dilde eğittiler, ardından token adı verilen kelimelerin yapı taşları hakkında bildiklerini sildiler. Bunlar sinir ağının gömme katmanı adı verilen ilk katmanında depolanır. Modelin diğer tüm katmanlarını olduğu gibi bıraktılar. Birinci dilin belirteçlerini sildikten sonra, modeli ikinci dil üzerinde yeniden eğittiler; bu, yerleştirme katmanını o dilden yeni belirteçlerle doldurdu.

Model uyumsuz bilgiler içerse de yeniden eğitim işe yaradı: Model yeni dili öğrenip işleyebildi. Araştırmacılar, yerleştirme katmanının dilde kullanılan kelimelere özgü bilgileri depolarken, ağın daha derin düzeylerinin insan dillerinin ardındaki kavramlar hakkında daha soyut bilgiler depoladığını ve bunun da modelin ikinci dili öğrenmesine yardımcı olduğunu tahmin etti.

“Aynı dünyada yaşıyoruz. Aynı şeyleri farklı dillerde farklı kelimelerle kavramlaştırıyoruz” dedi. Yihong Chen, son makalenin baş yazarı. “Bu nedenle modelde aynı üst düzey mantığa sahipsiniz. Elma sadece bir kelimeden ziyade tatlı ve sulu bir şeydir.”

Giriş

Bu unutma yaklaşımı, önceden eğitilmiş bir modele yeni bir dil eklemenin etkili bir yolu olsa da, yeniden eğitim hala zorluydu; çok fazla dilsel veri ve işlem gücü gerektiriyordu. Chen bir ince ayar önerdi: Eğitim vermek, gömme katmanını silmek ve ardından yeniden eğitmek yerine, eğitimin ilk turu sırasında gömme katmanını periyodik olarak sıfırlamalılar. Artetxe, "Bunu yaparak tüm model sıfırlamaya alışır" dedi. "Bu, modeli başka bir dile genişletmek istediğinizde bunun daha kolay olduğu anlamına gelir, çünkü yaptığınız da budur."

Araştırmacılar yaygın olarak kullanılan bir dil modelini aldılar. Roberta, onu periyodik unutma tekniğini kullanarak eğitti ve aynı modelin standart, unutmayan yaklaşımla eğitildiğindeki performansıyla karşılaştırdı. Unutma modeli geleneksel modelden biraz daha kötü performans gösterdi ve ortak bir dil doğruluğu ölçümünde 85.1 puana kıyasla 86.1 puan aldı. Daha sonra, ilk eğitimde kullandıkları 5 milyar jeton yerine yalnızca 70 milyon jetondan oluşan çok daha küçük veri kümelerini kullanarak modelleri diğer dillerde yeniden eğittiler. Standart modelin doğruluğu ortalama 53.3'e düşerken unutma modelinin doğruluğu yalnızca 62.7'ye düştü.

Unutma modeli, ekibin yeniden eğitim sırasında hesaplama sınırları koyması durumunda çok daha iyi sonuç verdi. Araştırmacılar eğitim uzunluğunu 125,000 adımdan sadece 5,000 adıma düşürdüğünde unutma modelinin doğruluğu ortalama 57.8'e düşerken standart modelin doğruluğu rastgele tahminlerden daha iyi olmayan 37.2'ye düştü.

Giriş

Ekip, periyodik unutmanın, modeli genel olarak dil öğrenmede daha iyi hale getirdiği sonucuna vardı. "Eğitim sırasında unutmaya ve yeniden öğrenmeye devam ettikleri için, ağa daha sonra yeni bir şeyler öğretmek daha kolay hale geliyor" dedi Evgenii NikişinQuebec'teki derin öğrenme araştırma merkezi Mila'da araştırmacı. Bu, dil modellerinin bir dili anladığında, bunu yalnızca tek tek kelimelerin anlamlarından daha derin bir düzeyde anladığını öne sürüyor.

Yaklaşım beynimizin çalışma şekline benzer. "İnsan hafızası genel olarak büyük miktardaki ayrıntılı bilgiyi doğru bir şekilde saklama konusunda pek iyi değildir. Bunun yerine insanlar, soyutlama ve çıkarımlarda bulunarak deneyimlerimizin özünü hatırlama eğiliminde oluyorlar” dedi. Benjamin LevySan Francisco Üniversitesi'nden bir sinir bilimci. "Yapay zekayı uyarlanabilir unutma gibi daha insani süreçlerle etkinleştirmek, onları daha esnek bir performansa ulaştırmanın bir yoludur."

Artetxe, anlamanın nasıl çalıştığına ilişkin söyleyebileceklerinin yanı sıra, daha esnek unutma dili modellerinin de en yeni yapay zeka buluşlarının daha fazla dile getirilmesine yardımcı olabileceğini umuyor. Yapay zeka modelleri, bol miktarda eğitim materyali içeren iki dil olan İspanyolca ve İngilizce'yi kullanmada iyi olsa da, modeller kuzeydoğu İspanya'ya özgü yerel dil olan anadili Baskça ile o kadar iyi değil. "Büyük teknoloji şirketlerinin çoğu modeli bunu pek iyi yapmıyor" dedi. "Mevcut modelleri Bask'a uyarlamak gidilecek yoldur."

Chen ayrıca daha fazla yapay zeka çiçeğinin çiçek açtığı bir dünyayı sabırsızlıkla bekliyor. “Dünyanın büyük bir dil modeline ihtiyaç duymadığı bir durumu düşünüyorum. O kadar çok şeyimiz var ki" dedi. “Dil modelleri üreten bir fabrika varsa bu tür bir teknolojiye ihtiyacınız var. Yeni alanlara hızla uyum sağlayabilecek tek bir temel modeli var.”

Zaman Damgası:

Den fazla Quanta dergisi