Meta, üçüncü nesil Llama büyük dil modelini piyasaya sürüyor

Meta, üçüncü nesil Llama büyük dil modelini piyasaya sürüyor

Meta, Llama 3 adlı en yeni büyük dil modelini (LLM) piyasaya sürdü ve bunun Google, Mistral ve Anthropic gibi çok daha büyük modellere meydan okuyacağını iddia ediyor.

Uzun bir sürede ortaya çıktı duyuru Perşembe günü, Llama 3'ün sekiz milyardan 400 milyarın üzerinde parametreye kadar değişen versiyonları mevcut. Referans olarak OpenAI ve Google'ın en büyük modelleri iki trilyon parametreye yaklaşıyor.

Şimdilik yalnızca Llama 3'ün sekiz milyar ve 70 milyar parametreli metin varyantlarına erişebiliyoruz. Meta, en büyük ve en karmaşık modellerinin eğitimini henüz tamamlamadı, ancak bunların çok dilli ve çok modlu olacağını, yani birden fazla daha küçük, etki alanı için optimize edilmiş modellerden bir araya getirileceklerini ima ediyor.

Meta, yalnızca 70 milyar parametreyle bile Llama 3'ün çok daha büyük modellerle başa baş gidebileceğini iddia ediyor.

Meta, Llama3-8B ve 70B'nin Gemini Pro ve Anthropic'in Claude 3'ü de dahil olmak üzere çok daha büyük modellerden daha iyi performans gösterebileceğini iddia ediyor

Meta, Llama3-8B ve 70B'nin Gemini Pro ve Anthropic'in Claude 3'ü de dahil olmak üzere çok daha büyük modellerden daha iyi performans gösterebileceğini iddia ediyor - Büyütmek için tıklayın

Daha iyi veri, daha iyi model

Meta'ya göre en büyük kazanımlardan biri, 128,000 token kelime dağarcığına sahip bir tokenizer kullanımından geliyor. LLM'ler bağlamında belirteçler birkaç karakter, tam kelime ve hatta kelime öbekleri olabilir. Yapay zekalar insan girdisini tokenlara böler ve ardından çıktı üretmek için token kelime dağarcığını kullanır.

Meta, tokenizer'ın dili daha verimli bir şekilde kodlamaya yardımcı olduğunu ve performansı önemli ölçüde artırdığını açıkladı. Modelin performansını ve genel doğruluğunu artırmak için eğitimden sonra daha yüksek kaliteli veri kümeleri ve ek ince ayar adımları kullanılarak ek kazanımlar elde edildi.

Özellikle Meta, Llama 3'ün halka açık kaynaklardan toplanan 15 trilyondan fazla token üzerinde önceden eğitildiğini ortaya çıkardı.

Llama 3'ün eğitim veri seti, Llama 2'den yedi kat daha büyüktür ve dört kat daha fazla kod içerir. başlattı sadece dokuz ay önce. Ancak, deyimle "çöp içeri, çöp dışarı" - yani Meta, Llama 3'ün mümkün olduğunca az kötü bilgiyle eğitilmesini sağlamak için bir dizi veri filtreleme hattı geliştirdiğini iddia ediyor.

Bu kalite kontrolleri, hem sezgisel hem de NSFW filtrelerinin yanı sıra veri tekilleştirmeyi ve eğitim öncesinde bilgilerin kalitesini tahmin etmek için kullanılan metin sınıflandırıcılarını içeriyordu. Meta, buğdayı samandan ayırmaya yardımcı olmak için "yüksek kaliteli verileri tanımlamada şaşırtıcı derecede iyi" olduğu söylenen eski Llama 2 modelini bile kullandı.

Eğitim verilerinin yüzde beşi 30'dan fazla dilden geldi ve Meta, gelecekte modele daha önemli çok dilli yetenekler getirilmesine yardımcı olacağını tahmin etti. Şimdilik Sosyal Ağ™️, kullanıcıların İngilizce dışındaki dillerde aynı düzeyde performans beklememeleri gerektiğini söylüyor.

Küçük modellerin bu kadar büyük bir veri kümesi üzerinde eğitilmesi genellikle hesaplama zamanı kaybı ve hatta doğrulukta azalan getiri elde edilmesi olarak kabul edilir. Eğitim verilerinin bilgi işlem kaynaklarına ideal karışımı "Çinçilla optimal” [PDF] tutarı. Meta'ya göre Llama3-8B gibi sekiz milyar parametreli bir model için bu yaklaşık 200 milyar token olacaktır.

Ancak testlerde Meta, Llama 3'ün performansının daha büyük veri kümeleri üzerinde eğitildiğinde bile gelişmeye devam ettiğini buldu. Biz, "Hem sekiz milyar hem de 70 milyar parametreli modellerimiz, onları 15 trilyona kadar token üzerinde eğittikten sonra log-doğrusal olarak gelişmeye devam etti" diye yazdı.

Sonuç, öyle görünüyor ki, çok daha büyük modellerle karşılaştırılabilecek sonuçlar üretebilen nispeten kompakt bir modeldir. Daha küçük modellerden çıkarım yapılması ve dolayısıyla geniş ölçekte dağıtılması daha kolay olduğundan, bilgi işlemdeki ödünleşimin muhtemelen değerli olduğu düşünülüyordu.

8 bit hassasiyette, sekiz milyar parametreli bir model yalnızca 8 GB bellek gerektirir. 4 bit hassasiyete düşmek (onu destekleyen donanım kullanmak veya modeli sıkıştırmak için niceleme kullanmak) bellek gereksinimlerini yaklaşık yarı yarıya azaltır.

Meta, modeli her biri 24,000 Nvidia GPU içeren bir çift bilgi işlem kümesi üzerinde eğitti. Tahmin edebileceğiniz gibi, bu kadar büyük bir kümede eğitim, daha hızlı olsa da bazı zorlukları da beraberinde getirir; eğitim çalışmasının ortasında bir şeyin başarısız olma olasılığı artar.

Bunu azaltmak için Meta, hata tespitini, yönetimini ve bakımını otomatikleştiren bir eğitim yığını geliştirdiğini açıkladı. Hiper ölçekleyici ayrıca, bir eğitim çalışmasının kesintiye uğraması durumunda kontrol noktası ve geri alma yükünü azaltmak için arıza izleme ve depolama sistemleri de ekledi. Tamamlandığında Meta, modelleri bir dizi eğitim sonrası teste ve ince ayar adımlarına tabi tuttu.

Meta, Llama3-8B ve 70B'nin yanı sıra, kullanıcıların modeli kötüye kullanım ve/veya anlık ekleme saldırılarına karşı korumasına yardımcı olmak için Llama Guard 2 ve Cybersec Eval 2 dahil olmak üzere yeni ve güncellenmiş güven ve güvenlik araçlarını da kullanıma sundu. Kod Kalkanı, Llama 3 tarafından oluşturulan güvenli olmayan kodun filtrelenmesine yardımcı olmak için tasarlanmış korkuluklar sağlayan başka bir eklentidir.

Daha önce bildirdiğimiz gibi, Yüksek Lisans destekli kod üretimi bazı ilginç gelişmelere yol açmıştır. saldırı vektörleri Meta'nın kaçınmak istediği şey.

Uygunluk

Önümüzdeki birkaç ay içinde Meta, 400 milyarı aşan parametre içeren ve ek işlevsellik, diller ve daha büyük bağlam pencerelerini destekleyen ek modeller sunmayı planlıyor. İkincisi, kullanıcıların büyük bir metin bloğunu özetlemek gibi daha büyük, daha karmaşık sorgular sormasına olanak tanıyacak.

Llama3-8B ve 70B şu anda Meta'dan indirilebilir. Web sitesi. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face ve diğerleri de modeli kendi platformlarında dağıtım için sunmayı planlıyor.

Llama3'ü makinenizde test etmek istiyorsanız yerel Yüksek Lisans Programlarını çalıştırma kılavuzumuza göz atabilirsiniz. okuyun. Yükledikten sonra aşağıdakileri çalıştırarak başlatabilirsiniz:

ollama run lama3

Eğlenin ve nasıl gittiğini bize bildirin. ®

Zaman Damgası:

Den fazla Kayıt