Meta, müzik ve sesler yapmak için üretken yapay zekayı serbest bırakır

Meta, müzik ve sesler yapmak için üretken yapay zekayı serbest bırakır

PlatoBlockchain Data Intelligence'a göre Meta, müzik yapmak için üretken yapay zekayı piyasaya sürüyor. Dikey Arama. Ai.

Çarşamba günü Meta, metin açıklamalarından otomatik olarak ses oluşturabilen üç AI modelinden oluşan bir dizi AudioCraft'ı piyasaya sürdü.

Yazılı yönlendirmeleri alıp bunları görsellere veya daha fazla metne dönüştüren üretken yapay zeka modelleri olgunlaşmaya devam ettikçe, bilgisayar bilimcileri makine öğrenimini kullanarak diğer medya türlerini oluşturmanın yollarını arıyor.

Yazılımın birkaç dakika içinde tutarlı desenler üretmeyi öğrenmesi ve akılda kalıcı veya dinlenmesi hoş bir şey oluşturacak kadar yaratıcı olması gerektiğinden, ses, özellikle de müzik, yapay zeka sistemleri için zordur.

Team Meta, "44.1 kHz'de (müzik kayıtlarının standart kalitesi olan) örneklenen birkaç dakikalık tipik bir müzik parçası milyonlarca zaman adımından oluşur" diye açıkladı. Yani, ses üreten bir modelin, insan dostu bir parça oluşturmak için çok fazla veri çıkışı yapması gerekir.

"Karşılaştırıldığında, Llama ve Llama 2 gibi metin tabanlı üretken modeller, örnek başına yalnızca birkaç binlerce zaman adımını temsil eden alt kelimeler olarak işlenmiş metinlerle beslenir."

Facebook devi, insanların AudioCraft'ı kullanarak herhangi bir enstrüman çalmayı öğrenmelerine gerek kalmadan bilgisayar tarafından üretilen sesleri denemelerini öngörüyor. Araç seti üç modelden oluşur: MusicGen, AudioGen ve EnCodec. 

MusicGen, Meta'nın sahip olduğu veya lisansladığı 20,000 saatlik kayıtların yanı sıra ilgili metin açıklamaları konusunda da eğitildi. AudioGen, müzikten ziyade ses efektleri oluşturmaya daha fazla odaklanmıştır ve halka açık veriler üzerinde eğitilmiştir. Son olarak EnCodec, ses sinyallerini yüksek doğrulukla sıkıştırabilen ve açabilen kayıplı bir sinir kodlayıcı olarak tanımlanıyor.

Meta bunun AudioCraft'ın "açık kaynaklı" olduğunu ve bir dereceye kadar öyle olduğunu söyledi. Modelleri oluşturmak, eğitmek ve çıkarımları yürütmek için gereken yazılım, açık kaynaklı bir MIT lisansı kapsamında mevcuttur. Kod, ücretsiz (özgürlük ve bedava birada olduğu gibi) ve ticari uygulamaların yanı sıra araştırma projelerinde de kullanılabilir.

Bununla birlikte, model ağırlıkları açık kaynak değildir. Ticari kullanımı özellikle yasaklayan Creative Commons lisansı altında paylaşılmaktadır. ile gördüğümüz gibi Llama 2, Meta ne zaman açık kaynak kullanımından bahsetse, kontrol et ince baskı.

MusicGen ve AudioGen, bir giriş metni istemi verildiğinde sesler üretir. Meta'nın AudioCraft'ında "rüzgâr eserken ıslık çalmak" ve "akılda kalıcı melodiler, tropik perküsyonlar ve neşeli ritimlerle plaj için mükemmel bir pop dans parçası" açıklamalarından oluşturulan kısa klipleri duyabilirsiniz. açılış sayfası, burada

Kısa ses efektleri gerçekçi, ancak müzik benzeri olanlar bizce pek iyi değil. Hit single'lardan ziyade kötü bekleme müziği veya asansör şarkıları için tekrarlayan ve genel jingle'lar gibi geliyorlar. 

Meta'daki araştırmacılar AudioGen'in tanımladığını söyledi burada derinlemesine – ham sesi bir dizi jetona dönüştürerek ve bunları yüksek kalitede sese dönüştürerek girişi yeniden yapılandırarak eğitildi. Bir dil modeli, kelimeler ve sesler arasındaki korelasyonu öğrenmek için giriş metni isteminin parçacıklarını ses belirteçleriyle eşleştirir. MüzikGen ses efektleri yerine müzik örnekleri üzerinde benzer bir süreç kullanılarak eğitildi. 

"Çalışmayı aşılmaz bir kara kutu olarak tutmak yerine, bu modelleri nasıl geliştirdiğimiz konusunda açık olmak ve bunların insanlar için (ister araştırmacılar ister bir bütün olarak müzik topluluğu olsun) kullanımının kolay olmasını sağlamak, insanların bu modellerin neler yapabileceğini anlamalarına yardımcı olur." yapın, ne yapamayacaklarını anlayın ve bunları gerçekten kullanma yetkisine sahip olun," diye savundu Meta Ekibi.

"Gelecekte, üretken yapay zeka, ister meta veri tabanı için dünyalar inşa eden büyük bir geliştirici, ister bir müzisyen (amatör, profesyonel veya aksi takdirde) bir sonraki kompozisyonları üzerinde çalışıyorlar veya yaratıcı varlıklarını üst düzeye çıkarmak isteyen küçük veya orta ölçekli bir işletme sahibi."

AudioCraft kodunu alabilirsiniz okuyunve MusicGen ile denemeler yapın okuyun ve deneyin. ®

Zaman Damgası:

Den fazla Kayıt