Meta merilis AI generatif untuk membuat musik, suara

Meta merilis AI generatif untuk membuat musik, suara

Meta merilis AI generatif untuk membuat musik, terdengar seperti PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Meta pada hari Rabu merilis AudioCraft, seperangkat tiga model AI yang mampu secara otomatis menghasilkan suara dari deskripsi teks.

Seiring dengan semakin berkembangnya model AI generatif yang mengambil perintah tertulis dan mengubahnya menjadi gambar atau lebih banyak teks, ilmuwan komputer mencari cara untuk membuat bentuk media lain menggunakan pembelajaran mesin.

Audio sulit untuk sistem AI, terutama musik, karena perangkat lunak harus belajar menghasilkan pola yang koheren selama beberapa menit dan cukup kreatif untuk menghasilkan sesuatu yang menarik atau enak untuk didengarkan.

โ€œTrik musik khas berdurasi beberapa menit yang diambil sampelnya pada 44.1 kHz (yang merupakan kualitas standar rekaman musik) terdiri dari jutaan langkah waktu,โ€ jelas Tim Meta. Artinya, model penghasil audio harus mengeluarkan banyak data untuk membuat trek yang ramah manusia.

โ€œSebagai perbandingan, model generatif berbasis teks seperti Llama dan Llama 2 diisi dengan teks yang diproses sebagai sub-kata yang hanya mewakili beberapa ribu langkah waktu per sampel.โ€

Raksasa Facebook ini membayangkan orang-orang menggunakan AudioCraft untuk bereksperimen membuat suara yang dihasilkan komputer tanpa harus belajar memainkan alat musik apa pun. Toolkit ini terdiri dari tiga model: MusicGen, AudioGen, dan EnCodec. 

MusicGen dilatih tentang 20,000 jam rekaman, dimiliki atau dilisensikan oleh Meta, beserta deskripsi teksnya yang sesuai. AudioGen lebih fokus pada menghasilkan efek suara daripada musik, dan dilatih pada data publik. Terakhir, EnCodec digambarkan sebagai codec saraf lossy yang dapat mengompresi dan mendekompresi sinyal audio dengan fidelitas tinggi.

Meta mengatakan itu adalah AudioCraft โ€œopen sourceโ€, dan sampai batas tertentu memang demikian. Perangkat lunak yang diperlukan untuk membuat dan melatih model, dan menjalankan inferensi, tersedia di bawah lisensi sumber terbuka MIT. Kode ini dapat digunakan secara gratis (seperti dalam kebebasan dan bir gratis) dan aplikasi komersial serta proyek penelitian.

Meskipun demikian, bobot model bukanlah open source. Mereka dibagikan di bawah lisensi Creative Commons yang secara khusus melarang penggunaan komersial. Seperti yang kita lihat dengan Lama 2, setiap kali Meta berbicara tentang hal-hal open source, periksa cetakan yang bagus.

MusicGen dan AudioGen menghasilkan suara dengan perintah input teks. Anda dapat mendengarkan klip pendek yang dibuat dari deskripsi โ€œbersiul dengan hembusan anginโ€ dan โ€œlagu dance pop dengan melodi yang menarik, perkusi tropis, dan ritme yang ceria, cocok untuk pantaiโ€ di Meta's AudioCraft halaman arahan, di sini

Efek suara pendeknya realistis, meskipun menurut kami yang seperti musik tidak bagus. Kedengarannya seperti jingle yang berulang dan umum untuk musik yang buruk atau lagu elevator daripada single hit. 

Para peneliti di Meta mengatakan AudioGen โ€“ dijelaskan secara mendalam di sini โ€“ dilatih dengan mengubah audio mentah menjadi rangkaian token, dan merekonstruksi masukan dengan mengubahnya kembali menjadi audio dengan fidelitas tinggi. Model bahasa memetakan cuplikan perintah teks masukan ke token audio untuk mempelajari korelasi antara kata dan suara. MusikGen dilatih menggunakan proses serupa pada sampel musik daripada efek suara. 

โ€œDaripada menjadikan karya sebagai sebuah kotak hitam yang tidak dapat ditembus, bersikap terbuka tentang bagaimana kami mengembangkan model-model ini dan memastikan bahwa model-model tersebut mudah digunakan oleh orang-orang โ€” baik itu para peneliti atau komunitas musik secara keseluruhan โ€” membantu orang-orang memahami apa yang dapat dilakukan oleh model-model ini. lakukan, pahami apa yang tidak bisa mereka lakukan, dan diberdayakan untuk benar-benar menggunakannya,โ€ bantah Tim Meta.

โ€œDi masa depan, AI generatif dapat membantu orang-orang meningkatkan waktu iterasi dengan memungkinkan mereka mendapatkan masukan lebih cepat selama tahap awal pembuatan prototipe dan greyboxing โ€” baik mereka pengembang besar yang membangun dunia untuk metaverse, musisi (amatir, profesional, atau jika tidak) sedang mengerjakan komposisi berikutnya, atau pemilik usaha kecil atau menengah yang ingin meningkatkan aset kreatif mereka.โ€

Anda dapat mengambil kode AudioCraft di sini, dan bereksperimen dengan MusicGen di sini dan mencobanya. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran