Meta Merilis AI Generatif Untuk Membuat Musik, Suara

Diterbitkan Ulang Oleh Plato

Followers: 0

Meta merilis AI generatif untuk membuat musik, terdengar seperti PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Meta pada hari Rabu merilis AudioCraft, seperangkat tiga model AI yang mampu secara otomatis menghasilkan suara dari deskripsi teks.

Seiring dengan semakin berkembangnya model AI generatif yang mengambil perintah tertulis dan mengubahnya menjadi gambar atau lebih banyak teks, ilmuwan komputer mencari cara untuk membuat bentuk media lain menggunakan pembelajaran mesin.

Audio sulit untuk sistem AI, terutama musik, karena perangkat lunak harus belajar menghasilkan pola yang koheren selama beberapa menit dan cukup kreatif untuk menghasilkan sesuatu yang menarik atau enak untuk didengarkan.

“Trik musik khas berdurasi beberapa menit yang diambil sampelnya pada 44.1 kHz (yang merupakan kualitas standar rekaman musik) terdiri dari jutaan langkah waktu,” jelas Tim Meta. Artinya, model penghasil audio harus mengeluarkan banyak data untuk membuat trek yang ramah manusia.

“Sebagai perbandingan, model generatif berbasis teks seperti Llama dan Llama 2 diisi dengan teks yang diproses sebagai sub-kata yang hanya mewakili beberapa ribu langkah waktu per sampel.”

Raksasa Facebook ini membayangkan orang-orang menggunakan AudioCraft untuk bereksperimen membuat suara yang dihasilkan komputer tanpa harus belajar memainkan alat musik apa pun. Toolkit ini terdiri dari tiga model: MusicGen, AudioGen, dan EnCodec.

MusicGen dilatih tentang 20,000 jam rekaman, dimiliki atau dilisensikan oleh Meta, beserta deskripsi teksnya yang sesuai. AudioGen lebih fokus pada menghasilkan efek suara daripada musik, dan dilatih pada data publik. Terakhir, EnCodec digambarkan sebagai codec saraf lossy yang dapat mengompresi dan mendekompresi sinyal audio dengan fidelitas tinggi.

Meta mengatakan itu adalah AudioCraft “open source”, dan sampai batas tertentu memang demikian. Perangkat lunak yang diperlukan untuk membuat dan melatih model, dan menjalankan inferensi, tersedia di bawah lisensi sumber terbuka MIT. Kode ini dapat digunakan secara gratis (seperti dalam kebebasan dan bir gratis) dan aplikasi komersial serta proyek penelitian.

Meskipun demikian, bobot model bukanlah open source. Mereka dibagikan di bawah lisensi Creative Commons yang secara khusus melarang penggunaan komersial. Seperti yang kita lihat dengan Lama 2, setiap kali Meta berbicara tentang hal-hal open source, periksa cetakan yang bagus.

MusicGen dan AudioGen menghasilkan suara dengan perintah input teks. Anda dapat mendengarkan klip pendek yang dibuat dari deskripsi “bersiul dengan hembusan angin” dan “lagu dance pop dengan melodi yang menarik, perkusi tropis, dan ritme yang ceria, cocok untuk pantai” di Meta's AudioCraft halaman arahan, di sini.

Efek suara pendeknya realistis, meskipun menurut kami yang seperti musik tidak bagus. Kedengarannya seperti jingle yang berulang dan umum untuk musik yang buruk atau lagu elevator daripada single hit.

Para peneliti di Meta mengatakan AudioGen – dijelaskan secara mendalam di sini – dilatih dengan mengubah audio mentah menjadi rangkaian token, dan merekonstruksi masukan dengan mengubahnya kembali menjadi audio dengan fidelitas tinggi. Model bahasa memetakan cuplikan perintah teks masukan ke token audio untuk mempelajari korelasi antara kata dan suara. MusikGen dilatih menggunakan proses serupa pada sampel musik daripada efek suara.

“Daripada menjadikan karya sebagai sebuah kotak hitam yang tidak dapat ditembus, bersikap terbuka tentang bagaimana kami mengembangkan model-model ini dan memastikan bahwa model-model tersebut mudah digunakan oleh orang-orang — baik itu para peneliti atau komunitas musik secara keseluruhan — membantu orang-orang memahami apa yang dapat dilakukan oleh model-model ini. lakukan, pahami apa yang tidak bisa mereka lakukan, dan diberdayakan untuk benar-benar menggunakannya,” bantah Tim Meta.

“Di masa depan, AI generatif dapat membantu orang-orang meningkatkan waktu iterasi dengan memungkinkan mereka mendapatkan masukan lebih cepat selama tahap awal pembuatan prototipe dan greyboxing — baik mereka pengembang besar yang membangun dunia untuk metaverse, musisi (amatir, profesional, atau jika tidak) sedang mengerjakan komposisi berikutnya, atau pemilik usaha kecil atau menengah yang ingin meningkatkan aset kreatif mereka.”

Anda dapat mengambil kode AudioCraft di sini, dan bereksperimen dengan MusicGen di sini dan mencobanya. ®

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Otomotif / EV, Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
BlockOffset. Modernisasi Kepemilikan Offset Lingkungan. Akses Di Sini.
Sumber: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/

Stempel Waktu: 2 Agustus 2023

Stempel Waktu: Oktober 19, 2022

Meta merilis AI generatif untuk membuat musik, suara

Diterbitkan Ulang Oleh Plato

Lebih dari Pendaftaran

Dell dan Nvidia memimpikan model AI generatif DIY

DeepMind melatih pemain sepak bola robot untuk mencetak gol, dengan buruk

Detail tentang pembaruan AI Google pada infrastruktur cloud

India merencanakan superkomputer AI berdaulat 10,000 GPU

Ingin memahami Teknologi Lebih Cerdas untuk Realitas Berikutnya? Mulai di sini…

Peran CPU dalam AI/ML berkelanjutan

Dunia sedang dalam krisis, jadi bagaimana AI bisa membantu?

AI NASA menunjukkan pemotongan belerang dalam pengiriman bahan bakar mengurangi polusi udara di laut

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun