Meta phát hành AI tổng quát để tạo nhạc, âm thanh

Meta phát hành AI tổng quát để tạo nhạc, âm thanh

Meta phát hành AI tổng quát để tạo ra âm nhạc, âm thanh PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Meta vào thứ Tư đã phát hành AudioCraft, một bộ ba mô hình AI có khả năng tự động tạo âm thanh từ các mô tả văn bản.

Khi các mô hình AI tổng quát nhận lời nhắc bằng văn bản và biến chúng thành hình ảnh hoặc nhiều văn bản hơn tiếp tục hoàn thiện, các nhà khoa học máy tính đang xem xét tạo ra các dạng phương tiện khác bằng cách sử dụng máy học.

Âm thanh rất khó đối với các hệ thống AI, đặc biệt là âm nhạc, vì phần mềm phải học cách tạo ra các mẫu mạch lạc trong vài phút và đủ sáng tạo để tạo ra thứ gì đó hấp dẫn hoặc dễ nghe.

Team Meta giải thích: “Một bản nhạc điển hình dài vài phút được lấy mẫu ở tần số 44.1 kHz (là chất lượng tiêu chuẩn của bản ghi âm) bao gồm hàng triệu dấu thời gian. Điều đó có nghĩa là, một mô hình tạo âm thanh phải xuất ra nhiều dữ liệu để xây dựng một bản nhạc thân thiện với con người.

“Để so sánh, các mô hình tạo dựa trên văn bản như Llama và Llama 2 được cung cấp văn bản được xử lý dưới dạng các từ phụ chỉ đại diện cho vài nghìn dấu thời gian trên mỗi mẫu.”

Gã khổng lồ Facebook hình dung mọi người sử dụng AudioCraft để thử nghiệm tạo âm thanh do máy tính tạo ra mà không cần phải học chơi bất kỳ nhạc cụ nào. Bộ công cụ được tạo thành từ ba mô hình: MusicGen, AudioGen và EnCodec. 

MusicGen đã được đào tạo về 20,000 giờ ghi âm, do Meta sở hữu hoặc cấp phép, cùng với các mô tả văn bản tương ứng của chúng. AudioGen tập trung nhiều hơn vào việc tạo hiệu ứng âm thanh hơn là âm nhạc và đã được đào tạo về dữ liệu công khai. Cuối cùng, EnCodec được mô tả là một codec thần kinh mất dữ liệu có thể nén và giải nén tín hiệu âm thanh với độ trung thực cao.

Meta cho biết đó là “nguồn mở” AudioCraft và ở một mức độ nào đó. Phần mềm cần thiết để tạo và huấn luyện các mô hình cũng như chạy suy luận hiện có sẵn theo giấy phép mã nguồn mở của MIT. Mã này có thể được sử dụng miễn phí (như trong tự do và bia miễn phí) và các ứng dụng thương mại cũng như các dự án nghiên cứu.

Điều đó nói rằng, trọng lượng mô hình không phải là nguồn mở. Chúng được chia sẻ theo giấy phép Creative Commons đặc biệt cấm sử dụng cho mục đích thương mại. Như chúng ta đã thấy với lạc đà không bướu 2, bất cứ khi nào Meta nói về công cụ mã nguồn mở, hãy kiểm tra bản in tốt.

MusicGen và AudioGen tạo ra âm thanh khi có lời nhắc văn bản đầu vào. Bạn có thể nghe các clip ngắn được tạo từ mô tả “tiếng gió thổi” và “bản nhạc pop dance với giai điệu bắt tai, bộ gõ nhiệt đới và nhịp điệu sôi động, hoàn hảo cho bãi biển” trên Meta's AudioCraft trang đích, tại đây

Các hiệu ứng âm thanh ngắn rất chân thực, mặc dù theo quan điểm của chúng tôi, những hiệu ứng giống như âm nhạc không tuyệt vời. Chúng nghe giống như những tiếng leng keng lặp đi lặp lại và chung chung dành cho những bản nhạc dở hoặc những bài hát thang máy hơn là những đĩa đơn ăn khách. 

Các nhà nghiên cứu tại Meta cho biết AudioGen – đã mô tả sâu ở đây – đã được đào tạo bằng cách chuyển đổi âm thanh thô thành một chuỗi mã thông báo và tái tạo lại đầu vào bằng cách chuyển đổi chúng trở lại thành âm thanh với độ trung thực cao. Một mô hình ngôn ngữ ánh xạ các đoạn của lời nhắc nhập văn bản vào mã thông báo âm thanh để tìm hiểu mối tương quan giữa từ và âm thanh. Âm nhạcGen đã được đào tạo bằng cách sử dụng quy trình tương tự trên các mẫu nhạc thay vì hiệu ứng âm thanh. 

“Thay vì giữ tác phẩm như một chiếc hộp đen không thể xuyên thủng, hãy cởi mở về cách chúng tôi phát triển những mô hình này và đảm bảo rằng chúng dễ dàng cho mọi người sử dụng - cho dù đó là các nhà nghiên cứu hay cộng đồng âm nhạc nói chung - giúp mọi người hiểu những gì những mô hình này có thể làm được. làm, hiểu những gì họ không thể làm và được trao quyền để thực sự sử dụng chúng,” Nhóm Meta lập luận.

“Trong tương lai, AI có thể tạo ra có thể giúp mọi người cải thiện đáng kể thời gian lặp lại bằng cách cho phép họ nhận được phản hồi nhanh hơn trong giai đoạn tạo mẫu ban đầu và hộp xám - cho dù họ là nhà phát triển lớn đang xây dựng thế giới cho metaverse, nhạc sĩ (nghiệp dư, chuyên nghiệp hay mặt khác) đang thực hiện tác phẩm tiếp theo của họ hoặc một chủ doanh nghiệp vừa và nhỏ đang tìm cách nâng cao nội dung sáng tạo của họ.”

Bạn có thể lấy mã AudioCraft tại đâyvà thử nghiệm với MusicGen tại đây và dùng thử. ®

Dấu thời gian:

Thêm từ Đăng ký