Meta เผยแพร่ AI กำเนิดสำหรับการสร้างเพลง เสียง

Meta เผยแพร่ AI กำเนิดสำหรับการสร้างเพลง เสียง

Meta เผยแพร่ AI เจนเนอเรชั่นสำหรับสร้างเพลง ฟังดูเป็น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เมื่อวันพุธที่ผ่านมา Meta ได้เปิดตัว AudioCraft ซึ่งเป็นชุดโมเดล AI สามรุ่นที่สามารถสร้างเสียงโดยอัตโนมัติจากคำอธิบายข้อความ

ในขณะที่โมเดล AI เชิงกำเนิดที่เขียนข้อความแจ้งและเปลี่ยนเป็นรูปภาพหรือข้อความจำนวนมากยังคงพัฒนาต่อไป นักวิทยาศาสตร์คอมพิวเตอร์กำลังมองหาการสร้างสื่อในรูปแบบอื่นๆ โดยใช้การเรียนรู้ของเครื่อง

เสียงเป็นเรื่องยากสำหรับระบบ AI โดยเฉพาะอย่างยิ่งดนตรี เนื่องจากซอฟต์แวร์ต้องเรียนรู้ที่จะสร้างรูปแบบที่สอดคล้องกันเป็นเวลาหลายนาทีและมีความคิดสร้างสรรค์มากพอที่จะสร้างสิ่งที่ติดหูหรือน่าฟัง

“แทร็กเพลงทั่วไปที่สุ่มตัวอย่างไม่กี่นาทีที่ 44.1 kHz (ซึ่งเป็นคุณภาพมาตรฐานของการบันทึกเพลง) ประกอบด้วยขั้นตอนนับล้านครั้ง” Team Meta อธิบาย กล่าวคือ โมเดลสร้างเสียงต้องส่งข้อมูลจำนวนมากเพื่อสร้างแทร็กที่เป็นมิตรต่อมนุษย์

“เมื่อเปรียบเทียบกัน โมเดลการสร้างข้อความอย่าง Llama และ Llama 2 จะถูกป้อนด้วยข้อความที่ประมวลผลเป็นคำย่อยซึ่งแสดงเพียงไม่กี่พันครั้งต่อตัวอย่าง”

Facebook ยักษ์ใหญ่วาดภาพผู้คนที่ใช้ AudioCraft เพื่อทดลองสร้างเสียงจากคอมพิวเตอร์โดยไม่ต้องเรียนรู้การเล่นเครื่องดนตรีใดๆ ชุดเครื่องมือประกอบด้วยสามรุ่น: MusicGen, AudioGen และ EnCodec 

MusicGen ได้รับการฝึกอบรมเกี่ยวกับการบันทึกกว่า 20,000 ชั่วโมง ซึ่ง Meta เป็นเจ้าของหรือได้รับอนุญาต ควบคู่ไปกับคำอธิบายข้อความที่เกี่ยวข้อง AudioGen ให้ความสำคัญกับการสร้างเอฟเฟ็กต์เสียงมากกว่าดนตรี และได้รับการฝึกอบรมเกี่ยวกับข้อมูลสาธารณะ สุดท้าย EnCodec ถูกอธิบายว่าเป็นตัวแปลงสัญญาณประสาทแบบสูญเสียที่สามารถบีบอัดและขยายสัญญาณเสียงที่มีความเที่ยงตรงสูง

Meta กล่าวว่าเป็น AudioCraft แบบ "โอเพ่นซอร์ส" และอยู่ในระดับหนึ่ง ซอฟต์แวร์ที่จำเป็นสำหรับการสร้างและฝึกโมเดล และเรียกใช้การอนุมาน มีอยู่ภายใต้ใบอนุญาต MIT แบบโอเพ่นซอร์ส รหัสนี้สามารถใช้ได้ฟรี (เช่นเดียวกับในเสรีภาพและเบียร์ฟรี) และแอปพลิเคชันเชิงพาณิชย์ เช่นเดียวกับโครงการวิจัย

ที่กล่าวว่าน้ำหนักแบบจำลองไม่ใช่โอเพ่นซอร์ส มีการแบ่งปันภายใต้สัญญาอนุญาตครีเอทีฟคอมมอนส์ที่ห้ามใช้ในเชิงพาณิชย์โดยเฉพาะ อย่างที่เราเห็นกับ ลามะ 2เมื่อใดก็ตามที่ Meta พูดถึงเนื้อหาแบบโอเพ่นซอร์ส ให้ตรวจสอบ พิมพ์ดี.

MusicGen และ AudioGen สร้างเสียงโดยให้ข้อความป้อนเข้า คุณสามารถฟังคลิปสั้นที่สร้างจากคำอธิบาย "เสียงหวีดหวิวกับสายลม" และ "เพลงป็อปแดนซ์ที่มีท่วงทำนองที่ติดหู เสียงเครื่องเคาะจังหวะเขตร้อน และจังหวะที่เร้าใจ เหมาะสำหรับชายหาด" บน AudioCraft ของ Meta หน้า Landing Page ที่นี่

เอฟเฟ็กต์เสียงสั้นๆ นั้นสมจริง แม้ว่าเอฟเฟ็กต์เสียงดนตรีจะไม่ค่อยดีนักในความเห็นของเรา พวกเขาฟังเหมือนเสียงกริ๊งซ้ำ ๆ และทั่วไปสำหรับเพลงที่ไม่ดีหรือเพลงลิฟต์มากกว่าซิงเกิ้ลฮิต 

นักวิจัยที่ Meta กล่าวว่า AudioGen – อธิบายไว้ ในเชิงลึกที่นี่ – ได้รับการฝึกอบรมโดยการแปลงเสียงดิบเป็นลำดับของโทเค็น และสร้างอินพุตใหม่โดยแปลงกลับเป็นเสียงที่มีความเที่ยงตรงสูง แบบจำลองภาษาแม็พส่วนย่อยของข้อความที่ป้อนเข้ากับโทเค็นเสียงเพื่อเรียนรู้ความสัมพันธ์ระหว่างคำและเสียง เพลง Gen ได้รับการฝึกฝนโดยใช้กระบวนการที่คล้ายกันกับตัวอย่างเพลงมากกว่าเอฟเฟกต์เสียง 

“แทนที่จะเก็บผลงานไว้เป็นกล่องดำที่ยากจะหยั่งถึง การเปิดกว้างเกี่ยวกับวิธีที่เราพัฒนาโมเดลเหล่านี้และสร้างความมั่นใจว่าโมเดลเหล่านี้ใช้งานได้ง่าย — ไม่ว่าจะเป็นนักวิจัยหรือชุมชนดนตรีโดยรวม — ช่วยให้ผู้คนเข้าใจว่าโมเดลเหล่านี้สามารถทำอะไรได้บ้าง ทำ เข้าใจว่าพวกเขาไม่สามารถทำได้ และได้รับพลังให้ใช้งานจริง” Team Meta โต้แย้ง

“ในอนาคต AI เชิงกำเนิดสามารถช่วยผู้คนปรับปรุงเวลาการวนซ้ำได้อย่างมาก โดยช่วยให้พวกเขาได้รับคำติชมเร็วขึ้นในช่วงแรกของการสร้างต้นแบบและขั้นตอนของกล่องสีเทา — ไม่ว่าพวกเขาจะเป็นนักพัฒนาขนาดใหญ่ที่สร้างโลกสำหรับ metaverse นักดนตรี (มือสมัครเล่น มืออาชีพ หรือ มิฉะนั้น) กำลังทำงานในองค์ประกอบต่อไป หรือเจ้าของธุรกิจขนาดเล็กหรือขนาดกลางที่ต้องการยกระดับเนื้อหาที่สร้างสรรค์ของพวกเขา”

คุณสามารถเรียกรหัส AudioCraft โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติมและทดลองกับ MusicGen โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม และทดลองใช้งาน ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน