AI ใหม่ของ Microsoft สามารถโคลนเสียงของคุณได้ในเวลาเพียง 3 วินาที

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

AI ใหม่ของ Microsoft สามารถโคลนเสียงของคุณในเวลาเพียง 3 วินาที PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

AI กำลังถูกใช้เพื่อสร้างทุกสิ่งจาก ภาพ ไปยัง ข้อความ ไปยัง โปรตีนเทียมและตอนนี้มีการเพิ่มสิ่งอื่นในรายการ: คำพูด สัปดาห์ที่แล้วนักวิจัยจาก ไมโครซอฟต์ออกกระดาษ บน AI ใหม่ที่เรียกว่า VALL-E ที่สามารถจำลองเสียงของใครก็ได้ตามตัวอย่างที่มีความยาวเพียงสามวินาทีได้อย่างแม่นยำ VALL-E ไม่ใช่เครื่องมือจำลองเสียงพูดเครื่องแรกที่สร้างขึ้น แต่สร้างขึ้นในลักษณะที่แตกต่างจากรุ่นก่อนๆ และอาจมีความเสี่ยงมากขึ้นสำหรับการใช้งานในทางที่ผิด

แบบจำลองการอ่านออกเสียงข้อความที่มีอยู่ส่วนใหญ่ใช้รูปคลื่น (การแสดงภาพกราฟิกของคลื่นเสียงขณะที่เคลื่อนผ่านตัวกลางเมื่อเวลาผ่านไป) เพื่อสร้างเสียงปลอม ปรับแต่งลักษณะต่างๆ เช่น โทนเสียงหรือระดับเสียงเพื่อประมาณเสียงที่กำหนด แม้ว่า VALL-E จะเก็บตัวอย่างเสียงของใครบางคนและแยกออกเป็นส่วนประกอบที่เรียกว่าโทเค็น จากนั้นใช้โทเค็นเหล่านั้นเพื่อสร้างเสียงใหม่ตาม "กฎ" ที่ได้เรียนรู้เกี่ยวกับเสียงนี้แล้ว หากเสียงนั้นทุ้มเป็นพิเศษ หรือผู้พูดออกเสียงตัว A ของพวกเขาแบบขึ้นจมูก หรือออกเสียงแบบโมโนโทนมากกว่าปกติ ทั้งหมดนี้คือลักษณะที่ AI จะรับและเลียนแบบได้

แบบจำลองนี้ใช้เทคโนโลยีที่เรียกว่า เข้ารหัสโดย Metaที่เพิ่งเปิดตัวไปเมื่อเดือนตุลาคมนี้เอง เครื่องมือนี้ใช้ระบบสามส่วนในการบีบอัดเสียงให้เล็กกว่า MP10 ถึง 3 เท่าโดยไม่สูญเสียคุณภาพ ผู้สร้างมีจุดประสงค์เพื่อใช้ในการปรับปรุงคุณภาพของเสียงและเพลงในการโทรผ่านการเชื่อมต่อแบนด์วิธต่ำ

ในการฝึก VALL-E ผู้สร้างใช้ไลบรารีเสียงที่เรียกว่า ลิบริไลท์ซึ่งสุนทรพจน์ภาษาอังกฤษกว่า 60,000 ชั่วโมงประกอบด้วยคำบรรยายในหนังสือเสียงเป็นหลัก โมเดลจะให้ผลลัพธ์ที่ดีที่สุดเมื่อเสียงที่สังเคราะห์ขึ้นนั้นคล้ายกับหนึ่งในเสียงจากไลบรารีการฝึกอบรม (ซึ่งมีมากกว่า 7,000 เสียง ดังนั้นจึงไม่ควรเรียงลำดับสูงเกินไป)

นอกจากการสร้างเสียงของใครบางคนขึ้นมาใหม่แล้ว VALL-E ยังจำลองสภาพแวดล้อมของเสียงจากตัวอย่างสามวินาทีอีกด้วย คลิปที่บันทึกทางโทรศัพท์จะให้เสียงที่แตกต่างจากคลิปที่ทำขึ้นเอง และหากคุณกำลังเดินหรือขับรถขณะพูด ระบบจะพิจารณาเสียงที่เป็นเอกลักษณ์ของสถานการณ์เหล่านั้นด้วย

บางส่วนของ ตัวอย่าง ฟังดูค่อนข้างสมจริงในขณะที่บางส่วนยังคงสร้างจากคอมพิวเตอร์อย่างเห็นได้ชัด แต่มีความแตกต่างที่เห็นได้ชัดเจนระหว่างเสียง คุณสามารถบอกได้ว่าพวกเขามาจากคนที่มีสไตล์การพูด ระดับเสียง และรูปแบบการใช้น้ำเสียงที่แตกต่างกัน

ทีมงานที่สร้าง VALL-E รู้ว่านักแสดงที่ไม่ดีสามารถใช้มันได้อย่างง่ายดาย จากการแกล้งทำเป็นเสียงของนักการเมืองหรือคนดังไปจนถึงการใช้เสียงที่คุ้นเคยเพื่อขอเงินหรือข้อมูลทางโทรศัพท์ มีวิธีนับไม่ถ้วนในการใช้ประโยชน์จากเทคโนโลยี พวกเขาละเว้นอย่างชาญฉลาดที่จะไม่เผยแพร่โค้ดของ VALL-E สู่สาธารณะ และรวมคำชี้แจงด้านจริยธรรมไว้ที่ส่วนท้ายของบทความ

อาจเป็นเพียงเรื่องของเวลาก่อนที่เครื่องมือที่คล้ายกันจะผุดขึ้นมาและตกไปอยู่ในมือคนผิด นักวิจัยแนะนำว่าความเสี่ยงที่แบบจำลองเช่น VALL-E จะนำเสนอสามารถบรรเทาได้ด้วยการสร้างแบบจำลองการตรวจจับเพื่อวัดว่าคลิปเสียงเป็นของจริงหรือสังเคราะห์ หากเราต้องการให้ AI ปกป้องเราจาก AI เราจะรู้ได้อย่างไรว่าเทคโนโลยีเหล่านี้มีผลกระทบเชิงบวกสุทธิหรือไม่ เวลาจะบอกเอง.

เครดิตภาพ: Shutterstock.com/ธัญชา

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
ที่มา: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

ประทับเวลา: January 12, 2023

ประทับเวลา: กุมภาพันธ์ 17, 2024

AI ใหม่ของ Microsoft สามารถโคลนเสียงของคุณได้ในเวลาเพียง 3 วินาที

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก Hub เอกพจน์

การวัดปริมาณฮีเลียมในดาราจักรอันไกลโพ้นอาจทำให้นักฟิสิกส์เข้าใจว่าเหตุใดจักรวาลจึงดำรงอยู่

โครงสร้างแห่งชีวิตอาจก่อตัวขึ้นในละอองน้ำทะเลดั่งเดิม

ความขัดแย้งในยูเครนส่งผลกระทบต่อโลกด้วยการใช้พลังงานทดแทน รายงานของ IEA กล่าว

การแก้ไขยีน CRISPR มีความก้าวหน้าตลอดปี และเพิ่งเริ่มต้นเท่านั้น

การศึกษาความรู้สึกของสัตว์จะช่วยไขปริศนาจริยธรรมของ Sentient AI ได้อย่างไร

รถยนต์ไร้คนขับของ Waymo กำลังชนคนขับความปลอดภัยบนทางหลวง Sans ในรัฐแอริโซนา

AI นี้สามารถออกแบบโปรตีนที่ซับซ้อนให้เหมาะกับความต้องการของเราได้อย่างสมบูรณ์แบบ

การเริ่มต้นที่ได้รับการสนับสนุนจาก Gates นี้สร้างบ้านแบบแยกส่วนจากแผงประหยัดพลังงาน

AI ตัวใหม่ของ NVIDIA แปลงภาพถ่ายเป็นฉาก 3 มิติเต็มรูปแบบในไม่กี่วินาที

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้