AI กำลังถูกใช้เพื่อสร้างทุกสิ่งจาก ภาพ ไปยัง ข้อความ ไปยัง โปรตีนเทียมและตอนนี้มีการเพิ่มสิ่งอื่นในรายการ: คำพูด สัปดาห์ที่แล้วนักวิจัยจาก ไมโครซอฟต์ออกกระดาษ บน AI ใหม่ที่เรียกว่า VALL-E ที่สามารถจำลองเสียงของใครก็ได้ตามตัวอย่างที่มีความยาวเพียงสามวินาทีได้อย่างแม่นยำ VALL-E ไม่ใช่เครื่องมือจำลองเสียงพูดเครื่องแรกที่สร้างขึ้น แต่สร้างขึ้นในลักษณะที่แตกต่างจากรุ่นก่อนๆ และอาจมีความเสี่ยงมากขึ้นสำหรับการใช้งานในทางที่ผิด
แบบจำลองการอ่านออกเสียงข้อความที่มีอยู่ส่วนใหญ่ใช้รูปคลื่น (การแสดงภาพกราฟิกของคลื่นเสียงขณะที่เคลื่อนผ่านตัวกลางเมื่อเวลาผ่านไป) เพื่อสร้างเสียงปลอม ปรับแต่งลักษณะต่างๆ เช่น โทนเสียงหรือระดับเสียงเพื่อประมาณเสียงที่กำหนด แม้ว่า VALL-E จะเก็บตัวอย่างเสียงของใครบางคนและแยกออกเป็นส่วนประกอบที่เรียกว่าโทเค็น จากนั้นใช้โทเค็นเหล่านั้นเพื่อสร้างเสียงใหม่ตาม "กฎ" ที่ได้เรียนรู้เกี่ยวกับเสียงนี้แล้ว หากเสียงนั้นทุ้มเป็นพิเศษ หรือผู้พูดออกเสียงตัว A ของพวกเขาแบบขึ้นจมูก หรือออกเสียงแบบโมโนโทนมากกว่าปกติ ทั้งหมดนี้คือลักษณะที่ AI จะรับและเลียนแบบได้
แบบจำลองนี้ใช้เทคโนโลยีที่เรียกว่า เข้ารหัสโดย Metaที่เพิ่งเปิดตัวไปเมื่อเดือนตุลาคมนี้เอง เครื่องมือนี้ใช้ระบบสามส่วนในการบีบอัดเสียงให้เล็กกว่า MP10 ถึง 3 เท่าโดยไม่สูญเสียคุณภาพ ผู้สร้างมีจุดประสงค์เพื่อใช้ในการปรับปรุงคุณภาพของเสียงและเพลงในการโทรผ่านการเชื่อมต่อแบนด์วิธต่ำ
ในการฝึก VALL-E ผู้สร้างใช้ไลบรารีเสียงที่เรียกว่า ลิบริไลท์ซึ่งสุนทรพจน์ภาษาอังกฤษกว่า 60,000 ชั่วโมงประกอบด้วยคำบรรยายในหนังสือเสียงเป็นหลัก โมเดลจะให้ผลลัพธ์ที่ดีที่สุดเมื่อเสียงที่สังเคราะห์ขึ้นนั้นคล้ายกับหนึ่งในเสียงจากไลบรารีการฝึกอบรม (ซึ่งมีมากกว่า 7,000 เสียง ดังนั้นจึงไม่ควรเรียงลำดับสูงเกินไป)
นอกจากการสร้างเสียงของใครบางคนขึ้นมาใหม่แล้ว VALL-E ยังจำลองสภาพแวดล้อมของเสียงจากตัวอย่างสามวินาทีอีกด้วย คลิปที่บันทึกทางโทรศัพท์จะให้เสียงที่แตกต่างจากคลิปที่ทำขึ้นเอง และหากคุณกำลังเดินหรือขับรถขณะพูด ระบบจะพิจารณาเสียงที่เป็นเอกลักษณ์ของสถานการณ์เหล่านั้นด้วย
บางส่วนของ ตัวอย่าง ฟังดูค่อนข้างสมจริงในขณะที่บางส่วนยังคงสร้างจากคอมพิวเตอร์อย่างเห็นได้ชัด แต่มีความแตกต่างที่เห็นได้ชัดเจนระหว่างเสียง คุณสามารถบอกได้ว่าพวกเขามาจากคนที่มีสไตล์การพูด ระดับเสียง และรูปแบบการใช้น้ำเสียงที่แตกต่างกัน
ทีมงานที่สร้าง VALL-E รู้ว่านักแสดงที่ไม่ดีสามารถใช้มันได้อย่างง่ายดาย จากการแกล้งทำเป็นเสียงของนักการเมืองหรือคนดังไปจนถึงการใช้เสียงที่คุ้นเคยเพื่อขอเงินหรือข้อมูลทางโทรศัพท์ มีวิธีนับไม่ถ้วนในการใช้ประโยชน์จากเทคโนโลยี พวกเขาละเว้นอย่างชาญฉลาดที่จะไม่เผยแพร่โค้ดของ VALL-E สู่สาธารณะ และรวมคำชี้แจงด้านจริยธรรมไว้ที่ส่วนท้ายของบทความ
อาจเป็นเพียงเรื่องของเวลาก่อนที่เครื่องมือที่คล้ายกันจะผุดขึ้นมาและตกไปอยู่ในมือคนผิด นักวิจัยแนะนำว่าความเสี่ยงที่แบบจำลองเช่น VALL-E จะนำเสนอสามารถบรรเทาได้ด้วยการสร้างแบบจำลองการตรวจจับเพื่อวัดว่าคลิปเสียงเป็นของจริงหรือสังเคราะห์ หากเราต้องการให้ AI ปกป้องเราจาก AI เราจะรู้ได้อย่างไรว่าเทคโนโลยีเหล่านี้มีผลกระทบเชิงบวกสุทธิหรือไม่ เวลาจะบอกเอง.
เครดิตภาพ: Shutterstock.com/ธัญชา
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าถึงได้ที่นี่.
- ที่มา: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- สามารถ
- เกี่ยวกับเรา
- ลงชื่อเข้าใช้
- แม่นยำ
- ที่เพิ่ม
- ความได้เปรียบ
- AI
- ทั้งหมด
- แล้ว
- และ
- อื่น
- ทุกคน
- เสียง
- ใช้ได้
- เฉลี่ย
- ไม่ดี
- ตาม
- ก่อน
- กำลัง
- ที่ดีที่สุด
- ระหว่าง
- แบ่ง
- การก่อสร้าง
- สร้าง
- ที่เรียกว่า
- โทร
- พกพา
- ดารา
- ลักษณะ
- คลิป
- รหัส
- ส่วนประกอบ
- สร้างด้วยคอมพิวเตอร์
- การเชื่อมต่อ
- ได้
- สร้าง
- ที่สร้างขึ้น
- ผู้สร้าง
- เครดิต
- ลึก
- การตรวจพบ
- ความแตกต่าง
- ต่าง
- ลง
- การขับขี่
- อย่างง่ายดาย
- ภาษาอังกฤษ
- สิ่งแวดล้อม
- จริยธรรม
- ทุกอย่าง
- ที่มีอยู่
- อย่างเป็นธรรม
- เทียม
- ตก
- คุ้นเคย
- ชื่อจริง
- ราคาเริ่มต้นที่
- สร้าง
- GitHub
- กำหนด
- มากขึ้น
- มือ
- มี
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- ส่งผลกระทบ
- การปรับปรุง
- in
- รวม
- ข้อมูล
- IT
- ทราบ
- ชื่อสกุล
- ได้เรียนรู้
- ห้องสมุด
- น่าจะ
- รายการ
- นาน
- ปิด
- ทำ
- การทำ
- เรื่อง
- กลาง
- แบบ
- โมเดล
- เงิน
- ข้อมูลเพิ่มเติม
- ย้าย
- ดนตรี
- จำเป็นต้อง
- สุทธิ
- ใหม่
- ตุลาคม
- ONE
- ใบสั่ง
- ผลิตภัณฑ์อื่นๆ
- กระดาษ
- ส่วนหนึ่ง
- โดยเฉพาะ
- รูปแบบ
- คน
- คน
- โทรศัพท์
- เลือก
- ขว้าง
- โหมโรง
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- นักการเมือง
- บวก
- ที่มีศักยภาพ
- นำเสนอ
- ส่วนใหญ่
- ป้องกัน
- สาธารณชน
- วัตถุประสงค์
- คุณภาพ
- จริง
- เหมือนจริง
- บันทึก
- การเผยแพร่
- ขอ
- นักวิจัย
- ผลสอบ
- ความเสี่ยง
- ความเสี่ยง
- สถานการณ์
- วินาที
- Shutterstock
- คล้ายคลึงกัน
- จำลอง
- มีขนาดเล็กกว่า
- So
- เสียง
- ลำโพง
- การพูด
- การพูด
- ฤดูใบไม้ผลิ
- คำแถลง
- ยังคง
- ระบบ
- เอา
- ใช้เวลา
- การพูดคุย
- ทีม
- เทคโนโลยี
- เทคโนโลยี
- Text-to-Speech
- พื้นที่
- ของพวกเขา
- สิ่ง
- สาม
- ตลอด
- เวลา
- ครั้ง
- ไปยัง
- ราชสกุล
- TONE
- เกินไป
- เครื่องมือ
- เครื่องมือ
- รถไฟ
- การฝึกอบรม
- tweaking
- เป็นเอกลักษณ์
- us
- ใช้
- เสียงพูด
- เสียงVO
- ที่เดิน
- คลื่น
- วิธี
- สัปดาห์
- ว่า
- ที่
- ในขณะที่
- WHO
- จะ
- จะ
- ผิด
- มือผิด
- อัตราผลตอบแทน
- คุณ
- ของคุณ
- ลมทะเล