'โปรแกรมเสียง' ใหม่จาก OpenAI ต้องการเวลาเพียง 15 วินาทีในการโคลนคำพูด - ถอดรหัส

'โปรแกรมเสียง' ใหม่จาก OpenAI ใช้เวลาเพียง 15 วินาทีในการโคลนคำพูด - ถอดรหัส

'โปรแกรมเสียง' ใหม่จาก OpenAI ต้องการเวลาเพียง 15 วินาทีในการโคลนคำพูด - ถอดรหัสข้อมูลอัจฉริยะของ PlatoBlockchain ค้นหาแนวตั้ง AI.

OpenAI บริษัท AI ที่อยู่เบื้องหลังเครื่องมือ AI เจนเนอเรชั่นที่โดดเด่นอย่าง ChatGPT ได้เปิดตัวเทคโนโลยีการโคลนเสียงใหม่ที่เรียกว่า "Voice Engine" โมเดลเสียงนี้สามารถจำลองเสียงของบุคคล น้ำเสียง และรูปแบบคำพูดของมนุษย์ที่ชัดเจนอื่นๆ โดยอิงตามตัวอย่างเสียงต้นฉบับที่มีขนาดค่อนข้างเล็ก

“เป็นที่น่าสังเกตว่าโมเดลขนาดเล็กที่มีตัวอย่าง 15 วินาทีเดียวสามารถสร้างเสียงที่สื่ออารมณ์และสมจริงได้” บริษัทกล่าวใน โพสต์บล็อกวันศุกร์.

สำหรับการเปรียบเทียบ แพลตฟอร์มเสียง AI อีเลฟเว่นแล็บส์ มีเครื่องมือโคลนเสียงแบบทันทีที่ ต้องใช้ตัวอย่างอย่างน้อยหนึ่งนาที- เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด จำเป็นต้องพูดต่อเนื่องเกือบ 10 นาทีเพื่อระดับการบริการระดับมืออาชีพ

บริษัทได้แสดงตัวอย่างต่างๆ ของสิ่งที่เทคโนโลยีนี้สามารถทำได้ ในตัวอย่างหนึ่ง เสียงของผู้ป่วยอายุน้อยที่สูญเสียความสามารถในการพูดไปมากเนื่องจากเนื้องอกในหลอดเลือดในสมอง ถูกโคลนโดยใช้บันทึกเสียงเก่าที่เธอสร้างสำหรับโครงการของโรงเรียน นี่คือ วันนี้เธอฟังดูเป็นยังไงบ้างตาม OpenAI

OpenAI ทำงานร่วมกับ อายุซึ่งเป็นองค์กรไม่แสวงหากำไรในเครือโรงเรียนแพทย์ที่มหาวิทยาลัยบราวน์และเป็นผู้สร้างเครื่องมือที่เรียกว่า ลิวอกซ์ซึ่งเป็น “แอปการสื่อสารทางเลือก” ที่สร้างขึ้นเพื่อผู้พิการ ซึ่งทางทีมงานก็สามารถที่จะทำงานร่วมกับก บันทึกที่ผู้หญิงคนนั้นทำ สำหรับการนำเสนอของโรงเรียน:

จากนั้น Open AI Voice Engine ก็สามารถให้ความสามารถแปลงข้อความเป็นคำพูดได้ทันทีที่จะช่วยให้ผู้ป่วยพูดได้อย่างมีประสิทธิภาพ พูดด้วยเสียงของเธอเอง:

OpenAI ยังจัดแสดงวิธีการอีกด้วย เฮ้เจน กำลังใช้เทคโนโลยีเพื่อสร้างคำแปลที่ฟังดูเป็นธรรมชาติซึ่งอัปโหลดในภาษาใดภาษาหนึ่งในภาษาอื่น

บริษัทกล่าวว่า Voice Engine ได้รับการพัฒนาครั้งแรกในปลายปี 2022 และได้ถูกนำมาใช้เพื่อขับเคลื่อนเสียงที่ตั้งไว้ล่วงหน้าที่มีอยู่ใน API การแปลงข้อความเป็นคำพูดของ OpenAI รวมถึงฟีเจอร์เสียงและอ่านออกเสียงของ ChatGPT ด้วยความก้าวหน้าล่าสุด บริษัทกล่าวว่าจะต้องใช้ความระมัดระวังก่อนที่จะเผยแพร่ในวงกว้าง

“เราหวังว่าจะเริ่มการสนทนาเกี่ยวกับการใช้เสียงสังเคราะห์อย่างมีความรับผิดชอบ และวิธีที่สังคมจะปรับตัวเข้ากับความสามารถใหม่เหล่านี้” OpenAI เขียน โดยยอมรับถึงแนวปฏิบัติ “deepfakes” ที่ถูกประณามอย่างกว้างขวาง เสียงของคนดัง เจ้าหน้าที่ของรัฐ และประชาชนส่วนบุคคลที่เพิ่มมากขึ้นกำลังถูกแอบอ้างเพื่อจุดประสงค์ที่ชั่วร้าย จาก การรณรงค์ทางการเมือง, โฆษณาปลอม และทันที กิจกรรมทางอาญา- โจ ไบเดน ประธานาธิบดีสหรัฐฯ ก็ได้ ใจเร่งเร้า เพื่อป้องกันการใช้เสียง AI ในทางที่ผิดมากขึ้น

ในความเป็นจริง Meta เปิดเผยเมื่อฤดูร้อนปีที่แล้วว่าเครื่องมือเสียง AI ของตนถูกระงับโดยเฉพาะเนื่องจาก “ความเสี่ยงที่อาจเกิดขึ้นจากการใช้ในทางที่ผิด".

“เพื่อให้สอดคล้องกับแนวทางด้านความปลอดภัยของ AI และความมุ่งมั่นโดยสมัครใจของเรา เรากำลังเลือกที่จะแสดงตัวอย่างแต่ยังไม่เผยแพร่เทคโนโลยีนี้ในวงกว้างในขณะนี้” OpenAI อธิบาย

แม้กระทั่งก่อนการเปิดตัวสู่สาธารณะ OpenAI กำลังวางข้อจำกัดเกี่ยวกับ Voice Engine รวมถึงรายชื่อบุคคลสำคัญที่จะไม่เลียนแบบ

“เราเชื่อว่าการใช้งานเทคโนโลยีเสียงสังเคราะห์ในวงกว้างควรมาพร้อมกับประสบการณ์การตรวจสอบสิทธิ์ด้วยเสียงที่ตรวจสอบว่าผู้พูดดั้งเดิมกำลังเพิ่มเสียงของตนในบริการโดยเจตนา และรายการเสียงที่ไม่ต้องดำเนินการซึ่งจะตรวจจับและป้องกันการสร้างเสียงที่มากเกินไป คล้ายกับบุคคลสำคัญ” OpenAI เขียน

พันธมิตรที่ทดสอบ Voice Engine ในวันนี้ได้ยอมรับนโยบายการใช้งานของ OpenAI ซึ่งห้ามการแอบอ้างเป็นบุคคลหรือองค์กรอื่นโดยไม่ได้รับความยินยอม นอกจากนี้ บริษัทจำเป็นต้องได้รับความยินยอมอย่างชัดแจ้งจากผู้พูดต้นฉบับ และไม่อนุญาตให้นักพัฒนาสร้างวิธีสำหรับผู้ใช้แต่ละรายในการโคลนเสียงของตนเอง

“จากการสนทนาเหล่านี้และผลลัพธ์ของการทดสอบขนาดเล็ก เราจะตัดสินใจอย่างมีข้อมูลมากขึ้นว่าจะปรับใช้เทคโนโลยีนี้ในวงกว้างหรือไม่และอย่างไร” อ่านบล็อกโพสต์

นอกจาก Voice Engine แล้ว Open AI ยังทำงานหลายโครงการควบคู่กันไป CEO Sam Altman เปิดเผยว่าบริษัท กำลังทำงานเพื่อเปิดตัว GPT-5 ในปีนี้- บริษัทยังได้แสดงเครื่องมือสร้างวิดีโออีกด้วย โซระ- บริษัทอ้างว่า Sora จะเป็นเครื่องสร้างวิดีโอที่ทันสมัยที่สุดในตลาด เหนือกว่ารุ่นอย่าง Pika, Stable Video Diffusion และ Runway ML

ขณะนี้ Sora พร้อมให้บริการเฉพาะ "ทีมสีแดง" ที่เข้าร่วมโดย Open AI เท่านั้น เพื่อให้แน่ใจว่าจะไม่ถูกนำไปใช้ในทางที่ผิด

Voice Engine สามารถทำงานได้ดีกว่าเครื่องมือโคลนเสียงอื่นๆ อย่างแน่นอน รวมถึงข้อเสนอจาก Meta, ElevenLabs, WellSaid Labs และโมเดลโอเพ่นซอร์สเช่น อาร์.วี.ซี.

Open AI ยังทำงานกับ a โครงการลับชื่อ Q* ซึ่งมีเพียงชื่อเท่านั้นที่รั่วไหลออกมา Sam Altman ปฏิเสธที่จะให้รายละเอียดใดๆ แต่กล่าวว่าทีมวิจัยมุ่งเน้นไปที่การค้นหาเทคนิคและแนวทางที่ทำให้เหตุผลของ AI ดีขึ้น

แก้ไขโดย ไรอัน โอซาว่า.

ติดตามข่าวสาร crypto รับการอัปเดตทุกวันในกล่องจดหมายของคุณ

ประทับเวลา:

เพิ่มเติมจาก ถอดรหัส