โมนาลิซ่าพูดได้แล้ว ขอบคุณ EMO

โมนาลิซ่าพูดได้แล้ว ขอบคุณ EMO

นักวิจัยจากสถาบันคอมพิวเตอร์อัจฉริยะแห่ง Alibaba Group ได้พัฒนาเครื่องมือ AI ที่เรียกว่า EMO: Emote Portrait Alive ซึ่งทำให้ภาพบุคคลดูมีชีวิต

เครื่องมือนี้ช่วยให้ผู้ใช้สามารถเพิ่มเสียงและวิดีโอลงในภาพนิ่งได้ การใช้เครื่องมือนี้ทำให้คุณสามารถเล่นกับภาพบุคคลเก่าๆ เช่น La Gioconda ของ Leonardo da Vinci อันโด่งดัง หรือที่รู้จักกันดีในชื่อ Mona Lisa ทำให้เธอพูดและร้องเพลงด้วยท่าทางศีรษะ การเคลื่อนไหว การแสดงออกทางสีหน้า และการลิปซิงค์ที่แม่นยำ

เครื่องมือสร้างวิดีโอแนวตั้งที่ขับเคลื่อนด้วยเสียงที่แสดงออกถึงอารมณ์

ในรายงานของพวกเขา “EMO: Emote Portrait Alive: การสร้างวิดีโอแนวตั้งที่สื่ออารมณ์ด้วยโมเดลการกระจายเสียง Audio2Video ภายใต้สภาวะที่อ่อนแอ”  นักวิจัย ให้ข้อมูลเชิงลึกเกี่ยวกับเครื่องมือใหม่ ฟังก์ชั่นของมัน และวิธีการใช้งานเพื่อผลลัพธ์ที่สมบูรณ์แบบ

ด้วยเครื่องมือ AI ที่สร้างภาพบุคคลที่ขับเคลื่อนด้วยเสียงที่สื่ออารมณ์ ผู้ใช้สามารถสร้างวิดีโออวตารที่มีเสียงพูดพร้อมการแสดงออกทางสีหน้าได้ ตามที่นักวิจัย เครื่องมือนี้ช่วยให้พวกเขาสร้างวิดีโอในช่วงเวลาใดก็ได้ “ขึ้นอยู่กับความยาวของเสียงอินพุต”

“ป้อนภาพตัวละครเพียงตัวเดียวและเสียงร้อง เช่น การร้องเพลง และวิธีการของเราสามารถสร้างวิดีโออวตารที่มีเสียงพูดพร้อมการแสดงออกทางสีหน้าและท่าทางศีรษะที่หลากหลาย” นักวิจัยกล่าว

“วิธีการของเรารองรับเพลงในภาษาต่างๆ และนำสไตล์ภาพบุคคลที่หลากหลายมาสู่ชีวิต โดยสามารถจดจำความแปรผันของโทนเสียงในเสียงได้โดยสังหรณ์ใจ ช่วยให้สามารถสร้างอวตารที่มีไดนามิกและเต็มไปด้วยการแสดงออก”

อ่านเพิ่มเติม: OpenAI อ้างว่า ChatGPT "ถูกแฮ็ก" ของ New York Times เพื่อพัฒนาคดีลิขสิทธิ์

พูดคุยร้องเพลงจากภาพบุคคล

ตามที่นักวิจัยระบุว่า เครื่องมือที่ขับเคลื่อนด้วย AI ไม่เพียงแต่ประมวลผลเพลงเท่านั้น แต่ยังรองรับเสียงพูดในภาษาต่างๆ อีกด้วย

“นอกจากนี้ วิธีการของเรายังมีความสามารถในการสร้างภาพเคลื่อนไหวภาพบุคคลจากยุคอดีต ภาพวาด และทั้งแบบจำลอง 3 มิติและเนื้อหาที่สร้างโดย AI ผสมผสานกับการเคลื่อนไหวที่เหมือนจริงและความสมจริง” นักวิจัยกล่าว

แต่มันไม่ได้จบเพียงแค่นั้น ผู้ใช้ยังสามารถเล่นกับภาพบุคคลและภาพของดาราภาพยนตร์ที่นำเสนอบทพูดคนเดียวหรือการแสดงในรูปแบบและภาษาต่างๆ

ผู้ที่ชื่นชอบ AI บางคนที่เข้าสู่แพลตฟอร์ม X อธิบายว่ามัน “น่าทึ่ง”

ลดขอบเขตระหว่างของจริงและ AI

ข่าวสารเกี่ยวกับเครื่องมือ EMO โดย อาลีบาบา ทำให้ผู้ใช้รายอื่นคิดว่าขอบเขตระหว่าง AI และความเป็นจริงกำลังจะหายไป เนื่องจากบริษัทเทคโนโลยียังคงเปิดตัวผลิตภัณฑ์ใหม่อย่างต่อเนื่อง

“ขอบระหว่าง AI และของจริงนั้นบางลงกว่าที่เคย” โพสต์รูเบน บน X ในขณะที่คนอื่นคิด ติ๊กต๊อก อีกไม่นานก็จะท่วมท้นไปด้วยการสร้างสรรค์

“นี่เป็นครั้งแรกที่ฉันได้เห็นผลลัพธ์ที่แม่นยำและสมจริงเช่นนี้ วิดีโอเอไอ ปีนี้สัญญาว่าจะน่าเชื่อถือ” กล่าว พอล โคเวิร์ต.

ในขณะที่คนอื่นๆ คิดว่านี่อาจเป็นตัวเปลี่ยนเกมสำหรับครีเอทีฟโฆษณา แต่ Min Choi ก็ยังระมัดระวังในเรื่องนี้เช่นกัน

“หวังว่าจะเป็นเพียงสิ่งที่สร้างสรรค์ นี่อาจเป็นอันตรายได้หากถูกมือผิด”

โมนาลิซ่าพูดได้แล้ว ขอบคุณ EMO

การใช้เครื่องมือ

นักวิจัยได้อธิบายกระบวนการนี้โดยเน้นว่าเฟรมเวิร์ก EMO มีสองขั้นตอน โดยขั้นแรกเรียกว่าการเข้ารหัสเฟรม โดยที่ ReferenceNet ถูกนำมาใช้เพื่อดึงคุณสมบัติต่างๆ จากรูปภาพอ้างอิงและเฟรมการเคลื่อนไหว

ขั้นต่อไปคือขั้นกระบวนการแพร่ ซึ่งตัวเข้ารหัสเสียงที่ได้รับการฝึกมาล่วงหน้าจะ "ประมวลผลการฝังเสียง" เพื่อสร้างภาพใบหน้าที่สมบูรณ์แบบ ผู้ใช้จะรวมมาสก์บริเวณใบหน้าและเสียงหลายเฟรมเข้าด้วยกัน

“กลไกเหล่านี้จำเป็นต่อการรักษาเอกลักษณ์ของตัวละครและปรับการเคลื่อนไหวของตัวละครตามลำดับ” อ่านคำอธิบายบางส่วน

“นอกจากนี้ โมดูลชั่วคราวยังใช้ในการควบคุมมิติเวลาและปรับการเคลื่อนที่ด้วยความเร็ว”

ประทับเวลา:

เพิ่มเติมจาก เมตานิวส์