Mona Lisa พูดได้แล้ว ขอบคุณ EMO

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

นักวิจัยจากสถาบันคอมพิวเตอร์อัจฉริยะแห่ง Alibaba Group ได้พัฒนาเครื่องมือ AI ที่เรียกว่า EMO: Emote Portrait Alive ซึ่งทำให้ภาพบุคคลดูมีชีวิต

เครื่องมือนี้ช่วยให้ผู้ใช้สามารถเพิ่มเสียงและวิดีโอลงในภาพนิ่งได้ การใช้เครื่องมือนี้ทำให้คุณสามารถเล่นกับภาพบุคคลเก่าๆ เช่น La Gioconda ของ Leonardo da Vinci อันโด่งดัง หรือที่รู้จักกันดีในชื่อ Mona Lisa ทำให้เธอพูดและร้องเพลงด้วยท่าทางศีรษะ การเคลื่อนไหว การแสดงออกทางสีหน้า และการลิปซิงค์ที่แม่นยำ

เครื่องมือสร้างวิดีโอแนวตั้งที่ขับเคลื่อนด้วยเสียงที่แสดงออกถึงอารมณ์

ในรายงานของพวกเขา “EMO: Emote Portrait Alive: การสร้างวิดีโอแนวตั้งที่สื่ออารมณ์ด้วยโมเดลการกระจายเสียง Audio2Video ภายใต้สภาวะที่อ่อนแอ” นักวิจัย ให้ข้อมูลเชิงลึกเกี่ยวกับเครื่องมือใหม่ ฟังก์ชั่นของมัน และวิธีการใช้งานเพื่อผลลัพธ์ที่สมบูรณ์แบบ

ด้วยเครื่องมือ AI ที่สร้างภาพบุคคลที่ขับเคลื่อนด้วยเสียงที่สื่ออารมณ์ ผู้ใช้สามารถสร้างวิดีโออวตารที่มีเสียงพูดพร้อมการแสดงออกทางสีหน้าได้ ตามที่นักวิจัย เครื่องมือนี้ช่วยให้พวกเขาสร้างวิดีโอในช่วงเวลาใดก็ได้ “ขึ้นอยู่กับความยาวของเสียงอินพุต”

“ป้อนภาพตัวละครเพียงตัวเดียวและเสียงร้อง เช่น การร้องเพลง และวิธีการของเราสามารถสร้างวิดีโออวตารที่มีเสียงพูดพร้อมการแสดงออกทางสีหน้าและท่าทางศีรษะที่หลากหลาย” นักวิจัยกล่าว

“วิธีการของเรารองรับเพลงในภาษาต่างๆ และนำสไตล์ภาพบุคคลที่หลากหลายมาสู่ชีวิต โดยสามารถจดจำความแปรผันของโทนเสียงในเสียงได้โดยสังหรณ์ใจ ช่วยให้สามารถสร้างอวตารที่มีไดนามิกและเต็มไปด้วยการแสดงออก”

อ่านเพิ่มเติม: OpenAI อ้างว่า ChatGPT "ถูกแฮ็ก" ของ New York Times เพื่อพัฒนาคดีลิขสิทธิ์

พูดคุยร้องเพลงจากภาพบุคคล

ตามที่นักวิจัยระบุว่า เครื่องมือที่ขับเคลื่อนด้วย AI ไม่เพียงแต่ประมวลผลเพลงเท่านั้น แต่ยังรองรับเสียงพูดในภาษาต่างๆ อีกด้วย

“นอกจากนี้ วิธีการของเรายังมีความสามารถในการสร้างภาพเคลื่อนไหวภาพบุคคลจากยุคอดีต ภาพวาด และทั้งแบบจำลอง 3 มิติและเนื้อหาที่สร้างโดย AI ผสมผสานกับการเคลื่อนไหวที่เหมือนจริงและความสมจริง” นักวิจัยกล่าว

แต่มันไม่ได้จบเพียงแค่นั้น ผู้ใช้ยังสามารถเล่นกับภาพบุคคลและภาพของดาราภาพยนตร์ที่นำเสนอบทพูดคนเดียวหรือการแสดงในรูปแบบและภาษาต่างๆ

ผู้ที่ชื่นชอบ AI บางคนที่เข้าสู่แพลตฟอร์ม X อธิบายว่ามัน “น่าทึ่ง”

2. โมนาลิซ่าพูดถึงเช็คสเปียร์ pic.twitter.com/26k29aAz1P

— มินชอย (@minchoi) กุมภาพันธ์ 28, 2024

ลดขอบเขตระหว่างของจริงและ AI

ข่าวสารเกี่ยวกับเครื่องมือ EMO โดย อาลีบาบา ทำให้ผู้ใช้รายอื่นคิดว่าขอบเขตระหว่าง AI และความเป็นจริงกำลังจะหายไป เนื่องจากบริษัทเทคโนโลยียังคงเปิดตัวผลิตภัณฑ์ใหม่อย่างต่อเนื่อง

“ขอบระหว่าง AI และของจริงนั้นบางลงกว่าที่เคย” โพสต์รูเบน บน X ในขณะที่คนอื่นคิด ติ๊กต๊อก อีกไม่นานก็จะท่วมท้นไปด้วยการสร้างสรรค์

“นี่เป็นครั้งแรกที่ฉันได้เห็นผลลัพธ์ที่แม่นยำและสมจริงเช่นนี้ วิดีโอเอไอ ปีนี้สัญญาว่าจะน่าเชื่อถือ” กล่าว พอล โคเวิร์ต.

ในขณะที่คนอื่นๆ คิดว่านี่อาจเป็นตัวเปลี่ยนเกมสำหรับครีเอทีฟโฆษณา แต่ Min Choi ก็ยังระมัดระวังในเรื่องนี้เช่นกัน

“หวังว่าจะเป็นเพียงสิ่งที่สร้างสรรค์ นี่อาจเป็นอันตรายได้หากถูกมือผิด”

โมนาลิซ่าพูดได้แล้ว ขอบคุณ EMO

การใช้เครื่องมือ

นักวิจัยได้อธิบายกระบวนการนี้โดยเน้นว่าเฟรมเวิร์ก EMO มีสองขั้นตอน โดยขั้นแรกเรียกว่าการเข้ารหัสเฟรม โดยที่ ReferenceNet ถูกนำมาใช้เพื่อดึงคุณสมบัติต่างๆ จากรูปภาพอ้างอิงและเฟรมการเคลื่อนไหว

ขั้นต่อไปคือขั้นกระบวนการแพร่ ซึ่งตัวเข้ารหัสเสียงที่ได้รับการฝึกมาล่วงหน้าจะ "ประมวลผลการฝังเสียง" เพื่อสร้างภาพใบหน้าที่สมบูรณ์แบบ ผู้ใช้จะรวมมาสก์บริเวณใบหน้าและเสียงหลายเฟรมเข้าด้วยกัน

“กลไกเหล่านี้จำเป็นต่อการรักษาเอกลักษณ์ของตัวละครและปรับการเคลื่อนไหวของตัวละครตามลำดับ” อ่านคำอธิบายบางส่วน

“นอกจากนี้ โมดูลชั่วคราวยังใช้ในการควบคุมมิติเวลาและปรับการเคลื่อนที่ด้วยความเร็ว”

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

ประทับเวลา: March 1, 2024

ประทับเวลา: เมษายน 20, 2024

โมนาลิซ่าพูดได้แล้ว ขอบคุณ EMO

เผยแพร่ซ้ำโดยเพลโต

เครื่องมือสร้างวิดีโอแนวตั้งที่ขับเคลื่อนด้วยเสียงที่แสดงออกถึงอารมณ์

พูดคุยร้องเพลงจากภาพบุคคล

ลดขอบเขตระหว่างของจริงและ AI

การใช้เครื่องมือ

เพิ่มเติมจาก เมตานิวส์

เคนยายกเลิกใบอนุญาตของ Worldcoin ข้อมูลผู้ใช้ 301 ตกอยู่ในความเสี่ยง

e-Books ที่เขียนด้วย AI กำลังบูมบน Amazon หลังจากเปิดตัว ChatGPT

ทำเนียบขาวดำเนินการเพื่อศึกษาความเสี่ยงของ AI

Galactic Goats เป็นโครงการ NFT ที่เกิดขึ้นใหม่

Silent Hill 2 Remake คาดว่าจะเปิดตัวเร็ว ๆ นี้

Meta เปิดตัว AI Image Segmentation Model, SAM

The Game of Life 2 เตรียมเปิดตัวในทุกแพลตฟอร์ม

มีกำหนดเปิดตัว Voodolls ในปีหน้า

Metaverse Token DeepBrain Chain เพิ่มขึ้น 200% เนื่องจากความก้าวหน้าของ AI

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้