สร้างวิดีโอด้วย AI และคำไม่กี่คำ: ลองดูเครื่องมือใหม่ของ Meta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สร้างวิดีโอด้วย AI และคำสองสามคำ: ลองดูเครื่องมือใหม่ของ Meta

ปัญญาประดิษฐ์เริ่มดีขึ้นเรื่อยๆ ในการสร้างภาพเพื่อตอบสนองต่อคำศัพท์เพียงไม่กี่คำ ด้วยเครื่องสร้างภาพ AI ที่เปิดเผยต่อสาธารณะ เช่น DALL-E 2 และ Stable Diffusion ขณะนี้นักวิจัย Meta กำลังก้าวไปอีกขั้นของ AI: พวกเขากำลังใช้มันเพื่อปรุงวิดีโอจากข้อความแจ้ง

มาร์ก ซักเคอร์เบิร์ก ซีอีโอ Meta โพสต์บน Facebook เมื่อวันพฤหัสบดีเกี่ยวกับการวิจัยที่เรียกว่า ทำวิดีโอด้วยคลิปความยาว 20 วินาทีที่รวบรวมข้อความแจ้งหลายรายการที่นักวิจัย Meta ใช้และวิดีโอผลลัพธ์ (สั้นมาก) ข้อความแจ้ง ได้แก่ “ตุ๊กตาหมีวาดภาพเหมือนตนเอง” “ยานอวกาศลงจอดบนดาวอังคาร” “เด็กสลอธสวมหมวกถักพยายามคิดแล็ปท็อป” และ “หุ่นยนต์โต้คลื่นในมหาสมุทร”

วิดีโอสำหรับข้อความแจ้งแต่ละรายการมีความยาวเพียงไม่กี่วินาที และโดยทั่วไปจะแสดงสิ่งที่ข้อความแจ้งแนะนำ (ยกเว้นทารกสลอธซึ่งดูไม่เหมือนสิ่งมีชีวิตจริงมากนัก) โดยมีความละเอียดค่อนข้างต่ำและค่อนข้างกระตุก สไตล์. ถึงกระนั้นก็ตาม มันแสดงให้เห็นถึงทิศทางใหม่ของการวิจัย AI ในขณะที่ระบบต่างๆ เก่งขึ้นในการสร้างภาพจากคำพูด หากเทคโนโลยีนี้ได้รับการเผยแพร่อย่างกว้างขวางในที่สุด ก็จะทำให้เกิดข้อกังวลหลายประการที่เกิดขึ้นจากระบบข้อความเป็นรูปภาพ เช่น อาจถูกนำไปใช้เพื่อเผยแพร่ข้อมูลที่ไม่ถูกต้องผ่านทางวิดีโอ

หน้าเว็บ สำหรับ Make-A-Video รวมถึงคลิปสั้น ๆ เหล่านี้และอื่น ๆ ซึ่งบางส่วนดูค่อนข้างสมจริง เช่น วิดีโอที่สร้างขึ้นเพื่อตอบสนองต่อข้อความแจ้ง “ปลาการ์ตูนว่ายผ่านแนวปะการัง” หรือตั้งใจจะแสดง “คู่รักหนุ่มสาวกำลังเดินท่ามกลางสายฝนที่ตกหนัก".

ในโพสต์บน Facebook ของเขา Zuckerberg ชี้ให้เห็นว่าการสร้างภาพเคลื่อนไหวจากคำพูดเพียงไม่กี่คำนั้นยุ่งยากเพียงใด

“การสร้างวิดีโอนั้นยากกว่าภาพถ่ายมาก เพราะนอกเหนือจากการสร้างแต่ละพิกเซลอย่างถูกต้องแล้ว ระบบยังต้องคาดการณ์ว่าพิกเซลจะเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป” เขาเขียน

เอกสารการวิจัย อธิบายถึงงานอธิบายว่าโครงการใช้โมเดล AI ของข้อความเป็นรูปภาพเพื่อดูว่าคำต่างๆ สอดคล้องกับรูปภาพอย่างไร และเทคนิค AI ที่เรียกว่า การเรียนรู้โดยไม่ได้รับการดูแล — ซึ่งอัลกอริธึมจะเจาะลึกข้อมูลที่ไม่ได้ระบุว่าเป็นรูปแบบที่แยกแยะได้ภายใน — เพื่อดูวิดีโอและพิจารณาว่าการเคลื่อนไหวที่สมจริงนั้นเป็นอย่างไร

เช่นเดียวกับระบบ AI ยอดนิยมขนาดใหญ่ที่สร้างภาพจากข้อความ นักวิจัยชี้ให้เห็นว่าโมเดล AI จากข้อความเป็นรูปภาพได้รับการฝึกฝนจากข้อมูลอินเทอร์เน็ต ซึ่งหมายความว่าได้เรียนรู้ “และมีแนวโน้มที่จะเกินจริงถึงอคติทางสังคม รวมถึงอคติที่เป็นอันตรายด้วย” เขียน. พวกเขาทราบว่าได้กรองข้อมูลสำหรับ "เนื้อหา NSFW และคำที่เป็นพิษ" แต่เนื่องจากชุดข้อมูลอาจมีรูปภาพและข้อความหลายล้านรายการ จึงอาจไม่สามารถลบเนื้อหาดังกล่าวทั้งหมดได้

Zuckerberg เขียนว่า Meta วางแผนที่จะแชร์โครงการ Make-A-Video เป็นการสาธิตในอนาคต

The-CNN-Wire™ & © 2022 Cable News Network, Inc. ซึ่งเป็นบริษัทในเครือ Warner Bros. Discovery สงวนลิขสิทธิ์.

ประทับเวลา:

เพิ่มเติมจาก WRAL เทคไวร์