สร้างวิดีโอด้วย AI และคำไม่กี่คำ: ลองดูเครื่องมือใหม่ของ Meta

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

โดย Rachel Metz ธุรกิจของ CNN

ปัญญาประดิษฐ์เริ่มดีขึ้นเรื่อยๆ ในการสร้างภาพเพื่อตอบสนองต่อคำศัพท์เพียงไม่กี่คำ ด้วยเครื่องสร้างภาพ AI ที่เปิดเผยต่อสาธารณะ เช่น DALL-E 2 และ Stable Diffusion ขณะนี้นักวิจัย Meta กำลังก้าวไปอีกขั้นของ AI: พวกเขากำลังใช้มันเพื่อปรุงวิดีโอจากข้อความแจ้ง

มาร์ก ซักเคอร์เบิร์ก ซีอีโอ Meta โพสต์บน Facebook เมื่อวันพฤหัสบดีเกี่ยวกับการวิจัยที่เรียกว่า ทำวิดีโอด้วยคลิปความยาว 20 วินาทีที่รวบรวมข้อความแจ้งหลายรายการที่นักวิจัย Meta ใช้และวิดีโอผลลัพธ์ (สั้นมาก) ข้อความแจ้ง ได้แก่ “ตุ๊กตาหมีวาดภาพเหมือนตนเอง” “ยานอวกาศลงจอดบนดาวอังคาร” “เด็กสลอธสวมหมวกถักพยายามคิดแล็ปท็อป” และ “หุ่นยนต์โต้คลื่นในมหาสมุทร”

วิดีโอสำหรับข้อความแจ้งแต่ละรายการมีความยาวเพียงไม่กี่วินาที และโดยทั่วไปจะแสดงสิ่งที่ข้อความแจ้งแนะนำ (ยกเว้นทารกสลอธซึ่งดูไม่เหมือนสิ่งมีชีวิตจริงมากนัก) โดยมีความละเอียดค่อนข้างต่ำและค่อนข้างกระตุก สไตล์. ถึงกระนั้นก็ตาม มันแสดงให้เห็นถึงทิศทางใหม่ของการวิจัย AI ในขณะที่ระบบต่างๆ เก่งขึ้นในการสร้างภาพจากคำพูด หากเทคโนโลยีนี้ได้รับการเผยแพร่อย่างกว้างขวางในที่สุด ก็จะทำให้เกิดข้อกังวลหลายประการที่เกิดขึ้นจากระบบข้อความเป็นรูปภาพ เช่น อาจถูกนำไปใช้เพื่อเผยแพร่ข้อมูลที่ไม่ถูกต้องผ่านทางวิดีโอ

หน้าเว็บ สำหรับ Make-A-Video รวมถึงคลิปสั้น ๆ เหล่านี้และอื่น ๆ ซึ่งบางส่วนดูค่อนข้างสมจริง เช่น วิดีโอที่สร้างขึ้นเพื่อตอบสนองต่อข้อความแจ้ง “ปลาการ์ตูนว่ายผ่านแนวปะการัง” หรือตั้งใจจะแสดง “คู่รักหนุ่มสาวกำลังเดินท่ามกลางสายฝนที่ตกหนัก".

ในโพสต์บน Facebook ของเขา Zuckerberg ชี้ให้เห็นว่าการสร้างภาพเคลื่อนไหวจากคำพูดเพียงไม่กี่คำนั้นยุ่งยากเพียงใด

“การสร้างวิดีโอนั้นยากกว่าภาพถ่ายมาก เพราะนอกเหนือจากการสร้างแต่ละพิกเซลอย่างถูกต้องแล้ว ระบบยังต้องคาดการณ์ว่าพิกเซลจะเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป” เขาเขียน

เอกสารการวิจัย อธิบายถึงงานอธิบายว่าโครงการใช้โมเดล AI ของข้อความเป็นรูปภาพเพื่อดูว่าคำต่างๆ สอดคล้องกับรูปภาพอย่างไร และเทคนิค AI ที่เรียกว่า การเรียนรู้โดยไม่ได้รับการดูแล — ซึ่งอัลกอริธึมจะเจาะลึกข้อมูลที่ไม่ได้ระบุว่าเป็นรูปแบบที่แยกแยะได้ภายใน — เพื่อดูวิดีโอและพิจารณาว่าการเคลื่อนไหวที่สมจริงนั้นเป็นอย่างไร

เช่นเดียวกับระบบ AI ยอดนิยมขนาดใหญ่ที่สร้างภาพจากข้อความ นักวิจัยชี้ให้เห็นว่าโมเดล AI จากข้อความเป็นรูปภาพได้รับการฝึกฝนจากข้อมูลอินเทอร์เน็ต ซึ่งหมายความว่าได้เรียนรู้ “และมีแนวโน้มที่จะเกินจริงถึงอคติทางสังคม รวมถึงอคติที่เป็นอันตรายด้วย” เขียน. พวกเขาทราบว่าได้กรองข้อมูลสำหรับ "เนื้อหา NSFW และคำที่เป็นพิษ" แต่เนื่องจากชุดข้อมูลอาจมีรูปภาพและข้อความหลายล้านรายการ จึงอาจไม่สามารถลบเนื้อหาดังกล่าวทั้งหมดได้

Zuckerberg เขียนว่า Meta วางแผนที่จะแชร์โครงการ Make-A-Video เป็นการสาธิตในอนาคต

ประทับเวลา: September 30, 2022September 30, 2022

ประทับเวลา: กันยายน 21, 2022

เผยแพร่ซ้ำโดยเพลโต

เฟดอาจพังตลาดที่อยู่อาศัย

Sustaera การเริ่มต้นดักจับอากาศของ Cary แต่งตั้งผู้บริหารฝ่ายแปรรูปก๊าซเป็น CEO คนใหม่

Epic นำตลาดสถาปัตยกรรม วิศวกรรม และการก่อสร้างมาสู่ชีวิตด้วยเครื่องมือที่สมจริง

รายงานรายได้: Bioventus, Humacyte, Guerrilla RF, Novan, Liquidia & more

บริษัทผลิตภัณฑ์ก่อสร้าง Woodgrain ที่กำลังขยายธุรกิจใน Rocky Mount จะจ้างพนักงานเพิ่มขึ้น

FTC พิจารณา 'ครั้งที่สอง' ที่แผนของ Amazon ที่จะซื้อ iRobot, One Medical

Apple เสนอระดับความปลอดภัย 'สุดขีด' - นี่คือวิธีการเปิดใช้งาน

การเลิกจ้างเพิ่มเติม: Wayfair กำลังตัดพนักงาน 5% ทั่วโลก

จาก A ถึง Z NC TECH เสนอชื่อผู้เข้ารอบสุดท้ายเพื่อรับรางวัลประจำปี

Google Fiber ซึ่งมีการเข้าถึง NC เพิ่มขึ้น และขยายเป็นอีก XNUMX รัฐ

ใช้เทคโนโลยีล่าสุดของ Apple: ดูหรือฟังคำแนะนำวงในจาก MacRumors

รวยและรวยขึ้น: สหรัฐฯ เพิ่มเศรษฐี 2.5 ล้านคน ทั่วโลกกว่า 62.5 ล้านคนทั่วโลก

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้