Tạo video bằng AI và vài từ: Hãy xem công cụ mới PlatoBlockchain Data Intelligence của Meta. Tìm kiếm dọc. Ái.

Make-A-Video với AI & một vài từ: Xem công cụ mới của Meta

Trí tuệ nhân tạo ngày càng tốt hơn trong việc tạo ra hình ảnh tương ứng với một số từ, với các trình tạo hình ảnh AI có sẵn công khai như DALL-E 2 và Stable Diffusion. Giờ đây, các nhà nghiên cứu của Meta đang đưa AI tiến thêm một bước nữa: họ đang sử dụng nó để tạo video từ lời nhắc văn bản.

Giám đốc điều hành Meta Mark Zuckerberg đăng trên Facebook vào thứ năm về nghiên cứu, Được gọi là Làm một đoạn phim, với một đoạn clip dài 20 giây tổng hợp một số lời nhắc văn bản mà các nhà nghiên cứu Meta đã sử dụng và kết quả là các video (rất ngắn). Các gợi ý bao gồm “Một chú gấu bông vẽ một bức chân dung tự họa”, “Một con tàu vũ trụ hạ cánh trên sao Hỏa”, “Một chú lười con đội chiếc mũ dệt kim đang cố gắng tìm hiểu một chiếc máy tính xách tay” và “Một con robot đang lướt sóng trên đại dương”.

Các video cho mỗi lời nhắc chỉ dài vài giây và chúng thường hiển thị những gì lời nhắc gợi ý (ngoại trừ con lười con, trông không giống sinh vật thực tế lắm), ở độ phân giải khá thấp và hơi giật. phong cách. Mặc dù vậy, nó cho thấy một hướng nghiên cứu AI mới đang được thực hiện khi các hệ thống ngày càng trở nên hiệu quả hơn trong việc tạo ra hình ảnh từ các từ. Tuy nhiên, nếu công nghệ này cuối cùng được phát hành rộng rãi, nó sẽ gây ra nhiều mối lo ngại tương tự do hệ thống chuyển văn bản thành hình ảnh, chẳng hạn như nó có thể được sử dụng để truyền bá thông tin sai lệch qua video.

Một trang web dành cho Make-A-Video bao gồm các clip ngắn này và các clip khác, một số trong đó trông khá thực tế, chẳng hạn như video được tạo theo lời nhắc “Cá hề bơi qua rạn san hô” hoặc một cái có nghĩa là để hiển thị “Đôi bạn trẻ đi dạo dưới trời mưa lớn".

Trong bài đăng trên Facebook của mình, Zuckerberg đã chỉ ra rằng việc tạo ra một hình ảnh chuyển động chỉ từ một vài từ là khó khăn như thế nào.

Ông viết: “Việc tạo video khó hơn nhiều so với ảnh vì ngoài việc tạo chính xác từng pixel, hệ thống còn phải dự đoán chúng sẽ thay đổi như thế nào theo thời gian”.

Một bài báo nghiên cứu mô tả công việc giải thích rằng dự án sử dụng mô hình AI chuyển văn bản thành hình ảnh để tìm ra cách các từ tương ứng với hình ảnh và một kỹ thuật AI được gọi là học tập không giám sát - trong đó các thuật toán tìm kiếm dữ liệu không được gắn nhãn để phân biệt các mẫu bên trong nó - để xem video và xác định chuyển động thực tế trông như thế nào.

Đối với các hệ thống AI khổng lồ, phổ biến tạo ra hình ảnh từ văn bản, các nhà nghiên cứu chỉ ra rằng mô hình AI chuyển văn bản thành hình ảnh của họ đã được đào tạo trên dữ liệu internet - có nghĩa là nó đã học được “và có khả năng phóng đại những thành kiến ​​​​xã hội, bao gồm cả những thành kiến ​​​​có hại”, các nghiên cứu cho biết. đã viết. Họ lưu ý rằng họ đã lọc dữ liệu để tìm “nội dung NSFW và các từ độc hại”, nhưng vì bộ dữ liệu có thể bao gồm nhiều triệu hình ảnh và văn bản nên có thể không xóa được tất cả nội dung đó.

Zuckerberg đã viết rằng Meta có kế hoạch chia sẻ dự án Make-A-Video dưới dạng bản demo trong tương lai.

The-CNN-Wire ™ & © 2022 Cable News Network, Inc., một Công ty Khám phá của Warner Bros. Đã đăng ký Bản quyền.

Dấu thời gian:

Thêm từ Công nghệ WRAL