Mona Lisa bây giờ có thể nói chuyện nhờ EMO

Mona Lisa bây giờ có thể nói chuyện nhờ EMO

Các nhà nghiên cứu tại Viện Máy tính Thông minh thuộc Tập đoàn Alibaba đã phát triển một công cụ AI có tên EMO: Emote Portrait Alive, giúp biến những bức chân dung trở nên sống động.

Công cụ này cho phép người dùng thêm âm thanh và video vào hình ảnh tĩnh. Bằng cách sử dụng công cụ này, người ta có thể thử nghiệm một bức chân dung cũ như bức La Gioconda nổi tiếng của Leonardo da Vinci, hay còn được biết đến với cái tên Mona Lisa, khiến cô ấy nói và hát bằng các tư thế đầu, chuyển động, nét mặt và hát nhép chính xác.

Công cụ tạo video chân dung điều khiển bằng âm thanh biểu cảm

Trong báo cáo của họ, “EMO: Emote Portrait Alive: Tạo video chân dung biểu cảm bằng Mô hình khuếch tán Audio2Video trong điều kiện yếu,”  các nhà nghiên cứu cung cấp thông tin chi tiết về công cụ mới của họ, các chức năng của nó và cách sử dụng nó để có kết quả hoàn hảo.

Với công cụ AI tạo ảnh chân dung biểu cảm được điều khiển bằng âm thanh, người dùng có thể tạo video avatar có giọng hát kèm theo nét mặt. Theo các nhà nghiên cứu, công cụ này cho phép họ tạo video có thời lượng bất kỳ “tùy thuộc vào độ dài của âm thanh đầu vào”.

Các nhà nghiên cứu cho biết: “Nhập một hình ảnh nhân vật duy nhất và âm thanh giọng hát, chẳng hạn như ca hát, và phương pháp của chúng tôi có thể tạo ra các video avatar có giọng hát với nét mặt biểu cảm và nhiều tư thế đầu khác nhau”.

“Phương pháp của chúng tôi hỗ trợ các bài hát bằng nhiều ngôn ngữ khác nhau và mang đến những phong cách chân dung đa dạng cho cuộc sống. Nó nhận ra các biến thể âm thanh trong âm thanh một cách trực quan, cho phép tạo ra các hình đại diện năng động, giàu biểu cảm.”

Ngoài ra đọc: OpenAI tuyên bố New York Times đã “hack” ChatGPT để phát triển một trường hợp bản quyền

Nói, hát từ một bức chân dung

Theo các nhà nghiên cứu, công cụ hỗ trợ AI không chỉ xử lý âm nhạc mà còn cung cấp âm thanh giọng nói bằng các ngôn ngữ khác nhau.

Các nhà nghiên cứu cho biết: “Ngoài ra, phương pháp của chúng tôi có khả năng tạo hoạt ảnh cho các bức chân dung từ các thời đại đã qua, các bức tranh cũng như cả mô hình 3D và nội dung do AI tạo ra, truyền cho chúng chuyển động sống động như thật và hiện thực”.

Nhưng nó chưa hết ở đây. Người dùng cũng có thể thử nghiệm các bức chân dung và hình ảnh của các ngôi sao điện ảnh thể hiện những đoạn độc thoại hoặc màn trình diễn bằng nhiều phong cách và ngôn ngữ khác nhau.

Một số người đam mê AI sử dụng nền tảng X đã mô tả nó là “đáng kinh ngạc”.

Làm mỏng ranh giới giữa thực và AI

Tin tức về công cụ EMO của Alibaba đã khiến những người dùng khác nghĩ rằng ranh giới giữa AI và thực tế sắp biến mất khi các hãng công nghệ tiếp tục tung ra sản phẩm mới.

“Ranh giới giữa AI và thực tế đang mỏng hơn bao giờ hết” đã đăng Ruben trên X, trong khi những người khác nghĩ TikTok sẽ sớm tràn ngập những sáng tạo.

“Đây là lần đầu tiên tôi thấy một kết quả chính xác và thực tế như vậy. AI video năm nay hứa hẹn sẽ đáng tin cậy,” nói Paul bí mật.

Trong khi những người khác cho rằng đây có thể là yếu tố thay đổi cuộc chơi đối với giới sáng tạo thì Min Choi cũng thận trọng về điều đó.

“Hy vọng chỉ dành cho những điều sáng tạo. Điều này có thể nguy hiểm nếu rơi vào tay kẻ xấu.”

Mona Lisa bây giờ có thể nói chuyện nhờ EMO

Sử dụng công cụ

Giải thích về quy trình này, các nhà nghiên cứu nhấn mạnh rằng khung EMO có hai giai đoạn, giai đoạn đầu tiên được gọi là Mã hóa khung, trong đó ReferenceNet được triển khai để trích xuất các tính năng từ hình ảnh tham chiếu và khung chuyển động.

Giai đoạn tiếp theo là giai đoạn Quá trình khuếch tán, trong đó bộ mã hóa âm thanh được đào tạo trước “xử lý việc nhúng âm thanh”. Để tạo hình ảnh khuôn mặt hoàn hảo, người dùng tích hợp mặt nạ vùng khuôn mặt và nhiễu đa khung.

“Những cơ chế này rất cần thiết để bảo tồn danh tính của nhân vật và điều chỉnh chuyển động của nhân vật,” một phần giải thích viết.

“Ngoài ra, Mô-đun Thời gian được sử dụng để điều khiển kích thước thời gian và điều chỉnh chuyển động vận tốc.”

Dấu thời gian:

Thêm từ MetaNews