Các nhà nghiên cứu tại Viện Máy tính Thông minh thuộc Tập đoàn Alibaba đã phát triển một công cụ AI có tên EMO: Emote Portrait Alive, giúp biến những bức chân dung trở nên sống động.
Công cụ này cho phép người dùng thêm âm thanh và video vào hình ảnh tĩnh. Bằng cách sử dụng công cụ này, người ta có thể thử nghiệm một bức chân dung cũ như bức La Gioconda nổi tiếng của Leonardo da Vinci, hay còn được biết đến với cái tên Mona Lisa, khiến cô ấy nói và hát bằng các tư thế đầu, chuyển động, nét mặt và hát nhép chính xác.
Công cụ tạo video chân dung điều khiển bằng âm thanh biểu cảm
Trong báo cáo của họ, “EMO: Emote Portrait Alive: Tạo video chân dung biểu cảm bằng Mô hình khuếch tán Audio2Video trong điều kiện yếu,” các nhà nghiên cứu cung cấp thông tin chi tiết về công cụ mới của họ, các chức năng của nó và cách sử dụng nó để có kết quả hoàn hảo.
Với công cụ AI tạo ảnh chân dung biểu cảm được điều khiển bằng âm thanh, người dùng có thể tạo video avatar có giọng hát kèm theo nét mặt. Theo các nhà nghiên cứu, công cụ này cho phép họ tạo video có thời lượng bất kỳ “tùy thuộc vào độ dài của âm thanh đầu vào”.
Các nhà nghiên cứu cho biết: “Nhập một hình ảnh nhân vật duy nhất và âm thanh giọng hát, chẳng hạn như ca hát, và phương pháp của chúng tôi có thể tạo ra các video avatar có giọng hát với nét mặt biểu cảm và nhiều tư thế đầu khác nhau”.
“Phương pháp của chúng tôi hỗ trợ các bài hát bằng nhiều ngôn ngữ khác nhau và mang đến những phong cách chân dung đa dạng cho cuộc sống. Nó nhận ra các biến thể âm thanh trong âm thanh một cách trực quan, cho phép tạo ra các hình đại diện năng động, giàu biểu cảm.”
Ngoài ra đọc: OpenAI tuyên bố New York Times đã “hack” ChatGPT để phát triển một trường hợp bản quyền
Nói, hát từ một bức chân dung
Theo các nhà nghiên cứu, công cụ hỗ trợ AI không chỉ xử lý âm nhạc mà còn cung cấp âm thanh giọng nói bằng các ngôn ngữ khác nhau.
Các nhà nghiên cứu cho biết: “Ngoài ra, phương pháp của chúng tôi có khả năng tạo hoạt ảnh cho các bức chân dung từ các thời đại đã qua, các bức tranh cũng như cả mô hình 3D và nội dung do AI tạo ra, truyền cho chúng chuyển động sống động như thật và hiện thực”.
Nhưng nó chưa hết ở đây. Người dùng cũng có thể thử nghiệm các bức chân dung và hình ảnh của các ngôi sao điện ảnh thể hiện những đoạn độc thoại hoặc màn trình diễn bằng nhiều phong cách và ngôn ngữ khác nhau.
Một số người đam mê AI sử dụng nền tảng X đã mô tả nó là “đáng kinh ngạc”.
2. Mona Lisa nói chuyện với Shakespeare pic.twitter.com/26k29aAz1P
— Min Choi (@minchoi) 28 Tháng hai, 2024
Làm mỏng ranh giới giữa thực và AI
Tin tức về công cụ EMO của Alibaba đã khiến những người dùng khác nghĩ rằng ranh giới giữa AI và thực tế sắp biến mất khi các hãng công nghệ tiếp tục tung ra sản phẩm mới.
“Ranh giới giữa AI và thực tế đang mỏng hơn bao giờ hết” đã đăng Ruben trên X, trong khi những người khác nghĩ TikTok sẽ sớm tràn ngập những sáng tạo.
“Đây là lần đầu tiên tôi thấy một kết quả chính xác và thực tế như vậy. AI video năm nay hứa hẹn sẽ đáng tin cậy,” nói Paul bí mật.
Trong khi những người khác cho rằng đây có thể là yếu tố thay đổi cuộc chơi đối với giới sáng tạo thì Min Choi cũng thận trọng về điều đó.
“Hy vọng chỉ dành cho những điều sáng tạo. Điều này có thể nguy hiểm nếu rơi vào tay kẻ xấu.”
Sử dụng công cụ
Giải thích về quy trình này, các nhà nghiên cứu nhấn mạnh rằng khung EMO có hai giai đoạn, giai đoạn đầu tiên được gọi là Mã hóa khung, trong đó ReferenceNet được triển khai để trích xuất các tính năng từ hình ảnh tham chiếu và khung chuyển động.
Giai đoạn tiếp theo là giai đoạn Quá trình khuếch tán, trong đó bộ mã hóa âm thanh được đào tạo trước “xử lý việc nhúng âm thanh”. Để tạo hình ảnh khuôn mặt hoàn hảo, người dùng tích hợp mặt nạ vùng khuôn mặt và nhiễu đa khung.
“Những cơ chế này rất cần thiết để bảo tồn danh tính của nhân vật và điều chỉnh chuyển động của nhân vật,” một phần giải thích viết.
“Ngoài ra, Mô-đun Thời gian được sử dụng để điều khiển kích thước thời gian và điều chỉnh chuyển động vận tốc.”
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/
- : có
- :là
- :không phải
- :Ở đâu
- 12
- 28
- 3d
- a
- Giới thiệu
- về nó
- có sức chứa
- Theo
- chính xác
- thêm vào
- AI
- Hỗ trợ AI
- Alibaba
- Alibaba Group
- sống
- cho phép
- Ngoài ra
- an
- và
- Animate
- bất kì
- LÀ
- xung quanh
- AS
- At
- âm thanh
- hình đại diện
- Hình đại diện
- BE
- Hơn
- giữa
- cả hai
- ranh giới
- Mang lại
- nhưng
- by
- CAN
- khả năng
- dè dặt
- Changer
- tính cách
- ChatGPT
- tuyên bố
- máy tính
- điều kiện
- nội dung
- tiếp tục
- quyền tác giả
- có thể
- tạo
- sáng tạo
- Sáng tạo
- sáng tạo
- đáng tin
- da
- Nguy hiểm
- phân phối
- triển khai
- mô tả
- phát triển
- phát triển
- khác nhau
- Lôi thôi
- kích thước
- biến mất
- khác nhau
- làm
- thời gian
- năng động
- Cạnh
- nhúng
- cho phép
- cho phép
- mã hóa
- cuối
- những người đam mê
- thiết yếu
- BAO GIỜ
- giải thích
- biểu thức
- biểu cảm
- trích xuất
- mặt
- nổi tiếng
- Tính năng
- hãng
- Tên
- lần đầu tiên
- ngập nước
- Trong
- Khung
- từ
- chức năng
- trò chơi
- thay đổi cuộc chơi
- tạo ra
- tạo ra
- thế hệ
- GitHub
- Cho
- Nhóm
- Tay bài
- Có
- cái đầu
- cô
- Cao
- Nhấn mạnh
- Độ đáng tin của
- Hướng dẫn
- HTTPS
- i
- Bản sắc
- hình ảnh
- hình ảnh
- in
- đầu vào
- những hiểu biết
- Viện
- tích hợp
- Thông minh
- IT
- ITS
- jpg
- chỉ
- nổi tiếng
- Ngôn ngữ
- Chiều dài
- Cuộc sống
- giống như thật
- Lượt thích
- thực hiện
- Làm
- Mặt nạ
- max-width
- cơ chế
- phương pháp
- phút
- kiểu mẫu
- mô hình
- Modules
- chuyển động
- phong trào
- phim
- Âm nhạc
- Mới
- sản phẩm mới
- Newyork
- Bán Chạy Nhất của Báo New York Times
- tiếp theo
- Tiếng ồn
- tại
- of
- Xưa
- on
- ONE
- có thể
- or
- Nền tảng khác
- Khác
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- bức tranh
- một phần
- hoàn hảo
- biểu diễn
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Play
- chân dung
- chân dung
- đặt ra
- cần
- bảo quản
- quá trình
- Sản phẩm
- Hứa hẹn
- Đọc
- thực
- chủ nghĩa hiện thực
- thực tế
- Thực tế
- nhận ra
- tài liệu tham khảo
- khu
- báo cáo
- nhà nghiên cứu
- tương ứng
- kết quả
- Kết quả
- Nói
- đã xem
- duy nhất
- sớm
- nói
- Traineeship
- giai đoạn
- Sao
- Vẫn còn
- như vậy
- Hỗ trợ
- đồng bộ hóa.
- Thảo luận
- nói
- công nghệ cao
- hơn
- Cảm ơn
- việc này
- Sản phẩm
- The New York Times
- cung cấp their dịch
- Them
- Đó
- điều
- nghĩ
- điều này
- năm nay
- thời gian
- thời gian
- đến
- mất
- công cụ
- đúng
- hai
- Dưới
- giải phóng
- sử dụng
- Người sử dụng
- sử dụng
- tận dụng
- biến thể
- khác nhau
- Thành phố Velo
- Video
- Video
- tiếng hát
- yếu
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- sẽ
- với
- Sai
- tay sai
- X
- năm
- york
- zephyrnet