Theo các nhà khoa học máy tính tại MIT và Google, hình ảnh tổng hợp có thể giúp các mô hình AI học cách trình bày hình ảnh chính xác hơn so với ảnh chụp thật. Kết quả là mạng lưới thần kinh có khả năng tạo ra hình ảnh tốt hơn từ các mô tả bằng văn bản của bạn.
Trọng tâm của tất cả các mô hình chuyển văn bản thành hình ảnh là khả năng ánh xạ đối tượng thành từ. Đưa ra lời nhắc văn bản đầu vào - chẳng hạn như "một đứa trẻ cầm quả bóng bay màu đỏ vào một ngày nắng" - họ phải trả về một hình ảnh gần đúng với mô tả. Để làm được điều này, các em cần học các cách thể hiện trực quan về một đứa trẻ, quả bóng bay màu đỏ và ngày nắng sẽ trông như thế nào.
Nhóm MIT-Google tin rằng mạng lưới thần kinh có thể tạo ra hình ảnh chính xác hơn từ lời nhắc sau khi được đào tạo về các bức ảnh do AI tạo ra thay vì sử dụng ảnh chụp thật. Để chứng minh điều này, nhóm đã phát triển Đại diện ổn định, học cách biến chú thích bằng văn bản mang tính mô tả thành hình ảnh tương ứng chính xác từ các hình ảnh được tạo bởi mô hình chuyển văn bản thành hình ảnh nguồn mở phổ biến Stable Diffusion.
Nói cách khác: sử dụng một mô hình AI đã được đào tạo và thiết lập để dạy các mô hình khác.
Là bài báo in sẵn của các nhà khoa học, được phát hành thông qua arXiv vào cuối tháng trước, cho biết: “Chỉ với hình ảnh tổng hợp, các cách biểu diễn mà StableRep học được vượt qua hiệu suất của các cách biểu diễn mà SimCLR và CLIP học được bằng cách sử dụng cùng một bộ lời nhắc văn bản và hình ảnh thực tương ứng, trên các tập dữ liệu quy mô lớn.” SimCLR và CLIP là các thuật toán học máy có thể được sử dụng để tạo hình ảnh từ lời nhắc văn bản.
Bài viết tiếp tục: “Khi chúng tôi bổ sung thêm tính năng giám sát ngôn ngữ, StableRep được đào tạo với 20 triệu hình ảnh tổng hợp sẽ đạt được độ chính xác cao hơn CLIP được đào tạo với 50 triệu hình ảnh thực”.
Các thuật toán học máy nắm bắt mối quan hệ giữa các đặc điểm của đối tượng và ý nghĩa của từ dưới dạng một dãy số. Bằng cách sử dụng StableRep, các nhà nghiên cứu có thể kiểm soát quá trình này cẩn thận hơn – đào tạo một mô hình trên nhiều hình ảnh do Stable Diffusion tạo ra trên cùng một lời nhắc. Điều đó có nghĩa là mô hình có thể tìm hiểu các cách trình bày trực quan đa dạng hơn và có thể xem hình ảnh nào phù hợp với lời nhắc hơn những hình ảnh khác.
Tôi nghĩ chúng ta sẽ có một hệ sinh thái gồm một số mô hình được đào tạo trên dữ liệu thực, một số dựa trên dữ liệu tổng hợp
Lijie Fan, nhà nghiên cứu chính của nghiên cứu và là nghiên cứu sinh tiến sĩ về kỹ thuật điện tại MIT, cho biết: “Chúng tôi đang dạy mô hình để tìm hiểu thêm về các khái niệm cấp cao thông qua bối cảnh và phương sai chứ không chỉ cung cấp dữ liệu cho nó”. Giải thích tuần này. “Khi sử dụng nhiều hình ảnh, tất cả đều được tạo từ cùng một văn bản, tất cả đều được coi là mô tả của cùng một nội dung cơ bản, mô hình sẽ đi sâu hơn vào các khái niệm đằng sau hình ảnh – chẳng hạn như đối tượng – chứ không chỉ các pixel của chúng.”
Như đã lưu ý ở trên, phương pháp này cũng có nghĩa là bạn có thể sử dụng ít hình ảnh tổng hợp hơn để huấn luyện mạng lưới thần kinh của mình so với hình ảnh thật và nhận được kết quả tốt hơn – điều này có lợi cho các nhà phát triển AI.
Các phương pháp như StableRep có nghĩa là một ngày nào đó các mô hình chuyển văn bản thành hình ảnh có thể được huấn luyện trên dữ liệu tổng hợp. Nó sẽ cho phép các nhà phát triển ít phụ thuộc hơn vào hình ảnh thực và có thể cần thiết nếu công cụ AI cạn kiệt tài nguyên trực tuyến có sẵn.
“Tôi nghĩ [đào tạo mô hình AI trên hình ảnh tổng hợp] sẽ ngày càng phổ biến,” Phillip Isola, đồng tác giả của bài báo và phó giáo sư về thị giác máy tính tại MIT, nói. Đăng ký. “Tôi nghĩ chúng ta sẽ có một hệ sinh thái gồm một số mô hình được đào tạo trên dữ liệu thực, một số mô hình tổng hợp và có thể hầu hết các mô hình sẽ được đào tạo trên cả hai.”
Thật khó để chỉ dựa vào hình ảnh do AI tạo ra vì chất lượng và độ phân giải của chúng thường kém hơn ảnh thật. Các mô hình chuyển văn bản thành hình ảnh tạo ra chúng cũng bị hạn chế theo những cách khác. Khuếch tán ổn định không phải lúc nào cũng tạo ra hình ảnh trung thực với lời nhắc của văn bản.
Isola cảnh báo rằng việc sử dụng hình ảnh tổng hợp cũng không tránh khỏi nguy cơ vi phạm bản quyền vì những người mẫu tạo ra chúng có thể đã được đào tạo về các tài liệu được bảo vệ.
“Dữ liệu tổng hợp có thể bao gồm các bản sao chính xác của dữ liệu bản quyền. Tuy nhiên, dữ liệu tổng hợp cũng mang đến những cơ hội mới để giải quyết các vấn đề về IP và quyền riêng tư, bởi vì chúng tôi có khả năng can thiệp vào dữ liệu đó bằng cách chỉnh sửa mô hình tổng quát để loại bỏ các thuộc tính nhạy cảm,” ông giải thích.
Nhóm cũng cảnh báo rằng các hệ thống đào tạo về hình ảnh do AI tạo ra có thể làm trầm trọng thêm những thành kiến đã học được từ mô hình chuyển văn bản thành hình ảnh cơ bản của họ. ®
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/
- :là
- :không phải
- 20
- 50
- 7
- a
- có khả năng
- Giới thiệu
- ở trên
- Theo
- chính xác
- chính xác
- chính xác
- Đạt được
- thêm vào
- Sau
- AI
- Mô hình AI
- thuật toán
- Tất cả
- cho phép
- Ngoài ra
- luôn luôn
- an
- và
- phương pháp tiếp cận
- LÀ
- xung quanh
- Mảng
- AS
- Liên kết
- At
- thuộc tính
- có sẵn
- BE
- bởi vì
- sau
- được
- tin
- Hơn
- giữa
- thành kiến
- cả hai
- by
- CAN
- chú thích
- nắm bắt
- cẩn thận
- trẻ em
- chặt chẽ
- CO
- Đồng tác giả
- Chung
- so
- máy tính
- Tầm nhìn máy tính
- khái niệm
- bối cảnh
- liên tiếp
- điều khiển
- quyền tác giả
- vi phạm bản quyền
- sửa chữa
- Tương ứng
- có thể
- dữ liệu
- bộ dữ liệu
- ngày
- sâu sắc hơn
- chứng minh
- Mô tả
- phát triển
- phát triển
- khó khăn
- Lôi thôi
- khác nhau
- do
- doesn
- hệ sinh thái
- hiệu quả
- hay
- cuối
- Kỹ Sư
- Động cơ
- thành lập
- làm trầm trọng thêm
- ví dụ
- Giải thích
- trung thành
- giả mạo
- fan hâm mộ
- Tính năng
- cho ăn
- ít hơn
- Trong
- từ
- xa hơn
- tạo ra
- tạo ra
- tạo ra
- thế hệ
- được
- nhận được
- được
- Nhóm
- Có
- he
- Trái Tim
- giúp đỡ
- cấp độ cao
- tổ chức
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTTPS
- i
- if
- hình ảnh
- hình ảnh
- in
- Mặt khác
- bao gồm
- lên
- sự vi phạm
- đầu vào
- can thiệp
- trong
- IP
- vấn đề
- các vấn đề
- IT
- jpg
- chỉ
- Ngôn ngữ
- lớn
- Họ
- dẫn
- LEARN
- học
- học
- ít
- Lượt thích
- Có khả năng
- Hạn chế
- Xem
- giống như
- làm cho
- Làm
- bản đồ
- Trận đấu
- nguyên vật liệu
- Có thể..
- có lẽ
- nghĩa là
- ý nghĩa
- có nghĩa
- Might
- triệu
- MIT
- kiểu mẫu
- mô hình
- tháng
- chi tiết
- hầu hết
- nhiều
- cần thiết
- Cần
- mạng
- mạng
- thần kinh
- mạng lưới thần kinh
- mạng thần kinh
- Mới
- lưu ý
- số
- vật
- đối tượng
- of
- thường
- on
- ONE
- những
- Trực tuyến
- mở
- mã nguồn mở
- Cơ hội
- phản đối
- gọi món
- Nền tảng khác
- Khác
- Giấy
- hiệu suất
- Bằng tiến sĩ
- hình ảnh
- Những bức ảnh
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Phổ biến
- tiềm năng
- có khả năng
- riêng tư
- quá trình
- sản xuất
- Giáo sư
- nhắc nhở
- bảo vệ
- cung cấp
- Puts
- chất lượng
- RE
- thực
- đỏ
- Mối quan hệ
- phát hành
- dựa
- tẩy
- nhà nghiên cứu
- nhà nghiên cứu
- Độ phân giải
- Thông tin
- kết quả
- Kết quả
- trở lại
- s
- tương tự
- nói
- Quy mô
- các nhà khoa học
- xem
- nhạy cảm
- định
- nên
- kể từ khi
- chỉ duy nhất
- một số
- nguồn
- ổn định
- Sinh viên
- Học tập
- như vậy
- giám sát
- vượt qua
- sợi tổng hợp
- dữ liệu tổng hợp
- hệ thống
- Giảng dạy
- nhóm
- văn bản
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- họ
- điều
- nghĩ
- điều này
- tuần này
- Thông qua
- đến
- nói với
- quá
- Train
- đào tạo
- Hội thảo
- XOAY
- cơ bản
- sử dụng
- đã sử dụng
- sử dụng
- thông qua
- tầm nhìn
- trực quan
- cách
- we
- tuần
- là
- Điều gì
- khi nào
- cái nào
- sẽ
- Thắng-thắng
- với
- từ
- tệ hơn
- sẽ
- viết
- Bạn
- trên màn hình
- zephyrnet