Mô hình chuyển văn bản thành hình ảnh học hiệu quả hơn với dữ liệu giả mạo

Mô hình chuyển văn bản thành hình ảnh học hiệu quả hơn với dữ liệu giả mạo

Các mô hình chuyển văn bản thành hình ảnh học hiệu quả hơn với dữ liệu giả PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Theo các nhà khoa học máy tính tại MIT và Google, hình ảnh tổng hợp có thể giúp các mô hình AI học cách trình bày hình ảnh chính xác hơn so với ảnh chụp thật. Kết quả là mạng lưới thần kinh có khả năng tạo ra hình ảnh tốt hơn từ các mô tả bằng văn bản của bạn.

Trọng tâm của tất cả các mô hình chuyển văn bản thành hình ảnh là khả năng ánh xạ đối tượng thành từ. Đưa ra lời nhắc văn bản đầu vào - chẳng hạn như "một đứa trẻ cầm quả bóng bay màu đỏ vào một ngày nắng" - họ phải trả về một hình ảnh gần đúng với mô tả. Để làm được điều này, các em cần học các cách thể hiện trực quan về một đứa trẻ, quả bóng bay màu đỏ và ngày nắng sẽ trông như thế nào. 

Nhóm MIT-Google tin rằng mạng lưới thần kinh có thể tạo ra hình ảnh chính xác hơn từ lời nhắc sau khi được đào tạo về các bức ảnh do AI tạo ra thay vì sử dụng ảnh chụp thật. Để chứng minh điều này, nhóm đã phát triển Đại diện ổn định, học cách biến chú thích bằng văn bản mang tính mô tả thành hình ảnh tương ứng chính xác từ các hình ảnh được tạo bởi mô hình chuyển văn bản thành hình ảnh nguồn mở phổ biến Stable Diffusion.

Nói cách khác: sử dụng một mô hình AI đã được đào tạo và thiết lập để dạy các mô hình khác.

Là bài báo in sẵn của các nhà khoa học, được phát hành thông qua arXiv vào cuối tháng trước, cho biết: “Chỉ với hình ảnh tổng hợp, các cách biểu diễn mà StableRep học được vượt qua hiệu suất của các cách biểu diễn mà SimCLR và CLIP học được bằng cách sử dụng cùng một bộ lời nhắc văn bản và hình ảnh thực tương ứng, trên các tập dữ liệu quy mô lớn.” SimCLR và CLIP là các thuật toán học máy có thể được sử dụng để tạo hình ảnh từ lời nhắc văn bản.

Bài viết tiếp tục: “Khi chúng tôi bổ sung thêm tính năng giám sát ngôn ngữ, StableRep được đào tạo với 20 triệu hình ảnh tổng hợp sẽ đạt được độ chính xác cao hơn CLIP được đào tạo với 50 triệu hình ảnh thực”.

Các thuật toán học máy nắm bắt mối quan hệ giữa các đặc điểm của đối tượng và ý nghĩa của từ dưới dạng một dãy số. Bằng cách sử dụng StableRep, các nhà nghiên cứu có thể kiểm soát quá trình này cẩn thận hơn – đào tạo một mô hình trên nhiều hình ảnh do Stable Diffusion tạo ra trên cùng một lời nhắc. Điều đó có nghĩa là mô hình có thể tìm hiểu các cách trình bày trực quan đa dạng hơn và có thể xem hình ảnh nào phù hợp với lời nhắc hơn những hình ảnh khác. 

Tôi nghĩ chúng ta sẽ có một hệ sinh thái gồm một số mô hình được đào tạo trên dữ liệu thực, một số dựa trên dữ liệu tổng hợp

Lijie Fan, nhà nghiên cứu chính của nghiên cứu và là nghiên cứu sinh tiến sĩ về kỹ thuật điện tại MIT, cho biết: “Chúng tôi đang dạy mô hình để tìm hiểu thêm về các khái niệm cấp cao thông qua bối cảnh và phương sai chứ không chỉ cung cấp dữ liệu cho nó”. Giải thích tuần này. “Khi sử dụng nhiều hình ảnh, tất cả đều được tạo từ cùng một văn bản, tất cả đều được coi là mô tả của cùng một nội dung cơ bản, mô hình sẽ đi sâu hơn vào các khái niệm đằng sau hình ảnh – chẳng hạn như đối tượng – chứ không chỉ các pixel của chúng.”

Như đã lưu ý ở trên, phương pháp này cũng có nghĩa là bạn có thể sử dụng ít hình ảnh tổng hợp hơn để huấn luyện mạng lưới thần kinh của mình so với hình ảnh thật và nhận được kết quả tốt hơn – điều này có lợi cho các nhà phát triển AI.

Các phương pháp như StableRep có nghĩa là một ngày nào đó các mô hình chuyển văn bản thành hình ảnh có thể được huấn luyện trên dữ liệu tổng hợp. Nó sẽ cho phép các nhà phát triển ít phụ thuộc hơn vào hình ảnh thực và có thể cần thiết nếu công cụ AI cạn kiệt tài nguyên trực tuyến có sẵn.

“Tôi nghĩ [đào tạo mô hình AI trên hình ảnh tổng hợp] sẽ ngày càng phổ biến,” Phillip Isola, đồng tác giả của bài báo và phó giáo sư về thị giác máy tính tại MIT, nói. Đăng ký. “Tôi nghĩ chúng ta sẽ có một hệ sinh thái gồm một số mô hình được đào tạo trên dữ liệu thực, một số mô hình tổng hợp và có thể hầu hết các mô hình sẽ được đào tạo trên cả hai.”

Thật khó để chỉ dựa vào hình ảnh do AI tạo ra vì chất lượng và độ phân giải của chúng thường kém hơn ảnh thật. Các mô hình chuyển văn bản thành hình ảnh tạo ra chúng cũng bị hạn chế theo những cách khác. Khuếch tán ổn định không phải lúc nào cũng tạo ra hình ảnh trung thực với lời nhắc của văn bản.

Isola cảnh báo rằng việc sử dụng hình ảnh tổng hợp cũng không tránh khỏi nguy cơ vi phạm bản quyền vì những người mẫu tạo ra chúng có thể đã được đào tạo về các tài liệu được bảo vệ.

“Dữ liệu tổng hợp có thể bao gồm các bản sao chính xác của dữ liệu bản quyền. Tuy nhiên, dữ liệu tổng hợp cũng mang đến những cơ hội mới để giải quyết các vấn đề về IP và quyền riêng tư, bởi vì chúng tôi có khả năng can thiệp vào dữ liệu đó bằng cách chỉnh sửa mô hình tổng quát để loại bỏ các thuộc tính nhạy cảm,” ông giải thích.

Nhóm cũng cảnh báo rằng các hệ thống đào tạo về hình ảnh do AI tạo ra có thể làm trầm trọng thêm những thành kiến ​​đã học được từ mô hình chuyển văn bản thành hình ảnh cơ bản của họ. ®

Dấu thời gian:

Thêm từ Đăng ký