Các nhà nghiên cứu tại IIIT Allahabad Đề xuất T2CI GAN: Mô hình học sâu tạo ra hình ảnh nén từ văn bản

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong vài năm gần đây, việc tạo ra các mô tả bằng văn bản cho dữ liệu trực quan đã trở thành một vấn đề nghiên cứu hấp dẫn. Tuy nhiên, việc trình bày vấn đề để tạo ra dữ liệu trực quan từ các mô tả bằng văn bản vẫn khó khăn hơn nhiều vì nó đòi hỏi sự kết hợp giữa kỹ thuật Xử lý ngôn ngữ tự nhiên và Thị giác máy tính. Các kỹ thuật có sẵn tạo ra hình ảnh không nén từ các mô tả văn bản bằng cách sử dụng Mạng đối thủ sáng tạo (GAN). Mạng đối thủ sáng tạo là một loại khung học máy có thể tạo ra văn bản, ảnh, video và ghi âm giọng nói. Trước đây, GAN đã được sử dụng thành công để tạo tập dữ liệu hình ảnh cho các thuật toán học sâu khác nhằm đào tạo, sản xuất phim hoặc hoạt ảnh cho các mục đích cụ thể và tạo chú thích phù hợp cho ảnh.

Trong thực tế, hầu hết đầu vào trực quan đều được xử lý và truyền tải ở dạng nén. Để đạt được hiệu quả lưu trữ và tính toán, công việc được đề xuất nỗ lực tạo ra trực tiếp dữ liệu trực quan ở dạng biểu diễn nén bằng cách sử dụng GAN chuyển đổi sâu (DCGAN). Một mô hình dựa trên GAN mới, T2CI-GAN, gần đây đã được tạo ra bởi các nhà nghiên cứu từ Phòng thí nghiệm Thị giác Máy tính và Sinh trắc học của IIIT Allahabad và Đại học Vignan ở Ấn Độ. Mô hình này có thể tạo ra hình ảnh nén từ các mô tả dựa trên văn bản. Cách tiếp cận này có thể đóng vai trò là điểm khởi đầu để nghiên cứu một số tùy chọn lưu trữ hình ảnh và chia sẻ nội dung giữa các thiết bị thông minh khác nhau.

Trong công việc trước đó, các nhà nghiên cứu đã sử dụng GAN và các mô hình học sâu khác để xử lý các tác vụ khác nhau, chẳng hạn như trích xuất tính năng từ dữ liệu, phân đoạn dữ liệu văn bản và hình ảnh, phát hiện từ trong trích xuất văn bản dài và tạo hình ảnh JPEG nén. Mô hình mới này mở rộng dựa trên những sáng kiến trước đó để giải quyết một vấn đề tính toán mà cho đến nay vẫn còn ít được chú ý trong tài liệu. Chỉ một số kỹ thuật dựa trên deep learning được các nhóm nghiên cứu khác sử dụng để tạo hình ảnh từ mô tả văn bản mới tạo ra hình ảnh nén. Ngoài ra, hầu hết các hệ thống sản xuất và nén hình ảnh hiện có đều giải quyết vấn đề thực hiện một cách độc lập, điều này làm tăng khối lượng công việc tính toán và thời gian xử lý.

T2CI-GAN được đề xuất là một mô hình dựa trên deep learning, xuất ra các hình ảnh trực quan được nén từ mô tả văn bản làm đầu vào. Đây là sự khởi đầu đáng kể so với các phương pháp tiếp cận truyền thống vốn tạo ra các biểu diễn trực quan từ mô tả văn bản và nén thêm những hình ảnh đó. Tính năng bán hàng chính của mô hình này là khả năng ánh xạ các mô tả văn bản và tạo trực tiếp các hình ảnh nén.

Nhóm nghiên cứu đã tạo ra hai mô hình dựa trên GAN để tạo ra hình ảnh nén từ mô tả văn bản. Một tập dữ liệu gồm các hình ảnh JPEG DCT (biến đổi cosine rời rạc) đã được nén đã được sử dụng để huấn luyện mô hình đầu tiên trong số này. Sau khi đào tạo, mô hình này có thể tạo ra hình ảnh nén từ mô tả văn bản. Mặt khác, một bộ ảnh RGB đã được sử dụng để huấn luyện mô hình dựa trên GAN thứ hai của các nhà nghiên cứu. Mô hình này đã phát triển khả năng tạo ra các biểu diễn hình ảnh DCT được nén bằng JPEG, thể hiện rõ ràng một loạt các điểm dữ liệu dưới dạng phương trình. Các mô hình được đề xuất được đánh giá bằng cách sử dụng cả phiên bản nén RGB và JPEG của bộ dữ liệu điểm chuẩn nguồn mở nổi tiếng Oxford-102 Flower pictures. Trong miền nén JPEG, mô hình đã đạt được hiệu suất tiên tiến rất đáng khích lệ.

Khi ảnh được cung cấp nhằm mục đích chia sẻ dễ dàng với điện thoại thông minh hoặc các thiết bị thông minh khác, mẫu T2CI-GAN có thể được sử dụng để nâng cao hệ thống truy xuất hình ảnh tự động. Ngoài ra, nó có thể là một công cụ có giá trị cho các chuyên gia truyền thông và truyền thông, cho phép họ tìm các phiên bản nhẹ hơn của các bức ảnh cụ thể để đăng trực tuyến.

Do những tiến bộ công nghệ gần đây, thế giới của chúng ta đang hướng tới các kết nối giữa máy với máy và giữa con người với máy. T2CI-GAN sẽ rất quan trọng trong tình huống này vì máy cần dữ liệu ở dạng nén để đọc hoặc hiểu chúng. Mô hình hiện chỉ tạo ảnh ở dạng nén JPEG. Vì vậy, mục tiêu lâu dài của các nhà nghiên cứu là mở rộng nó để tạo ra hình ảnh ở bất kỳ dạng nén nào mà không hạn chế thuật toán nén. Sau khi bài viết nghiên cứu của nhóm được xuất bản, mã nguồn của mô hình cũng sẽ được cung cấp cho công chúng.

Bài viết này được viết dưới dạng một bài báo tóm tắt nghiên cứu của Marktechpost Staff dựa trên bài nghiên cứu 'T2CI-GAN: Tạo văn bản thành hình ảnh nén bằng cách sử dụng Mạng đối thủ sáng tạo'. Tất cả công lao cho nghiên cứu này sẽ được chuyển đến các nhà nghiên cứu về dự án này. Kiểm tra giấy và bài viết tham khảo.

Xin đừng quên tham gia Subreddit ML của chúng tôi

Khushboo Gupta là thực tập sinh tư vấn tại MarktechPost. Cô hiện đang theo đuổi chương trình B.Tech của mình tại Viện Công nghệ Ấn Độ (IIT), Goa. Cô đam mê lĩnh vực Machine Learning, Xử lý ngôn ngữ tự nhiên và Phát triển web. Cô thích tìm hiểu thêm về lĩnh vực kỹ thuật bằng cách tham gia một số thử thách.

<!–

Dấu thời gian: 29 Tháng Mười 31 Tháng Mười