Peneliti Di IIIT Allahabad Mengusulkan T2CI GAN: Model Pembelajaran Mendalam yang Menghasilkan Gambar Terkompresi Dari Teks

Diterbitkan Ulang Oleh Plato

Followers: 0

Dalam beberapa tahun terakhir, pembuatan deskripsi tekstual untuk data visual telah menjadi isu penelitian yang menarik. Namun, rumusan masalah untuk menghasilkan data visual dari deskripsi tertulis masih jauh lebih sulit karena memerlukan perpaduan teknik Natural Language Processing dan Computer Vision. Teknik yang tersedia membuat gambar tidak terkompresi dari deskripsi tekstual menggunakan Generative Adversarial Networks (GANs). Jaringan Adversarial Generatif adalah jenis kerangka pembelajaran mesin yang dapat menghasilkan teks, foto, video, dan rekaman suara. Sebelumnya, GAN telah berhasil digunakan untuk menghasilkan kumpulan data gambar untuk melatih algoritma pembelajaran mendalam lainnya, untuk memproduksi film atau animasi untuk tujuan tertentu, dan untuk menghasilkan keterangan yang sesuai untuk foto.

Pada kenyataannya, sebagian besar masukan visual diproses dan dikirimkan dalam bentuk terkompresi. Untuk mencapai efisiensi penyimpanan dan komputasi, pekerjaan yang disarankan adalah upaya untuk secara langsung menghasilkan data visual dalam bentuk representasi terkompresi menggunakan Deep Convolutional GANs (DCGANs). Model baru berbasis GAN, T2CI-GAN, baru-baru ini dibuat oleh para peneliti dari Computer Vision and Biometrics Lab IIIT Allahabad dan Vignan University di India yang dapat menghasilkan gambar terkompresi dari deskripsi berbasis teks. Pendekatan ini mungkin berfungsi sebagai titik awal untuk menyelidiki beberapa pilihan untuk penyimpanan gambar dan berbagi konten di antara berbagai perangkat pintar.

Dalam pekerjaan sebelumnya, para peneliti menggunakan GAN dan model pembelajaran mendalam lainnya untuk menangani berbagai tugas, seperti ekstraksi fitur dari data, segmentasi data teks dan gambar, deteksi kata dalam ekstrak teks yang panjang, dan pembuatan gambar JPEG terkompresi. Model baru ini memperluas inisiatif sebelumnya untuk mengatasi masalah komputasi yang sejauh ini kurang mendapat perhatian dalam literatur. Hanya sedikit teknik berbasis pembelajaran mendalam yang digunakan oleh tim peneliti lain untuk membuat gambar dari deskripsi teks yang menghasilkan gambar terkompresi. Selain itu, sebagian besar sistem yang ada untuk memproduksi dan mengompresi gambar mengatasi masalah dalam melakukannya secara independen, sehingga meningkatkan beban kerja komputasi dan waktu pemrosesan.

T2CI-GAN yang disarankan adalah model berbasis pembelajaran mendalam yang mengeluarkan gambar visual terkompresi dari deskripsi teks sebagai masukannya. Hal ini merupakan perubahan yang signifikan dari pendekatan tradisional yang menghasilkan representasi visual dari deskripsi teks dan selanjutnya memampatkan gambar tersebut. Fitur penjualan utama model ini adalah kemampuannya memetakan deskripsi teks dan menghasilkan gambar terkompresi secara langsung.

Tim peneliti membuat dua model berbasis GAN untuk menghasilkan gambar terkompresi dari deskripsi teks. Kumpulan data gambar JPEG DCT (discrete cosine transform) terkompresi digunakan untuk melatih model pertama ini. Setelah pelatihan, model ini dapat menghasilkan gambar terkompresi dari deskripsi teks. Di sisi lain, sekumpulan foto RGB digunakan untuk melatih model kedua berbasis GAN milik para peneliti. Model ini mengembangkan kemampuan untuk menghasilkan representasi gambar DCT terkompresi JPEG, yang secara eksplisit mengekspresikan serangkaian titik data sebagai persamaan. Model yang disarankan dievaluasi menggunakan versi kompresi RGB dan JPEG dari kumpulan data benchmark sumber terbuka yang terkenal, gambar Oxford-102 Flower. Dalam domain terkompresi JPEG, model ini mencapai kinerja canggih yang sangat menggembirakan.

Jika foto yang disediakan dimaksudkan agar mudah dibagikan dengan ponsel cerdas atau perangkat pintar lainnya, model T2CI-GAN dapat digunakan untuk menyempurnakan sistem pengambilan gambar otomatis. Selain itu, ini dapat menjadi alat yang berharga bagi pakar media dan komunikasi, memungkinkan mereka menemukan versi lebih ringan dari foto-foto tertentu untuk diposkan secara online.

Karena kemajuan teknologi terkini, dunia kita sedang menuju ke arah koneksi mesin-ke-mesin dan manusia-ke-mesin. T2CI-GAN akan sangat penting dalam situasi ini karena mesin memerlukan fakta dalam bentuk terkompresi untuk membaca atau memahaminya. Model saat ini hanya membuat foto dalam bentuk kompresi JPEG. Oleh karena itu, tujuan jangka panjang para peneliti adalah mengembangkannya untuk menghasilkan gambar dalam bentuk terkompresi apa pun tanpa batasan pada algoritma kompresi. Setelah artikel penelitian tim dipublikasikan, kode sumber model tersebut juga akan tersedia untuk masyarakat umum.

Artikel ini ditulis sebagai artikel ringkasan penelitian oleh Staf Marktechpost berdasarkan makalah penelitian 'T2CI-GAN: Pembuatan Teks ke Gambar Terkompresi menggunakan Jaringan Adversarial Generatif'. Semua Kredit Untuk Penelitian Ini Diberikan Kepada Para Peneliti di Proyek Ini. Lihat kertas dan artikel referensi.

Tolong Jangan Lupa Bergabung Subreddit ML kami

Khushboo Gupta adalah konsultan magang di MarktechPost. Dia saat ini sedang mengejar gelar B.Tech dari Institut Teknologi India (IIT), Goa. Dia sangat tertarik dengan bidang Pembelajaran Mesin, Pemrosesan Bahasa Alami, dan Pengembangan Web. Dia senang belajar lebih banyak tentang bidang teknis dengan berpartisipasi dalam beberapa tantangan.

<!–

Stempel Waktu: Oktober 29, 2022Oktober 31, 2022