IIIT Allahabad'daki Araştırmacılar T2CI GAN'ı Öneriyor: Metinden Sıkıştırılmış Görüntüler Üreten Derin Öğrenme Modeli

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Son birkaç yılda görsel veriler için metinsel açıklamaların oluşturulması ilgi çekici bir araştırma konusu haline geldi. Ancak yazılı açıklamalardan görsel veri üretmeye yönelik problem tanımı hala çok daha zordur çünkü Doğal Dil İşleme ve Bilgisayarlı Görme tekniklerinin birleşimini gerektirir. Mevcut teknikler, Üretken Çekişmeli Ağlar (GAN'lar) kullanılarak metinsel açıklamalardan sıkıştırılmamış görüntüler oluşturur. Üretken Rekabetçi Ağlar, metinler, fotoğraflar, videolar ve ses kayıtları üretebilen bir tür makine öğrenimi çerçevesidir. Daha önce GAN'lar, diğer derin öğrenme algoritmalarının eğitilmesi için görüntü veri kümeleri üretmek, belirli amaçlara yönelik filmler veya animasyonlar üretmek ve fotoğraflar için uygun altyazılar üretmek amacıyla başarıyla kullanılıyordu.

Gerçekte çoğu görsel girdi sıkıştırılmış biçimde işlenir ve iletilir. Depolama ve hesaplama verimliliği elde etmek için, önerilen çalışmada, Derin Evrişimli GAN'lar (DCGAN'ler) kullanılarak görsel verilerin sıkıştırılmış gösterim biçiminde doğrudan üretilmesi için çaba sarf edilmektedir. Yeni bir GAN tabanlı model olan T2CI-GAN, kısa süre önce IIIT Allahabad'ın Bilgisayarlı Görü ve Biyometri Laboratuvarı ve Hindistan'daki Vignan Üniversitesi'nden araştırmacılar tarafından metin tabanlı açıklamalardan sıkıştırılmış görüntüler üretebilen bir model oluşturuldu. Bu yaklaşım, çeşitli akıllı cihazlar arasında görüntü depolama ve içerik paylaşımına yönelik çeşitli seçeneklerin araştırılması için bir başlangıç noktası görevi görebilir.

Daha önceki çalışmalarda araştırmacılar, verilerden özellik çıkarma, metin ve görüntü verileri bölümlendirme, uzun metin alıntılarında kelime algılama ve sıkıştırılmış JPEG görüntüler oluşturma gibi çeşitli görevleri yerine getirmek için GAN'ları ve diğer derin öğrenme modellerini kullandılar. Bu yeni model, literatürde şu ana kadar çok az ilgi gören bir hesaplama sorununu çözmek için bu önceki girişimleri genişletiyor. Metin açıklamalarından görseller oluşturmak için diğer araştırma ekipleri tarafından kullanılan yalnızca birkaç derin öğrenmeye dayalı teknik, sıkıştırılmış görseller üretir. Ek olarak, görüntülerin üretilmesi ve sıkıştırılmasına yönelik mevcut sistemlerin çoğu, bunu bağımsız olarak yapma sorununa yaklaşmaktadır, bu da hesaplama ve işlem süresinin iş yükünü artırmaktadır.

Önerilen T2CI-GAN, girdi olarak metin açıklamalarından sıkıştırılmış görsel görüntüler çıkaran, derin öğrenmeye dayalı bir modeldir. Bu, metin açıklamalarından görsel temsiller üreten ve bu görüntüleri daha da sıkıştıran geleneksel yaklaşımlardan önemli bir sapmadır. Modelin birincil satış özelliği, metin açıklamalarını eşleştirme ve doğrudan sıkıştırılmış görüntüler oluşturma yeteneğidir.

Araştırma ekibi, metin açıklamalarından sıkıştırılmış görüntüler üretmek için iki GAN tabanlı model oluşturdu. Bu modellerden ilkini eğitmek için sıkıştırılmış JPEG DCT (ayrık kosinüs dönüşümü) görüntülerinden oluşan bir veri kümesi kullanıldı. Eğitimin ardından bu model, metin açıklamalarından sıkıştırılmış görüntüler üretebilir. Öte yandan araştırmacıların ikinci GAN tabanlı modelini eğitmek için bir dizi RGB fotoğraf kullanıldı. Bu model, bir dizi veri noktasını bir denklem olarak açıkça ifade eden görüntülerin JPEG sıkıştırılmış DCT temsillerini üretme yeteneğini geliştirdi. Önerilen modeller, iyi bilinen açık kaynaklı kıyaslama veri seti Oxford-102 Flower resimlerinin hem RGB hem de JPEG sıkıştırılmış versiyonları kullanılarak değerlendirildi. JPEG sıkıştırılmış alanda model, son derece cesaret verici, son teknoloji ürünü bir performans elde etti.

Sağlanan fotoğrafların akıllı telefonlarla veya diğer akıllı cihazlarla kolayca paylaşılması amaçlandığında, otomatik görüntü alma sistemlerini geliştirmek için T2CI-GAN modeli kullanılabilir. Ek olarak, medya ve iletişim uzmanları için, belirli fotoğrafların daha hafif versiyonlarını bulmalarını ve çevrimiçi olarak yayınlamalarını sağlayan değerli bir araç olabilir.

Son teknolojik gelişmeler nedeniyle dünyamız makineden makineye ve insandan makineye bağlantılara doğru ilerliyor. T2CI-GAN bu durumda çok önemli olacak çünkü makinelerin verileri okuyabilmesi veya anlayabilmesi için sıkıştırılmış formda olması gerekiyor. Model şu anda yalnızca JPEG sıkıştırılmış biçimde fotoğraflar oluşturuyor. Bu nedenle araştırmacıların uzun vadeli hedefi, sıkıştırma algoritmasında kısıtlama olmaksızın herhangi bir sıkıştırılmış biçimde görüntüler üretecek şekilde onu genişletmektir. Ekibin araştırma makalesi yayınlandıktan sonra modelin kaynak kodu da kamuoyunun kullanımına sunulacak.

Bu Makale Marktechpost Ekibi tarafından ' araştırma makalesine dayanarak bir araştırma özeti makalesi olarak yazılmıştır.T2CI-GAN: Üretken Çekişmeli Ağ kullanarak Metinden Sıkıştırılmış Görüntü oluşturmaya'. Bu Araştırmanın Tüm Kredisi Bu Projedeki Araştırmacılara Aittir. Kontrol et kâğıt ve referans makalesi.

Lütfen Katılmayı Unutmayın ML Subreddit'imiz

Khushboo Gupta, MarktechPost'ta danışman stajyerdir. Halen Goa'daki Hindistan Teknoloji Enstitüsü'nde (IIT) B.Tech eğitimine devam etmektedir. Makine Öğrenimi, Doğal Dil İşleme ve Web Geliştirme alanlarına tutkuyla bağlıdır. Çeşitli zorluklara katılarak teknik alan hakkında daha fazla bilgi edinmekten hoşlanıyor.

<!–

Zaman Damgası: 29 Ekim 202231 Ekim 2022