Forscher des IIIT Allahabad schlagen T2CI GAN vor: Ein Deep-Learning-Modell, das komprimierte Bilder aus Text generiert

Neuauflage von Plato

Verfolger: 0

In den letzten Jahren ist die Erstellung textueller Beschreibungen für visuelle Daten zu einem zwingenden Forschungsthema geworden. Die Problemstellung zur Erzeugung visueller Daten aus schriftlichen Beschreibungen ist jedoch noch viel schwieriger, da sie die Verschmelzung von Techniken der Verarbeitung natürlicher Sprache und des maschinellen Sehens erfordert. Die verfügbaren Techniken erstellen unkomprimierte Bilder aus Textbeschreibungen mithilfe von Generative Adversarial Networks (GANs). Generative Adversarial Networks sind eine Art maschinelles Lernframework, das Texte, Fotos, Videos und Sprachaufzeichnungen erstellen kann. Zuvor wurden GANs erfolgreich verwendet, um Bilddatensätze für das Training anderer Deep-Learning-Algorithmen zu erstellen, um Filme oder Animationen für bestimmte Zwecke zu erstellen und um entsprechende Bildunterschriften für Fotos zu erstellen.

In der Realität werden die meisten visuellen Eingaben in komprimierter Form verarbeitet und übertragen. Um Speicher- und Recheneffizienz zu erreichen, wird in der vorgeschlagenen Arbeit versucht, visuelle Daten direkt in komprimierter Darstellungsform mithilfe von Deep Convolutional GANs (DCGANs) zu erzeugen. Ein neues GAN-basiertes Modell, T2CI-GAN, wurde kürzlich von Forschern des Computer Vision and Biometrics Lab des IIIT Allahabad und der Vignan University in Indien entwickelt, das komprimierte Bilder aus textbasierten Beschreibungen erzeugen kann. Dieser Ansatz könnte als Ausgangspunkt für die Untersuchung mehrerer Optionen für die Bildspeicherung und den Inhaltsaustausch zwischen verschiedenen Smart-Geräten dienen.

In früheren Arbeiten verwendeten die Forscher GANs und andere Deep-Learning-Modelle, um verschiedene Aufgaben zu bewältigen, wie etwa die Merkmalsextraktion aus Daten, die Segmentierung von Text- und Bilddaten, die Worterkennung in langen Textextrakten und die Erstellung komprimierter JPEG-Bilder. Dieses neuartige Modell erweitert diese früheren Initiativen, um ein Rechenproblem anzugehen, das in der Literatur bisher kaum Beachtung gefunden hat. Nur wenige Deep-Learning-basierte Techniken, die von anderen Forschungsteams zur Erstellung von Bildern aus Textbeschreibungen eingesetzt werden, erzeugen komprimierte Bilder. Darüber hinaus besteht bei den meisten existierenden Systemen zum Erzeugen und Komprimieren von Bildern das Problem, dass sie dies unabhängig voneinander tun, was den Rechenaufwand und die Verarbeitungszeit erhöht.

Das vorgeschlagene T2CI-GAN ist ein Deep-Learning-basiertes Modell, das komprimierte visuelle Bilder aus Textbeschreibungen als Eingabe ausgibt. Dies ist eine deutliche Abkehr von den traditionellen Ansätzen, die visuelle Darstellungen aus Textbeschreibungen generieren und diese Bilder weiter komprimieren. Das wichtigste Verkaufsmerkmal des Modells ist seine Fähigkeit, Textbeschreibungen abzubilden und direkt komprimierte Bilder zu generieren.

Das Forschungsteam erstellte zwei GAN-basierte Modelle, um komprimierte Bilder aus Textbeschreibungen zu erzeugen. Zum Trainieren des ersten dieser Modelle wurde ein Datensatz aus komprimierten JPEG-DCT-Bildern (Diskrete Kosinustransformation) verwendet. Nach dem Training könnte dieses Modell komprimierte Bilder aus Textbeschreibungen erzeugen. Andererseits wurde eine Reihe von RGB-Fotos verwendet, um das zweite GAN-basierte Modell der Forscher zu trainieren. Dieses Modell entwickelte die Fähigkeit, JPEG-komprimierte DCT-Darstellungen von Bildern zu erstellen, die eine Reihe von Datenpunkten explizit als Gleichung ausdrücken. Die vorgeschlagenen Modelle wurden sowohl mit der RGB- als auch der JPEG-komprimierten Version des bekannten Open-Source-Benchmark-Datensatzes Oxford-102 Flower Pictures bewertet. Im JPEG-komprimierten Bereich erzielte das Modell eine äußerst ermutigende Leistung auf dem neuesten Stand der Technik.

Wenn bereitgestellte Fotos problemlos mit Smartphones oder anderen Smart-Geräten geteilt werden sollen, kann das T2CI-GAN-Modell zur Verbesserung automatisierter Bildabrufsysteme verwendet werden. Darüber hinaus kann es ein wertvolles Tool für Medien- und Kommunikationsexperten sein, das es ihnen ermöglicht, leichtere Versionen bestimmter Fotos zu finden und online zu veröffentlichen.

Aufgrund der jüngsten technologischen Fortschritte ist unsere Welt auf dem Weg zu Maschinen-zu-Maschine- und Mensch-zu-Maschine-Verbindungen. T2CI-GAN wird in dieser Situation von entscheidender Bedeutung sein, da Maschinen Fakten in komprimierter Form benötigen, um sie lesen oder verstehen zu können. Das Modell erstellt Fotos derzeit nur in JPEG-komprimierter Form. Das langfristige Ziel der Forscher ist es daher, es so zu erweitern, dass Bilder in beliebiger komprimierter Form ohne Einschränkung des Komprimierungsalgorithmus erzeugt werden können. Nach Veröffentlichung des Forschungsartikels des Teams wird auch der Quellcode des Modells der breiten Öffentlichkeit zugänglich gemacht.

Dieser Artikel wurde als zusammenfassender Forschungsartikel von Marktechpost-Mitarbeitern auf der Grundlage des Forschungspapiers „T2CI-GAN: Generierung von Text zu komprimierten Bildern mithilfe des Generative Adversarial Network'. Alle Anerkennung für diese Forschung geht an die Forscher dieses Projekts. Probier das aus Krepppapier und Referenzartikel.

Bitte vergessen Sie nicht, mitzumachen Unser ML-Subreddit

Khushboo Gupta ist Beratungspraktikantin bei MarktechPost. Sie verfolgt derzeit ihren B.Tech vom Indian Institute of Technology (IIT), Goa. Ihre Leidenschaft gilt den Bereichen maschinelles Lernen, Verarbeitung natürlicher Sprache und Webentwicklung. Sie lernt gerne mehr über den technischen Bereich, indem sie an mehreren Herausforderungen teilnimmt.

<!–

Zeitstempel: 29. Oktober 202231. Oktober 2022