Forskare vid IIIT Allahabad föreslår T2CI GAN: En modell för djupinlärning som genererar komprimerade bilder från text

Återutgiven av Platon

anhängare: 0

Under de senaste åren har skapandet av textbeskrivningar för visuell data blivit en övertygande forskningsfråga. Problemformuleringen för att producera visuella data från skriftliga beskrivningar är dock fortfarande mycket svårare eftersom det kräver en sammansmältning av Natural Language Processing och Computer Vision-tekniker. De tillgängliga teknikerna skapar okomprimerade bilder från textbeskrivningar med hjälp av Generative Adversarial Networks (GAN). Generativa kontradiktoriska nätverk är en typ av maskininlärningsramverk som kan producera texter, foton, videor och röstinspelningar. Tidigare har GAN framgångsrikt använts för att producera bilddatauppsättningar för andra djupinlärningsalgoritmer att träna, för att producera filmer eller animationer för särskilda ändamål och för att producera lämpliga bildtexter för foton.

I verkligheten bearbetas och överförs de flesta visuella input i en komprimerad form. För att uppnå lagrings- och beräkningseffektivitet gör det föreslagna arbetet en ansträngning att direkt producera visuell data i komprimerad representationsform med hjälp av Deep Convolutional GAN (DCGAN). En ny GAN-baserad modell, T2CI-GAN, har nyligen skapats av forskare från Computer Vision and Biometrics Lab vid IIIT Allahabad och Vignan University i Indien som kan producera komprimerade bilder från textbaserade beskrivningar. Detta tillvägagångssätt kan fungera som en utgångspunkt för att undersöka flera alternativ för bildlagring och innehållsdelning mellan olika smarta enheter.

I tidigare arbete har forskarna använt GAN:er och andra djupinlärningsmodeller för att hantera olika uppgifter, såsom funktionsextraktion från data, text- och bilddatasegmentering, orddetektering i långa textutdrag och att skapa komprimerade JPEG-bilder. Denna nya modell expanderar på dessa tidigare initiativ för att ta itu med en beräkningsfråga som hittills har fått ringa uppmärksamhet i litteraturen. Endast ett fåtal djupinlärningsbaserade tekniker som används av andra forskarlag för att skapa bilder från textbeskrivningar ger komprimerade bilder. Dessutom närmar sig de flesta befintliga system för att producera och komprimera bilder problemet med att göra det självständigt, vilket ökar arbetsbelastningen för beräkning och bearbetningstid.

Den föreslagna T2CI-GAN är en djupinlärningsbaserad modell som matar ut komprimerade visuella bilder från textbeskrivningar som dess input. Detta är en betydande avvikelse från de traditionella metoderna som genererar visuella representationer från textbeskrivningar och ytterligare komprimerar dessa bilder. Modellens primära säljfunktion är dess förmåga att kartlägga textbeskrivningar och generera komprimerade bilder direkt.

Forskargruppen skapade två GAN-baserade modeller för att producera komprimerade bilder från textbeskrivningar. En datauppsättning av komprimerade JPEG DCT-bilder (diskret cosinustransform) användes för att träna den första av dessa modeller. Efter utbildning kunde denna modell producera komprimerade bilder från textbeskrivningar. Å andra sidan användes en uppsättning RGB-bilder för att träna forskarnas andra GAN-baserade modell. Denna modell utvecklade förmågan att producera JPEG-komprimerade DCT-representationer av bilder, som uttryckligen uttrycker en serie datapunkter som en ekvation. De föreslagna modellerna utvärderades med både RGB- och JPEG-komprimerade versioner av det välkända benchmarkdatasetet Oxford-102 Flower pictures med öppen källkod. I den JPEG-komprimerade domänen uppnådde modellen mycket uppmuntrande toppmoderna prestanda.

När medföljande foton är avsedda att enkelt delas med smartphones eller andra smarta enheter, kan T2CI-GAN-modellen användas för att förbättra system för automatisk bildhämtning. Dessutom kan det vara ett värdefullt verktyg för media- och kommunikationsexperter, vilket gör det möjligt för dem att hitta lättare versioner av särskilda fotografier att lägga upp online.

På grund av de senaste tekniska framstegen är vår värld på väg mot maskin-till-maskin och människa-till-maskin-anslutningar. T2CI-GAN kommer att vara avgörande i denna situation eftersom maskiner behöver fakta i komprimerad form för att kunna läsa eller förstå dem. Modellen skapar för närvarande bara foton i JPEG-komprimerad form. Således är forskarnas långsiktiga mål att expandera den till att producera bilder i vilken komprimerad form som helst utan begränsning av komprimeringsalgoritmen. Efter att teamets forskningsartikel publicerats kommer även modellens källkod att göras tillgänglig för allmänheten.

Denna artikel är skriven som en sammanfattande artikel av Marktechpost Staff baserad på forskningsrapporten 'T2CI-GAN: Generering av text till komprimerad bild med Generative Adversarial Network'. All kredit för denna forskning går till forskare i detta projekt. Kolla in papper och referensartikel.

Glöm inte att gå med Vår ML Subreddit

Khushboo Gupta är konsultpraktikant på MarktechPost. Hon läser för närvarande sin B.Tech från Indian Institute of Technology(IIT), Goa. Hon brinner för områdena maskininlärning, naturlig språkbehandling och webbutveckling. Hon tycker om att lära sig mer om det tekniska området genom att delta i flera utmaningar.

<!–

Tidsstämpel: Oktober 29, 2022Oktober 31, 2022