Onderzoekers van IIIT Allahabad stellen T2CI GAN voor: een diepgaand leermodel dat gecomprimeerde afbeeldingen uit tekst genereert

Heruitgegeven door Plato

volgers: 0

De afgelopen jaren is het creëren van tekstuele beschrijvingen voor visuele gegevens een boeiend onderzoeksprobleem geworden. De probleemstelling voor het produceren van visuele gegevens uit geschreven beschrijvingen is echter nog steeds veel moeilijker, omdat hiervoor de combinatie van natuurlijke taalverwerking en computervisietechnieken nodig is. De beschikbare technieken creëren ongecomprimeerde afbeeldingen uit tekstuele beschrijvingen met behulp van Generative Adversarial Networks (GAN's). Generatieve Adversarial Networks zijn een soort machinaal leerframework dat teksten, foto's, video's en stemopnames kan produceren. Eerder werden GAN's met succes gebruikt om beelddatasets te produceren die andere deep learning-algoritmen konden trainen, om films of animaties voor specifieke doeleinden te produceren en om geschikte bijschriften voor foto's te produceren.

In werkelijkheid wordt de meeste visuele invoer in gecomprimeerde vorm verwerkt en verzonden. Om opslag- en rekenefficiëntie te bereiken, wordt in het voorgestelde werk een poging gedaan om rechtstreeks visuele gegevens in gecomprimeerde representatievorm te produceren met behulp van Deep Convolutional GAN's (DCGAN's). Een nieuw op GAN gebaseerd model, T2CI-GAN, is onlangs gemaakt door onderzoekers van het Computer Vision and Biometrics Lab van IIIT Allahabad en de Vignan Universiteit in India, dat gecomprimeerde afbeeldingen kan produceren op basis van op tekst gebaseerde beschrijvingen. Deze aanpak zou kunnen dienen als startpunt voor het onderzoeken van verschillende opties voor beeldopslag en het delen van inhoud tussen verschillende slimme apparaten.

In eerder werk gebruikten de onderzoekers GAN's en andere deep learning-modellen om verschillende taken uit te voeren, zoals het extraheren van functies uit gegevens, segmentatie van tekst- en afbeeldingsgegevens, woorddetectie in lange tekstfragmenten en het maken van gecomprimeerde JPEG-afbeeldingen. Dit nieuwe model bouwt voort op deze eerdere initiatieven om een computationeel probleem aan te pakken dat tot nu toe weinig aandacht heeft gekregen in de literatuur. Slechts enkele op deep learning gebaseerde technieken die door andere onderzoeksteams worden gebruikt om afbeeldingen uit tekstbeschrijvingen te maken, produceren gecomprimeerde afbeeldingen. Bovendien benaderen de meeste bestaande systemen voor het produceren en comprimeren van afbeeldingen het probleem om dit onafhankelijk te doen, wat de werklast van de computer- en verwerkingstijd vergroot.

De voorgestelde T2CI-GAN is een op diepgaand leren gebaseerd model dat gecomprimeerde visuele afbeeldingen uit tekstbeschrijvingen als invoer uitvoert. Dit wijkt aanzienlijk af van de traditionele benaderingen die visuele representaties genereren uit tekstbeschrijvingen en die afbeeldingen verder comprimeren. Het belangrijkste verkoopkenmerk van het model is de mogelijkheid om tekstbeschrijvingen in kaart te brengen en direct gecomprimeerde afbeeldingen te genereren.

Het onderzoeksteam creëerde twee op GAN gebaseerde modellen om gecomprimeerde afbeeldingen uit tekstbeschrijvingen te produceren. Een dataset van gecomprimeerde JPEG DCT-afbeeldingen (discrete cosinustransformatie) werd gebruikt om de eerste van deze modellen te trainen. Na training zou dit model gecomprimeerde afbeeldingen kunnen produceren uit tekstbeschrijvingen. Aan de andere kant werd een reeks RGB-foto's gebruikt om het tweede op GAN gebaseerde model van de onderzoekers te trainen. Dit model ontwikkelde de mogelijkheid om JPEG-gecomprimeerde DCT-representaties van afbeeldingen te produceren, die een reeks datapunten expliciet als een vergelijking uitdrukken. De voorgestelde modellen werden geëvalueerd met behulp van zowel de RGB- als de JPEG-gecomprimeerde versies van de bekende open-source benchmarkdataset Oxford-102 Flower-afbeeldingen. In het JPEG-gecomprimeerde domein behaalde het model zeer bemoedigende state-of-the-art prestaties.

Wanneer de aangeleverde foto's bedoeld zijn om eenvoudig te worden gedeeld met smartphones of andere slimme apparaten, kan het T2CI-GAN-model worden gebruikt om geautomatiseerde systemen voor het ophalen van afbeeldingen te verbeteren. Bovendien kan het een waardevol hulpmiddel zijn voor media- en communicatie-experts, waardoor ze lichtere versies van bepaalde foto's kunnen vinden om online te plaatsen.

Als gevolg van de recente technologische vooruitgang is onze wereld op weg naar verbindingen tussen machines en machines. T2CI-GAN zal in deze situatie cruciaal zijn omdat machines feiten in gecomprimeerde vorm nodig hebben om ze te kunnen lezen of begrijpen. Het model maakt momenteel alleen foto's in gecomprimeerde JPEG-vorm. Het langetermijndoel van de onderzoekers is dus om het uit te breiden om afbeeldingen in elke gecomprimeerde vorm te produceren, zonder beperkingen op het compressie-algoritme. Nadat het onderzoeksartikel van het team is gepubliceerd, zal de broncode van het model ook beschikbaar worden gemaakt voor het grote publiek.

Dit artikel is geschreven als een onderzoekssamenvattend artikel door Marktechpost-medewerkers op basis van het onderzoekspaper 'T2CI-GAN: Generatie van tekst naar gecomprimeerde afbeeldingen met behulp van Genative Adversarial Network'. Alle eer voor dit onderzoek gaat naar de onderzoekers van dit project. Bekijk de papier en referentie artikel.

Vergeet alsjeblieft niet om mee te doen Onze ML-subreddit

Khushboo Gupta is een consulting stagiair bij MarktechPost. Ze volgt momenteel haar B.Tech van het Indian Institute of Technology (IIT), Goa. Ze is gepassioneerd door machine learning, natuurlijke taalverwerking en webontwikkeling. Ze vindt het leuk om meer te leren over het technische vakgebied door deel te nemen aan verschillende uitdagingen.

<!–

Tijdstempel: 29 oktober 202231 oktober 2022