Forskere ved IIIT Allahabad foreslår T2CI GAN: En dyp læringsmodell som genererer komprimerte bilder fra tekst

Publisert av Platon

Følgere: 0

I de siste årene har opprettelsen av tekstlige beskrivelser for visuelle data blitt et overbevisende forskningsspørsmål. Imidlertid er problemformuleringen for å produsere visuelle data fra skriftlige beskrivelser fortsatt mye vanskeligere fordi den krever sammensmelting av Natural Language Processing og Computer Vision-teknikker. De tilgjengelige teknikkene lager ukomprimerte bilder fra tekstlige beskrivelser ved å bruke Generative Adversarial Networks (GAN). Generative kontradiktoriske nettverk er en type maskinlæringsrammeverk som kan produsere tekster, bilder, videoer og stemmeopptak. Tidligere har GAN-er blitt brukt til å produsere bildedatasett for andre dyplæringsalgoritmer for å trene, til å produsere filmer eller animasjoner for spesielle formål, og for å produsere passende bildetekster for bilder.

I virkeligheten blir de fleste visuelle input behandlet og overført i en komprimert form. For å oppnå lagrings- og beregningseffektivitet, gjør det foreslåtte arbeidet en innsats for å direkte produsere visuelle data i komprimert representasjonsform ved å bruke Deep Convolutional GAN (DCGAN). En ny GAN-basert modell, T2CI-GAN, er nylig laget av forskere fra Computer Vision and Biometrics Lab ved IIIT Allahabad og Vignan University i India som kan produsere komprimerte bilder fra tekstbaserte beskrivelser. Denne tilnærmingen kan tjene som et utgangspunkt for å undersøke flere alternativer for bildelagring og innholdsdeling mellom ulike smartenheter.

I tidligere arbeid brukte forskerne GAN-er og andre dyplæringsmodeller for å håndtere ulike oppgaver, for eksempel funksjonsutvinning fra data, tekst- og bildedatasegmentering, ordgjenkjenning i lange tekstutdrag og å lage komprimerte JPEG-bilder. Denne nye modellen utvider disse tidligere initiativene for å takle et beregningsproblem som så langt har fått liten oppmerksomhet i litteraturen. Bare noen få dyplæringsbaserte teknikker brukt av andre forskerteam for å lage bilder fra tekstbeskrivelser produserer komprimerte bilder. I tillegg nærmer de fleste eksisterende systemer for å produsere og komprimere bilder problemet med å gjøre det uavhengig, noe som øker arbeidsbelastningen med databehandling og behandlingstid.

Den foreslåtte T2CI-GAN er en dyp læringsbasert modell som sender ut komprimerte visuelle bilder fra tekstbeskrivelser som input. Dette er en betydelig avvik fra de tradisjonelle tilnærmingene som genererer visuelle representasjoner fra tekstbeskrivelser og ytterligere komprimerer disse bildene. Modellens primære salgsfunksjon er dens evne til å kartlegge tekstbeskrivelser og generere komprimerte bilder direkte.

Forskerteamet laget to GAN-baserte modeller for å produsere komprimerte bilder fra tekstbeskrivelser. Et datasett med komprimerte JPEG DCT-bilder (diskret cosinustransformasjon) ble brukt til å trene den første av disse modellene. Etter opplæring kunne denne modellen produsere komprimerte bilder fra tekstbeskrivelser. På den annen side ble et sett med RGB-bilder brukt til å trene forskernes andre GAN-baserte modell. Denne modellen utviklet muligheten til å produsere JPEG-komprimerte DCT-representasjoner av bilder, som eksplisitt uttrykker en serie datapunkter som en ligning. De foreslåtte modellene ble evaluert ved å bruke både RGB- og JPEG-komprimerte versjoner av det velkjente åpen kildekode-referansedatasettet Oxford-102 Flower-bilder. I det JPEG-komprimerte domenet oppnådde modellen svært oppmuntrende, toppmoderne ytelse.

Når medfølgende bilder er ment å enkelt deles med smarttelefoner eller andre smarte enheter, kan T2CI-GAN-modellen brukes til å forbedre automatiserte bildehentingssystemer. I tillegg kan det være et verdifullt verktøy for medie- og kommunikasjonseksperter, som gjør dem i stand til å finne lettere versjoner av bestemte fotografier å legge ut på nettet.

På grunn av nyere teknologiske fremskritt er vår verden på vei mot maskin-til-maskin- og menneske-til-maskin-forbindelser. T2CI-GAN vil være avgjørende i denne situasjonen fordi maskiner trenger fakta i komprimert form for å kunne lese eller forstå dem. Modellen lager for tiden kun bilder i JPEG-komprimert form. Derfor er forskernes langsiktige mål å utvide den til å produsere bilder i hvilken som helst komprimert form uten begrensning på komprimeringsalgoritmen. Etter at teamets forskningsartikkel er publisert, vil modellens kildekode også gjøres tilgjengelig for allmennheten.

Denne artikkelen er skrevet som en forskningsoppsummeringsartikkel av Marktechpost Staff basert på forskningsoppgaven 'T2CI-GAN: Generering av tekst til komprimert bilde ved hjelp av Generative Adversarial Network'. All ære for denne forskningen går til forskere på dette prosjektet. Sjekk ut papir og referanseartikkel.

Ikke glem å bli med Vår ML Subreddit

Khushboo Gupta er konsulentpraktikant hos MarktechPost. Hun tar for tiden sin B.Tech fra Indian Institute of Technology(IIT), Goa. Hun brenner for feltene maskinlæring, naturlig språkbehandling og webutvikling. Hun liker å lære mer om det tekniske feltet ved å delta i flere utfordringer.

<!–

Tidstempel: Oktober 29, 2022Oktober 31, 2022