Forskere ved IIIT Allahabad foreslår T2CI GAN: En dyb læringsmodel, der genererer komprimerede billeder fra tekst PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Forskere ved IIIT Allahabad foreslår T2CI GAN: En dyb læringsmodel, der genererer komprimerede billeder fra tekst

I de sidste par år er skabelsen af ​​tekstmæssige beskrivelser til visuelle data blevet et overbevisende forskningsspørgsmål. Problemformuleringen for fremstilling af visuelle data fra skriftlige beskrivelser er dog stadig meget vanskeligere, fordi den kræver en sammensmeltning af Natural Language Processing og Computer Vision-teknikker. De tilgængelige teknikker skaber ukomprimerede billeder ud fra tekstbeskrivelser ved hjælp af Generative Adversarial Networks (GAN'er). Generative modstridende netværk er en type maskinlæringsramme, der kan producere tekster, fotos, videoer og stemmeoptagelser. Tidligere er GAN'er med succes blevet brugt til at producere billeddatasæt til andre deep learning-algoritmer til at træne, til at producere film eller animationer til bestemte formål og til at producere passende billedtekster til fotos. 

I virkeligheden behandles og transmitteres de fleste visuelle input i en komprimeret form. For at opnå lagrings- og beregningseffektivitet gør det foreslåede arbejde en indsats for direkte at producere visuelle data i komprimeret repræsentationsform ved hjælp af Deep Convolutional GAN'er (DCGAN'er). En ny GAN-baseret model, T2CI-GAN, er for nylig blevet skabt af forskere fra Computer Vision and Biometrics Lab fra IIIT Allahabad og Vignan University i Indien, der kan producere komprimerede billeder ud fra tekstbaserede beskrivelser. Denne tilgang kan tjene som udgangspunkt for at undersøge flere muligheder for billedlagring og indholdsdeling mellem forskellige smarte enheder.

I tidligere arbejde brugte forskerne GAN'er og andre deep learning-modeller til at håndtere forskellige opgaver, såsom funktionsudtrækning fra data, tekst- og billeddatasegmentering, ordgenkendelse i lange tekstudtræk og skabelse af komprimerede JPEG-billeder. Denne nye model udvider disse tidligere initiativer til at tackle et beregningsmæssigt problem, der hidtil har fået ringe opmærksomhed i litteraturen. Kun nogle få deep learning-baserede teknikker, der anvendes af andre forskerhold til at skabe billeder ud fra tekstbeskrivelser, producerer komprimerede billeder. Derudover nærmer de fleste eksisterende systemer til produktion og komprimering af billeder sig problemet med at gøre det uafhængigt, hvilket øger arbejdsbyrden med hensyn til databehandling og behandlingstid.

Den foreslåede T2CI-GAN er en dyb læringsbaseret model, der udsender komprimerede visuelle billeder fra tekstbeskrivelser som input. Dette er en væsentlig afvigelse fra de traditionelle tilgange, der genererer visuelle repræsentationer fra tekstbeskrivelser og yderligere komprimerer disse billeder. Modellens primære salgsfunktion er dens evne til at kortlægge tekstbeskrivelser og generere komprimerede billeder direkte.

Forskerholdet skabte to GAN-baserede modeller til at producere komprimerede billeder ud fra tekstbeskrivelser. Et datasæt af komprimerede JPEG DCT (diskret cosinus transformation) billeder blev brugt til at træne den første af disse modeller. Efter træning kunne denne model producere komprimerede billeder ud fra tekstbeskrivelser. På den anden side blev der brugt et sæt RGB-fotos til at træne forskernes anden GAN-baserede model. Denne model udviklede evnen til at producere JPEG-komprimerede DCT-repræsentationer af billeder, som eksplicit udtrykker en række datapunkter som en ligning. De foreslåede modeller blev evalueret ved hjælp af både RGB- og JPEG-komprimerede versioner af det velkendte open source-benchmark-datasæt Oxford-102 Flower-billeder. I det JPEG-komprimerede domæne opnåede modellen en yderst opmuntrende avanceret ydeevne.

Når medfølgende fotos er beregnet til at blive nemt delt med smartphones eller andre smarte enheder, kan T2CI-GAN-modellen bruges til at forbedre automatiske billedhentningssystemer. Derudover kan det være et værdifuldt værktøj for medie- og kommunikationseksperter, der gør dem i stand til at finde lettere versioner af bestemte fotografier til at poste online.

På grund af de seneste teknologiske fremskridt er vores verden på vej mod maskine-til-maskine og menneske-til-maskine-forbindelser. T2CI-GAN vil være afgørende i denne situation, fordi maskiner har brug for fakta i komprimeret form for at kunne læse eller forstå dem. Modellen opretter i øjeblikket kun billeder i JPEG-komprimeret form. Derfor er forskernes langsigtede mål at udvide det til at producere billeder i enhver komprimeret form uden begrænsning af komprimeringsalgoritmen. Efter holdets forskningsartikel er publiceret, vil modellens kildekode også blive gjort tilgængelig for offentligheden.

Denne artikel er skrevet som et forskningsresumé af Marktechpost Staff baseret på forskningspapiret 'T2CI-GAN: Generering af tekst til komprimeret billede ved hjælp af Generative Adversarial Network'. Al ære for denne forskning går til forskere på dette projekt. Tjek ud papir , referenceartikel.

Glem ikke at deltage Vores ML Subreddit

Khushboo Gupta er konsulentpraktikant hos MarktechPost. Hun forfølger i øjeblikket sin B.Tech fra Indian Institute of Technology(IIT), Goa. Hun brænder for områderne Machine Learning, Natural Language Processing og Webudvikling. Hun nyder at lære mere om det tekniske område ved at deltage i flere udfordringer.

<!–

->

Tidsstempel:

Mere fra Blockchain-konsulenter