IIIT Allahabadin tutkijat ehdottavat T2CI GAN:ia: syväoppimismallia, joka luo pakattuja kuvia tekstistä

Julkaissut Platon

seuraajia: 0

Muutaman viime vuoden aikana visuaalisen datan tekstimuotoisten kuvausten luomisesta on tullut kiinnostava tutkimuskysymys. Ongelmanratkaisu visuaalisen datan tuottamiseksi kirjallisista kuvauksista on kuitenkin vielä paljon vaikeampaa, koska se vaatii luonnollisen kielen käsittelyn ja tietokonenäön tekniikoiden yhdistämistä. Käytettävissä olevat tekniikat luovat pakkaamattomia kuvia tekstikuvauksista käyttämällä GAN-verkkoja (Generative Adversarial Networks). Generative Adversarial Networks ovat eräänlainen koneoppimiskehys, joka voi tuottaa tekstejä, valokuvia, videoita ja äänitallenteita. Aiemmin GAN:ia on käytetty menestyksekkäästi tuottamaan kuvatietojoukkoja muita syväoppimisalgoritmeja varten koulutusta varten, tuottamaan elokuvia tai animaatioita tiettyihin tarkoituksiin ja tuottamaan sopivia kuvatekstejä valokuville.

Todellisuudessa suurin osa visuaalisesta syötteestä käsitellään ja lähetetään pakatussa muodossa. Tallennus- ja laskentatehokkuuden saavuttamiseksi ehdotetussa työssä pyritään suoraan tuottamaan visuaalista dataa pakatuissa esitysmuodoissa käyttämällä Deep Convolutional GAN:eja (DCGAN). Intian IIIT Allahabadin ja Vignanin yliopiston Computer Vision and Biometrics Labin tutkijat loivat äskettäin uuden GAN-pohjaisen mallin, T2CI-GAN, joka pystyy tuottamaan pakattuja kuvia tekstipohjaisista kuvauksista. Tämä lähestymistapa voi toimia lähtökohtana tutkittaessa useita vaihtoehtoja kuvien säilytykseen ja sisällön jakamiseen eri älylaitteiden välillä.

Aikaisemmissa töissä tutkijat käyttivät GAN:ia ja muita syväoppimismalleja eri tehtävien hoitamiseen, kuten ominaisuuksien poimimiseen tiedosta, tekstin ja kuvadatan segmentointiin, sanan havaitsemiseen pitkistä tekstiotteista ja pakattujen JPEG-kuvien luomisesta. Tämä uusi malli laajentaa näitä aikaisempia aloitteita käsitelläkseen laskennallista ongelmaa, joka on toistaiseksi saanut vähän huomiota kirjallisuudessa. Vain muutama syvään oppimiseen perustuva tekniikka, jota muut tutkimusryhmät käyttävät kuvien luomiseen tekstikuvauksista, tuottavat pakattuja kuvia. Lisäksi useimmat olemassa olevat järjestelmät kuvien tuottamiseen ja pakkaamiseen lähestyvät ongelmaa tehdä niin itsenäisesti, mikä lisää laskenta- ja käsittelyaikaa.

Ehdotettu T2CI-GAN on syvään oppimiseen perustuva malli, joka tulostaa syötteenä pakattuja visuaalisia kuvia tekstikuvauksista. Tämä on merkittävä poikkeama perinteisistä lähestymistavoista, jotka luovat visuaalisia esityksiä tekstikuvauksista ja pakkaavat näitä kuvia edelleen. Mallin ensisijainen myyntiominaisuus on sen kyky kartoittaa tekstikuvauksia ja luoda suoraan pakattuja kuvia.

Tutkimusryhmä loi kaksi GAN-pohjaista mallia tuottamaan pakattuja kuvia tekstikuvauksista. Ensimmäisen näistä malleista opetettiin tietojoukkoa pakattuja JPEG DCT (diskreetti kosinimuunnos) -kuvia. Harjoittelun jälkeen tämä malli pystyi tuottamaan pakattuja kuvia tekstikuvauksista. Toisaalta RGB-valokuvien sarjaa käytettiin tutkijoiden toisen GAN-pohjaisen mallin kouluttamiseen. Tämä malli kehitti kyvyn tuottaa JPEG-pakattuja DCT-esityksiä kuvista, jotka selkeästi ilmaisevat sarjan datapisteitä yhtälönä. Ehdotetut mallit arvioitiin käyttämällä tunnetun avoimen lähdekoodin vertailutietojoukon Oxford-102 Flower -kuvien sekä RGB- että JPEG-pakkattuja versioita. JPEG-pakatulla alueella malli saavutti erittäin rohkaisevan huipputason suorituskyvyn.

Kun mukana toimitetut valokuvat on tarkoitettu helposti jaettavaksi älypuhelimien tai muiden älylaitteiden kanssa, T2CI-GAN-mallia voidaan käyttää parantamaan automaattisia kuvanhakujärjestelmiä. Lisäksi se voi olla arvokas työkalu median ja viestinnän asiantuntijoille, koska he voivat löytää valokuvista kevyempiä versioita julkaistavaksi verkossa.

Viimeaikaisen teknologisen kehityksen ansiosta maailmamme on matkalla kohti koneen ja koneen välisiä yhteyksiä. T2CI-GAN on ratkaiseva tässä tilanteessa, koska koneet tarvitsevat tosiasiat pakatussa muodossa voidakseen lukea tai ymmärtää ne. Malli luo tällä hetkellä vain kuvia JPEG-pakattuna. Näin ollen tutkijoiden pitkän aikavälin tavoitteena on laajentaa sitä tuottamaan kuvia missä tahansa pakatussa muodossa ilman pakkausalgoritmin rajoituksia. Kun ryhmän tutkimusartikkeli on julkaistu, mallin lähdekoodi tulee myös suuren yleisön saataville.

Tämä artikkeli on kirjoittanut Marktechpost Staffin tutkimuksen yhteenvetoartikkeliksi tutkimuspaperin pohjalta.T2CI-GAN: Tekstin pakatun kuvan luominen käyttämällä generatiivista vastavuoroista verkkoa'. Kaikki kiitokset tästä tutkimuksesta menee tämän projektin tutkijoille. Tutustu paperi ja viiteartikkeli.

Älä unohda liittyä Meidän ML Subreddit

Khushboo Gupta on MarktechPostin konsulttiharjoittelija. Hän suorittaa parhaillaan B.Tech-tutkintoa Intian teknologiainstituutista (IIT), Goa. Hän on intohimoinen koneoppimisen, luonnollisen kielen käsittelyn ja verkkokehityksen aloista. Hän oppii mielellään lisää tekniikan alasta osallistumalla useisiin haasteisiin.

<!-

Aikaleima: Lokakuu 29, 2022Lokakuu 31, 2022