IIIT Allahabadi teadlased pakuvad välja T2CI GAN: süvaõppemudeli, mis genereerib tekstist tihendatud pilte

Taasavaldanud Platon

järgijaid: 0

Viimastel aastatel on visuaalsete andmete tekstiliste kirjelduste loomine muutunud kaalukaks uurimisprobleemiks. Kirjalike kirjelduste põhjal visuaalsete andmete loomise probleemi püstitamine on siiski palju keerulisem, kuna see nõuab loomuliku keele töötlemise ja arvutinägemise tehnikate ühendamist. Saadaolevad tehnikad loovad tekstiliste kirjelduste põhjal tihendamata pilte, kasutades generatiivseid võistlevaid võrgustikke (GAN). Generatiivsed võistlevad võrgud on masinõppe raamistik, mis suudab toota tekste, fotosid, videoid ja helisalvestisi. Varem on GAN-e edukalt kasutatud piltide andmekogude loomiseks teiste süvaõppe algoritmide jaoks, et neid treenida, teatud otstarbel filme või animatsioone toota ning fotodele sobivaid pealdisi luua.

Tegelikkuses töödeldakse ja edastatakse suurem osa visuaalsest sisendist tihendatud kujul. Salvestus- ja arvutusliku tõhususe saavutamiseks püütakse kavandatud tööga luua visuaalseid andmeid otse tihendatud esitusvormis, kasutades sügavaid konvolutsioonilisi GAN-e (DCGAN). Indias asuva IIIT Allahabadi ja Vignani ülikooli arvutinägemise ja biomeetria labori teadlased lõid hiljuti uue GAN-põhise mudeli T2CI-GAN, mis suudab tekstipõhistest kirjeldustest pakitud pilte toota. See lähenemine võib olla lähtepunkt piltide salvestamise ja sisu jagamise erinevate nutiseadmete vahel erinevate võimaluste uurimisel.

Varasemas töös kasutasid teadlased GAN-e ja muid süvaõppemudeleid erinevate ülesannete lahendamiseks, nagu andmetest funktsioonide eraldamine, teksti- ja pildiandmete segmenteerimine, sõnade tuvastamine pikkades tekstiväljavõtetes ja tihendatud JPEG-piltide loomine. See uudne mudel laiendab neid varasemaid algatusi, et lahendada arvutuslik probleem, mis on seni kirjanduses vähe tähelepanu pälvinud. Ainult mõned sügaval õppimisel põhinevad tehnikad, mida teised uurimisrühmad kasutavad tekstikirjeldustest piltide loomiseks, toodavad tihendatud pilte. Lisaks sellele lähenevad enamik olemasolevaid süsteeme piltide tootmiseks ja tihendamiseks probleemile iseseisvalt, mis suurendab arvutus- ja töötlemisaja töökoormust.

Soovitatav T2CI-GAN on sügaval õppimisel põhinev mudel, mis väljastab sisendina tekstikirjeldustest tihendatud visuaalseid pilte. See on märkimisväärne kõrvalekalle traditsioonilistest lähenemisviisidest, mis loovad tekstikirjeldustest visuaalseid esitusi ja tihendavad neid pilte veelgi. Mudeli peamine müügifunktsioon on selle võime vastendada tekstikirjeldusi ja genereerida otse tihendatud pilte.

Uurimisrühm lõi kaks GAN-põhist mudelit, et toota tekstikirjeldustest tihendatud pilte. Esimese neist mudelitest treenimiseks kasutati tihendatud JPEG DCT (diskreetne koosinuse teisendus) kujutiste andmekogumit. Pärast koolitust võib see mudel toota tekstikirjeldustest tihendatud pilte. Teisest küljest kasutati teadlaste teise GAN-põhise mudeli koolitamiseks RGB-fotode komplekti. See mudel arendas välja võimaluse toota piltide JPEG-tihendatud DCT-esitusi, mis väljendavad selgelt andmepunktide seeriat võrrandina. Soovitatud mudeleid hinnati tuntud avatud lähtekoodiga võrdlusandmete kogumi Oxford-102 Flower piltide RGB ja JPEG tihendatud versioonide abil. JPEG-tihendatud domeenis saavutas mudel väga julgustava tipptasemel jõudluse.

Kui kaasasolevad fotod on mõeldud nutitelefonide või muude nutiseadmetega hõlpsaks jagamiseks, võib T2CI-GAN mudelit kasutada automaatsete pildiotsingusüsteemide täiustamiseks. Lisaks võib see olla väärtuslik tööriist meedia- ja kommunikatsiooniekspertidele, võimaldades neil leida teatud fotode kergemaid versioone, mida veebis postitada.

Viimaste tehnoloogiliste edusammude tõttu liigub meie maailm masinatevaheliste ja inimestevaheliste ühenduste poole. T2CI-GAN on selles olukorras ülioluline, sest masinad vajavad nende lugemiseks või mõistmiseks tihendatud fakte. Praegu loob mudel fotosid ainult JPEG tihendatud kujul. Seega on teadlaste pikaajaline eesmärk laiendada seda, et toota pilte mis tahes tihendatud kujul ilma tihendusalgoritmi piiranguteta. Pärast meeskonna uurimisartikli avaldamist tehakse mudeli lähtekood ka laiemale avalikkusele kättesaadavaks.

See artikkel on kirjutatud Marktechposti personali uurimistöö kokkuvõtliku artiklina, mis põhineb uurimistööl "T2CI-GAN: teksti tihendatud kujutiseks genereerimine, kasutades generatiivset võistlevat võrku'. Kogu tunnustus selle uuringu eest läheb selle projekti teadlastele. Tutvuge paber ja viiteartikkel.

Palun ärge unustage liituda Meie ML Subreddit

Khushboo Gupta on MarktechPosti konsultatsioonipraktikant. Praegu õpib ta Goas India Tehnoloogiainstituudis (IIT) bakalaureuseõppes. Ta on kirglik masinõppe, loomuliku keele töötlemise ja veebiarenduse valdkondadesse. Talle meeldib tehnikavaldkonna kohta rohkem teada saada, osaledes mitmel väljakutsel.

<!–

Ajatempel: Oktoober 29, 2022Oktoober 31, 2022