Raziskovalci iz IIIT Allahabad predlagajo T2CI GAN: model globokega učenja, ki generira stisnjene slike iz besedila PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Raziskovalci iz IIIT Allahabad predlagajo T2CI GAN: model globokega učenja, ki ustvarja stisnjene slike iz besedila

V zadnjih nekaj letih je ustvarjanje besedilnih opisov za vizualne podatke postalo prepričljivo raziskovalno vprašanje. Vendar pa je navedba problema za ustvarjanje vizualnih podatkov iz pisnih opisov še vedno veliko težja, ker zahteva združitev tehnik obdelave naravnega jezika in računalniškega vida. Razpoložljive tehnike ustvarjajo nestisnjene slike iz besedilnih opisov z uporabo generativnih kontradiktornih omrežij (GAN). Generativna kontradiktorna omrežja so vrsta ogrodja strojnega učenja, ki lahko proizvaja besedila, fotografije, videoposnetke in glasovne posnetke. Prej so bili GAN-ji uspešno uporabljeni za izdelavo naborov slikovnih podatkov za druge algoritme globokega učenja za usposabljanje, za izdelavo filmov ali animacij za posebne namene in za izdelavo ustreznih napisov za fotografije. 

V resnici se večina vizualnih vnosov obdela in prenese v stisnjeni obliki. Da bi dosegli učinkovitost shranjevanja in računalniško učinkovitost, predlagano delo poskuša neposredno proizvesti vizualne podatke v stisnjeni predstavitveni obliki z uporabo globokih konvolucijskih GAN (DCGAN). Nov model, ki temelji na GAN, T2CI-GAN, so nedavno ustvarili raziskovalci iz Laboratorija za računalniški vid in biometrijo IIIT Allahabad in univerze Vignan v Indiji, ki lahko ustvari stisnjene slike iz besedilnih opisov. Ta pristop bi lahko služil kot izhodišče za raziskovanje več možnosti za shranjevanje slik in skupno rabo vsebine med različnimi pametnimi napravami.

V prejšnjem delu so raziskovalci uporabljali GAN in druge modele globokega učenja za reševanje različnih nalog, kot so ekstrakcija funkcij iz podatkov, segmentacija besedilnih in slikovnih podatkov, zaznavanje besed v dolgih izvlečkih besedila in ustvarjanje stisnjenih slik JPEG. Ta novi model razširja te prejšnje pobude za reševanje računalniškega vprašanja, ki je bilo doslej deležno le malo pozornosti v literaturi. Le nekaj tehnik, ki temeljijo na poglobljenem učenju, ki jih uporabljajo druge raziskovalne skupine za ustvarjanje slik iz besedilnih opisov, ustvari stisnjene slike. Poleg tega večina obstoječih sistemov za izdelavo in stiskanje slik pristopi k problemu neodvisnega izvajanja, kar poveča delovno obremenitev z računalništvom in časom obdelave.

Predlagani T2CI-GAN je model, ki temelji na poglobljenem učenju, ki kot vhod izpiše stisnjene vizualne slike iz besedilnih opisov. To je pomemben odmik od tradicionalnih pristopov, ki ustvarjajo vizualne predstavitve iz besedilnih opisov in dodatno stiskajo te slike. Primarna prodajna značilnost modela je njegova sposobnost preslikave besedilnih opisov in neposrednega ustvarjanja stisnjenih slik.

Raziskovalna skupina je ustvarila dva modela, ki temeljita na GAN, za izdelavo stisnjenih slik iz besedilnih opisov. Nabor podatkov stisnjenih slik JPEG DCT (diskretna kosinusna transformacija) je bil uporabljen za usposabljanje prvega od teh modelov. Po usposabljanju bi lahko ta model ustvaril stisnjene slike iz besedilnih opisov. Po drugi strani pa je bil nabor fotografij RGB uporabljen za usposabljanje drugega raziskovalčevega modela, ki temelji na GAN. Ta model je razvil zmožnost izdelave JPEG-stisnjenih DCT predstavitev slik, ki eksplicitno izražajo vrsto podatkovnih točk kot enačbo. Predlagani modeli so bili ovrednoteni s stisnjenimi različicami RGB in JPEG dobro znanega odprtokodnega nabora primerjalnih podatkov Oxford-102 Flower pictures. V domeni stisnjenega JPEG je model dosegel zelo spodbudno najsodobnejšo zmogljivost.

Kadar so priložene fotografije namenjene enostavni delitvi s pametnimi telefoni ali drugimi pametnimi napravami, se lahko model T2CI-GAN uporabi za izboljšanje avtomatiziranih sistemov za iskanje slik. Poleg tega je lahko dragoceno orodje za strokovnjake za medije in komunikacije, ki jim omogoča, da najdejo svetlejše različice določenih fotografij za objavo na spletu.

Zaradi nedavnega tehnološkega napredka se naš svet usmerja k povezavam stroj-stroj in človek-stroj. T2CI-GAN bo v tej situaciji ključnega pomena, ker stroji potrebujejo dejstva v stisnjeni obliki, da jih lahko preberejo ali razumejo. Model trenutno ustvarja samo fotografije v stisnjeni obliki JPEG. Zato je dolgoročni cilj raziskovalcev, da ga razširijo na ustvarjanje slik v kateri koli stisnjeni obliki brez omejitev glede algoritma stiskanja. Po objavi raziskovalnega članka ekipe bo izvorna koda modela na voljo tudi širši javnosti.

Ta članek je bil napisan kot povzetek raziskave osebja Marktechposta na podlagi raziskovalnega dokumenta 'T2CI-GAN: Generiranje besedila v stisnjeno sliko z uporabo Generative Adversarial Network'. Vse zasluge za to raziskavo gredo raziskovalcem tega projekta. Oglejte si papirja in referenčni članek.

Prosim, ne pozabite se pridružiti Naš ML Subreddit

Khushboo Gupta je svetovalni pripravnik pri MarktechPost. Trenutno študira diplomo tehnologije na Indijskem inštitutu za tehnologijo (IIT) v Goi. Navdušena je nad področji strojnega učenja, obdelave naravnega jezika in spletnega razvoja. Uživa v spoznavanju tehničnega področja s sodelovanjem v številnih izzivih.

<!–

->

Časovni žig:

Več od Svetovalci v verigi blokov