Cercetătorii de la IIIT Allahabad propun T2CI GAN: un model de învățare profundă care generează imagini comprimate din text

Republicat de Platon

Urmaritori: 0

În ultimii câțiva ani, crearea de descrieri textuale pentru datele vizuale a devenit o problemă de cercetare convingătoare. Cu toate acestea, formularea problemei pentru producerea de date vizuale din descrierile scrise este încă mult mai dificilă, deoarece necesită fuziunea tehnicilor de procesare a limbajului natural și de viziune pe computer. Tehnicile disponibile creează imagini necomprimate din descrieri textuale folosind rețele generative adverse (GAN). Rețelele adversare generative sunt un tip de cadru de învățare automată care poate produce texte, fotografii, videoclipuri și înregistrări vocale. Anterior, GAN-urile au fost folosite cu succes pentru a produce seturi de date de imagini pentru alți algoritmi de învățare profundă, pentru a se antrena, pentru a produce filme sau animații în anumite scopuri și pentru a produce subtitrări adecvate pentru fotografii.

În realitate, majoritatea intrărilor vizuale sunt procesate și transmise într-o formă comprimată. Pentru a obține eficiența de stocare și de calcul, lucrarea sugerată face un efort pentru a produce direct date vizuale sub formă de reprezentare comprimată utilizând GAN-uri convoluționale profunde (DCGAN). Un nou model bazat pe GAN, T2CI-GAN, a fost creat recent de cercetătorii de la Computer Vision and Biometrics Lab al IIIT Allahabad și Vignan University din India, care poate produce imagini comprimate din descrieri bazate pe text. Această abordare ar putea servi ca punct de plecare pentru investigarea mai multor opțiuni pentru stocarea imaginilor și partajarea conținutului între diferite dispozitive inteligente.

În lucrările anterioare, cercetătorii au folosit GAN-uri și alte modele de învățare profundă pentru a gestiona diverse sarcini, cum ar fi extragerea de caracteristici din date, segmentarea datelor de text și imagini, detectarea cuvintelor în extrase de text lungi și crearea de imagini JPEG comprimate. Acest model nou extinde aceste inițiative anterioare pentru a aborda o problemă de calcul care a primit până acum puțină atenție în literatură. Doar câteva tehnici bazate pe învățarea profundă utilizate de alte echipe de cercetare pentru a crea imagini din descrierile de text produc imagini comprimate. În plus, majoritatea sistemelor existente pentru producerea și comprimarea imaginilor abordează problema de a face acest lucru în mod independent, ceea ce crește volumul de lucru al timpului de calcul și procesare.

T2CI-GAN sugerat este un model bazat pe învățarea profundă, care emite imagini vizuale comprimate din descrierile de text ca intrare. Aceasta este o abatere semnificativă de la abordările tradiționale care generează reprezentări vizuale din descrierile de text și comprimă în continuare acele imagini. Caracteristica principală de vânzare a modelului este capacitatea sa de a mapa descrierile de text și de a genera imagini comprimate direct.

Echipa de cercetare a creat două modele bazate pe GAN pentru a produce imagini comprimate din descrierile de text. Un set de date de imagini JPEG DCT (transformată cosinus discretă) comprimate a fost folosit pentru a antrena primul dintre aceste modele. În urma instruirii, acest model ar putea produce imagini comprimate din descrierile de text. Pe de altă parte, un set de fotografii RGB au fost folosite pentru a antrena al doilea model bazat pe GAN al cercetătorilor. Acest model a dezvoltat capacitatea de a produce reprezentări DCT comprimate JPEG ale imaginilor, care exprimă în mod explicit o serie de puncte de date ca o ecuație. Modelele sugerate au fost evaluate folosind atât versiunile comprimate RGB, cât și JPEG ale binecunoscutului set de date de referință cu sursă deschisă Oxford-102 Flower pictures. În domeniul comprimat JPEG, modelul a obținut performanțe de ultimă generație extrem de încurajatoare.

Atunci când fotografiile furnizate sunt destinate să fie partajate cu ușurință cu smartphone-uri sau alte dispozitive inteligente, modelul T2CI-GAN poate fi utilizat pentru a îmbunătăți sistemele automate de recuperare a imaginilor. În plus, poate fi un instrument valoros pentru experții în media și comunicații, permițându-le să găsească versiuni mai ușoare ale anumitor fotografii pentru a le posta online.

Datorită progreselor tehnologice recente, lumea noastră se îndreaptă către conexiuni de la mașină la mașină și de la om la mașină. T2CI-GAN va fi crucial în această situație, deoarece mașinile au nevoie de fapte în formă comprimată pentru a le citi sau înțelege. Modelul creează în prezent doar fotografii în formă comprimată JPEG. Astfel, scopul pe termen lung al cercetătorilor este de a-l extinde pentru a produce imagini sub orice formă comprimată, fără restricții asupra algoritmului de compresie. După publicarea articolului de cercetare al echipei, codul sursă al modelului va fi, de asemenea, pus la dispoziția publicului larg.

Acest articol este scris ca un articol rezumat al cercetării de către personalul Marktechpost pe baza lucrării de cercetare "T2CI-GAN: generarea de text în imagine comprimată utilizând Generative Adversarial Network'. Toate creditele pentru această cercetare sunt acordate cercetătorilor din acest proiect. Verificați hârtie și articol de referință.

Vă rugăm să nu uitați să vă alăturați Subreddit-ul nostru ML

Khushboo Gupta este stagiar de consultanță la MarktechPost. Ea își urmează în prezent B.Tech de la Institutul Indian de Tehnologie (IIT), Goa. Este pasionată de domeniile Machine Learning, Natural Language Processing și Web Development. Îi place să învețe mai multe despre domeniul tehnic participând la mai multe provocări.

<!–

Timestamp-ul: Octombrie 29, 2022Octombrie 31, 2022