I ricercatori dell'IIIT Allahabad propongono T2CI GAN: un modello di deep learning che genera immagini compresse dal testo

Ripubblicato da Platone

Seguaci: 0

Negli ultimi anni, la creazione di descrizioni testuali per dati visivi è diventata una questione di ricerca interessante. Tuttavia, la soluzione del problema relativo alla produzione di dati visivi da descrizioni scritte è ancora molto più difficile perché richiede la fusione delle tecniche di elaborazione del linguaggio naturale e di visione artificiale. Le tecniche disponibili creano immagini non compresse da descrizioni testuali utilizzando Generative Adversarial Networks (GAN). Le reti avversarie generative sono un tipo di framework di apprendimento automatico in grado di produrre testi, foto, video e registrazioni vocali. In precedenza, i GAN sono stati utilizzati con successo per produrre set di dati di immagini per l’addestramento di altri algoritmi di deep learning, per produrre filmati o animazioni per scopi particolari e per produrre didascalie appropriate per le foto.

In realtà, la maggior parte degli input visivi viene elaborata e trasmessa in forma compressa. Al fine di ottenere efficienza di archiviazione e computazionale, il lavoro suggerito si sforza di produrre direttamente dati visivi in forma di rappresentazione compressa utilizzando GAN convoluzionali profondi (DCGAN). Un nuovo modello basato su GAN, T2CI-GAN, è stato recentemente creato dai ricercatori del Computer Vision and Biometrics Lab dell'IIIT Allahabad e dell'Università di Vignan in India, in grado di produrre immagini compresse da descrizioni basate su testo. Questo approccio potrebbe servire come punto di partenza per studiare diverse opzioni per l’archiviazione delle immagini e la condivisione dei contenuti tra vari dispositivi intelligenti.

Nel lavoro precedente, i ricercatori hanno utilizzato GAN e altri modelli di deep learning per gestire varie attività, come l’estrazione di funzionalità dai dati, la segmentazione di dati di testo e immagini, il rilevamento di parole in lunghi estratti di testo e la creazione di immagini JPEG compresse. Questo nuovo modello espande queste precedenti iniziative per affrontare un problema computazionale che finora ha ricevuto scarsa attenzione in letteratura. Solo poche tecniche basate sul deep learning utilizzate da altri gruppi di ricerca per creare immagini da descrizioni testuali producono immagini compresse. Inoltre, la maggior parte dei sistemi esistenti per la produzione e la compressione delle immagini affrontano il problema in modo indipendente, il che aumenta il carico di lavoro in termini di calcolo e tempo di elaborazione.

Il T2CI-GAN suggerito è un modello basato sul deep learning che restituisce come input immagini visive compresse da descrizioni di testo. Si tratta di un allontanamento significativo dagli approcci tradizionali che generano rappresentazioni visive dalle descrizioni testuali e comprimono ulteriormente tali immagini. La principale caratteristica di vendita del modello è la sua capacità di mappare descrizioni di testo e generare direttamente immagini compresse.

Il gruppo di ricerca ha creato due modelli basati su GAN per produrre immagini compresse da descrizioni di testo. Per addestrare il primo di questi modelli è stato utilizzato un set di dati di immagini JPEG DCT (trasformata discreta del coseno). Dopo la formazione, questo modello potrebbe produrre immagini compresse da descrizioni di testo. D'altra parte, una serie di foto RGB è stata utilizzata per addestrare il secondo modello basato su GAN dei ricercatori. Questo modello ha sviluppato la capacità di produrre rappresentazioni DCT di immagini compresse in JPEG, che esprimono esplicitamente una serie di punti dati come un'equazione. I modelli suggeriti sono stati valutati utilizzando sia la versione compressa RGB che JPEG del noto set di dati benchmark open source Oxford-102 Flower Pictures. Nel dominio compresso JPEG, il modello ha raggiunto prestazioni all'avanguardia altamente incoraggianti.

Quando le foto fornite devono essere facilmente condivise con smartphone o altri dispositivi intelligenti, il modello T2CI-GAN può essere utilizzato per migliorare i sistemi di recupero automatizzato delle immagini. Inoltre, può essere uno strumento prezioso per gli esperti di media e comunicazione, consentendo loro di trovare versioni più leggere di particolari fotografie da pubblicare online.

A causa dei recenti progressi tecnologici, il nostro mondo si sta dirigendo verso connessioni macchina-macchina e uomo-macchina. T2CI-GAN sarà cruciale in questa situazione perché le macchine hanno bisogno di fatti in forma compressa per poterli leggere o comprendere. Il modello attualmente crea solo foto in formato compresso JPEG. Pertanto l'obiettivo a lungo termine dei ricercatori è quello di espanderlo per produrre immagini in qualsiasi forma compressa senza restrizioni sull'algoritmo di compressione. Dopo la pubblicazione dell'articolo di ricerca del team, anche il codice sorgente del modello sarà reso disponibile al grande pubblico.

Questo articolo è stato scritto come un articolo di riepilogo della ricerca da Marktechpost Staff basato sul documento di ricerca "T2CI-GAN: generazione di testo in immagini compresse utilizzando la rete generativa avversaria'. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Dai un'occhiata al carta ed articolo di riferimento.

Per favore, non dimenticare di iscriverti Il nostro subreddit ML

Khushboo Gupta è uno stagista consulente presso MarktechPost. Attualmente sta conseguendo il suo B.Tech presso l'Indian Institute of Technology (IIT), Goa. È appassionata dei campi del machine learning, dell'elaborazione del linguaggio naturale e dello sviluppo web. Le piace imparare di più sul campo tecnico partecipando a diverse sfide.

<!–

Timestamp: Ottobre 29, 2022Ottobre 31, 2022