Pesquisadores do IIIT Allahabad propõem T2CI GAN: um modelo de aprendizado profundo que gera imagens compactadas a partir de texto

Republicado por Platão

seguidores: 0

Nos últimos anos, a criação de descrições textuais para dados visuais tornou-se uma questão de pesquisa convincente. No entanto, a definição do problema para produzir dados visuais a partir de descrições escritas é ainda muito mais difícil porque exige a fusão de técnicas de Processamento de Linguagem Natural e Visão Computacional. As técnicas disponíveis criam imagens não compactadas a partir de descrições textuais usando Redes Adversariais Generativas (GANs). Redes Adversariais Gerativas são um tipo de estrutura de aprendizado de máquina que pode produzir textos, fotos, vídeos e gravações de voz. Anteriormente, os GANs foram usados com sucesso para produzir conjuntos de dados de imagens para outros algoritmos de aprendizagem profunda treinarem, para produzir filmes ou animações para fins específicos e para produzir legendas apropriadas para fotos.

Na realidade, a maior parte da entrada visual é processada e transmitida de forma compactada. A fim de alcançar eficiência de armazenamento e computacional, o trabalho sugerido faz um esforço para produzir diretamente dados visuais em forma de representação compactada utilizando Deep Convolutional GANs (DCGANs). Um novo modelo baseado em GAN, T2CI-GAN, foi criado recentemente por pesquisadores do Laboratório de Visão Computacional e Biometria do IIIT Allahabad e da Universidade Vignan, na Índia, que pode produzir imagens compactadas a partir de descrições baseadas em texto. Esta abordagem pode servir como ponto de partida para investigar diversas opções de armazenamento de imagens e compartilhamento de conteúdo entre vários dispositivos inteligentes.

Em trabalhos anteriores, os pesquisadores usaram GANs e outros modelos de aprendizagem profunda para lidar com várias tarefas, como extração de recursos de dados, segmentação de dados de texto e imagem, detecção de palavras em longas extrações de texto e criação de imagens JPEG compactadas. Este novo modelo expande estas iniciativas anteriores para resolver uma questão computacional que até agora tem recebido pouca atenção na literatura. Apenas algumas técnicas baseadas em aprendizagem profunda utilizadas por outras equipes de pesquisa para criar imagens a partir de descrições de texto produzem imagens compactadas. Além disso, a maioria dos sistemas existentes para produção e compressão de imagens aborda o problema de fazê-lo de forma independente, o que aumenta a carga de trabalho de computação e o tempo de processamento.

O T2CI-GAN sugerido é um modelo baseado em aprendizagem profunda que gera imagens visuais compactadas a partir de descrições de texto como entrada. Este é um afastamento significativo das abordagens tradicionais que geram representações visuais a partir de descrições de texto e comprimem ainda mais essas imagens. O principal recurso de venda do modelo é a capacidade de mapear descrições de texto e gerar imagens compactadas diretamente.

A equipe de pesquisa criou dois modelos baseados em GAN para produzir imagens compactadas a partir de descrições de texto. Um conjunto de dados de imagens JPEG DCT (transformada discreta de cosseno) compactadas foi usado para treinar o primeiro desses modelos. Após o treinamento, este modelo poderia produzir imagens compactadas a partir de descrições de texto. Por outro lado, um conjunto de fotos RGB foi usado para treinar o segundo modelo baseado em GAN dos pesquisadores. Este modelo desenvolveu a capacidade de produzir representações de imagens DCT compactadas em JPEG, que expressam explicitamente uma série de pontos de dados como uma equação. Os modelos sugeridos foram avaliados usando as versões compactadas RGB e JPEG do conhecido conjunto de dados de benchmark de código aberto Oxford-102 Flower Pictures. No domínio compactado JPEG, o modelo alcançou um desempenho de última geração altamente encorajador.

Quando as fotos fornecidas se destinam a ser facilmente compartilhadas com smartphones ou outros dispositivos inteligentes, o modelo T2CI-GAN pode ser utilizado para aprimorar sistemas automatizados de recuperação de imagens. Além disso, pode ser uma ferramenta valiosa para especialistas em mídia e comunicação, permitindo-lhes encontrar versões mais leves de fotografias específicas para publicar online.

Devido aos recentes avanços tecnológicos, nosso mundo está caminhando para conexões máquina-máquina e homem-máquina. O T2CI-GAN será crucial nesta situação porque as máquinas precisam de fatos compactados para lê-los ou compreendê-los. Atualmente, o modelo só cria fotos em formato compactado JPEG. Assim, o objetivo a longo prazo dos investigadores é expandi-lo para produzir imagens em qualquer forma comprimida, sem restrições ao algoritmo de compressão. Após a publicação do artigo de pesquisa da equipe, o código-fonte do modelo também será disponibilizado ao público em geral.

Este artigo foi escrito como um artigo de resumo de pesquisa pela equipe do Marktechpost com base no trabalho de pesquisa 'T2CI-GAN: geração de texto para imagem compactada usando rede adversária generativa'. Todo o crédito por esta pesquisa vai para os pesquisadores deste projeto. Confira o papel e artigo de referência.

Por favor, não se esqueça de participar Nosso Subreddit de ML

Khushboo Gupta é estagiário de consultoria na MarktechPost. Atualmente, ela está cursando bacharelado em tecnologia no Indian Institute of Technology (IIT), Goa. Ela é apaixonada pelas áreas de Aprendizado de Máquina, Processamento de Linguagem Natural e Desenvolvimento Web. Ela gosta de aprender mais sobre a área técnica participando de diversos desafios.

<!–

Carimbo de hora: 29 de outubro de 202231 de outubro de 2022