Investigadores del IIIT Allahabad proponen T2CI GAN: un modelo de aprendizaje profundo que genera imágenes comprimidas a partir de texto

Reeditado por Platón

seguidores: 0

En los últimos años, la creación de descripciones textuales de datos visuales se ha convertido en un tema de investigación apremiante. Sin embargo, el planteamiento del problema para producir datos visuales a partir de descripciones escritas es aún mucho más difícil porque requiere la fusión de técnicas de procesamiento del lenguaje natural y visión por computadora. Las técnicas disponibles crean imágenes sin comprimir a partir de descripciones textuales utilizando Generative Adversarial Networks (GAN). Las redes generativas adversarias son un tipo de marco de aprendizaje automático que puede producir textos, fotografías, vídeos y grabaciones de voz. Anteriormente, las GAN se han utilizado con éxito para producir conjuntos de datos de imágenes para entrenar otros algoritmos de aprendizaje profundo, producir películas o animaciones para propósitos particulares y producir subtítulos apropiados para fotografías.

En realidad, la mayor parte de la información visual se procesa y transmite en forma comprimida. Para lograr almacenamiento y eficiencia computacional, el trabajo sugerido hace un esfuerzo por producir directamente datos visuales en forma de representación comprimida utilizando GAN convolucionales profundas (DCGAN). Investigadores del Laboratorio de Biometría y Visión por Computadora del IIIT Allahabad y la Universidad de Vignan en India crearon recientemente un nuevo modelo basado en GAN, T2CI-GAN, que puede producir imágenes comprimidas a partir de descripciones basadas en texto. Este enfoque podría servir como punto de partida para investigar varias opciones para el almacenamiento de imágenes y el intercambio de contenidos entre varios dispositivos inteligentes.

En trabajos anteriores, los investigadores utilizaron GAN y otros modelos de aprendizaje profundo para manejar diversas tareas, como la extracción de características de los datos, la segmentación de datos de texto e imágenes, la detección de palabras en extractos de texto extensos y la creación de imágenes JPEG comprimidas. Este novedoso modelo amplía estas iniciativas anteriores para abordar un problema computacional que hasta ahora ha recibido escasa atención en la literatura. Sólo unas pocas técnicas basadas en aprendizaje profundo utilizadas por otros equipos de investigación para crear imágenes a partir de descripciones de texto producen imágenes comprimidas. Además, la mayoría de los sistemas existentes para producir y comprimir imágenes abordan el problema de hacerlo de forma independiente, lo que aumenta la carga de trabajo de computación y el tiempo de procesamiento.

El T2CI-GAN sugerido es un modelo basado en aprendizaje profundo que genera imágenes visuales comprimidas a partir de descripciones de texto como entrada. Esta es una desviación significativa de los enfoques tradicionales que generan representaciones visuales a partir de descripciones de texto y comprimen aún más esas imágenes. La principal característica de venta del modelo es su capacidad para asignar descripciones de texto y generar imágenes comprimidas directamente.

El equipo de investigación creó dos modelos basados en GAN para producir imágenes comprimidas a partir de descripciones de texto. Se utilizó un conjunto de datos de imágenes JPEG DCT (transformación de coseno discreta) comprimidas para entrenar el primero de estos modelos. Después del entrenamiento, este modelo podría producir imágenes comprimidas a partir de descripciones de texto. Por otro lado, se utilizó un conjunto de fotografías RGB para entrenar el segundo modelo basado en GAN de los investigadores. Este modelo desarrolló la capacidad de producir representaciones DCT de imágenes comprimidas en JPEG, que expresan explícitamente una serie de puntos de datos como una ecuación. Los modelos sugeridos se evaluaron utilizando las versiones comprimidas RGB y JPEG del conocido conjunto de datos de referencia de código abierto Oxford-102 Flower Pictures. En el dominio comprimido JPEG, el modelo logró un rendimiento de última generación muy alentador.

Cuando las fotografías suministradas están destinadas a compartirse fácilmente con teléfonos inteligentes u otros dispositivos inteligentes, el modelo T2CI-GAN se puede utilizar para mejorar los sistemas automatizados de recuperación de imágenes. Además, puede ser una herramienta valiosa para los expertos en medios y comunicaciones, permitiéndoles encontrar versiones más ligeras de determinadas fotografías para publicar en línea.

Debido a los recientes avances tecnológicos, nuestro mundo se dirige hacia conexiones de máquina a máquina y de hombre a máquina. T2CI-GAN será crucial en esta situación porque las máquinas necesitan datos en forma comprimida para poder leerlos o comprenderlos. Actualmente, el modelo sólo crea fotografías en formato JPEG comprimido. Por tanto, el objetivo a largo plazo de los investigadores es ampliarlo para producir imágenes en cualquier forma comprimida sin restricciones en el algoritmo de compresión. Una vez publicado el artículo de investigación del equipo, el código fuente del modelo también estará disponible para el público en general.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación 'T2CI-GAN: generación de texto a imagen comprimida utilizando Generative Adversarial Network'. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la   y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Khushboo Gupta es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Goa. Le apasionan los campos del aprendizaje automático, el procesamiento del lenguaje natural y el desarrollo web. Le gusta aprender más sobre el campo técnico al participar en varios desafíos.

<!–

Sello de tiempo: 29 de Octubre de 202231 de Octubre de 2022