IIIT Allahabad 的研究人员提出了 T2CI GAN:一种从文本柏拉图区块链数据智能生成压缩图像的深度学习模型。垂直搜索。人工智能。

IIIT Allahabad 的研究人员提出 T2CI GAN:一种从文本生成压缩图像的深度学习模型

在过去的几年中,为视觉数据创建文本描述已成为一个引人注目的研究问题。然而,从书面描述生成视觉数据的问题陈述仍然要困难得多,因为它需要自然语言处理和计算机视觉技术的融合。可用的技术使用生成对抗网络(GAN)根据文本描述创建未压缩的图像。生成对抗网络是一种机器学习框架,可以生成文本、照片、视频和录音。此前,GAN 已成功用于生成图像数据集以供其他深度学习算法进行训练、制作用于特定目的的电影或动画,以及为照片生成适当的说明文字。 

实际上,大多数视觉输入都是以压缩形式处理和传输的。为了实现存储和计算效率,建议的工作努力利用深度卷积 GAN(DCGAN)直接生成压缩表示形式的视觉数据。印度 IIIT 阿拉哈巴德计算机视觉和生物识别实验室和印度维尼昂大学的研究人员最近创建了一种基于 GAN 的新模型 T2CI-GAN,该模型可以根据基于文本的描述生成压缩图像。这种方法可以作为研究各种智能设备之间图像存储和内容共享的多种选项的起点。

在早期的工作中,研究人员使用 GAN 和其他深度学习模型来处理各种任务,例如从数据中提取特征、文本和图像数据分割、冗长文本提取中的单词检测以及创建压缩的 JPEG 图像。这种新颖的模型扩展了这些早期举措,以解决迄今为止在文献中很少受到关注的计算问题。其他研究团队仅使用少数基于深度学习的技术从文本描述创建图像来生成压缩图像。此外,大多数现有的用于生成和压缩图像的系统都独立地解决这样做的问题,这增加了计算工作量和处理时间。

建议的 T2CI-GAN 是一种基于深度学习的模型,它输出来自文本描述的压缩视觉图像作为其输入。这与从文本描述生成视觉表示并进一步压缩这些图像的传统方法有很大不同。该模型的主要卖点是能够映射文本描述并直接生成压缩图像。

研究团队创建了两个基于 GAN 的模型,从文本描述生成压缩图像。使用压缩 JPEG DCT(离散余弦变换)图像数据集来训练第一个模型。经过训练,该模型可以根据文本描述生成压缩图像。另一方面,一组 RGB 照片被用来训练研究人员的第二个基于 GAN 的模型。该模型开发了生成图像的 JPEG 压缩 DCT 表示的能力,该表示将一系列数据点明确表示为方程。使用著名开源基准数据集 Oxford-102 Flower 图片的 RGB 和 JPEG 压缩版本对建议的模型进行了评估。在 JPEG 压缩领域,该模型实现了非常令人鼓舞的最先进性能。

当提供的照片旨在与智能手机或其他智能设备轻松共享时,可以利用 T2CI-GAN 模型来增强自动图像检索系统。此外,它对于媒体和传播专家来说是一个有价值的工具,使他们能够找到特定照片的更轻版本并发布到网上。

由于最近的技术进步,我们的世界正在走向机器对机器和人对机器的连接。在这种情况下,T2CI-GAN 将至关重要,因为机器需要压缩形式的事实才能阅读或理解它们。该模型目前仅创建 JPEG 压缩形式的照片。因此,研究人员的长期目标是将其扩展为生成任何压缩形式的图像,而不受压缩算法的限制。团队的研究文章发表后,模型的源代码也将向公众开放。

本文是 Marktechpost 工作人员根据研究论文撰写的研究总结文章 'T2CI-GAN:使用生成对抗网络生成文本到压缩图像'. 这项研究的所有功劳都归功于该项目的研究人员。 查看 参考文章.

请不要忘记加入 我们的 ML Subreddit

Khushboo Gupta 是 MarktechPost 的咨询实习生。她目前正在果阿印度理工学院 (IIT) 攻读学士学位。她对机器学习、自然语言处理和 Web 开发领域充满热情。她喜欢通过参加多项挑战来更多地了解技术领域。

–>

时间戳记:

更多来自 区块链顾问