IIIT Allahabad 的研究人员提出 T2CI GAN：一种从文本生成压缩图像的深度学习模型

由柏拉图重新发布

关注： 0

在过去的几年中，为视觉数据创建文本描述已成为一个引人注目的研究问题。然而，从书面描述生成视觉数据的问题陈述仍然要困难得多，因为它需要自然语言处理和计算机视觉技术的融合。可用的技术使用生成对抗网络（GAN）根据文本描述创建未压缩的图像。生成对抗网络是一种机器学习框架，可以生成文本、照片、视频和录音。此前，GAN 已成功用于生成图像数据集以供其他深度学习算法进行训练、制作用于特定目的的电影或动画，以及为照片生成适当的说明文字。

实际上，大多数视觉输入都是以压缩形式处理和传输的。为了实现存储和计算效率，建议的工作努力利用深度卷积 GAN（DCGAN）直接生成压缩表示形式的视觉数据。印度 IIIT 阿拉哈巴德计算机视觉和生物识别实验室和印度维尼昂大学的研究人员最近创建了一种基于 GAN 的新模型 T2CI-GAN，该模型可以根据基于文本的描述生成压缩图像。这种方法可以作为研究各种智能设备之间图像存储和内容共享的多种选项的起点。

在早期的工作中，研究人员使用 GAN 和其他深度学习模型来处理各种任务，例如从数据中提取特征、文本和图像数据分割、冗长文本提取中的单词检测以及创建压缩的 JPEG 图像。这种新颖的模型扩展了这些早期举措，以解决迄今为止在文献中很少受到关注的计算问题。其他研究团队仅使用少数基于深度学习的技术从文本描述创建图像来生成压缩图像。此外，大多数现有的用于生成和压缩图像的系统都独立地解决这样做的问题，这增加了计算工作量和处理时间。

建议的 T2CI-GAN 是一种基于深度学习的模型，它输出来自文本描述的压缩视觉图像作为其输入。这与从文本描述生成视觉表示并进一步压缩这些图像的传统方法有很大不同。该模型的主要卖点是能够映射文本描述并直接生成压缩图像。

研究团队创建了两个基于 GAN 的模型，从文本描述生成压缩图像。使用压缩 JPEG DCT（离散余弦变换）图像数据集来训练第一个模型。经过训练，该模型可以根据文本描述生成压缩图像。另一方面，一组 RGB 照片被用来训练研究人员的第二个基于 GAN 的模型。该模型开发了生成图像的 JPEG 压缩 DCT 表示的能力，该表示将一系列数据点明确表示为方程。使用著名开源基准数据集 Oxford-102 Flower 图片的 RGB 和 JPEG 压缩版本对建议的模型进行了评估。在 JPEG 压缩领域，该模型实现了非常令人鼓舞的最先进性能。

当提供的照片旨在与智能手机或其他智能设备轻松共享时，可以利用 T2CI-GAN 模型来增强自动图像检索系统。此外，它对于媒体和传播专家来说是一个有价值的工具，使他们能够找到特定照片的更轻版本并发布到网上。

由于最近的技术进步，我们的世界正在走向机器对机器和人对机器的连接。在这种情况下，T2CI-GAN 将至关重要，因为机器需要压缩形式的事实才能阅读或理解它们。该模型目前仅创建 JPEG 压缩形式的照片。因此，研究人员的长期目标是将其扩展为生成任何压缩形式的图像，而不受压缩算法的限制。团队的研究文章发表后，模型的源代码也将向公众开放。

本文是 Marktechpost 工作人员根据研究论文撰写的研究总结文章 'T2CI-GAN：使用生成对抗网络生成文本到压缩图像'. 这项研究的所有功劳都归功于该项目的研究人员。 查看 纸 和 参考文章.

请不要忘记加入我们的 ML Subreddit

Khushboo Gupta 是 MarktechPost 的咨询实习生。她目前正在果阿印度理工学院 (IIT) 攻读学士学位。她对机器学习、自然语言处理和 Web 开发领域充满热情。她喜欢通过参加多项挑战来更多地了解技术领域。

–>

时间戳记： 2022 年 10 月 29 日2022 年 10 月 31 日

Webaverse 联合创始人披露了 4 万美元的加密货币黑客

源群集：

区块链顾问

源节点： 1801089

时间戳记： 2023 年 2 月 9 日

数据科学家和商业领袖的指标设计

源群集：

区块链顾问

源节点： 1728694

时间戳记： 2022 年 10 月 23 日

锁定在基于以太坊的去中心化交易所的总价值

源群集：

区块链顾问

源节点： 1800757

时间戳记： 2023 年 2 月 8 日

BitKeep 钱包用户突破 10 万

源群集：

区块链顾问

源节点： 1822800

时间戳记： 2023 年 4 月 4 日

如何在没有社交媒体的情况下营销您的业务

源群集：

区块链顾问

源节点： 1757719

时间戳记： 2022 年 11 月 16 日

Vitalik Buterin 在 FTX 崩盘后提供加密课程

源群集：

区块链顾问

源节点： 1760376

时间戳记： 2022 年 11 月 21 日

国际清算银行与法国、新加坡、瑞士中央银行探索 CBDC、DeFi 协议

源群集：

区块链顾问

源节点： 1748153

时间戳记： 2022 年 11 月 7 日

ESG，un factor de sustentabilidad y crecimiento empresarial

源群集：

区块链顾问

源节点： 1735380

时间戳记： 2022 年 11 月 3 日

比特币挖矿问题修改显示 2022 年第二大涨幅——指标接近无与伦比的高点

源群集：

区块链顾问

源节点： 1648718

时间戳记： 2022 年 9 月 1 日

郑州“iPhone 城”工厂的 Covid 起义内部 PlatoBlockchain Data Intelligence。垂直搜索。人工智能。

郑州“iPhone 城”工厂的 Covid 叛乱内部

源群集：

区块链顾问

源节点： 1766486

时间戳记： 2022 年 12 月 1 日

该计划向美国空军人员教授人工智能的基础知识

源群集：

区块链顾问

源节点： 1785638

时间戳记： 2023 年 1 月 11 日

Mars Hub 推出独立的 Cosmos 应用链

源群集：

区块链顾问

源节点： 1792370

时间戳记： 2023 年 1 月 23 日

IIIT Allahabad 的研究人员提出 T2CI GAN：一种从文本生成压缩图像的深度学习模型

由柏拉图重新发布

更多来自区块链顾问

Webaverse 联合创始人披露了 4 万美元的加密货币黑客

数据科学家和商业领袖的指标设计

BitKeep 钱包用户突破 10 万

如何在没有社交媒体的情况下营销您的业务

Vitalik Buterin 在 FTX 崩盘后提供加密课程

国际清算银行与法国、新加坡、瑞士中央银行探索 CBDC、DeFi 协议

ESG，un factor de sustentabilidad y crecimiento empresarial

比特币挖矿问题修改显示 2022 年第二大涨幅——指标接近无与伦比的高点

郑州“iPhone 城”工厂的 Covid 叛乱内部

Mars Hub 推出独立的 Cosmos 应用链

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自 区块链顾问

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自区块链顾问