人工智能工具让图像看起来更好 | 广达杂志

人工智能工具让图像看起来更好 | 广达杂志

人工智能工具让图像看起来更好 |广达杂志柏拉图区块链数据智能。垂直搜索。人工智能。

介绍

这是犯罪和科幻小说中最常见的陈词滥调之一:一名调查员在电脑屏幕上调出一张模糊的照片,要求对其进行增强,然后“砰”的一声,图像变得清晰,揭示了一些重要的线索。 这是一个很棒的讲故事的便利,但几十年来它一直是一个令人沮丧的小说——过度放大图像,它会变得明显像素化。 没有足够的数据来执行更多操作。

“如果你只是天真地放大图像,它就会变得模糊。 会有很多细节,但也可能是错误的。” 布莱恩·卡坦扎罗Nvidia 应用深度学习研究副总裁。

最近,研究人员和专业人士已经开始将人工智能算法纳入他们的图像增强工具中,使该过程变得更容易、更强大,但从任何图像中检索多少数据仍然存在限制。 幸运的是,随着研究人员进一步推动增强算法,他们正在寻找新的方法来应对这些限制,甚至有时找到克服它们的方法。

在过去的十年中,研究人员开始使用一种称为生成对抗网络(GAN)的新型人工智能模型来增强图像,该模型可以生成详细的、令人印象深刻的图片。 “图像突然看起来好多了,”说 托梅尔·米凯利是以色列理工学院的电气工程师。 但令他感到惊讶的是,GAN 生成的图像显示出高度的失真,失真可以衡量增强图像与其所显示内容的基本现实的接近程度。 GAN 生成的图像看起来漂亮、自然,但它们实际上是在编造或“幻觉”不准确的细节,这些细节被记录为高度失真。

米凯利看到照片修复领域分裂成两个不同的子社区。 “其中一张展示了漂亮的图片,其中许多是由 GAN 制作的。 另一个显示了数据,但没有显示很多图像,因为它们看起来不太好,”他说。

2017 年,Michaeli 和他的研究生 Yochai Blau 更正式地研究了这种二分法。 他们使用与人类主观判断密切相关的已知感知质量度量,在失真与感知质量图上绘制了各种图像增强算法的性能。 正如米凯利所预期的那样,一些算法产生了非常高的视觉质量,而另一些算法则非常准确,失真度低。 但没有一个具备这两种优势。 你必须选择其中之一。 研究人员将此称为 感知与扭曲的权衡.

米凯利也 挑战其他研究人员 提出能够在给定失真水平下产生最佳图像质量的算法,以便在漂亮图片算法和漂亮统计算法之间进行公平比较。 从那时起,数百名人工智能研究人员报告了他们算法的失真和感知质量, 引用 Michaeli 和 Blau 的论文 这描述了权衡。

有时,感知与扭曲权衡的影响并不可怕。 例如,英伟达发现高清屏幕不能很好地渲染一些低清晰度的视觉内容,因此在二月份它发布了一款使用深度学习来升级流媒体视频的工具。 在这种情况下,Nvidia 的工程师选择了感知质量而不是准确性,并接受了这样一个事实:当算法放大视频时,它将弥补一些原始视频中没有的视觉细节。 “这个模型产生了幻觉。 这都是猜测,”卡坦扎罗说。 “大多数时候,超分辨率模型猜错也没关系,只要它是一致的。”

介绍

当然,研究和医学中的应用需要更高的准确性。 人工智能技术带来了成像领域的重大进步,但它“有时会带来不必要的副作用,例如过度拟合或[添加]虚假特征,因此需要格外小心,”他说 姚俊杰杜克大学生物医学工程师。 去年,他与人合写了一篇 描述人工智能工具如何改进测量大脑血流和新陈代谢的现有方法,同时安全地保持在感知与扭曲权衡的准确方面。

规避从图像中提取数据量限制的一种方法是简单地合并来自更多图像的数据 - 尽管这通常并不那么简单。 通过卫星图像研究环境的研究人员在结合不同来源的视觉数据方面取得了进展。 2021年,中国和英国的一组研究人员 融合数据 来自两种不同类型的卫星,以便更好地了解刚果盆地的森林砍伐情况,刚果盆地是世界第二大热带雨林,也是最大的生物多样性宝库之一。 研究人员从两颗 Landsat 卫星获取数据,这些卫星几十年来一直在测量森林砍伐情况,并使用深度学习技术将图像的分辨率从 30 米提高到 10 米。 然后,他们将该图像集与两颗 Sentinel-2 卫星的数据融合在一起,这两颗卫星的探测器阵列略有不同。 他们写道,与单独使用 Sentinel-11 或 Landsat-21/2 图像相比,组合图像“能够检测到多 7% 到 8% 的受干扰区域”。

米凯利提出了另一种方法来绕过(如果不是通过的话)信息可访问性的硬性限制。 模型可以显示原始图像的多种不同解释,而不是对如何增强低质量图像给出一个明确的答案。 在一篇题为“可探索的超分辨率,”他帮助演示了图像增强工具如何向用户提供多种建议。 一个人穿着看似灰色衬衫的模糊、低分辨率图像可以被重建为高分辨率图像,其中衬衫上有黑白垂直条纹、水平条纹或格子,所有这些都同样合理。

在另一个例子中,Michaeli 拍摄了一张低质量的车牌照片,并通过领先的 AI 图像增强器运行它,结果显示车牌上的 1 看起来最像 1。 但是,当图像由 Michaeli 设计的另一种更开放的算法处理时,该数字看起来同样可能是 8、XNUMX 或 XNUMX。这种方法可以帮助排除其他数字,而不会错误地得出该数字为零的结论。

随着不同学科以各自的方式应对感知与扭曲的权衡,我们可以从人工智能图像中提取多少内容以及我们可以在多大程度上信任这些图像仍然是核心问题。 “我们应该记住,为了输出这些漂亮的图像,算法只是弥补细节,”米凯利说。 我们可以减轻这些幻觉,但万能的、解决犯罪的“增强”按钮仍然是一个梦想。

时间戳记:

更多来自 量子杂志