人工智能图像生成正在以天文数字的速度发展。我们还能辨别图片真假吗？

关注： 0

假摄影并不是什么新鲜事。在 1910 年代，英国作家亚瑟·柯南·道尔 (Arthur Conan Doyle) 被两个学龄姐妹所欺骗，她们拍摄了优雅的仙女在花园里嬉戏的照片。

五张“科廷利仙女”照片中的第一张，由 Elsie Wright 于 1917 年拍摄。图片来源：维基百科

今天很难相信这些照片会愚弄任何人，但直到 1980 年代，一位名叫杰弗里克劳利的专家才有胆量直接运用他的胶片摄影知识并推断出显而易见的事情。

这些照片是假的，后来其中一位姐妹自己也承认了这一点。

数码摄影为造假者和侦探开辟了丰富的技术。

如今，对可疑图像的法医检查涉及寻找数码摄影固有的品质，例如检查嵌入照片的元数据，使用 Adobe Photoshop 等软件来纠正图像中的失真，以及寻找操纵的迹象，例如区域被复制以掩盖原始特征。

有时数字编辑太微妙而无法检测，但当我们调整明暗像素的分布方式时，它就会跃入视野。例如，2010 年 NASA 发布了一个土星的卫星 Dione 和 Titan 的照片. 它绝不是假的，而是经过清理以去除杂散的伪影——它得到了阴谋论者的注意.

好奇，我把图像放到 Photoshop 中。下图大致再现了它的外观。

大多数数码照片都是压缩格式，例如 JPEG，通过删除相机捕获的大部分信息来缩小尺寸。标准化算法确保删除的信息具有最小的可见影响——但它确实留下了痕迹。

图像任何区域的压缩将取决于图像中发生的情况和当前的相机设置；当一张假图像结合了多个来源时，通常可以通过以下方式检测到这一点仔细分析压缩伪影.

一些取证方法与图像的格式无关，但本质上是视觉侦探工作. 照片中的每个人都以相同的方式点亮吗？阴影和反射有意义吗？耳朵和手是否在正确的位置显示光影？人们的眼中反映了什么？如果我们用 3D 建模场景，房间的所有线条和角度会加起来吗？

亚瑟柯南道尔可能被童话照片所迷惑，但我认为他的创作夏洛克福尔摩斯在法医照片分析的世界中是正确的。

当前图像的爆炸式增长由文字转图片创建人工智能工具在许多方面比从胶片到数码摄影的转变更为激进。

我们现在可以通过键入来召唤我们想要的任何图像。这些图像不是由预先存在的像素块拼凑而成的科学照片。它们是具有指定内容、质量和样式的全新图像。

直到最近，用于生成这些图像的复杂神经网络对公众的可用性有限。这在 23 年 2022 月 XNUMX 日发生了变化，向公众发布了开源稳定扩散. 现在，任何在其计算机中拥有游戏级 Nvidia 显卡的人都可以创建 AI 图像内容，而无需任何研究实验室或企业看门人的活动。

文本到图像的人工智能从训练中获得智慧——分析大量图像/字幕对。每个系统的优势和劣势部分源于它所训练的图像。这是一个例子：这就是 Stable Diffusion 看到 George Clooney 熨烫的方式。

这远非现实。所有 Stable Diffusion 必须继续的是它学到的信息，虽然很明显它见过乔治克鲁尼并且可以将那串字母与演员的特征联系起来，但它不是克鲁尼专家。

但是，它通常会看到并消化更多中年男性的照片，所以让我们看看当我们在相同的场景中要求一个普通的中年人时会发生什么。

这是一个明显的改进，但仍然不太现实。与往常一样，手和耳朵的复杂几何形状是寻找伪造迹象的好地方——尽管在这种媒介中，我们关注的是空间几何而不是不可能的照明。

可能还有其他线索。如果我们仔细重建房间，角落会是方形的吗？货架有意义吗？一位习惯于检查数码照片的法医专家可能会对此提出要求。

如果我们扩展文本到图像系统的知识，它可以做得更好。您可以添加自己描述的照片来补充现有的培训。这个过程被称为文本倒置.

近日，谷歌发布了梦想展位，一种替代的、更复杂的方法，用于将特定的人、对象甚至艺术风格注入到文本到图像的 AI 系统中。

这个过程需要重型硬件，但结果令人震惊。一些伟大的工作已经开始在 Reddit 上分享。看那些照片在下面的帖子中显示放入 DreamBooth 的图像和来自 Stable Diffusion 的真实假图像。

我们不再相信自己的眼睛，但至少现在我们仍然可以相信法医专家的眼睛。完全有可能未来的系统也可以被故意训练以欺骗它们。

我们正在迅速进入一个完美的摄影甚至视频将很普遍的时代。时间会证明这将是多么重要，但与此同时，值得记住 Cottingley Fairy 照片的教训——有时人们只是想相信，即使是明显的假货。

本文重新发表谈话根据知识共享许可。阅读原创文章.

图片来源：布伦丹·墨菲 /提供

时间戳记： 2023 年 2 月 1 日

AI 图像生成正以天文数字的速度发展。我们还能判断一张图片是否是假的吗？