Meta 的新人工智能可以挑选并剪切图像中的任何对象，甚至是以前从未见过的对象

由柏拉图重新发布

关注： 0

Meta 的新人工智能可以挑选并剪切图像中的任何对象，甚至是 PlatoBlockchain 数据智能之前从未见过的对象。垂直搜索。人工智能。

在视觉场景中挑选出单独的物体对我们来说似乎很直观，但机器很难完成这项任务。现在，来自 Meta 的新 AI 模型已经对物体是什么有了广泛的认识，即使它以前从未见过物体，也可以将其分离出来。

这似乎是一项相当平淡无奇的计算机视觉任务，但能够解析图像并计算出一个对象的结束位置和另一个对象的开始位置是一项非常基本的技能，否则许多更复杂的任务将无法解决。

“对象分割”并不是什么新鲜事；人工智能研究人员多年来一直致力于此。但通常，构建这些模型是一个耗时的过程，需要大量的图像人工注释和大量计算资源。通常，生成的模型针对特定用例高度专业化。

不过现在，Meta 的研究人员已经推出了 Segment Anything Model (SAM)，它能够剪切出任何场景中的任何对象，无论它以前是否见过类似的东西。该模型还可以响应各种不同的提示来执行此操作，从文本描述到鼠标点击甚至眼动数据。

“SAM 已经了解了物体是什么的一般概念，它可以为任何图像或任何视频中的任何物体生成遮罩，”研究人员写道一个博客发表. “我们相信可能性是广泛的，我们对许多我们甚至还没有想到的潜在用例感到兴奋。”

该模型开发的关键是一个包含 1.1 亿个分割掩码的庞大新数据集，它指的是图像中已被隔离和注释的区域，以表示它们包含特定对象。它是通过人工手动注释图像和自动化过程相结合而创建的，是迄今为止此类集合中最大的集合。

通过在如此庞大的数据集上进行训练，Meta 的研究人员表示，它已经形成了一个关于物体是什么的一般概念，这使得它能够分割它以前从未见过的东西。这种概括能力使研究人员将 SAM 称为“基础模型”，有争议的术语用于描述其他大规模预训练模型，例如 OpenAI 的 GPT 系列，其功能据称非常通用，可以用作许多应用程序的基础。

图像分割绝对是广泛的计算机视觉任务的关键组成部分。如果你不能分离出一个场景的不同组成部分，就很难用它做任何更复杂的事情。研究人员在他们的博客中表示，它在视频和图像编辑方面可能具有无可估量的价值，或者有助于分析科学图像。

也许更切合该公司的元宇宙雄心，他们提供了一个演示，说明如何将其与虚拟现实耳机结合使用，以根据用户的目光选择特定对象。他们还表示，它可能会与大型语言模型配对，以创建一个能够理解网页的视觉和文本内容的多模态系统。

处理范围广泛的提示的能力使系统特别灵活。在一个网页在演示新模型时，该公司表明，在分析图像后，系统会提示它分离出特定对象，方法是简单地用鼠标光标单击它们，输入要分割的内容，或者只是将整个图像分解成单独的对象。

最重要的是，该公司正在开源模型和数据集以用于研究目的，以便其他人可以在他们的工作基础上进行构建。这与该公司对其 LLaMA 大型语言模型所采用的方法相同，这导致它迅速成为在线泄露并刺激实验浪潮由爱好者和黑客。

SAM 是否会发生同样的情况还有待观察，但无论哪种方式，它都是给 AI 研究社区的一份礼物，可以加速许多重要计算机视觉问题的进展。

图片来源：元人工智能