Новый искусственный интеллект Meta может выделить и вырезать любой объект на изображении — даже тот, который никогда раньше не видели

Новый искусственный интеллект Meta может выделить и вырезать любой объект на изображении — даже тот, который никогда раньше не видели

Новый искусственный интеллект Meta может выделить и вырезать любой объект на изображении — даже тот, который никогда раньше не видел PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Выделение отдельных объектов в визуальной сцене кажется нам интуитивно понятным, но машины с трудом справляются с этой задачей. Теперь новая модель искусственного интеллекта от Meta разработала широкое представление о том, что такое объект, что позволяет ему отделять объекты, даже если он никогда их раньше не видел.

Это может показаться довольно прозаической задачей компьютерного зрения, но способность анализировать изображение и определять, где заканчивается один объект и начинается другой, — это довольно фундаментальный навык, без которого множество более сложных задач было бы неразрешимым.

В «сегментации объектов» нет ничего нового; Исследователи ИИ работали над этим годами. Но, как правило, создание этих моделей было трудоемким процессом, требующим большого количества человеческих аннотаций изображений и значительных вычислительных ресурсов. И, как правило, получающиеся в результате модели были узкоспециализированными для конкретных случаев использования.

Однако теперь исследователи из Meta представили модель Segment Anything Model (SAM), которая способна вырезать любой объект в любой сцене, независимо от того, видел ли он что-либо подобное раньше. Модель также может делать это в ответ на множество различных запросов, от текстового описания до щелчков мыши или даже данных отслеживания взгляда.

«SAM изучил общее представление о том, что такое объекты, и может генерировать маски для любого объекта на любом изображении или любом видео», — написали исследователи в блог после. «Мы считаем, что возможности широки, и нас воодушевляют многие потенциальные варианты использования, о которых мы даже не догадывались».

Ключом к разработке модели стал огромный новый набор данных из 1.1 миллиарда масок сегментации, которые относятся к областям изображения, которые были изолированы и снабжены аннотациями для обозначения того, что они содержат определенный объект. Он был создан путем сочетания ручной аннотации изображений человеком и автоматизированных процессов и, безусловно, является самой большой коллекцией этого типа, собранной на сегодняшний день.

Исследователи Meta говорят, что, обучаясь на таком массивном наборе данных, они разработали общую концепцию того, что такое объект, что позволяет ему сегментировать вещи, которые он даже не видел раньше. Эта способность обобщать побудила исследователей окрестить SAM «основной моделью». спорный термин используется для описания других массивных предварительно обученных моделей, таких как GPT OpenAI серии, чьи возможности предположительно настолько универсальны, что их можно использовать в качестве основы для множества приложений.

Сегментация изображения, безусловно, является ключевым компонентом в широком спектре задач компьютерного зрения. Если вы не можете выделить разные компоненты сцены, с ней сложно сделать что-то более сложное. В своем блоге исследователи говорят, что это может оказаться бесценным при редактировании видео и изображений или помочь в анализе научных изображений.

Возможно, что более уместно для амбиций компании в отношении метавселенной, они предоставляют демонстрацию того, как ее можно использовать в сочетании с гарнитурой виртуальной реальности для выбора определенных объектов на основе взгляда пользователя. Они также говорят, что его потенциально можно объединить с большой языковой моделью для создания мультимодальной системы, способной понимать как визуальное, так и текстовое содержимое веб-страницы.

Способность работать с широким спектром подсказок делает систему особенно гибкой. В веб-страница Демонстрируя новую модель, компания показывает, что после анализа изображения может быть предложено выделить определенные объекты, просто щелкнув по ним курсором мыши, набрав, что именно вы хотите сегментировать, или просто разбив все изображение на части. отдельные объекты.

И самое главное, компания предоставляет открытый исходный код как модели, так и набора данных для исследовательских целей, чтобы другие могли опираться на их работу. Это тот же подход, который компания использовала со своей крупноязычной моделью LLaMA, что привело к ее быстрому развитию. утечка в Интернете и стимулирование волна экспериментов любителями и хакерами.

Произойдет ли то же самое с SAM, еще неизвестно, но в любом случае это подарок сообществу исследователей ИИ, который может ускорить прогресс в решении множества важных проблем компьютерного зрения.

Изображение Фото: Мета ИИ

Отметка времени:

Больше от Singularity Hub