Выделение отдельных объектов в визуальной сцене кажется нам интуитивно понятным, но машины с трудом справляются с этой задачей. Теперь новая модель искусственного интеллекта от Meta разработала широкое представление о том, что такое объект, что позволяет ему отделять объекты, даже если он никогда их раньше не видел.
Это может показаться довольно прозаической задачей компьютерного зрения, но способность анализировать изображение и определять, где заканчивается один объект и начинается другой, — это довольно фундаментальный навык, без которого множество более сложных задач было бы неразрешимым.
В «сегментации объектов» нет ничего нового; Исследователи ИИ работали над этим годами. Но, как правило, создание этих моделей было трудоемким процессом, требующим большого количества человеческих аннотаций изображений и значительных вычислительных ресурсов. И, как правило, получающиеся в результате модели были узкоспециализированными для конкретных случаев использования.
Однако теперь исследователи из Meta представили модель Segment Anything Model (SAM), которая способна вырезать любой объект в любой сцене, независимо от того, видел ли он что-либо подобное раньше. Модель также может делать это в ответ на множество различных запросов, от текстового описания до щелчков мыши или даже данных отслеживания взгляда.
«SAM изучил общее представление о том, что такое объекты, и может генерировать маски для любого объекта на любом изображении или любом видео», — написали исследователи в блог после. «Мы считаем, что возможности широки, и нас воодушевляют многие потенциальные варианты использования, о которых мы даже не догадывались».
Ключом к разработке модели стал огромный новый набор данных из 1.1 миллиарда масок сегментации, которые относятся к областям изображения, которые были изолированы и снабжены аннотациями для обозначения того, что они содержат определенный объект. Он был создан путем сочетания ручной аннотации изображений человеком и автоматизированных процессов и, безусловно, является самой большой коллекцией этого типа, собранной на сегодняшний день.
Исследователи Meta говорят, что, обучаясь на таком массивном наборе данных, они разработали общую концепцию того, что такое объект, что позволяет ему сегментировать вещи, которые он даже не видел раньше. Эта способность обобщать побудила исследователей окрестить SAM «основной моделью». спорный термин используется для описания других массивных предварительно обученных моделей, таких как GPT OpenAI серии, чьи возможности предположительно настолько универсальны, что их можно использовать в качестве основы для множества приложений.
Сегментация изображения, безусловно, является ключевым компонентом в широком спектре задач компьютерного зрения. Если вы не можете выделить разные компоненты сцены, с ней сложно сделать что-то более сложное. В своем блоге исследователи говорят, что это может оказаться бесценным при редактировании видео и изображений или помочь в анализе научных изображений.
Возможно, что более уместно для амбиций компании в отношении метавселенной, они предоставляют демонстрацию того, как ее можно использовать в сочетании с гарнитурой виртуальной реальности для выбора определенных объектов на основе взгляда пользователя. Они также говорят, что его потенциально можно объединить с большой языковой моделью для создания мультимодальной системы, способной понимать как визуальное, так и текстовое содержимое веб-страницы.
Способность работать с широким спектром подсказок делает систему особенно гибкой. В веб-страница Демонстрируя новую модель, компания показывает, что после анализа изображения может быть предложено выделить определенные объекты, просто щелкнув по ним курсором мыши, набрав, что именно вы хотите сегментировать, или просто разбив все изображение на части. отдельные объекты.
И самое главное, компания предоставляет открытый исходный код как модели, так и набора данных для исследовательских целей, чтобы другие могли опираться на их работу. Это тот же подход, который компания использовала со своей крупноязычной моделью LLaMA, что привело к ее быстрому развитию. утечка в Интернете и стимулирование волна экспериментов любителями и хакерами.
Произойдет ли то же самое с SAM, еще неизвестно, но в любом случае это подарок сообществу исследователей ИИ, который может ускорить прогресс в решении множества важных проблем компьютерного зрения.
Изображение Фото: Мета ИИ
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/
- :является
- $UP
- 1
- a
- способность
- в состоянии
- ускорять
- После
- AI
- ай исследование
- Позволяющий
- позволяет
- амбиции
- анализ
- анализ
- и
- Другой
- Приложения
- подхода
- МЫ
- AS
- собранный
- At
- Автоматизированный
- основанный
- BE
- до
- не являетесь
- верить
- миллиард
- Блог
- Разрыв
- широкий
- строить
- Строительство
- by
- CAN
- возможности
- случаев
- лыжных шлемов
- сочетание
- сообщество
- Компания
- Компании
- сложный
- компоненты
- компьютер
- Компьютерное зрение
- вычисление
- сама концепция
- значительный
- содержать
- содержание
- может
- Создайте
- создали
- кредит
- Порез
- данным
- Время
- сделка
- определенно
- описывать
- описание
- развитый
- Развитие
- различный
- или
- окончания поездки
- Весь
- Даже
- возбужденный
- что его цель
- достаточно
- гибкого
- Что касается
- Устои
- от
- фундаментальный
- Общие
- порождать
- подарок
- Хакеры
- происходить
- Жесткий
- Есть
- наушники
- помощь
- очень
- кашель
- Как
- HTTPS
- человек
- идея
- изображение
- изображений
- важную
- in
- интуитивный
- неоценимый
- изолированный
- IT
- ЕГО
- Основные
- язык
- большой
- крупнейших
- узнали
- привело
- такое как
- Лама
- Продукция
- ДЕЛАЕТ
- руководство
- многих
- Маски
- массивный
- Мета
- Metaverse
- может быть
- модель
- Модели
- БОЛЕЕ
- самых
- Новые
- понятие
- объект
- объекты
- of
- on
- ONE
- Другое
- Другое
- страница
- в паре
- особый
- особенно
- выбирать
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- возможности,
- потенциал
- потенциально
- довольно
- проблемам
- процесс
- Процессы
- Прогресс
- Доказывать
- обеспечивать
- целей
- ассортимент
- быстро
- Реальность
- понимается
- Несмотря на
- районы
- остатки
- исследованиям
- исследователи
- Полезные ресурсы
- ответ
- в результате
- Сэм
- то же
- сцена
- научный
- кажется
- сегмент
- сегментация
- отдельный
- Серии
- Шоу
- просто
- умение
- So
- специализированный
- конкретный
- Бороться
- такие
- система
- Сложность задачи
- задачи
- который
- Ассоциация
- их
- Их
- Эти
- вещи
- Через
- кропотливый
- в
- Обучение
- типично
- понимать
- представила
- us
- использование
- разнообразие
- Видео
- Виртуальный
- Виртуальная реальность
- видение
- Путь..
- Web
- Что
- будь то
- который
- широкий
- Широкий диапазон
- будете
- без
- Работа
- разрабатывать
- работавший
- бы
- лет
- Ты
- зефирнет