Новий штучний інтелект Meta може виділяти та вирізати будь-які об’єкти на зображенні — навіть ті, яких раніше не бачили

Новий штучний інтелект Meta може виділяти та вирізати будь-які об’єкти на зображенні — навіть ті, яких раніше не бачили

Новий штучний інтелект від Meta може виділяти та вирізати будь-які об’єкти на зображенні — навіть ті, яких раніше не бачили PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вибір окремих об’єктів у візуальній сцені здається нам інтуїтивно зрозумілим, але машинам важко впоратися з цим завданням. Тепер нова модель ШІ від Meta розробила широке уявлення про те, що таке об’єкт, дозволяючи їй відокремлювати об’єкти, навіть якщо вони ніколи раніше їх не бачили.

Це може здатися досить прозаїчним завданням комп’ютерного зору, але вміння розібрати зображення та визначити, де закінчується один об’єкт і починається інший, є досить фундаментальним навиком, без якого безліч складніших завдань було б нерозв’язаним.

«Сегментація об’єктів» не є чимось новим; Дослідники ШІ працювали над цим роками. Але, як правило, створення цих моделей було трудомістким процесом, який вимагав великої кількості людських анотацій зображень і значних обчислювальних ресурсів. І зазвичай отримані моделі були вузькоспеціалізованими для конкретних випадків використання.

Однак тепер дослідники з Meta оприлюднили модель Segment Anything Model (SAM), яка здатна вирізати будь-який об’єкт у будь-якій сцені, незалежно від того, чи бачили щось подібне раніше. Модель також може робити це у відповідь на різноманітні підказки, від текстового опису до клацання мишею або навіть даних стеження за очима.

«SAM дізнався загальне поняття про об’єкти, і він може генерувати маски для будь-якого об’єкта на будь-якому зображенні чи будь-якому відео», – пишуть дослідники в блог після. «Ми вважаємо, що можливості широкі, і ми в захваті від багатьох потенційних випадків використання, про які ми ще навіть не уявляли».

Ключем до розробки моделі став масивний новий набір даних із 1.1 мільярда масок сегментації, які стосуються областей зображення, які були ізольовані та анотовані, щоб позначити, що вони містять певний об’єкт. Він був створений шляхом поєднання анотацій зображень вручну людиною та автоматизованих процесів, і на сьогоднішній день є найбільшою колекцією такого типу, зібраною на сьогодні.

Навчаючись на такому масивному наборі даних, дослідники Meta кажуть, що вони розробили загальну концепцію того, що таке об’єкт, що дозволяє сегментувати речі, які вони навіть не бачили раніше. Ця здатність до узагальнення спонукала дослідників назвати SAM «основною моделлю», a спірний термін використовується для опису інших масивних попередньо навчених моделей, таких як GPT OpenAI серії, чиї можливості нібито настільки загальні, що їх можна використовувати як основу для безлічі програм.

Сегментація зображення, безумовно, є ключовим компонентом широкого спектру завдань комп’ютерного зору. Якщо ви не можете відокремити різні компоненти сцени, важко зробити з нею щось складніше. У своєму блозі дослідники кажуть, що це може виявитися неоціненним у редагуванні відео та зображень або допомогти в аналізі наукових зображень.

Можливо, більш відповідним для амбіцій компанії щодо метавсесвіту є те, що вони надають демонстрацію того, як його можна використовувати в поєднанні з гарнітурою віртуальної реальності для вибору конкретних об’єктів на основі погляду користувача. Вони також кажуть, що його потенційно можна поєднати з великою мовною моделлю для створення мультимодальної системи, здатної розуміти як візуальний, так і текстовий вміст веб-сторінки.

Можливість працювати з широким діапазоном підказок робить систему особливо гнучкою. В веб-сторінка Демонструючи нову модель, компанія показує, що після аналізу зображення можна запропонувати відокремити конкретні об’єкти, просто клацнувши на них курсором миші, ввівши, що саме потрібно сегментувати, або просто розбивши все зображення на окремі об'єкти.

І що найважливіше, компанія надає відкрите джерело як моделі, так і набору даних для дослідницьких цілей, щоб інші могли використовувати їхню роботу. Це той самий підхід, який компанія застосувала до своєї широкомовної моделі LLaMA, що призвело до її швидкого просочився в Інтернеті і стимулювання a хвиля експериментів любителями та хакерами.

Чи станеться те саме з SAM, ще невідомо, але в будь-якому випадку це подарунок дослідницькому співтовариству штучного інтелекту, який міг би прискорити прогрес у розв’язанні багатьох важливих проблем комп’ютерного зору.

Зображення Фото: Мета ШІ

Часова мітка:

Більше від Хаб сингулярності