Nowa sztuczna inteligencja Meta może wybrać i wyciąć dowolny obiekt na obrazie — nawet taki, którego nigdy wcześniej nie widziano

Nowa sztuczna inteligencja Meta może wybrać i wyciąć dowolny obiekt na obrazie — nawet taki, którego nigdy wcześniej nie widziano

Nowa sztuczna inteligencja Meta może wybrać i wyciąć dowolny obiekt z obrazu — nawet taki, którego nigdy wcześniej nie widziała. PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wyodrębnianie poszczególnych obiektów w scenie wizualnej wydaje nam się intuicyjne, ale maszyny mają z tym problem. Teraz nowy model sztucznej inteligencji firmy Meta rozwinął szerokie pojęcie o tym, czym jest obiekt, umożliwiając mu oddzielanie obiektów, nawet jeśli nigdy wcześniej ich nie widział.

Może się to wydawać dość prozaicznym zadaniem komputerowego widzenia, ale umiejętność analizowania obrazu i ustalenia, gdzie kończy się jeden obiekt, a zaczyna drugi, to dość podstawowa umiejętność, bez której wiele bardziej skomplikowanych zadań byłoby nie do rozwiązania.

„Segmentacja obiektów” nie jest niczym nowym; Badacze AI pracowali nad tym od lat. Ale zwykle budowanie tych modeli było czasochłonnym procesem wymagającym wielu ludzkich komentarzy do obrazów i znacznych zasobów obliczeniowych. Zazwyczaj powstałe modele były wysoce wyspecjalizowane w określonych przypadkach użycia.

Teraz jednak naukowcy z Meta ujawnili model Segment Anything Model (SAM), który jest w stanie wyciąć dowolny obiekt w dowolnej scenie, niezależnie od tego, czy widział wcześniej coś podobnego. Model może to również zrobić w odpowiedzi na wiele różnych monitów, od opisu tekstu po kliknięcia myszą, a nawet dane śledzenia ruchu gałek ocznych.

„SAM nauczył się ogólnego pojęcia o tym, czym są obiekty i może generować maski dla dowolnego obiektu na dowolnym obrazie lub dowolnym filmie” – napisali naukowcy w blog pisać. „Uważamy, że możliwości są szerokie i jesteśmy podekscytowani wieloma potencjalnymi zastosowaniami, których jeszcze nawet sobie nie wyobrażaliśmy”.

Kluczem do opracowania modelu był ogromny nowy zestaw danych składający się z 1.1 miliarda masek segmentacji, które odnoszą się do obszarów obrazu, które zostały wyizolowane i opatrzone adnotacjami w celu wskazania, że ​​zawierają one określony obiekt. Powstał dzięki połączeniu ręcznego dodawania adnotacji przez człowieka do obrazów i zautomatyzowanych procesów i jest zdecydowanie największą zebraną dotychczas kolekcją tego typu.

Trenując na tak ogromnym zbiorze danych, naukowcy Meta opracowali ogólną koncepcję tego, czym jest obiekt, co pozwala mu na segmentację rzeczy, których nawet wcześniej nie widział. Ta zdolność do uogólniania doprowadziła naukowców do nazwania SAM „modelem podstawowym”. kontrowersyjne określenie używany do opisywania innych masywnych, wstępnie wyszkolonych modeli, takich jak GPT OpenAI serii, których możliwości są rzekomo na tyle ogólne, że mogą posłużyć za podstawę wielu aplikacji.

Segmentacja obrazu jest zdecydowanie kluczowym składnikiem szerokiego zakresu zadań przetwarzania obrazu komputerowego. Jeśli nie możesz oddzielić różnych elementów sceny, trudno jest zrobić z nią coś bardziej skomplikowanego. Na swoim blogu naukowcy twierdzą, że może okazać się nieoceniony w edycji wideo i obrazów lub pomóc w analizie obrazów naukowych.

Być może bardziej adekwatnie do ambicji firmy w zakresie Metaverse, przedstawiają demonstrację tego, jak można go wykorzystać w połączeniu z zestawem słuchawkowym rzeczywistości wirtualnej, aby wybrać określone obiekty na podstawie spojrzenia użytkownika. Twierdzą również, że można go potencjalnie połączyć z dużym modelem językowym, aby stworzyć multimodalny system, który jest w stanie zrozumieć zarówno wizualną, jak i tekstową zawartość strony internetowej.

Możliwość obsługi szerokiej gamy monitów sprawia, że ​​system jest szczególnie elastyczny. W strona internetowa demonstrując nowy model, firma pokazuje, że po przeanalizowaniu obrazu można poprosić o wydzielenie określonych obiektów, po prostu klikając je kursorem myszy, wpisując, co ma być segmentowane lub po prostu dzieląc cały obraz na oddzielne obiekty.

A co najważniejsze, firma udostępnia zarówno model, jak i zestaw danych do celów badawczych, aby inni mogli korzystać z ich pracy. Jest to to samo podejście, które firma zastosowała w swoim wielkojęzycznym modelu LLaMA, co doprowadziło do jego szybkiego powstania wyciekły online i pobudzanie A fala eksperymentów przez hobbystów i hakerów.

To, czy to samo stanie się z SAM, dopiero się okaże, ale tak czy inaczej jest to prezent dla społeczności badawczej AI, który może przyspieszyć postępy w wielu ważnych problemach z wizją komputerową.

Kredytowych Image: Meta sztuczna inteligencja

Znak czasu:

Więcej z Centrum osobliwości