Die neue KI von Meta kann jedes Objekt in einem Bild auswählen und ausschneiden – sogar solche, die man noch nie zuvor gesehen hat

Die neue KI von Meta kann jedes Objekt in einem Bild auswählen und ausschneiden – sogar solche, die man noch nie zuvor gesehen hat

Die neue KI von Meta kann jedes Objekt in einem Bild auswählen und ausschneiden – sogar solche, die noch nie zuvor gesehen wurden. PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Das Herausgreifen einzelner Objekte in einer visuellen Szene erscheint uns intuitiv, aber Maschinen tun sich mit dieser Aufgabe schwer. Jetzt hat ein neues KI-Modell von Meta eine umfassende Vorstellung davon entwickelt, was ein Objekt ist, und es ihm ermöglicht, Objekte zu trennen, selbst wenn es sie noch nie zuvor gesehen hat.

Es mag wie eine ziemlich prosaische Computervisionsaufgabe erscheinen, aber in der Lage zu sein, ein Bild zu parsen und herauszufinden, wo ein Objekt endet und ein anderes beginnt, ist eine ziemlich grundlegende Fähigkeit, ohne die eine Vielzahl komplizierterer Aufgaben unlösbar wäre.

„Objektsegmentierung“ ist nichts Neues; KI-Forscher haben jahrelang daran gearbeitet. Typischerweise war das Erstellen dieser Modelle jedoch ein zeitaufwändiger Prozess, der viele menschliche Anmerkungen zu Bildern und beträchtliche Rechenressourcen erforderte. Und typischerweise waren die resultierenden Modelle hochgradig auf bestimmte Anwendungsfälle spezialisiert.

Jetzt haben Forscher von Meta das Segment Anything Model (SAM) vorgestellt, das in der Lage ist, jedes Objekt in jeder Szene auszuschneiden, unabhängig davon, ob es so etwas schon einmal gesehen hat. Das Modell kann dies auch als Reaktion auf eine Vielzahl unterschiedlicher Eingabeaufforderungen tun, von Textbeschreibungen über Mausklicks bis hin zu Eye-Tracking-Daten.

„SAM hat eine allgemeine Vorstellung davon gelernt, was Objekte sind, und es kann Masken für jedes Objekt in jedem Bild oder Video erstellen“, schrieben die Forscher ein Blog Post. „Wir glauben, dass die Möglichkeiten vielfältig sind, und wir sind begeistert von den vielen potenziellen Anwendungsfällen, die wir uns noch nicht einmal vorgestellt haben.“

Der Schlüssel zur Entwicklung des Modells war ein riesiger neuer Datensatz von 1.1 Milliarden Segmentierungsmasken, der sich auf Bereiche eines Bildes bezieht, die isoliert und kommentiert wurden, um anzuzeigen, dass sie ein bestimmtes Objekt enthalten. Sie wurde durch eine Kombination aus manueller menschlicher Annotation von Bildern und automatisierten Prozessen erstellt und ist bei weitem die größte Sammlung dieser Art, die bisher zusammengestellt wurde.

Durch das Training mit einem so riesigen Datensatz haben die Forscher von Meta ein allgemeines Konzept dafür entwickelt, was ein Objekt ist, das es ihm ermöglicht, Dinge zu segmentieren, die es noch nicht einmal gesehen hat. Diese Fähigkeit zur Verallgemeinerung veranlasste die Forscher, SAM als „Grundlagenmodell“ zu bezeichnen, a umstrittener Begriff Wird verwendet, um andere massive vortrainierte Modelle wie z GPT von OpenAI Serie, deren Fähigkeiten angeblich so allgemein sind, dass sie als Grundlage für eine Vielzahl von Anwendungen dienen können.

Die Bildsegmentierung ist definitiv ein wichtiger Bestandteil in einer Vielzahl von Computer-Vision-Aufgaben. Wenn Sie die verschiedenen Komponenten einer Szene nicht voneinander trennen können, ist es schwierig, etwas Komplizierteres damit zu machen. In ihrem Blog sagen die Forscher, dass es sich bei der Video- und Bildbearbeitung als unschätzbar erweisen oder bei der Analyse wissenschaftlicher Bilder helfen könnte.

Vielleicht passender für die Metaverse-Ambitionen des Unternehmens, bieten sie eine Demonstration, wie es in Verbindung mit einem Virtual-Reality-Headset verwendet werden könnte, um bestimmte Objekte basierend auf dem Blick des Benutzers auszuwählen. Sie sagen auch, dass es möglicherweise mit einem großen Sprachmodell gepaart werden könnte, um ein multimodales System zu schaffen, das sowohl den visuellen als auch den textlichen Inhalt einer Webseite verstehen kann.

Die Fähigkeit, mit einer Vielzahl von Eingabeaufforderungen umzugehen, macht das System besonders flexibel. In einem Web-Seite Bei der Vorführung des neuen Modells zeigt das Unternehmen, dass es nach der Analyse eines Bildes aufgefordert werden kann, bestimmte Objekte zu trennen, indem man einfach mit dem Mauszeiger darauf klickt, eingibt, was man segmentieren möchte, oder einfach das gesamte Bild aufteilt getrennte Objekte.

Und am wichtigsten ist, dass das Unternehmen sowohl das Modell als auch den Datensatz für Forschungszwecke als Open Source bereitstellt, damit andere auf ihrer Arbeit aufbauen können. Dies ist der gleiche Ansatz, den das Unternehmen mit seinem LLaMA-Large-Language-Modell verfolgte, was dazu führte, dass es schnell existierte online durchgesickert und spornen a Welle des Experimentierens von Bastlern und Hackern.

Ob dasselbe mit SAM passieren wird, bleibt abzuwarten, aber so oder so ist es ein Geschenk an die KI-Forschungsgemeinschaft, das den Fortschritt bei einer Vielzahl wichtiger Computer-Vision-Probleme beschleunigen könnte.

Bild-Kredit: Meta-KI

Zeitstempel:

Mehr von Singularity Hub