Metas nye AI kan udvælge og klippe ethvert objekt i et billede - selv dem, det aldrig er set før

Metas nye AI kan udvælge og klippe ethvert objekt i et billede - selv dem, det aldrig er set før

Meta’s New AI Can Pick Out and Cut Any Object in an Image—Even Ones It’s Never Seen Before PlatoBlockchain Data Intelligence. Vertical Search. Ai.

At udvælge separate objekter i en visuel scene virker intuitivt for os, men maskiner kæmper med denne opgave. Nu har en ny AI-model fra Meta udviklet en bred idé om, hvad et objekt er, så det kan adskille objekter, selvom det aldrig har set dem før.

Det kan virke som en ret prosaisk computervisionsopgave, men at kunne parse et billede og finde ud af, hvor et objekt slutter, og et andet begynder, er en ret grundlæggende færdighed, uden hvilken et væld af mere komplicerede opgaver ville være uløselige.

"Objektsegmentering" er ikke noget nyt; AI-forskere har arbejdet på det i årevis. Men typisk har opbygningen af ​​disse modeller været en tidskrævende proces, der kræver masser af menneskelige annoteringer af billeder og betydelige computerressourcer. Og typisk var de resulterende modeller højt specialiserede til særlige brugssager.

Men nu har forskere hos Meta afsløret Segment Anything Model (SAM), som er i stand til at skære ethvert objekt ud i enhver scene, uanset om det har set noget lignende før. Modellen kan også gøre dette som svar på en række forskellige prompter, fra tekstbeskrivelse til museklik eller endda eye-tracking-data.

"SAM har lært en generel forestilling om, hvad objekter er, og det kan generere masker for ethvert objekt i ethvert billede eller enhver video," skrev forskerne i en blog indlæg. "Vi tror på, at mulighederne er brede, og vi er begejstrede over de mange potentielle use cases, vi ikke engang har forestillet os endnu."

Nøglen til udviklingen af ​​modellen var et massivt nyt datasæt med 1.1 milliarder segmenteringsmasker, som refererer til områder af et billede, der er blevet isoleret og kommenteret for at angive, at de indeholder et bestemt objekt. Den blev skabt gennem en kombination af manuel menneskelig annotering af billeder og automatiserede processer, og er langt den største samling af denne type, der er samlet til dato.

Ved at træne på et så massivt datasæt siger Metas forskere, at det har udviklet et generelt koncept for, hvad et objekt er, som gør det muligt for det at segmentere ting, det ikke engang har set før. Denne evne til at generalisere fik forskerne til at døbe SAM en "fundamentmodel", en kontroversielt udtryk bruges til at beskrive andre massive præ-trænede modeller som f.eks OpenAI's GPT serier, hvis muligheder angiveligt er så generelle, at de kan bruges som grundlag for en lang række applikationer.

Billedsegmentering er absolut en nøgleingrediens i en bred vifte af computervisionsopgaver. Hvis du ikke kan adskille de forskellige komponenter i en scene, er det svært at gøre noget mere kompliceret med det. I deres blog siger forskerne, at det kan vise sig at være uvurderligt i video- og billedredigering eller hjælpe med analyse af videnskabelige billeder.

Måske mere relevant for virksomhedens metaverse ambitioner, giver de en demo af, hvordan det kunne bruges i forbindelse med et virtual reality-headset til at vælge specifikke objekter baseret på brugerens blik. De siger også, at det potentielt kan parres med en stor sprogmodel for at skabe et multimodalt system, der er i stand til at forstå både det visuelle og tekstmæssige indhold på en webside.

Evnen til at håndtere en bred vifte af prompter gør systemet særligt fleksibelt. I en webside ved at demonstrere den nye model viser virksomheden, at efter at have analyseret et billede kan det blive bedt om at adskille specifikke objekter ved blot at klikke på dem med en musemarkør, skrive hvad det er, du vil segmentere, eller bare dele hele billedet op i separate objekter.

Og vigtigst af alt, så åbner virksomheden både modellen og datasættet til forskningsformål, så andre kan bygge videre på deres arbejde. Dette er den samme tilgang, som virksomheden tog med sin LLaMA-storsprogede model, hvilket førte til, at den hurtigt blev til lækket online og ansporing a bølge af eksperimenter af hobbyister og hackere.

Hvorvidt det samme vil ske med SAM er stadig uvist, men uanset hvad er det en gave til AI-forskningssamfundet, der kan accelerere fremskridt med en række vigtige computersynsproblemer.

Billede Credit: Meta AI

Tidsstempel:

Mere fra Singularitet Hub