Metas nye AI kan plukke ut og kutte alle objekter i et bilde

Publisert av Platon

Følgere: 0

Metas nye AI kan plukke ut og klippe ut et hvilket som helst objekt i et bilde – selv de den aldri har sett før PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Å plukke ut separate objekter i en visuell scene virker intuitivt for oss, men maskiner sliter med denne oppgaven. Nå har en ny AI-modell fra Meta utviklet en bred idé om hva et objekt er, slik at det kan skille ut objekter selv om det aldri har sett dem før.

Det kan virke som en ganske prosaisk datasynsoppgave, men å kunne analysere et bilde og finne ut hvor ett objekt slutter og et annet begynner er en ganske grunnleggende ferdighet, uten hvilken en rekke mer kompliserte oppgaver ville være uløselige.

"Objektsegmentering" er ikke noe nytt; AI-forskere har jobbet med det i årevis. Men typisk har det vært en tidkrevende prosess å bygge disse modellene som krever mye menneskelig merknad av bilder og betydelige dataressurser. Og typisk var de resulterende modellene svært spesialiserte til spesielle brukstilfeller.

Nå har forskere ved Meta imidlertid avduket Segment Anything Model (SAM), som er i stand til å kutte ut ethvert objekt i en hvilken som helst scene, uavhengig av om den har sett noe lignende før. Modellen kan også gjøre dette som svar på en rekke forskjellige spørsmål, fra tekstbeskrivelse til museklikk eller til og med øyesporingsdata.

"SAM har lært en generell oppfatning av hva objekter er, og den kan generere masker for ethvert objekt i et hvilket som helst bilde eller hvilken som helst video," skrev forskerne i en blogg poste. "Vi tror mulighetene er brede, og vi er begeistret over de mange potensielle brukstilfellene vi ikke engang har forestilt oss ennå."

Nøkkelen til utviklingen av modellen var et massivt nytt datasett med 1.1 milliarder segmenteringsmasker, som refererer til områder av et bilde som har blitt isolert og kommentert for å angi at de inneholder et bestemt objekt. Den ble laget gjennom en kombinasjon av manuell menneskelig merknad av bilder og automatiserte prosesser, og er den desidert største samlingen av denne typen som er satt sammen til dags dato.

Ved å trene på et så massivt datasett, sier Metas forskere at de har utviklet et generelt konsept for hva et objekt er, som lar det segmentere ting det ikke en gang har sett før. Denne evnen til å generalisere førte til at forskerne kalte SAM en "grunnmodell", en kontroversielt begrep brukes til å beskrive andre massive forhåndstrente modeller som f.eks OpenAIs GPT serien, hvis evner visstnok er så generelle at de kan brukes som grunnlag for en rekke applikasjoner.

Bildesegmentering er definitivt en nøkkelingrediens i et bredt spekter av datasynsoppgaver. Hvis du ikke kan skille ut de forskjellige komponentene i en scene, er det vanskelig å gjøre noe mer komplisert med det. I bloggen deres sier forskerne at det kan vise seg å være uvurderlig i video- og bilderedigering, eller hjelpe med analyse av vitenskapelige bilder.

Kanskje mer relevant for selskapets metaverse ambisjoner, gir de en demo av hvordan det kan brukes sammen med et virtual reality-headset for å velge spesifikke objekter basert på brukerens blikk. De sier også at det potensielt kan kobles sammen med en stor språkmodell for å lage et multimodalt system som kan forstå både det visuelle og tekstlige innholdet på en nettside.

Evnen til å håndtere et bredt spekter av spørsmål gjør systemet spesielt fleksibelt. I en nettside ved å demonstrere den nye modellen viser selskapet at etter å ha analysert et bilde kan det bli bedt om å skille ut spesifikke objekter ved å klikke på dem med en musepeker, skrive inn hva det er du vil segmentere, eller bare dele opp hele bildet i separate objekter.

Og viktigst av alt er at selskapet åpner både modellen og datasettet for forskningsformål slik at andre kan bygge videre på arbeidet deres. Dette er den samme tilnærmingen selskapet tok med sin LLaMA-storspråklige modell, som førte til at den raskt ble det lekket ut online og ansporing a bølge av eksperimentering av hobbyister og hackere.

Hvorvidt det samme vil skje med SAM gjenstår å se, men uansett er det en gave til AI-forskningsmiljøet som kan akselerere fremgangen på en rekke viktige datasynsproblemer.

Bilde Credit: Meta AI