Metas nye AI kan udvælge og klippe ethvert objekt i et billede

Genudgivet af Platon

Abonnenter: 0

Meta’s New AI Can Pick Out and Cut Any Object in an Image—Even Ones It’s Never Seen Before PlatoBlockchain Data Intelligence. Vertical Search. Ai.

At udvælge separate objekter i en visuel scene virker intuitivt for os, men maskiner kæmper med denne opgave. Nu har en ny AI-model fra Meta udviklet en bred idé om, hvad et objekt er, så det kan adskille objekter, selvom det aldrig har set dem før.

Det kan virke som en ret prosaisk computervisionsopgave, men at kunne parse et billede og finde ud af, hvor et objekt slutter, og et andet begynder, er en ret grundlæggende færdighed, uden hvilken et væld af mere komplicerede opgaver ville være uløselige.

"Objektsegmentering" er ikke noget nyt; AI-forskere har arbejdet på det i årevis. Men typisk har opbygningen af disse modeller været en tidskrævende proces, der kræver masser af menneskelige annoteringer af billeder og betydelige computerressourcer. Og typisk var de resulterende modeller højt specialiserede til særlige brugssager.

Men nu har forskere hos Meta afsløret Segment Anything Model (SAM), som er i stand til at skære ethvert objekt ud i enhver scene, uanset om det har set noget lignende før. Modellen kan også gøre dette som svar på en række forskellige prompter, fra tekstbeskrivelse til museklik eller endda eye-tracking-data.

"SAM har lært en generel forestilling om, hvad objekter er, og det kan generere masker for ethvert objekt i ethvert billede eller enhver video," skrev forskerne i en blog indlæg. "Vi tror på, at mulighederne er brede, og vi er begejstrede over de mange potentielle use cases, vi ikke engang har forestillet os endnu."

Nøglen til udviklingen af modellen var et massivt nyt datasæt med 1.1 milliarder segmenteringsmasker, som refererer til områder af et billede, der er blevet isoleret og kommenteret for at angive, at de indeholder et bestemt objekt. Den blev skabt gennem en kombination af manuel menneskelig annotering af billeder og automatiserede processer, og er langt den største samling af denne type, der er samlet til dato.

Ved at træne på et så massivt datasæt siger Metas forskere, at det har udviklet et generelt koncept for, hvad et objekt er, som gør det muligt for det at segmentere ting, det ikke engang har set før. Denne evne til at generalisere fik forskerne til at døbe SAM en "fundamentmodel", en kontroversielt udtryk bruges til at beskrive andre massive præ-trænede modeller som f.eks OpenAI's GPT serier, hvis muligheder angiveligt er så generelle, at de kan bruges som grundlag for en lang række applikationer.

Billedsegmentering er absolut en nøgleingrediens i en bred vifte af computervisionsopgaver. Hvis du ikke kan adskille de forskellige komponenter i en scene, er det svært at gøre noget mere kompliceret med det. I deres blog siger forskerne, at det kan vise sig at være uvurderligt i video- og billedredigering eller hjælpe med analyse af videnskabelige billeder.

Måske mere relevant for virksomhedens metaverse ambitioner, giver de en demo af, hvordan det kunne bruges i forbindelse med et virtual reality-headset til at vælge specifikke objekter baseret på brugerens blik. De siger også, at det potentielt kan parres med en stor sprogmodel for at skabe et multimodalt system, der er i stand til at forstå både det visuelle og tekstmæssige indhold på en webside.

Evnen til at håndtere en bred vifte af prompter gør systemet særligt fleksibelt. I en webside ved at demonstrere den nye model viser virksomheden, at efter at have analyseret et billede kan det blive bedt om at adskille specifikke objekter ved blot at klikke på dem med en musemarkør, skrive hvad det er, du vil segmentere, eller bare dele hele billedet op i separate objekter.

Og vigtigst af alt, så åbner virksomheden både modellen og datasættet til forskningsformål, så andre kan bygge videre på deres arbejde. Dette er den samme tilgang, som virksomheden tog med sin LLaMA-storsprogede model, hvilket førte til, at den hurtigt blev til lækket online og ansporing a bølge af eksperimenter af hobbyister og hackere.

Hvorvidt det samme vil ske med SAM er stadig uvist, men uanset hvad er det en gave til AI-forskningssamfundet, der kan accelerere fremskridt med en række vigtige computersynsproblemer.

Billede Credit: Meta AI

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/

Tidsstempel: April 10, 2023

Tidsstempel: Jan 29, 2024

Allertidens lyseste kosmiske eksplosion: Forskere kan have løst mysteriet om dens persistens

Kildeklynge:

Singularitet Hub

Kildeknude: 1845408

Tidsstempel: Juni 8, 2023

Denne uges fantastiske tekniske historier fra nettet (til og med 30. juli)

Kildeklynge:

Singularitet Hub

Kildeknude: 1600178

Tidsstempel: Juli 30, 2022

USA investerer $1.2 milliarder i kulstoffangstanlæg for at suge tonsvis af CO2 fra luften

Kildeklynge:

Singularitet Hub

Kildeknude: 1878327

Tidsstempel: August 20, 2023

Metas nye AI kan udvælge og klippe ethvert objekt i et billede - selv dem, det aldrig er set før

Genudgivet af Platon

Mere fra Singularitet Hub

Du vil snart være i stand til at købe genmanipulerede Glow-in-the-Dark Petunia

Kan vi stoppe hjertet i at ældes? Denne skelsættende genetiske undersøgelse er en begyndelse

Største genetiske undersøgelse til dato afslører DNA-profiler, der fører til kræft

Nye DNA 'videokameraer' kan optage 'film' af en celles udvikling gennem tiden

Et fællesskab af 3D-printede hjem er ved at blive bygget til Oregon Wildfire-overlevende

Tyngdekraftseksperimenter på køkkenbordet: Hvorfor en lillebitte måling kan være et stort spring fremad for fysik

Allertidens lyseste kosmiske eksplosion: Forskere kan have løst mysteriet om dens persistens

Denne uges fantastiske tekniske historier fra nettet (til og med 30. juli)

USA investerer $1.2 milliarder i kulstoffangstanlæg for at suge tonsvis af CO2 fra luften

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto