Nova umetna inteligenca Mete lahko izbere in izreže kateri koli predmet na sliki – tudi tiste, ki jih še niste videli

Nova umetna inteligenca Mete lahko izbere in izreže kateri koli predmet na sliki – tudi tiste, ki jih še niste videli

Meta’s New AI Can Pick Out and Cut Any Object in an Image—Even Ones It’s Never Seen Before PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Izbiranje ločenih predmetov v vizualni sceni se nam zdi intuitivno, vendar se stroji s to nalogo spopadajo. Zdaj je nov model umetne inteligence podjetja Meta razvil široko predstavo o tem, kaj je predmet, kar mu omogoča, da loči predmete, tudi če jih še nikoli ni videl.

Morda se zdi dokaj prozaična naloga računalniškega vida, vendar je sposobnost razčleniti sliko in ugotoviti, kje se en predmet konča in kje se začne drugi, precej temeljna veščina, brez katere bi bila množica bolj zapletenih nalog nerešljiva.

»Segmentacija objektov« ni nič novega; Raziskovalci AI so na tem delali leta. Toda običajno je bila izdelava teh modelov dolgotrajen proces, ki je zahteval veliko človeških opomb za slike in znatne računalniške vire. Običajno so bili nastali modeli visoko specializirani za posebne primere uporabe.

Zdaj pa so raziskovalci pri Meti razkrili model Segment Anything Model (SAM), ki lahko izreže kateri koli predmet v katerem koli prizoru, ne glede na to, ali je že videl kaj podobnega. Model lahko to stori tudi kot odgovor na vrsto različnih pozivov, od besedilnega opisa do klikov miške ali celo podatkov o sledenju očem.

"SAM se je naučil splošne predstave o tem, kaj so predmeti, in lahko ustvari maske za kateri koli predmet na kateri koli sliki ali videu," so zapisali raziskovalci v blog objava. "Verjamemo, da so možnosti široke, in navdušeni smo nad številnimi možnimi primeri uporabe, ki si jih še nismo niti predstavljali."

Ključ do razvoja modela je bil ogromen nov nabor podatkov z 1.1 milijarde segmentacijskih mask, ki se nanašajo na regije slike, ki so bile izolirane in označene, da označujejo, da vsebujejo določen predmet. Ustvarjena je bila s kombinacijo ročnega človeškega označevanja slik in avtomatiziranih procesov in je daleč največja zbirka te vrste, sestavljena do zdaj.

Raziskovalci Mete pravijo, da so z usposabljanjem na tako velikem naboru podatkov razvili splošen koncept o tem, kaj predmet je, kar mu omogoča segmentacijo stvari, ki jih prej sploh ni videl. Ta sposobnost posploševanja je vodila raziskovalce, da so SAM poimenovali "temeljni model", a sporen izraz uporablja za opis drugih masivnih vnaprej usposobljenih modelov, kot je npr GPT OpenAI serije, katerih zmogljivosti naj bi bile tako splošne, da jih je mogoče uporabiti kot osnovo za množico aplikacij.

Segmentacija slike je vsekakor ključna sestavina širokega spektra nalog računalniškega vida. Če ne morete ločiti različnih komponent prizora, je težko z njim narediti kaj bolj zapletenega. V svojem blogu raziskovalci pravijo, da bi se lahko izkazal za neprecenljivega pri urejanju videa in slik ali v pomoč pri analizi znanstvenih posnetkov.

Morda bolj primerno za ambicije podjetja glede metaverzuma, zagotavljajo predstavitev, kako bi ga lahko uporabili v povezavi s slušalkami za navidezno resničnost za izbiro določenih predmetov na podlagi uporabnikovega pogleda. Pravijo tudi, da bi ga potencialno lahko združili z velikim jezikovnim modelom, da bi ustvarili večmodalni sistem, ki bi lahko razumel tako vizualno kot besedilno vsebino spletne strani.

Zaradi zmožnosti obravnavanja širokega nabora pozivov je sistem še posebej prilagodljiv. V Spletna stran s predstavitvijo novega modela podjetje pokaže, da se po analizi slike lahko pozove, da izloči določene predmete tako, da nanje preprosto kliknete z miškinim kazalcem, vnesete, kaj želite segmentirati, ali preprosto razdelite celotno sliko na ločeni predmeti.

In kar je najpomembneje, podjetje uporablja odprtokodni model in nabor podatkov za raziskovalne namene, tako da lahko drugi gradijo na njihovem delu. To je enak pristop, ki ga je podjetje uporabilo pri svojem modelu LLaMA z velikimi jeziki, zaradi česar je ta hitro postal ušli na spletu in spodbujanje a val eksperimentiranja hobisti in hekerji.

Ali se bo enako zgodilo s SAM, bomo še videli, a v vsakem primeru je to darilo raziskovalni skupnosti AI, ki bi lahko pospešilo napredek pri množici pomembnih težav z računalniškim vidom.

Kreditno slike: Meta AI

Časovni žig:

Več od Središče singularnosti