Meta uus tehisintellekt suudab pildil välja valida ja lõigata mis tahes objekti – isegi selliseid, mida pole kunagi varem nähtud

Meta uus tehisintellekt suudab pildil välja valida ja lõigata mis tahes objekti – isegi selliseid, mida pole kunagi varem nähtud

Meta uus tehisintellekt suudab pildil välja valida ja lõigata mis tahes objekti – isegi selliseid, mida pole kunagi nähtud enne PlatoBlockchaini andmeluure. Vertikaalne otsing. Ai.

Visuaalses stseenis eraldi objektide välja valimine tundub meile intuitiivne, kuid masinad näevad selle ülesandega vaeva. Nüüd on Meta uus tehisintellekti mudel loonud laia ettekujutuse sellest, mis objekt on, võimaldades sellel objekte eraldada isegi siis, kui ta pole neid kunagi varem näinud.

See võib tunduda üsna proosaline arvutinägemise ülesanne, kuid pildi sõelumine ja ühe objekti lõppemise ja teise alguse väljaselgitamine on üsna põhioskus, ilma milleta poleks palju keerulisemaid ülesandeid lahendatud.

"Objektide segmenteerimine" pole midagi uut; AI teadlased on selle kallal aastaid töötanud. Kuid tavaliselt on nende mudelite loomine olnud aeganõudev protsess, mis nõuab piltidele palju inimlikku annotatsiooni ja märkimisväärseid arvutusressursse. Ja tavaliselt olid saadud mudelid konkreetsetele kasutusjuhtudele väga spetsiifilised.

Nüüd aga on Meta teadlased avalikustanud mudeli Segment Anything Model (SAM), mis suudab mis tahes objekti mis tahes stseenist välja lõigata, olenemata sellest, kas see on midagi sarnast varem näinud. Mudel saab seda teha ka vastusena erinevatele viipadele, alates tekstikirjeldusest kuni hiireklõpsude või isegi silmade jälgimise andmeteni.

"SAM on õppinud üldise arusaama sellest, mis on objektid, ja see võib luua maske mis tahes pildil või videol olevale objektile," kirjutasid teadlased. blogi pärast. "Usume, et võimalused on laiad ja oleme põnevil paljudest potentsiaalsetest kasutusjuhtudest, mida me pole veel ette kujutanud."

Mudeli väljatöötamise võtmeks oli tohutu uus 1.1, XNUMX miljardist segmenteerimismaskist koosnev andmekogum, mis viitab kujutise piirkondadele, mis on eraldatud ja varustatud märkustega, mis näitavad, et need sisaldavad konkreetset objekti. See loodi piltide käsitsi sisestamise ja automatiseeritud protsesside kombinatsiooni abil ning see on siiani suurim seda tüüpi kollektsioon.

Meta teadlaste sõnul on sellise tohutu andmestiku kallal treenides välja töötanud üldise kontseptsiooni objektist, mis võimaldab segmenteerida asju, mida ta pole varem isegi näinud. See üldistusvõime ajendas teadlasi nimetama SAM-i "vundamendimudeliks", a vastuoluline termin kasutatakse teiste massiivsete eelkoolitatud mudelite kirjeldamiseks, näiteks OpenAI GPT seeriad, mille võimalused on väidetavalt nii üldised, et neid saab kasutada paljude rakenduste alusena.

Pildi segmenteerimine on kindlasti paljude arvutinägemisega seotud ülesannete põhikomponent. Kui te ei suuda stseeni erinevaid komponente eraldada, on sellega raske midagi keerulisemat teha. Oma ajaveebis väidavad teadlased, et see võib osutuda hindamatuks video- ja pilditöötluses või aidata kaasa teaduslike kujutiste analüüsimisele.

Võib-olla on ettevõtte metaversuaalsete ambitsioonide jaoks asjakohasem, et nad pakuvad demo selle kohta, kuidas seda saaks kasutada koos virtuaalreaalsuse peakomplektiga, et valida kasutaja pilgu põhjal konkreetseid objekte. Samuti väidavad nad, et seda võiks potentsiaalselt siduda suure keelemudeliga, et luua multimodaalne süsteem, mis suudab mõista nii veebilehe visuaalset kui ka tekstilist sisu.

Võimalus käsitleda laia valikut viipasid muudab süsteemi eriti paindlikuks. Sees veebileht Uut mudelit demonstreerides näitab ettevõte, et pärast pildi analüüsimist võidakse paluda konkreetsed objektid eraldada, klõpsates neil lihtsalt hiirekursoriga, sisestades selle, mida soovite segmentida, või jagades kogu pildi lihtsalt osadeks. eraldi objektid.

Ja mis kõige tähtsam, ettevõte hangib nii mudelit kui ka andmekogumit uurimiseesmärkidel avatud lähtekoodiga, et teised saaksid oma tööd edasi arendada. See on sama lähenemisviis, mida ettevõte kasutas oma LLaMA suurekeelse mudeli puhul, mis viis selle kiiresti lekkinud võrgus ja ergutades a eksperimenteerimise laine harrastajate ja häkkerite poolt.

Kas sama juhtub ka SAM-iga, tuleb veel näha, kuid mõlemal juhul on see kingitus tehisintellekti teadlaskonnale, mis võib kiirendada paljude oluliste arvutinägemisprobleemide lahendamist.

Image Credit: Meta AI

Ajatempel:

Veel alates Singulaarsuse keskus