A Meta új mesterséges intelligencia minden tárgyat képes kiemelni és kivágni a képen – még olyanokat is, amelyeket korábban soha

A Meta új mesterséges intelligencia minden tárgyat képes kiemelni és kivágni a képen – még olyanokat is, amelyeket korábban soha

A Meta új mesterséges intelligencia bármilyen objektumot képes kiemelni és kivágni a képen – még olyanokat is, amelyeket a PlatoBlockchain Data Intelligence előtt soha nem láttak. Függőleges keresés. Ai.

A vizuális jelenetben különálló objektumok kiválasztása intuitívnak tűnik számunkra, de a gépek küzdenek ezzel a feladattal. A Meta új mesterséges intelligencia-modellje átfogó képet alkotott arról, hogy mi is az objektum, lehetővé téve az objektumok elkülönítését még akkor is, ha korábban soha nem látta őket.

Meglehetősen prózai számítógépes látási feladatnak tűnhet, de egy kép elemzése és annak meghatározása, hogy az egyik objektum hol végződik, és hol kezdődik a másik, meglehetősen alapvető készség, amely nélkül egy sor bonyolultabb feladat megoldhatatlan lenne.

Az „objektumszegmentáció” nem újdonság; Az AI-kutatók évek óta dolgoznak rajta. Ám ezeknek a modelleknek az építése általában időigényes folyamat volt, amely sok emberi annotációt és jelentős számítási erőforrást igényel a képeken. Az eredményül kapott modellek pedig jellemzően nagymértékben specializálódtak bizonyos felhasználási esetekre.

Most azonban a Meta kutatói bemutatták a Segment Anything Model (SAM) modellt, amely bármilyen tárgyat képes kivágni bármilyen jelenetben, függetlenül attól, hogy látott-e már hasonlót korábban. A modell ezt számos különféle felszólításra is képes megtenni, a szöveges leírástól az egérkattintásig vagy akár a szemkövetési adatokig.

"A SAM megtanulta az objektumok általános fogalmát, és bármilyen képen vagy videón lévő objektumhoz képes maszkot generálni" - írták a kutatók egy blog Hozzászólás. „Úgy gondoljuk, hogy a lehetőségek szélesek, és izgatottak vagyunk a sok lehetséges felhasználási eset miatt, amelyekről még nem is gondoltunk.”

A modell fejlesztésének kulcsa egy hatalmas új, 1.1 milliárd szegmentációs maszkból álló adatkészlet volt, amely a kép azon részeire vonatkozik, amelyeket elkülönítettek és megjegyzésekkel jeleztek, hogy egy adott objektumot tartalmaznak. A képek manuális emberi megjegyzéseinek és automatizált folyamatok kombinációjával hozták létre, és ez messze az eddigi legnagyobb ilyen típusú gyűjtemény.

A Meta kutatói szerint egy ilyen hatalmas adathalmazra oktatva egy általános fogalmat alakított ki arról, hogy mi is az objektum, ami lehetővé teszi, hogy olyan dolgokat is szegmentáljon, amelyeket korábban még nem is látott. Ez az általánosítási képesség arra késztette a kutatókat, hogy a SAM-ot „alapmodellnek” nevezzék, a ellentmondásos kifejezés más masszív előre betanított modellek leírására szolgál, mint pl OpenAI GPT sorozat, amelyek képességei állítólag annyira általánosak, hogy számos alkalmazás alapjául szolgálhatnak.

A képszegmentálás határozottan kulcsfontosságú összetevője a számítógépes látási feladatok széles skálájának. Ha nem tudod szétválasztani a jelenet különböző összetevőit, akkor nehéz ennél bonyolultabb dolgot csinálni. A kutatók blogjukban azt mondják, hogy felbecsülhetetlen értékűnek bizonyulhat a videó- ​​és képszerkesztésben, vagy segíthet a tudományos képek elemzésében.

A vállalat metaverzum-ambicióihoz talán még helyénvalóbb, hogy bemutatják, hogyan használható virtuális valóság-headsettel együtt, hogy a felhasználó tekintete alapján válasszon ki konkrét objektumokat. Azt is mondják, hogy potenciálisan egy nagy nyelvi modellel párosítható egy multimodális rendszer létrehozása érdekében, amely képes megérteni egy weboldal vizuális és szöveges tartalmát.

A felszólítások széles körének kezelésére való képessége különösen rugalmassá teszi a rendszert. Az a weboldal Az új modell bemutatója során a cég megmutatja, hogy egy kép elemzése után arra kérheti, hogy különítsen el bizonyos objektumokat úgy, hogy egyszerűen rákattint az egérkurzorral, beírja, hogy mit szeretne szegmentálni, vagy egyszerűen felosztja a teljes képet. külön objektumok.

És ami a legfontosabb, a vállalat kutatási célokra nyílt forrásból szerzi be mind a modellt, mind az adatkészletet, hogy mások építhessenek munkájukra. Ugyanezt a megközelítést alkalmazta a vállalat a LLaMA nagynyelvű modelljénél, ami ahhoz vezetett, hogy gyorsan szivárgott az interneten és sarkallva a kísérletezési hullám amatőrök és hackerek.

Hogy ez megtörténik-e a SAM-mel, az még nem látható, de akárhogy is, ez egy ajándék az AI-kutatói közösségnek, amely felgyorsíthatja az előrehaladást számos fontos számítógépes látási probléma megoldásában.

Kép: Meta AI

Időbélyeg:

Még több Singularity Hub