La nuova intelligenza artificiale di Meta può individuare e ritagliare qualsiasi oggetto in un'immagine, anche quelli mai visti prima

La nuova intelligenza artificiale di Meta può individuare e ritagliare qualsiasi oggetto in un'immagine, anche quelli mai visti prima

La nuova intelligenza artificiale di Meta può individuare e tagliare qualsiasi oggetto in un'immagine, anche quelli mai visti prima PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Individuare oggetti separati in una scena visiva ci sembra intuitivo, ma le macchine hanno difficoltà con questo compito. Ora un nuovo modello di intelligenza artificiale di Meta ha sviluppato un'idea generale di cosa sia un oggetto, permettendogli di separare gli oggetti anche se non li ha mai visti prima.

Potrebbe sembrare un'attività di visione artificiale abbastanza banale, ma essere in grado di analizzare un'immagine e capire dove finisce un oggetto e ne inizia un altro è un'abilità piuttosto fondamentale, senza la quale una serie di compiti più complicati sarebbe irrisolvibile.

La "segmentazione degli oggetti" non è una novità; I ricercatori di intelligenza artificiale ci hanno lavorato per anni. Ma in genere, la creazione di questi modelli è stata un processo che richiedeva molto tempo, molte annotazioni umane delle immagini e notevoli risorse di calcolo. E in genere i modelli risultanti erano altamente specializzati per casi d'uso particolari.

Ora, però, i ricercatori di Meta hanno svelato il Segment Anything Model (SAM), che è in grado di ritagliare qualsiasi oggetto in qualsiasi scena, indipendentemente dal fatto che abbia visto qualcosa di simile prima. Il modello può anche farlo in risposta a una varietà di richieste diverse, dalla descrizione del testo ai clic del mouse o persino ai dati di tracciamento oculare.

"SAM ha appreso una nozione generale di cosa sono gli oggetti e può generare maschere per qualsiasi oggetto in qualsiasi immagine o video", hanno scritto i ricercatori in un blog settimana. "Crediamo che le possibilità siano ampie e siamo entusiasti dei molti potenziali casi d'uso che non abbiamo ancora nemmeno immaginato".

La chiave per lo sviluppo del modello è stato un enorme nuovo set di dati di 1.1 miliardi di maschere di segmentazione, che si riferisce a regioni di un'immagine che sono state isolate e annotate per indicare che contengono un particolare oggetto. È stato creato attraverso una combinazione di annotazione umana manuale di immagini e processi automatizzati, ed è di gran lunga la più grande raccolta di questo tipo assemblata fino ad oggi.

Allenandosi su un set di dati così vasto, i ricercatori di Meta affermano di aver sviluppato un concetto generale di cosa sia un oggetto, che gli consente di segmentare cose che non ha mai visto prima. Questa capacità di generalizzare ha portato i ricercatori a definire SAM un "modello di base", a termine controverso usato per descrivere altri enormi modelli pre-addestrati come GPT di OpenAI serie, le cui capacità sono presumibilmente così generali da poter essere utilizzate come base per una serie di applicazioni.

La segmentazione delle immagini è sicuramente un ingrediente chiave in una vasta gamma di attività di visione artificiale. Se non riesci a separare i diversi componenti di una scena, è difficile fare qualcosa di più complicato. Nel loro blog, i ricercatori affermano che potrebbe rivelarsi prezioso per l'editing di video e immagini o aiutare con l'analisi di immagini scientifiche.

Forse in modo più pertinente per le ambizioni metaverse dell'azienda, forniscono una demo di come potrebbe essere utilizzato insieme a un visore per realtà virtuale per selezionare oggetti specifici in base allo sguardo dell'utente. Dicono anche che potrebbe potenzialmente essere abbinato a un modello di linguaggio di grandi dimensioni per creare un sistema multimodale in grado di comprendere sia il contenuto visivo che quello testuale di una pagina web.

La capacità di gestire un'ampia gamma di richieste rende il sistema particolarmente flessibile. In un pagina web dimostrando il nuovo modello, l'azienda mostra che dopo aver analizzato un'immagine può essere richiesto di separare oggetti specifici semplicemente facendo clic su di essi con il cursore del mouse, digitando ciò che si desidera segmentare o semplicemente suddividendo l'intera immagine in oggetti separati.

E, cosa più importante, l'azienda rende open source sia il modello che il set di dati per scopi di ricerca in modo che altri possano basarsi sul proprio lavoro. Questo è lo stesso approccio che l'azienda ha adottato con il suo modello LLaMA in grande linguaggio, che ha portato alla sua rapida esistenza trapelato online e spronando a ondata di sperimentazione da hobbisti e hacker.

Resta da vedere se accadrà lo stesso con SAM, ma in entrambi i casi è un regalo per la comunità di ricerca sull'IA che potrebbe accelerare i progressi su una serie di importanti problemi di visione artificiale.

Immagine di credito: Meta IA

Timestamp:

Di più da Hub di singolarità