I dati sintetici possono offrire miglioramenti reali delle prestazioni nell'apprendimento automatico PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

I dati sintetici possono offrire miglioramenti reali delle prestazioni nell’apprendimento automatico

Il riconoscimento delle azioni è migliorato notevolmente con set di dati video su larga scala. Tuttavia, questi set di dati sono accompagnati da questioni relative ai costi di cura, alla privacy, all’etica, ai pregiudizi e al copyright. COSÌ, CON gli scienziati si stanno rivolgendo a set di dati sintetici.

Questi sono realizzati da un computer che utilizza modelli 3D di scene, oggetti e esseri umani per produrre rapidamente molte clip diverse di azioni specifiche, senza i potenziali problemi di copyright o preoccupazioni etiche che derivano dai dati reali.

I dati sintetici sono validi quanto quelli reali?

Un team di scienziati del MIT, del MIT-IBM Watson AI Lab e dell’Università di Boston ha cercato di rispondere a questa domanda. Hanno creato un set di dati sintetico di 150,000 videoclip che rappresentavano una varietà di azioni umane e hanno effettuato esercitazioni apprendimento automatico modelli che utilizzano questo set di dati. Hanno poi mostrato a questi modelli sei set di dati di film presi dal mondo reale per testare quanto bene potevano cogliere le azioni in quelle registrazioni.

Gli scienziati hanno scoperto che i modelli addestrati sinteticamente hanno funzionato anche meglio dei modelli addestrati su dati reali per i video che hanno meno oggetti sullo sfondo.

Questa scoperta potrebbe aiutare gli scienziati a utilizzare set di dati sintetici per aiutare i modelli a eseguire in modo più accurato compiti reali. Per ridurre alcune delle preoccupazioni etiche, sulla privacy e sul copyright associate all’utilizzo di set di dati reali, può anche aiutare i ricercatori a determinare quali applicazioni di apprendimento automatico sono più adatte per l’addestramento con dati sintetici.

Rogerio Feris, scienziato principale e manager del Watson AI Lab del MIT-IBM, ha dichiarato: “L’obiettivo finale della nostra ricerca è sostituire il preaddestramento sui dati reali con il preaddestramento sui dati sintetici. Creare un’azione con dati sintetici ha un costo, ma una volta fatto, puoi generare immagini o video illimitati modificando la posa, l’illuminazione, ecc. Questa è la bellezza dei dati sintetici”.

Gli scienziati hanno iniziato compilando un nuovo SynAPT (Sintetic Action Pre-training and Transfer), utilizzando tre set di dati pubblicamente disponibili di videoclip sintetici che catturavano azioni umane. Contiene quasi 150 categorie di azioni, con 1,000 videoclip per categoria.

Tre modelli di machine learning sono stati preaddestrati per riconoscere le azioni utilizzando il set di dati dopo che è stato creato. Il pre-addestramento è il processo con cui si insegna a un modello un compito prima di insegnarne un altro. Il modello preaddestrato può utilizzare i parametri che ha già appreso per apprendere una nuova attività con un nuovo set di dati in modo più rapido ed efficiente. Questo è modellato sul modo in cui le persone apprendono, ovvero riutilizzare le informazioni passate quando conosciamo qualcosa di nuovo. Il modello pre-addestrato è stato testato utilizzando sei set di dati di videoclip reali, ciascuno dei quali cattura classi di azioni diverse da quelle presenti nei dati di addestramento.

È stato sorprendente per gli scienziati vedere che tutti e tre i modelli sintetici hanno sovraperformato i modelli addestrati con videoclip reali su quattro dei sei set di dati. La loro precisione era massima per i set di dati che contenevano videoclip con “basso bias scena-oggetto”. Ciò significa che il modello non può riconoscere l'azione guardando lo sfondo o altri oggetti nella scena: deve concentrarsi sull'azione stessa.

Feris ha detto, "Nei video con un basso bias scena-oggetto, la dinamica temporale delle azioni è più importante dell'aspetto degli oggetti o dello sfondo, e questo sembra essere ben catturato con dati sintetici."

“Un elevato pregiudizio tra scena e oggetto può fungere da ostacolo. Il modello potrebbe classificare erroneamente un'azione guardando un oggetto anziché l'azione stessa. Può confondere il modello”.

Il coautore Rameswar Panda, membro dello staff di ricerca presso il Watson AI Lab del MIT-IBM, ha affermato: “Sulla base di questi risultati, i ricercatori vogliono includere più classi di azioni e ulteriori piattaforme video sintetiche nel lavoro futuro, creando infine un catalogo di modelli che sono stati preaddestrati utilizzando dati sintetici”.

“Vogliamo costruire modelli che abbiano prestazioni molto simili o addirittura migliori rispetto ai modelli esistenti in letteratura, ma senza essere vincolati da nessuno di questi pregiudizi o problemi di sicurezza”.

Sooyoung Jin, coautore e postdoc CSAIL, ha detto: “Vogliono anche combinare il loro lavoro con la ricerca che cerca di generare video sintetici più accurati e realistici, che potrebbero aumentare le prestazioni dei modelli”.

“Utilizziamo set di dati sintetici per prevenire problemi di privacy o pregiudizi contestuali o sociali, ma cosa impara il modello? Impara qualcosa che sia imparziale?”

La coautrice Samarth Mishra, studentessa laureata alla Boston University (BU), disse“Nonostante ci sia un costo inferiore per ottenere dati sintetici ben annotati, attualmente non disponiamo di un set di dati con una scala tale da competere con i più grandi set di dati annotati con video reali. Discutendo i diversi costi e preoccupazioni con video reali e mostrando l’efficacia dei dati sintetici, speriamo di motivare gli sforzi in questa direzione”.

Riferimento della Gazzetta:

  1. Yo-cosa Kim et al. Quanto sono trasferibili le rappresentazioni video basate su dati sintetici? Carta

Timestamp:

Di più da Esploratore tecnologico