Cosa sono i dati sintetici? I loro tipi, casi d'uso e applicazioni per l'apprendimento automatico e la privacy

Ripubblicato da Platone

Seguaci: 0

Il campo della scienza dei dati e dell'apprendimento automatico cresce ogni giorno. Poiché nel tempo vengono proposti nuovi modelli e algoritmi, questi nuovi algoritmi e modelli necessitano di enormi dati per l'addestramento e il test. I modelli di deep learning stanno guadagnando così tanta popolarità al giorno d'oggi e anche questi modelli sono affamati di dati. Ottenere una quantità così massiccia di dati nel contesto delle diverse dichiarazioni del problema è un processo piuttosto orribile, dispendioso in termini di tempo e costoso. I dati vengono raccolti da scenari di vita reale, il che solleva responsabilità per la sicurezza e problemi di privacy. La maggior parte dei dati è privata e protetta dalle leggi e dai regolamenti sulla privacy, che ostacolano la condivisione e lo spostamento dei dati tra organizzazioni o talvolta tra diversi reparti di una singola organizzazione, con il risultato di ritardare gli esperimenti e i test dei prodotti. Quindi sorge la domanda: come risolvere questo problema? In che modo i dati possono essere resi più accessibili e aperti senza sollevare preoccupazioni sulla privacy di qualcuno?

La soluzione a questo problema è qualcosa di noto come Dati sintetici.

Quindi, cosa sono i dati sintetici?

Per definizione, i dati sintetici vengono generati artificialmente o algoritmicamente e assomigliano molto alla struttura e alle proprietà sottostanti dei dati reali. Se i dati sintetizzati sono buoni, sono indistinguibili dai dati reali.

Quanti tipi diversi di dati sintetici possono esserci?

La risposta a questa domanda è molto aperta, poiché i dati possono assumere molte forme, ma soprattutto ne abbiamo

Dati di testo
Dati audio o visivi (ad esempio, Immagini, video e audio)
Dati tabulari

Casi d'uso di dati sintetici per l'apprendimento automatico

Discuteremo solo i casi d'uso di soli tre tipi di dati sintetici, come menzionato sopra.

Utilizzo di dati testuali sintetici per l'addestramento di modelli di PNL

I dati sintetici hanno applicazioni nel campo dell'elaborazione del linguaggio naturale. Ad esempio, il team Alexa AI di Amazon utilizza dati sintetici per completare il set di formazione per il proprio sistema NLU (comprensione del linguaggio naturale). Fornisce loro una solida base per l'apprendimento di nuove lingue senza dati esistenti o sufficienti sull'interazione con i consumatori.

Utilizzo di dati sintetici per addestrare algoritmi di visione

Discutiamo un caso d'uso diffuso qui. Supponiamo di voler sviluppare un algoritmo per rilevare o contare il numero di volti in un'immagine. Possiamo usare un GAN o qualche altra rete generativa per generare volti umani realistici, cioè volti che non esistono nel mondo reale, per addestrare il modello. Un altro vantaggio è che possiamo generare tutti i dati che vogliamo da questi algoritmi senza violare la privacy di nessuno. Ma non possiamo utilizzare dati reali in quanto contengono i volti di alcune persone, quindi alcune politiche sulla privacy limitano l'utilizzo di tali dati.

Un altro caso d'uso è l'apprendimento per rinforzo in un ambiente simulato. Supponiamo di voler testare un braccio robotico progettato per afferrare un oggetto e metterlo in una scatola. Un algoritmo di apprendimento per rinforzo è progettato per questo scopo. Dobbiamo fare esperimenti per testarlo perché è così che impara l'algoritmo di apprendimento per rinforzo. La creazione di un esperimento in uno scenario di vita reale è piuttosto costosa e richiede tempo, limitando il numero di diversi esperimenti che possiamo eseguire. Ma se eseguiamo gli esperimenti nell'ambiente simulato, l'impostazione dell'esperimento è relativamente poco costosa in quanto non richiederà un prototipo di braccio robotico.

Usi dei dati tabulari

I dati tabulari sintetici sono dati generati artificialmente che imitano i dati del mondo reale archiviati nelle tabelle. Questi dati sono strutturati in righe e colonne. Queste tabelle possono contenere qualsiasi dato, come una playlist musicale. Per ogni canzone, il tuo lettore musicale mantiene una serie di informazioni: il suo nome, il cantante, la sua lunghezza, il suo genere e così via. Può anche essere un record finanziario come transazioni bancarie, prezzi delle azioni, ecc.

I dati tabulari sintetici relativi alle transazioni bancarie vengono utilizzati per addestrare modelli e progettare algoritmi per rilevare transazioni fraudolente. I dati sui prezzi delle azioni del passato possono essere utilizzati per addestrare e testare i modelli per prevedere i prezzi futuri delle azioni.

Uno dei vantaggi significativi dell'utilizzo di dati sintetici nell'apprendimento automatico è che lo sviluppatore ha il controllo sui dati; può apportare modifiche ai dati in base alla necessità di testare qualsiasi idea e sperimentarla. Nel frattempo, uno sviluppatore può testare il modello su dati sintetizzati e darà un'idea molto chiara di come si comporterà il modello su dati reali. Se uno sviluppatore desidera provare un modello e attende dati reali, l'acquisizione dei dati può richiedere settimane o addirittura mesi. Quindi, ritardando lo sviluppo e l'innovazione della tecnologia.

Ora siamo pronti a discutere di come i dati sintetici aiutino a risolvere i problemi relativi alla privacy dei dati.

Molti settori dipendono dai dati generati dai propri clienti per l'innovazione e lo sviluppo, ma tali dati contengono informazioni di identificazione personale (PII) e le leggi sulla privacy regolano rigorosamente il trattamento di tali dati. Ad esempio, il Regolamento generale sulla protezione dei dati (GDPR) vieta gli usi a cui non è stato esplicitamente consentito quando l'organizzazione ha raccolto i dati.‍ Poiché i dati sintetici assomigliano molto alla struttura sottostante dei dati reali e, allo stesso tempo, garantisce che nessun individuo presente nei dati reali può essere reidentificato dai dati sintetici. Di conseguenza, l'elaborazione e la condivisione di dati sintetici hanno molte meno normative, con conseguenti sviluppi e innovazioni più rapidi e un facile accesso ai dati.

Conclusione

I dati sintetici hanno molti vantaggi significativi. Offre agli sviluppatori ML il controllo sugli esperimenti e aumenta la velocità di sviluppo poiché i dati sono ora più accessibili. Promuove la collaborazione su scala più ampia poiché i dati sono liberamente condivisibili. Inoltre, i dati sintetici garantiscono di proteggere la privacy delle persone dai dati reali.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar è uno stagista di consulenza presso MarktechPost. Attualmente sta conseguendo la laurea presso l'Indian Institute of Technology (IIT), Kanpur. È un appassionato di Machine Learning. È appassionato di ricerca e degli ultimi progressi in Deep Learning, Computer Vision e campi correlati.

<!–

Timestamp: 12 Novembre 202214 Novembre 2022