Hvad er syntetiske data? Deres typer, brugssager og applikationer til maskinindlæring og privatliv

Genudgivet af Platon

Abonnenter: 0

Området for datavidenskab og maskinlæring vokser hver eneste dag. Da nye modeller og algoritmer bliver foreslået med tiden, har disse nye algoritmer og modeller brug for enorme data til træning og test. Deep Learning-modeller vinder så meget popularitet i dag, og disse modeller er også data-hungrende. At indhente en så enorm mængde data i forbindelse med de forskellige problemformuleringer er en ret hæslig, tidskrævende og dyr proces. Dataene er indsamlet fra virkelige scenarier, hvilket rejser sikkerhedsansvar og bekymringer om privatlivets fred. De fleste af dataene er private og beskyttet af love og bestemmelser om privatlivets fred, hvilket hindrer deling og bevægelse af data mellem organisationer eller nogle gange mellem forskellige afdelinger i en enkelt organisation – hvilket resulterer i at forsinke eksperimenter og test af produkter. Så spørgsmålet opstår, hvordan kan dette problem løses? Hvordan kan data gøres mere tilgængelige og åbne uden at give anledning til bekymringer om nogens privatliv?

Løsningen på dette problem er noget kendt som Syntetiske data.

Så hvad er syntetiske data?

Per definition genereres syntetiske data kunstigt eller algoritmisk og ligner meget de faktiske datas underliggende struktur og egenskaber. Hvis de syntetiserede data er gode, kan de ikke skelnes fra rigtige data.

Hvor mange forskellige typer syntetiske data kan der være?

Svaret på dette spørgsmål er meget åbent, da data kan antage mange former, men det har vi hovedsageligt

Tekstdata
Audio eller visuelle data (f.eks. Billeder, videoer og lyd)
Tabeldata

Brug eksempler på syntetiske data til maskinlæring

Vi vil kun diskutere anvendelsestilfælde af kun tre typer syntetiske data, som nævnt ovenfor.

Brug af syntetiske tekstdata til træning af NLP-modeller

Syntetiske data har applikationer inden for naturlig sprogbehandling. For eksempel bruger Alexa AI-teamet hos Amazon syntetiske data til at afslutte træningssættet til deres NLU-system (naturlig sprogforståelse). Det giver dem et solidt grundlag for at træne nye sprog uden eksisterende eller tilstrækkelige forbrugerinteraktionsdata.

Brug af syntetiske data til træning af synsalgoritmer

Lad os diskutere en udbredt use case her. Antag, at vi vil udvikle en algoritme til at detektere eller tælle antallet af ansigter i et billede. Vi kan bruge et GAN eller et andet generativt netværk til at generere realistiske menneskeansigter, dvs. ansigter, der ikke eksisterer i den virkelige verden, til at træne modellen. En anden fordel er, at vi kan generere så meget data, som vi vil, fra disse algoritmer uden at krænke nogens privatliv. Men vi kan ikke bruge rigtige data, da de indeholder nogle personers ansigter, så nogle privatlivspolitikker begrænser brugen af disse data.

En anden use case er at lave forstærkningslæring i et simuleret miljø. Antag, at vi vil teste en robotarm designet til at gribe en genstand og placere den i en kasse. En forstærkende læringsalgoritme er designet til dette formål. Vi er nødt til at lave eksperimenter for at teste det, fordi det er sådan, forstærkningslæringsalgoritmen lærer. Opsætning af et eksperiment i et virkelighedsscenarie er ret dyrt og tidskrævende, hvilket begrænser antallet af forskellige eksperimenter, vi kan udføre. Men hvis vi laver eksperimenterne i det simulerede miljø, så er opsætning af eksperimentet relativt billigt, da det ikke vil kræve en robotarmprototype.

Brug af tabeldata

Syntetiske data i tabelform er kunstigt genererede data, der efterligner virkelige data, der er gemt i tabeller. Disse data er struktureret i rækker og kolonner. Disse tabeller kan indeholde alle data, såsom en musikafspilningsliste. For hver sang vedligeholder din musikafspiller en masse information: dens navn, sangeren, dens længde, dens genre og så videre. Det kan også være en finansiel rekord som banktransaktioner, aktiekurser osv.

Syntetiske tabeldata relateret til banktransaktioner bruges til at træne modeller og designe algoritmer til at opdage svigagtige transaktioner. Aktiekursdata fra fortiden kan bruges til at træne og teste modeller til at forudsige fremtidige kurser på aktier.

En af de væsentlige fordele ved at bruge syntetiske data i maskinlæring er, at udvikleren har kontrol over dataene; han kan foretage ændringer i dataene i henhold til behovet for at teste enhver idé og eksperimentere med det. I mellemtiden kan en udvikler teste modellen på syntetiserede data, og det vil give en meget klar idé om, hvordan modellen vil præstere på virkelige data. Hvis en udvikler vil prøve en model og venter på rigtige data, kan det tage uger eller endda måneder at indhente data. Derfor forsinker udviklingen og innovationen af teknologi.

Nu er vi klar til at diskutere, hvordan syntetiske data hjælper med at løse problemerne i forbindelse med databeskyttelse.

Mange industrier er afhængige af data genereret af deres kunder til innovation og udvikling, men disse data indeholder personligt identificerbare oplysninger (PII), og privatlivslovgivningen regulerer strengt behandlingen af sådanne data. For eksempel forbyder den generelle databeskyttelsesforordning (GDPR) brug, der ikke var udtrykkeligt givet samtykke til, da organisationen indsamlede dataene.‍ Da syntetiske data meget ligner den underliggende struktur af rigtige data og samtidig sikrer, at ingen individ, der er til stede i de virkelige data, kan genidentificeres ud fra de syntetiske data. Som følge heraf har behandling og deling af syntetiske data meget færre reguleringer, hvilket resulterer i hurtigere udvikling og innovationer og nem adgang til data.

Konklusion

Syntetiske data har mange væsentlige fordele. Det giver ML-udviklere kontrol over eksperimenter og øger udviklingshastigheden, da dataene nu er mere tilgængelige. Det fremmer samarbejde i større skala, da data frit kan deles. Derudover garanterer syntetiske data at beskytte privatlivets fred mod de rigtige data.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar er konsulentpraktikant hos MarktechPost. Han forfølger i øjeblikket sin BS fra Indian Institute of Technology(IIT), Kanpur. Han er Machine Learning-entusiast. Han brænder for forskning og de seneste fremskridt inden for Deep Learning, Computer Vision og relaterede områder.

<!–

Tidsstempel: November 12, 2022November 14, 2022