Hva er syntetiske data? Deres typer, brukstilfeller og applikasjoner for maskinlæring og personvern

bilde

Feltet for datavitenskap og maskinlæring vokser hver eneste dag. Ettersom nye modeller og algoritmer blir foreslått over tid, trenger disse nye algoritmene og modellene enorme data for trening og testing. Deep Learning-modeller vinner så mye popularitet nå for tiden, og disse modellene er også datahungrige. Å skaffe en så enorm mengde data i sammenheng med de forskjellige problemformuleringene er en ganske grusom, tidkrevende og kostbar prosess. Dataene er samlet inn fra virkelige scenarier, noe som øker sikkerhetsansvar og bekymringer om personvern. De fleste dataene er private og beskyttet av personvernlover og -forskrifter, noe som hindrer deling og bevegelse av data mellom organisasjoner eller noen ganger mellom ulike avdelinger i en enkelt organisasjon – noe som resulterer i at eksperimenter og testing av produkter forsinkes. Så spørsmålet oppstår hvordan kan dette problemet løses? Hvordan kan dataene gjøres mer tilgjengelige og åpne uten å vekke bekymring for noens personvern?  

Løsningen på dette problemet er noe kjent som Syntetiske data. 

Så, hva er syntetiske data?

Per definisjon genereres syntetiske data kunstig eller algoritmisk og ligner godt på faktiske datas underliggende struktur og egenskap. Hvis de syntetiserte dataene er gode, kan de ikke skilles fra ekte data.

Hvor mange forskjellige typer syntetiske data kan det være?

Svaret på dette spørsmålet er veldig åpent, da data kan ha mange former, men stort sett har vi det 

  1. Tekstdata
  2. Audio eller visuelle data (f.eks. Bilder, videoer og lyd)
  3. Tabelldata

Bruk tilfeller av syntetiske data for maskinlæring

Vi vil bare diskutere brukstilfellene for bare tre typer syntetiske data, som nevnt ovenfor.

  • Bruk av syntetiske tekstdata for opplæring av NLP-modeller

Syntetiske data har applikasjoner innen naturlig språkbehandling. For eksempel bruker Alexa AI-teamet hos Amazon syntetiske data for å fullføre opplæringssettet for deres NLU-system (naturlig språkforståelse). Det gir dem et solid grunnlag for opplæring av nye språk uten eksisterende eller nok forbrukerinteraksjonsdata.

  • Bruk av syntetiske data for å trene synsalgoritmer

   La oss diskutere en utbredt brukssak her. Anta at vi ønsker å utvikle en algoritme for å oppdage eller telle antall ansikter i et bilde. Vi kan bruke et GAN eller et annet generativt nettverk for å generere realistiske menneskeansikter, dvs. ansikter som ikke eksisterer i den virkelige verden, for å trene modellen. En annen fordel er at vi kan generere så mye data vi vil fra disse algoritmene uten å krenke noens personvern. Men vi kan ikke bruke ekte data ettersom de inneholder enkelte individers ansikter, så noen personvernregler begrenser bruken av disse dataene.

Et annet bruksområde er å gjøre forsterkende læring i et simulert miljø. Anta at vi vil teste en robotarm designet for å gripe et objekt og plassere det i en boks. En forsterkende læringsalgoritme er designet for dette formålet. Vi må gjøre eksperimenter for å teste det fordi dette er hvordan forsterkningslæringsalgoritmen lærer. Å sette opp et eksperiment i et virkelighetsscenario er ganske dyrt og tidkrevende, og begrenser antallet forskjellige eksperimenter vi kan utføre. Men hvis vi gjør eksperimentene i det simulerte miljøet, er det relativt billig å sette opp eksperimentet, da det ikke vil kreve en robotarmprototype.

  • Bruk av tabelldata

Syntetiske tabelldata er kunstig genererte data som etterligner virkelige data lagret i tabeller. Disse dataene er strukturert i rader og kolonner. Disse tabellene kan inneholde alle data, for eksempel en musikkspilleliste. For hver sang opprettholder musikkspilleren en haug med informasjon: navnet, sangeren, lengden, sjangeren og så videre. Det kan også være en finansiell rekord som banktransaksjoner, aksjekurser osv.

Syntetiske tabelldata relatert til banktransaksjoner brukes til å trene modeller og designalgoritmer for å oppdage uredelige transaksjoner. Aksjekursdata fra fortiden kan brukes til å trene og teste modeller for å forutsi fremtidige kurser på aksjer.

En av de betydelige fordelene med å bruke syntetiske data i maskinlæring er at utvikleren har kontroll over dataene; han kan gjøre endringer i dataene i henhold til behovet for å teste enhver idé og eksperimentere med det. I mellomtiden kan en utvikler teste modellen på syntetiserte data, og det vil gi en veldig klar idé om hvordan modellen vil prestere på virkelige data. Hvis en utvikler vil prøve en modell og venter på reelle data, kan det ta uker eller måneder å skaffe data. Derfor forsinker utviklingen og innovasjonen av teknologi.

Nå er vi klare for å diskutere hvordan syntetiske data bidrar til å løse problemene knyttet til personvern.

Mange bransjer er avhengige av dataene som genereres av deres kunder for innovasjon og utvikling, men disse dataene inneholder personlig identifiserbar informasjon (PII), og personvernlovgivningen regulerer behandlingen av slike data strengt. For eksempel forbyr den generelle databeskyttelsesforordningen (GDPR) bruk som ikke var eksplisitt samtykket til da organisasjonen samlet inn dataene.‍ Siden syntetiske data ligner veldig mye på den underliggende strukturen til ekte data, og samtidig sikrer at ingen individ som er tilstede i de virkelige dataene, kan identifiseres på nytt fra de syntetiske dataene. Som et resultat har behandling og deling av syntetiske data mye færre reguleringer, noe som resulterer i raskere utvikling og innovasjoner og enkel tilgang til data.

konklusjonen

Syntetiske data har mange betydelige fordeler. Det gir ML-utviklere kontroll over eksperimenter og øker utviklingshastigheten ettersom dataene nå er mer tilgjengelige. Det fremmer samarbeid i større skala siden data kan deles fritt. I tillegg garanterer syntetiske data å beskytte personvernet til enkeltpersoner fra de virkelige dataene.


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar er konsulentpraktikant hos MarktechPost. Han tar for tiden sin BS fra Indian Institute of Technology (IIT), Kanpur. Han er en maskinlæringsentusiast. Han er lidenskapelig opptatt av forskning og de siste fremskrittene innen dyp læring, datasyn og relaterte felt.

<!–

->

Tidstempel:

Mer fra Blockchain-konsulenter