Wat zijn synthetische gegevens? Hun typen, gebruiksscenario's en toepassingen voor machinaal leren en privacy

Heruitgegeven door Plato

volgers: 0

Het gebied van Data Science en Machine Learning groeit elke dag. Naarmate er in de loop van de tijd nieuwe modellen en algoritmen worden voorgesteld, hebben deze nieuwe algoritmen en modellen enorme gegevens nodig voor training en testen. Deep Learning-modellen winnen tegenwoordig enorm aan populariteit, en die modellen zijn ook data-hongerig. Het verkrijgen van zo'n enorme hoeveelheid gegevens in de context van de verschillende probleemstellingen is nogal een afschuwelijk, tijdrovend en duur proces. De gegevens worden verzameld op basis van real-life scenario's, wat leidt tot beveiligingsrisico's en privacykwesties. De meeste gegevens zijn privé en worden beschermd door privacywetten en -regelgeving, wat het delen en verplaatsen van gegevens tussen organisaties of soms tussen verschillende afdelingen van een enkele organisatie belemmert, wat resulteert in het vertragen van experimenten en het testen van producten. Dus de vraag rijst hoe dit probleem kan worden opgelost? Hoe kunnen de gegevens toegankelijker en opener worden gemaakt zonder zorgen te wekken over iemands privacy?

De oplossing voor dit probleem is iets dat bekend staat als Synthetische gegevens.

Wat zijn synthetische gegevens?

Synthetische gegevens worden per definitie kunstmatig of algoritmisch gegenereerd en lijken sterk op de onderliggende structuur en eigenschappen van de werkelijke gegevens. Als de gesynthetiseerde gegevens goed zijn, zijn ze niet te onderscheiden van echte gegevens.

Hoeveel verschillende soorten synthetische gegevens kunnen er zijn?

Het antwoord op deze vraag heeft een zeer open einde, aangezien gegevens vele vormen kunnen aannemen, maar de belangrijkste hebben we

Tekstgegevens
Audio- of visuele gegevens (bijvoorbeeld Afbeeldingen, video's en audio)
Tabelgegevens

Gebruik cases van synthetische data voor machine learning

We zullen alleen de use-cases bespreken van slechts drie soorten synthetische gegevens, zoals hierboven vermeld.

Gebruik van synthetische tekstgegevens voor het trainen van NLP-modellen

Synthetische data heeft toepassingen op het gebied van natuurlijke taalverwerking. Het Alexa AI-team bij Amazon gebruikt bijvoorbeeld synthetische gegevens om de trainingsset voor hun NLU-systeem (natuurlijk taalbegrip) te voltooien. Het biedt hen een solide basis voor het trainen van nieuwe talen zonder bestaande of voldoende gegevens over consumenteninteractie.

Synthetische gegevens gebruiken voor het trainen van visie-algoritmen

Laten we hier een wijdverspreide use case bespreken. Stel dat we een algoritme willen ontwikkelen om het aantal gezichten in een afbeelding te detecteren of te tellen. We kunnen een GAN of een ander generatief netwerk gebruiken om realistische menselijke gezichten te genereren, dwz gezichten die niet bestaan in de echte wereld, om het model te trainen. Een ander voordeel is dat we uit deze algoritmen zoveel gegevens kunnen genereren als we willen, zonder iemands privacy te schenden. Maar we kunnen geen echte gegevens gebruiken omdat het de gezichten van sommige personen bevat, dus bepaalde privacybeleidsregels beperken het gebruik van die gegevens.

Een andere use case is het doen van versterkend leren in een gesimuleerde omgeving. Stel dat we een robotarm willen testen die is ontworpen om een object te grijpen en in een doos te plaatsen. Hiervoor is een bekrachtigend leeralgoritme ontworpen. We moeten experimenten doen om het te testen, want dit is hoe het leeralgoritme voor versterking leert. Het opzetten van een experiment in een realistisch scenario is vrij duur en tijdrovend, waardoor het aantal verschillende experimenten dat we kunnen uitvoeren beperkt is. Maar als we de experimenten in de gesimuleerde omgeving doen, is het opzetten van het experiment relatief goedkoop, omdat er geen prototype van een robotarm voor nodig is.

Gebruik van gegevens in tabelvorm

Tabellarische synthetische gegevens zijn kunstmatig gegenereerde gegevens die gegevens uit de echte wereld nabootsen die in tabellen zijn opgeslagen. Deze gegevens zijn gestructureerd in rijen en kolommen. Deze tabellen kunnen alle gegevens bevatten, zoals een muziekafspeellijst. Voor elk nummer houdt uw muziekspeler een heleboel informatie bij: de naam, de zanger, de lengte, het genre, enzovoort. Het kan ook een financieel record zijn, zoals banktransacties, aandelenkoersen, enz.

Synthetische tabelgegevens met betrekking tot banktransacties worden gebruikt om modellen te trainen en algoritmen te ontwerpen om frauduleuze transacties op te sporen. Aandelenkoersgegevens uit het verleden kunnen worden gebruikt om modellen te trainen en te testen voor het voorspellen van toekomstige koersen van aandelen.

Een van de grote voordelen van het gebruik van synthetische data bij machine learning is dat de ontwikkelaar controle heeft over de data; hij kan wijzigingen in de gegevens aanbrengen om elk idee te testen en daarmee te experimenteren. Ondertussen kan een ontwikkelaar het model testen op gesynthetiseerde data, en het zal een heel duidelijk beeld geven van hoe het model zal presteren op real-life data. Als een ontwikkelaar een model wil uitproberen en wacht op echte gegevens, kan het verzamelen van gegevens weken of zelfs maanden duren. Vandaar dat de ontwikkeling en innovatie van technologie wordt vertraagd.

Nu zijn we klaar om te bespreken hoe synthetische gegevens helpen om de problemen met betrekking tot gegevensprivacy op te lossen.

Veel industrieën zijn voor innovatie en ontwikkeling afhankelijk van de gegevens die door hun klanten worden gegenereerd, maar die gegevens bevatten persoonlijk identificeerbare informatie (PII) en privacywetten reguleren strikt de verwerking van dergelijke gegevens. Zo verbiedt de Algemene Verordening Gegevensbescherming (AVG) gebruik waarvoor niet expliciet is ingestemd toen de organisatie de gegevens verzamelde.‍ Omdat synthetische gegevens zeer sterk lijken op de onderliggende structuur van echte gegevens en er tegelijkertijd voor zorgen dat geen enkel individu dat aanwezig is in de echte gegevens opnieuw kan worden geïdentificeerd uit de synthetische gegevens. Hierdoor kent het verwerken en delen van synthetische data veel minder regelgeving, wat resulteert in snellere ontwikkelingen en innovaties en gemakkelijke toegang tot data.

Conclusie

Synthetische data heeft veel belangrijke voordelen. Het geeft ML-ontwikkelaars controle over experimenten en verhoogt de ontwikkelingssnelheid omdat de gegevens nu beter toegankelijk zijn. Het bevordert samenwerking op grotere schaal omdat gegevens vrijelijk kunnen worden gedeeld. Bovendien garanderen synthetische gegevens de bescherming van de privacy van de individuen tegen de echte gegevens.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar is een consulting stagiair bij MarktechPost. Hij volgt momenteel zijn BS aan het Indian Institute of Technology (IIT), Kanpur. Hij is een liefhebber van Machine Learning. Hij is gepassioneerd door onderzoek en de nieuwste ontwikkelingen op het gebied van Deep Learning, Computer Vision en aanverwante gebieden.

<!–

Tijdstempel: 12 november 202214 november 2022