Het gebied van Data Science en Machine Learning groeit elke dag. Naarmate er in de loop van de tijd nieuwe modellen en algoritmen worden voorgesteld, hebben deze nieuwe algoritmen en modellen enorme gegevens nodig voor training en testen. Deep Learning-modellen winnen tegenwoordig enorm aan populariteit, en die modellen zijn ook data-hongerig. Het verkrijgen van zo'n enorme hoeveelheid gegevens in de context van de verschillende probleemstellingen is nogal een afschuwelijk, tijdrovend en duur proces. De gegevens worden verzameld op basis van real-life scenario's, wat leidt tot beveiligingsrisico's en privacykwesties. De meeste gegevens zijn privรฉ en worden beschermd door privacywetten en -regelgeving, wat het delen en verplaatsen van gegevens tussen organisaties of soms tussen verschillende afdelingen van een enkele organisatie belemmert, wat resulteert in het vertragen van experimenten en het testen van producten. Dus de vraag rijst hoe dit probleem kan worden opgelost? Hoe kunnen de gegevens toegankelijker en opener worden gemaakt zonder zorgen te wekken over iemands privacy?
De oplossing voor dit probleem is iets dat bekend staat als Synthetische gegevens.
Wat zijn synthetische gegevens?
Synthetische gegevens worden per definitie kunstmatig of algoritmisch gegenereerd en lijken sterk op de onderliggende structuur en eigenschappen van de werkelijke gegevens. Als de gesynthetiseerde gegevens goed zijn, zijn ze niet te onderscheiden van echte gegevens.
Hoeveel verschillende soorten synthetische gegevens kunnen er zijn?
Het antwoord op deze vraag heeft een zeer open einde, aangezien gegevens vele vormen kunnen aannemen, maar de belangrijkste hebben we
- Tekstgegevens
- Audio- of visuele gegevens (bijvoorbeeld Afbeeldingen, video's en audio)
- Tabelgegevens
Gebruik cases van synthetische data voor machine learning
We zullen alleen de use-cases bespreken van slechts drie soorten synthetische gegevens, zoals hierboven vermeld.
- Gebruik van synthetische tekstgegevens voor het trainen van NLP-modellen
Synthetische data heeft toepassingen op het gebied van natuurlijke taalverwerking. Het Alexa AI-team bij Amazon gebruikt bijvoorbeeld synthetische gegevens om de trainingsset voor hun NLU-systeem (natuurlijk taalbegrip) te voltooien. Het biedt hen een solide basis voor het trainen van nieuwe talen zonder bestaande of voldoende gegevens over consumenteninteractie.
- Synthetische gegevens gebruiken voor het trainen van visie-algoritmen
Laten we hier een wijdverspreide use case bespreken. Stel dat we een algoritme willen ontwikkelen om het aantal gezichten in een afbeelding te detecteren of te tellen. We kunnen een GAN of een ander generatief netwerk gebruiken om realistische menselijke gezichten te genereren, dwz gezichten die niet bestaan โโin de echte wereld, om het model te trainen. Een ander voordeel is dat we uit deze algoritmen zoveel gegevens kunnen genereren als we willen, zonder iemands privacy te schenden. Maar we kunnen geen echte gegevens gebruiken omdat het de gezichten van sommige personen bevat, dus bepaalde privacybeleidsregels beperken het gebruik van die gegevens.
Een andere use case is het doen van versterkend leren in een gesimuleerde omgeving. Stel dat we een robotarm willen testen die is ontworpen om een โโobject te grijpen en in een doos te plaatsen. Hiervoor is een bekrachtigend leeralgoritme ontworpen. We moeten experimenten doen om het te testen, want dit is hoe het leeralgoritme voor versterking leert. Het opzetten van een experiment in een realistisch scenario is vrij duur en tijdrovend, waardoor het aantal verschillende experimenten dat we kunnen uitvoeren beperkt is. Maar als we de experimenten in de gesimuleerde omgeving doen, is het opzetten van het experiment relatief goedkoop, omdat er geen prototype van een robotarm voor nodig is.
- Gebruik van gegevens in tabelvorm
Tabellarische synthetische gegevens zijn kunstmatig gegenereerde gegevens die gegevens uit de echte wereld nabootsen die in tabellen zijn opgeslagen. Deze gegevens zijn gestructureerd in rijen en kolommen. Deze tabellen kunnen alle gegevens bevatten, zoals een muziekafspeellijst. Voor elk nummer houdt uw muziekspeler een heleboel informatie bij: de naam, de zanger, de lengte, het genre, enzovoort. Het kan ook een financieel record zijn, zoals banktransacties, aandelenkoersen, enz.
Synthetische tabelgegevens met betrekking tot banktransacties worden gebruikt om modellen te trainen en algoritmen te ontwerpen om frauduleuze transacties op te sporen. Aandelenkoersgegevens uit het verleden kunnen worden gebruikt om modellen te trainen en te testen voor het voorspellen van toekomstige koersen van aandelen.
Een van de grote voordelen van het gebruik van synthetische data bij machine learning is dat de ontwikkelaar controle heeft over de data; hij kan wijzigingen in de gegevens aanbrengen om elk idee te testen en daarmee te experimenteren. Ondertussen kan een ontwikkelaar het model testen op gesynthetiseerde data, en het zal een heel duidelijk beeld geven van hoe het model zal presteren op real-life data. Als een ontwikkelaar een model wil uitproberen en wacht op echte gegevens, kan het verzamelen van gegevens weken of zelfs maanden duren. Vandaar dat de ontwikkeling en innovatie van technologie wordt vertraagd.
Nu zijn we klaar om te bespreken hoe synthetische gegevens helpen om de problemen met betrekking tot gegevensprivacy op te lossen.
Veel industrieรซn zijn voor innovatie en ontwikkeling afhankelijk van de gegevens die door hun klanten worden gegenereerd, maar die gegevens bevatten persoonlijk identificeerbare informatie (PII) en privacywetten reguleren strikt de verwerking van dergelijke gegevens. Zo verbiedt de Algemene Verordening Gegevensbescherming (AVG) gebruik waarvoor niet expliciet is ingestemd toen de organisatie de gegevens verzamelde.โ Omdat synthetische gegevens zeer sterk lijken op de onderliggende structuur van echte gegevens en er tegelijkertijd voor zorgen dat geen enkel individu dat aanwezig is in de echte gegevens opnieuw kan worden geรฏdentificeerd uit de synthetische gegevens. Hierdoor kent het verwerken en delen van synthetische data veel minder regelgeving, wat resulteert in snellere ontwikkelingen en innovaties en gemakkelijke toegang tot data.
Conclusie
Synthetische data heeft veel belangrijke voordelen. Het geeft ML-ontwikkelaars controle over experimenten en verhoogt de ontwikkelingssnelheid omdat de gegevens nu beter toegankelijk zijn. Het bevordert samenwerking op grotere schaal omdat gegevens vrijelijk kunnen worden gedeeld. Bovendien garanderen synthetische gegevens de bescherming van de privacy van de individuen tegen de echte gegevens.
<img width=โ150โณ height=โ150โณ src=โhttps://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150ร150-1.jpgโ class=โ avatar avatar-150 photoโ alt decoding=โasyncโ loading=โlazyโ srcset=โhttps://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150ร150-1. jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80ร80-1.jpg 80w, https://www.marktechpost.com/wp-content/ uploads/2022/11/IMG20221002180119-Vineet-kumar-70ร70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24ร24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48ร48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022 /11/IMG20221002180119-Vineet-kumar-96ร96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300ร300-1.jpg 300w โsizes=โ(max-breedte: 150px) 100vw, 150pxโ data-attachment-id=โ28275โณ data-permalink=โhttps://www.marktechpost.com/img20221002180119-vineet-kumar/โ data-orig- file=โhttps://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpgโ data-orig-size=โ1920,2560โณ data-comments-opened= โ1โณ data-image-meta=โ{โapertureโ:โ2.8โณ,โcreditโ:โโ,โcameraโ:โOnePlus 9 5Gโ,,โcaptionโ:โโ,โcreated_timestampโ:โ1664733679โณ ,โcopyrightโ:โโ,โbrandpuntslengteโ:โ6.064โณ,โisoโ:โ100โณ,โsluitertijdโ:โ0.0078740157480315โณ,โtitelโ:โโ,โoriรซntatieโ:โ1โณ}โ data- image-title=โIMG20221002180119 โ Vineet kumarโ data-image-description data-image-caption=โ
Vineet
โ data-medium-file=โhttps://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225ร300.jpgโ data-large-file=โhttps://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768ร1024.jpgโ>
Vineet Kumar is een consulting stagiair bij MarktechPost. Hij volgt momenteel zijn BS aan het Indian Institute of Technology (IIT), Kanpur. Hij is een liefhebber van Machine Learning. Hij is gepassioneerd door onderzoek en de nieuwste ontwikkelingen op het gebied van Deep Learning, Computer Vision en aanverwante gebieden.
<!โ
->
- Bitcoin
- bizbouwermike
- blockchain
- blockchain-naleving
- blockchain-conferentie
- Blockchain-adviseurs
- coinbase
- vindingrijk
- Overeenstemming
- cryptoconferentie
- crypto mijnbouw
- cryptogeld
- gedecentraliseerde
- Defi
- Digitale activa
- ethereum
- machine learning
- niet-vervangbare token
- Plato
- plato ai
- Plato gegevensintelligentie
- Platoblockchain
- PlatoData
- platogamen
- Veelhoek
- Bewijs van het belang
- W3
- zephyrnet