Kaj so sintetični podatki? Njihove vrste, primeri uporabe in aplikacije za strojno učenje in zasebnost

slika

Področje podatkovne znanosti in strojnega učenja raste vsak dan. Ker se sčasoma predlagajo novi modeli in algoritmi, potrebujejo ti novi algoritmi in modeli ogromno podatkov za usposabljanje in testiranje. Modeli globokega učenja so dandanes tako zelo priljubljeni, ti modeli pa so tudi lačni podatkov. Pridobivanje tako ogromne količine podatkov v kontekstu različnih izjav problemov je precej ostuden, dolgotrajen in drag proces. Podatki so zbrani iz resničnih scenarijev, kar povzroča varnostne obveznosti in skrbi glede zasebnosti. Večina podatkov je zasebnih in zaščitenih z zakoni in predpisi o zasebnosti, kar ovira skupno rabo in pretok podatkov med organizacijami ali včasih med različnimi oddelki ene same organizacije, kar povzroča zamude pri poskusih in testiranju izdelkov. Postavlja se torej vprašanje, kako rešiti to težavo? Kako lahko naredimo podatke bolj dostopne in odprte, ne da bi pri tem vzbudili pomisleke glede zasebnosti nekoga?  

Rešitev tega problema je nekaj znanega kot Sintetični podatki. 

Torej, kaj so sintetični podatki?

Po definiciji so sintetični podatki ustvarjeni umetno ali algoritemsko in so zelo podobni osnovni strukturi in lastnosti dejanskih podatkov. Če so sintetizirani podatki dobri, jih ni mogoče razlikovati od resničnih podatkov.

Koliko različnih vrst sintetičnih podatkov je lahko?

Odgovor na to vprašanje je zelo odprt, saj so lahko podatki v različnih oblikah, vendar večinoma imamo 

  1. Besedilni podatki
  2. Avdio ali vizualni podatki (npr. Slike, videi in zvok)
  3. Tabelarni podatki

Primeri uporabe sintetičnih podatkov za strojno učenje

Razpravljali bomo le o primerih uporabe samo treh vrst sintetičnih podatkov, kot je navedeno zgoraj.

  • Uporaba sintetičnih besedilnih podatkov za usposabljanje NLP modelov

Sintetični podatki se uporabljajo na področju obdelave naravnega jezika. Na primer, ekipa Alexa AI pri Amazonu uporablja sintetične podatke za dokončanje nabora usposabljanja za njihov sistem NLU (razumevanje naravnega jezika). Zagotavlja jim trdno osnovo za učenje novih jezikov brez obstoječih ali dovolj podatkov o interakciji s potrošniki.

  • Uporaba sintetičnih podatkov za urjenje algoritmov vida

   Razpravljajmo o zelo razširjenem primeru uporabe. Recimo, da želimo razviti algoritem za zaznavanje ali štetje števila obrazov na sliki. Uporabimo lahko GAN ali kakšno drugo generativno mrežo za generiranje realističnih človeških obrazov, torej obrazov, ki v realnem svetu ne obstajajo, za šolanje modela. Druga prednost je, da lahko iz teh algoritmov ustvarimo toliko podatkov, kot želimo, ne da bi pri tem posegli v zasebnost kogar koli. Vendar ne moremo uporabiti resničnih podatkov, saj vsebujejo obraze nekaterih posameznikov, zato nekateri pravilniki o zasebnosti omejujejo uporabo teh podatkov.

Drug primer uporabe je okrepljeno učenje v simuliranem okolju. Recimo, da želimo preizkusiti robotsko roko, ki je zasnovana tako, da zgrabi predmet in ga položi v škatlo. V ta namen je zasnovan algoritem za krepitev učenja. Izvajati moramo poskuse, da ga preizkusimo, ker se tako uči algoritem za krepitveno učenje. Postavitev eksperimenta v resničnem scenariju je precej draga in dolgotrajna, kar omejuje število različnih poskusov, ki jih lahko izvedemo. Če pa izvajamo poskuse v simuliranem okolju, je postavitev eksperimenta relativno poceni, saj ne bo zahteval prototipa robotske roke.

  • Uporaba tabelarnih podatkov

Tabelarni sintetični podatki so umetno ustvarjeni podatki, ki posnemajo podatke iz resničnega sveta, shranjene v tabelah. Ti podatki so strukturirani v vrsticah in stolpcih. Te tabele lahko vsebujejo poljubne podatke, na primer seznam predvajanja glasbe. Za vsako skladbo predvajalnik glasbe hrani vrsto informacij: ime, pevec, dolžina, žanr itd. Lahko je tudi finančni zapis, kot so bančne transakcije, cene delnic itd.

Sintetični tabelarični podatki, povezani z bančnimi transakcijami, se uporabljajo za usposabljanje modelov in načrtovanje algoritmov za odkrivanje goljufivih transakcij. Podatke o cenah delnic iz preteklosti je mogoče uporabiti za usposabljanje in testiranje modelov za napovedovanje prihodnjih cen delnic.

Ena od pomembnih prednosti uporabe sintetičnih podatkov v strojnem učenju je, da ima razvijalec nadzor nad podatki; lahko spremeni podatke glede na potrebo po preizkusu katere koli zamisli in eksperimentiranju s tem. Medtem lahko razvijalec preizkusi model na sintetiziranih podatkih, kar bo dalo zelo jasno predstavo o tem, kako bo model deloval na podatkih iz resničnega življenja. Če želi razvijalec preizkusiti model in čaka na resnične podatke, potem lahko pridobivanje podatkov traja tedne ali celo mesece. Zato zavlačevanje razvoja in inovacij tehnologije.

Zdaj smo pripravljeni razpravljati o tem, kako sintetični podatki pomagajo rešiti vprašanja, povezana z zasebnostjo podatkov.

Številne industrije so za inovacije in razvoj odvisne od podatkov, ki jih ustvarijo njihove stranke, vendar ti podatki vsebujejo podatke, ki omogočajo osebno identifikacijo (PII), in zakoni o zasebnosti strogo urejajo obdelavo takih podatkov. Splošna uredba o varstvu podatkov (GDPR) na primer prepoveduje uporabe, za katere organizacija ni izrecno soglašala, ko je zbirala podatke.‍ Sintetični podatki so zelo podobni osnovni strukturi resničnih podatkov in hkrati zagotavljajo, da ne posameznika, ki je prisoten v resničnih podatkih, je mogoče ponovno identificirati iz sintetičnih podatkov. Posledično imata obdelava in deljenje sintetičnih podatkov veliko manj predpisov, kar ima za posledico hitrejši razvoj in inovacije ter enostaven dostop do podatkov.

zaključek

Sintetični podatki imajo številne pomembne prednosti. Razvijalcem ML daje nadzor nad eksperimenti in povečuje hitrost razvoja, saj so podatki zdaj bolj dostopni. Spodbuja sodelovanje v večjem obsegu, saj je podatke mogoče prosto deliti. Poleg tega sintetični podatki zagotavljajo zaščito zasebnosti posameznikov pred resničnimi podatki.


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

Vinoteka

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar je svetovalni pripravnik pri MarktechPost. Trenutno opravlja diplomo na Indijskem inštitutu za tehnologijo (IIT) v Kanpurju. Je navdušenec nad strojnim učenjem. Navdušen je nad raziskavami in najnovejšimi dosežki na področju poglobljenega učenja, računalniškega vida in sorodnih področij.

<!–

->

Časovni žig:

Več od Svetovalci v verigi blokov