Mis on sünteetilised andmed? Nende tüübid, kasutusjuhud ja masinõppe ja privaatsuse rakendused

Taasavaldanud Platon

järgijaid: 0

Andmeteaduse ja masinõppe valdkond kasvab iga päevaga. Kuna aja jooksul pakutakse välja uusi mudeleid ja algoritme, vajavad need uued algoritmid ja mudelid koolituseks ja testimiseks tohutult andmeid. Süvaõppe mudelid koguvad tänapäeval nii palju populaarsust ja need mudelid on ka andmenäljas. Sellise tohutu hulga andmete hankimine erinevate probleemiavalduste kontekstis on üsna kole, aeganõudev ja kulukas protsess. Andmed kogutakse reaalsetest stsenaariumidest, mis tekitab turvakohustusi ja privaatsusprobleeme. Suurem osa andmetest on privaatsed ja kaitstud privaatsusseaduste ja -määrustega, mis takistab andmete jagamist ja liikumist organisatsioonide vahel või mõnikord ka ühe organisatsiooni erinevate osakondade vahel, mille tulemuseks on katsete ja toodete testimise venitamine. Seega tekib küsimus, kuidas seda probleemi lahendada? Kuidas muuta andmed kättesaadavamaks ja avatumaks, ilma et tekiks muret kellegi privaatsuse pärast?

Selle probleemi lahendus on tuntud kui Sünteetilised andmed.

Niisiis, mis on sünteetilised andmed?

Definitsiooni järgi luuakse sünteetilised andmed kunstlikult või algoritmiliselt ning need sarnanevad väga palju tegelike andmete aluseks olevale struktuurile ja omadusele. Kui sünteesitud andmed on head, ei ole need tegelikest andmetest eristatavad.

Mitu erinevat tüüpi sünteetilisi andmeid võib olla?

Vastus sellele küsimusele on väga avatud, kuna andmed võivad esineda mitmel kujul, kuid enamasti oleme seda teinud

Tekstiandmed
Heli- või visuaalandmed (näiteks Pildid, videod ja heli)
Tabeliandmed

Kasutage masinõppeks sünteetiliste andmete juhtumeid

Nagu eespool mainitud, käsitleme ainult kolme tüüpi sünteetiliste andmete kasutusjuhtumeid.

Sünteetiliste tekstiandmete kasutamine NLP mudelite treenimiseks

Sünteetilistel andmetel on rakendusi loomuliku keele töötlemise valdkonnas. Näiteks kasutab Amazoni Alexa AI meeskond sünteetilisi andmeid oma NLU-süsteemi (loomuliku keele mõistmise) koolituskomplekti lõpetamiseks. See annab neile kindla aluse uute keelte koolitamiseks ilma olemasolevate või piisavate tarbijate suhtlusandmeteta.

Sünteetiliste andmete kasutamine nägemisalgoritmide treenimiseks

Arutleme siin laialt levinud kasutusjuhtumi üle. Oletame, et tahame välja töötada algoritmi, mis tuvastab või loeb kujutisel olevate nägude arvu. Mudeli koolitamiseks saame kasutada GAN-i või mõnda muud generatiivset võrgustikku, et genereerida realistlikke inimnägusid, st nägusid, mida reaalses maailmas ei eksisteeri. Teine eelis on see, et saame nende algoritmide abil genereerida nii palju andmeid, kui tahame, ilma kellegi privaatsust rikkumata. Kuid me ei saa kasutada tegelikke andmeid, kuna need sisaldavad teatud isikute nägusid, mistõttu mõned privaatsuspoliitikad piiravad nende andmete kasutamist.

Teine kasutusjuht on tugevdamisõppe tegemine simuleeritud keskkonnas. Oletame, et tahame testida robotkätt, mis on loodud objekti haaramiseks ja selle kasti asetamiseks. Selleks on loodud tugevdusõppe algoritm. Peame selle testimiseks tegema katseid, sest nii õpib tugevdusõppe algoritm. Eksperimendi seadistamine reaalses elustsenaariumis on üsna kulukas ja aeganõudev, piirates erinevate katsete arvu, mida saame teha. Kuid kui teeme katseid simuleeritud keskkonnas, on katse seadistamine suhteliselt odav, kuna see ei nõua robotkäe prototüüpi.

Tabeliandmete kasutamine

Tabelikujulised sünteetilised andmed on kunstlikult loodud andmed, mis jäljendavad tabelitesse salvestatud reaalseid andmeid. Need andmed on struktureeritud ridadesse ja veergudesse. Need tabelid võivad sisaldada mis tahes andmeid, näiteks muusika esitusloendeid. Teie muusikapleier säilitab iga loo kohta hulga teavet: selle nimi, laulja, pikkus, žanr ja nii edasi. See võib olla ka finantskirje, nagu pangatehingud, aktsiahinnad jne.

Pangatehingutega seotud sünteetilisi tabeliandmeid kasutatakse mudelite koolitamiseks ja algoritmide kujundamiseks pettustehingute tuvastamiseks. Mineviku aktsiahindade andmeid saab kasutada aktsiate tulevaste hindade ennustamise mudelite koolitamiseks ja testimiseks.

Masinõppes sünteetiliste andmete kasutamise üks olulisi eeliseid on see, et arendajal on andmete üle kontroll; ta saab teha andmetes muudatusi vastavalt vajadusele testida mis tahes ideed ja katsetada seda. Samal ajal saab arendaja testida mudelit sünteesitud andmetega ja see annab väga selge ettekujutuse sellest, kuidas mudel tegelikel andmetel toimib. Kui arendaja soovib mudelit proovida ja ootab tegelikke andmeid, võib andmete hankimine kesta nädalaid või isegi kuid. Seega lükkub edasi tehnoloogia arendamine ja innovatsioon.

Nüüd oleme valmis arutama, kuidas sünteetilised andmed aitavad lahendada andmeprivaatsusega seotud probleeme.

Paljud tööstusharud sõltuvad innovatsiooni ja arendustegevuse eesmärgil klientide loodud andmetest, kuid need andmed sisaldavad isikut tuvastavat teavet (PII) ja privaatsusseadused reguleerivad selliste andmete töötlemist rangelt. Näiteks keelab isikuandmete kaitse üldmäärus (GDPR) kasutamise, millega organisatsioon andmeid kogudes ei olnud selgesõnaliselt nõus. Kuna sünteetilised andmed sarnanevad väga palju tegelike andmete aluseks olevale struktuurile ja tagab samal ajal, et reaalsetes andmetes esinevat isikut saab sünteetiliste andmete põhjal uuesti tuvastada. Seetõttu on sünteetiliste andmete töötlemisel ja jagamisel palju vähem regulatsioone, mille tulemuseks on kiiremad arendused ja uuendused ning lihtne juurdepääs andmetele.

Järeldus

Sünteetilistel andmetel on palju olulisi eeliseid. See annab ML-i arendajatele kontrolli katsete üle ja suurendab arenduskiirust, kuna andmed on nüüd paremini kättesaadavad. See soodustab suuremat koostööd, kuna andmed on vabalt jagatavad. Lisaks tagavad sünteetilised andmed isikute privaatsuse kaitsmise tegelike andmete eest.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar on MarktechPosti konsultatsioonipraktikant. Praegu omandab ta bakalaureusekraadi India Tehnoloogiainstituudis (IIT), Kanpuris. Ta on masinõppe entusiast. Ta on kirglik teadusuuringute ja viimaste edusammude vastu süvaõppe, arvutinägemise ja sellega seotud valdkondades.

<!–

Ajatempel: November 12, 2022November 14, 2022