Mikä on synteettinen data? Niiden tyypit, käyttötapaukset ja sovellukset koneoppimista ja yksityisyyttä varten

Julkaissut Platon

seuraajia: 0

Datatieteen ja koneoppimisen ala kasvaa joka päivä. Koska uusia malleja ja algoritmeja ehdotetaan ajan myötä, nämä uudet algoritmit ja mallit tarvitsevat valtavasti dataa koulutukseen ja testaukseen. Deep Learning -mallit ovat saamassa valtavasti suosiota nykyään, ja ne ovat myös tiedonhaluisia. Tällaisen valtavan tietomäärän saaminen erilaisten ongelmalauseiden yhteydessä on melko hirveä, aikaa vievä ja kallis prosessi. Tiedot kerätään tosielämän skenaarioista, mikä herättää turvallisuusvastuita ja tietosuojaongelmia. Suurin osa tiedoista on yksityistä ja tietosuojalakien ja -säädösten suojaamaa, mikä estää tietojen jakamisen ja liikkumisen organisaatioiden välillä tai joskus yksittäisen organisaation eri osastojen välillä, mikä viivästyttää kokeita ja tuotteiden testausta. Joten herää kysymys, kuinka tämä ongelma voidaan ratkaista? Miten tiedoista voidaan tehdä helpommin saavutettavia ja avoimempia aiheuttamatta huolta jonkun yksityisyydestä?

Ratkaisu tähän ongelmaan on jotain, joka tunnetaan nimellä Synteettinen data.

Joten, mikä on synteettinen data?

Määritelmän mukaan synteettinen data on luotu keinotekoisesti tai algoritmisesti ja se muistuttaa läheisesti todellisen tiedon taustalla olevaa rakennetta ja ominaisuutta. Jos syntetisoitu data on hyvää, sitä ei voi erottaa todellisesta tiedosta.

Kuinka monta erilaista synteettistä dataa voi olla?

Vastaus tähän kysymykseen on hyvin avoin, sillä datalla voi olla monia muotoja, mutta pääosin meillä on

Tekstidata
Ääni- tai visuaalinen data (esim. Kuvia, videoita ja ääntä)
Taulukkotiedot

Käytä synteettistä dataa koneoppimiseen

Käsittelemme vain kolmen tyyppisen synteettisen datan käyttötapauksia, kuten edellä mainittiin.

Synteettisen tekstidatan käyttö NLP-mallien harjoittamiseen

Synteettisellä tiedolla on sovelluksia luonnollisen kielen käsittelyssä. Esimerkiksi Amazonin Alexa AI -tiimi käyttää synteettistä dataa NLU-järjestelmän (luonnollisen kielen ymmärtämisen) harjoitussarjan loppuunsaattamiseksi. Se tarjoaa heille vankan perustan uusien kielten koulutukseen ilman olemassa olevaa tai riittävästi kuluttajavuorovaikutustietoja.

Synteettisen tiedon käyttäminen näköalgoritmien harjoittamiseen

Keskustellaan tästä laajalle levinneestä käyttötapauksesta. Oletetaan, että haluamme kehittää algoritmin kuvan kasvojen havaitsemiseksi tai laskemiseksi. Voimme käyttää GAN:ia tai jotain muuta generatiivista verkostoa luomaan realistisia ihmiskasvoja, eli kasvoja, joita ei ole todellisessa maailmassa, mallin kouluttamiseen. Toinen etu on, että voimme luoda niin paljon dataa kuin haluamme näistä algoritmeista loukkaamatta kenenkään yksityisyyttä. Emme kuitenkaan voi käyttää oikeita tietoja, koska ne sisältävät joidenkin henkilöiden kasvoja, joten jotkin tietosuojakäytännöt rajoittavat näiden tietojen käyttöä.

Toinen käyttötapaus on vahvistusoppiminen simuloidussa ympäristössä. Oletetaan, että haluamme testata robottikättä, joka on suunniteltu tarttumaan esineeseen ja asettamaan se laatikkoon. Vahvistusoppimisalgoritmi on suunniteltu tätä tarkoitusta varten. Meidän on tehtävä kokeita sen testaamiseksi, koska näin vahvistusoppimisalgoritmi oppii. Kokeilun järjestäminen tosielämän skenaariossa on melko kallista ja aikaa vievää, mikä rajoittaa suoritettavien erilaisten kokeiden määrää. Mutta jos teemme kokeita simuloidussa ympäristössä, kokeen perustaminen on suhteellisen edullista, koska se ei vaadi robottikäsivarren prototyyppiä.

Taulukkotietojen käyttötavat

Taulukkomuotoinen synteettinen data on keinotekoisesti luotua dataa, joka jäljittelee taulukoihin tallennettua todellista dataa. Nämä tiedot on jäsennelty riveihin ja sarakkeisiin. Nämä taulukot voivat sisältää mitä tahansa dataa, kuten musiikkisoittolistan. Musiikkisoitin säilyttää jokaisesta kappaleesta joukon tietoja: sen nimen, laulajan, pituuden, genren ja niin edelleen. Se voi olla myös rahoitustietue, kuten pankkitapahtumat, osakekurssit jne.

Pankkitapahtumiin liittyvää synteettistä taulukkotietoa käytetään mallien ja suunnittelualgoritmien kouluttamiseen vilpillisten tapahtumien havaitsemiseksi. Menneisyyden osakekurssitiedoilla voidaan kouluttaa ja testata malleja osakkeiden tulevien hintojen ennustamiseen.

Yksi synteettisen datan käytön koneoppimisessa merkittävistä eduista on se, että kehittäjä voi hallita dataa; hän voi tehdä muutoksia tietoihin tarpeen mukaan testata mitä tahansa ideaa ja kokeilla sitä. Sillä välin kehittäjä voi testata mallia syntetisoidulla tiedolla, ja se antaa erittäin selkeän kuvan siitä, kuinka malli toimii tosielämän datalla. Jos kehittäjä haluaa kokeilla mallia ja odottaa todellista dataa, tiedon hankkiminen voi kestää viikkoja tai jopa kuukausia. Näin ollen teknologian kehitys ja innovaatiot viivästyvät.

Nyt olemme valmiita keskustelemaan siitä, kuinka synteettinen data auttaa ratkaisemaan tietosuojaan liittyviä ongelmia.

Monet teollisuudenalat ovat riippuvaisia asiakkaidensa tuottamista tiedoista innovaatioiden ja kehityksen vuoksi, mutta tiedot sisältävät henkilökohtaisia tunnistetietoja (PII), ja tietosuojalait säätelevät tiukasti tällaisten tietojen käsittelyä. Esimerkiksi yleinen tietosuoja-asetus (GDPR) kieltää käytön, johon ei ole nimenomaista suostumusta, kun organisaatio keräsi tietoja. Koska synteettiset tiedot muistuttavat hyvin paljon todellisen tiedon taustalla olevaa rakennetta ja samalla varmistavat, ettei synteettisistä tiedoista voida tunnistaa ketään todellisessa tiedossa olevaa henkilöä uudelleen. Tämän seurauksena synteettisten tietojen käsittelyssä ja jakamisessa on paljon vähemmän säännöksiä, mikä johtaa nopeampaan kehitykseen ja innovaatioihin sekä helpon pääsyyn tietoihin.

Yhteenveto

Synteettisellä datalla on monia merkittäviä etuja. Se antaa ML-kehittäjille hallinnan kokeiluissa ja lisää kehitysnopeutta, koska tiedot ovat nyt helpommin saatavilla. Se edistää yhteistyötä laajemmassa mittakaavassa, koska data on vapaasti jaettavissa. Lisäksi synteettiset tiedot takaavat henkilöiden yksityisyyden suojaamisen todelliselta tiedolta.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar on MarktechPostin konsulttiharjoittelija. Hän suorittaa parhaillaan BS-tutkintoa Indian Institute of Technologysta (IIT), Kanpurista. Hän on koneoppimisen harrastaja. Hän on intohimoinen tutkimukseen ja viimeisimpiin saavutuksiin Deep Learningissä, Computer Visionissa ja niihin liittyvissä aloissa.

<!-

Aikaleima: Marraskuussa 12, 2022Marraskuussa 14, 2022