Ce sunt datele sintetice? Tipurile lor, cazurile de utilizare și aplicațiile pentru învățare automată și confidențialitate

Republicat de Platon

Urmaritori: 0

Domeniul Data Science și Machine Learning crește în fiecare zi. Pe măsură ce noi modele și algoritmi sunt propuși în timp, acești noi algoritmi și modele au nevoie de date enorme pentru antrenament și testare. Modelele de învățare profundă câștigă atât de multă popularitate în zilele noastre, iar acele modele sunt, de asemenea, avide de date. Obținerea unei cantități atât de masive de date în contextul diferitelor enunțuri ale problemei este un proces destul de hidos, consumator de timp și costisitor. Datele sunt colectate din scenarii din viața reală, ceea ce ridică răspunderi de securitate și preocupări legate de confidențialitate. Majoritatea datelor sunt private și sunt protejate de legile și reglementările privind confidențialitatea, ceea ce împiedică partajarea și circulația datelor între organizații sau, uneori, între diferite departamente ale unei singure organizații, ceea ce duce la întârzierea experimentelor și a testării produselor. Deci apare întrebarea cum poate fi rezolvată această problemă? Cum pot fi făcute datele mai accesibile și mai deschise fără a ridica îngrijorări cu privire la confidențialitatea cuiva?

Soluția la această problemă este ceva cunoscut ca Date sintetice.

Deci, ce sunt datele sintetice?

Prin definiție, datele sintetice sunt generate artificial sau algoritmic și seamănă foarte mult cu structura și proprietatea de bază a datelor reale. Dacă datele sintetizate sunt bune, nu se pot distinge de datele reale.

Câte tipuri diferite de date sintetice pot exista?

Răspunsul la această întrebare este foarte deschis, deoarece datele pot lua mai multe forme, dar în principal avem

Date text
Date audio sau vizuale (de exemplu, Imagini, videoclipuri și audio)
Date tabelare

Utilizați cazuri de date sintetice pentru învățarea automată

Vom discuta doar cazurile de utilizare a doar trei tipuri de date sintetice, așa cum am menționat mai sus.

Utilizarea datelor text sintetice pentru antrenarea modelelor NLP

Datele sintetice au aplicații în domeniul prelucrării limbajului natural. De exemplu, echipa Alexa AI de la Amazon utilizează date sintetice pentru a finaliza setul de antrenament pentru sistemul lor NLU (înțelegerea limbajului natural). Le oferă o bază solidă pentru instruirea de noi limbi fără date de interacțiune a consumatorilor existente sau suficiente.

Utilizarea datelor sintetice pentru antrenamentul algoritmilor de vedere

Să discutăm aici un caz de utilizare larg răspândit. Să presupunem că vrem să dezvoltăm un algoritm pentru a detecta sau număra numărul de fețe dintr-o imagine. Putem folosi un GAN sau o altă rețea generativă pentru a genera fețe umane realiste, adică fețe care nu există în lumea reală, pentru a antrena modelul. Un alt avantaj este că putem genera câte date dorim din acești algoritmi fără a încălca confidențialitatea nimănui. Dar nu putem folosi date reale, deoarece conțin fețele unor persoane, așa că unele politici de confidențialitate restricționează utilizarea acestor date.

Un alt caz de utilizare este învățarea prin consolidare într-un mediu simulat. Să presupunem că vrem să testăm un braț robot conceput să apuce un obiect și să-l plaseze într-o cutie. Un algoritm de învățare prin întărire este conceput în acest scop. Trebuie să facem experimente pentru a-l testa, deoarece așa învață algoritmul de învățare prin întărire. Configurarea unui experiment într-un scenariu real este destul de costisitoare și consumatoare de timp, limitând numărul de experimente diferite pe care le putem efectua. Dar dacă facem experimentele în mediul simulat, atunci configurarea experimentului este relativ ieftină, deoarece nu va necesita un prototip de braț robotizat.

Utilizări ale datelor tabelare

Datele sintetice tabulare sunt date generate artificial care imită datele din lumea reală stocate în tabele. Aceste date sunt structurate în rânduri și coloane. Aceste tabele pot conține orice date, cum ar fi o listă de redare muzicală. Pentru fiecare melodie, playerul dvs. muzical păstrează o mulțime de informații: numele său, cântărețul, lungimea, genul său și așa mai departe. Poate fi, de asemenea, o înregistrare financiară, cum ar fi tranzacțiile bancare, prețurile acțiunilor etc.

Datele tabulare sintetice legate de tranzacțiile bancare sunt folosite pentru a antrena modele și a proiecta algoritmi pentru a detecta tranzacțiile frauduloase. Datele privind prețurile acțiunilor din trecut pot fi utilizate pentru a instrui și testa modele pentru prezicerea prețurilor viitoare ale acțiunilor.

Unul dintre avantajele semnificative ale utilizării datelor sintetice în învățarea automată este că dezvoltatorul are controlul asupra datelor; el poate face modificări datelor în funcție de necesitatea de a testa orice idee și de a experimenta cu aceasta. Între timp, un dezvoltator poate testa modelul pe date sintetizate și va oferi o idee foarte clară despre cum va funcționa modelul pe datele din viața reală. Dacă un dezvoltator dorește să încerce un model și așteaptă date reale, atunci achiziția datelor poate dura săptămâni sau chiar luni. Prin urmare, întârzierea dezvoltării și inovației tehnologiei.

Acum suntem gata să discutăm despre modul în care datele sintetice ajută la rezolvarea problemelor legate de confidențialitatea datelor.

Multe industrii depind de datele generate de clienții lor pentru inovare și dezvoltare, dar acele date conțin informații de identificare personală (PII), iar legile privind confidențialitatea reglementează strict prelucrarea acestor date. De exemplu, Regulamentul general privind protecția datelor (GDPR) interzice utilizările pentru care nu au fost consimțite în mod explicit atunci când organizația a colectat datele.‍ Deoarece datele sintetice seamănă foarte mult cu structura de bază a datelor reale și, în același timp, asigură că niciun individul prezent în datele reale poate fi reidentificat din datele sintetice. Drept urmare, procesarea și partajarea datelor sintetice au mult mai puține reglementări, ceea ce duce la dezvoltări și inovații mai rapide și acces ușor la date.

Concluzie

Datele sintetice au multe avantaje semnificative. Oferă dezvoltatorilor ML control asupra experimentelor și crește viteza de dezvoltare, deoarece datele sunt acum mai accesibile. Promovează colaborarea la o scară mai mare, deoarece datele pot fi partajate liber. În plus, datele sintetice garantează protejarea confidențialității persoanelor de datele reale.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar este stagiar de consultanță la MarktechPost. În prezent, își urmează studiile la Institutul Indian de Tehnologie (IIT), Kanpur. Este un pasionat de Machine Learning. Este pasionat de cercetare și de cele mai recente progrese în Deep Learning, Computer Vision și domenii conexe.

<!–

Timestamp-ul: Noiembrie 12, 2022Noiembrie 14, 2022