Vad är syntetiska data? Deras typer, användningsfall och applikationer för maskininlärning och sekretess

Återutgiven av Platon

anhängare: 0

Området datavetenskap och maskininlärning växer varje dag. Eftersom nya modeller och algoritmer föreslås med tiden, behöver dessa nya algoritmer och modeller enorma data för träning och testning. Deep Learning-modeller vinner så mycket popularitet nuförtiden, och de modellerna är också datahungriga. Att skaffa en sådan enorm mängd data i samband med de olika problemformuleringarna är en ganska avskyvärd, tidskrävande och dyr process. Uppgifterna samlas in från verkliga scenarier, vilket väcker säkerhetsansvar och integritetsproblem. De flesta uppgifterna är privata och skyddade av integritetslagar och -förordningar, vilket hindrar delning och rörelse av data mellan organisationer eller ibland mellan olika avdelningar i en enskild organisation – vilket resulterar i att experiment och testning av produkter försenas. Så frågan uppstår hur kan detta problem lösas? Hur kan uppgifterna göras mer tillgängliga och öppna utan att det skapar oro för någons integritet?

Lösningen på detta problem är något som kallas Syntetisk data.

Så, vad är syntetisk data?

Per definition genereras syntetisk data artificiellt eller algoritmiskt och påminner mycket om faktiska datas underliggande struktur och egenskaper. Om den syntetiserade datan är bra går den inte att skilja från verklig data.

Hur många olika typer av syntetisk data kan det finnas?

Svaret på denna fråga är väldigt öppet, eftersom data kan ta många former, men i huvudsak har vi det

Textdata
Ljud- eller bilddata (t.ex. Bilder, videor och ljud)
Tabelldata

Använd fall av syntetisk data för maskininlärning

Vi kommer endast att diskutera användningsfallen för endast tre typer av syntetiska data, som nämnts ovan.

Användning av syntetisk textdata för träning av NLP-modeller

Syntetisk data har tillämpningar inom området naturlig språkbehandling. Till exempel använder Alexa AI-teamet på Amazon syntetisk data för att slutföra träningsuppsättningen för deras NLU-system (naturlig språkförståelse). Det ger dem en solid grund för att träna nya språk utan befintlig eller tillräckligt med data om konsumentinteraktion.

Använda syntetiska data för att träna synalgoritmer

Låt oss diskutera ett utbrett användningsfall här. Anta att vi vill utveckla en algoritm för att detektera eller räkna antalet ansikten i en bild. Vi kan använda ett GAN eller något annat generativt nätverk för att skapa realistiska mänskliga ansikten, dvs ansikten som inte finns i den verkliga världen, för att träna modellen. En annan fördel är att vi kan generera hur mycket data vi vill från dessa algoritmer utan att kränka någons integritet. Men vi kan inte använda riktig data eftersom den innehåller vissa individers ansikten, så vissa integritetspolicyer begränsar användningen av denna data.

Ett annat användningsfall är att göra förstärkningsinlärning i en simulerad miljö. Anta att vi vill testa en robotarm utformad för att ta tag i ett föremål och placera det i en låda. En förstärkningsinlärningsalgoritm är designad för detta ändamål. Vi måste göra experiment för att testa det eftersom det är så här förstärkningsinlärningsalgoritmen lär sig. Att sätta upp ett experiment i ett verkligt scenario är ganska dyrt och tidskrävande, vilket begränsar antalet olika experiment vi kan utföra. Men om vi gör experimenten i den simulerade miljön är det relativt billigt att sätta upp experimentet eftersom det inte kommer att kräva en robotarmsprototyp.

Användning av tabelldata

Syntetisk data i tabellform är artificiellt genererad data som efterliknar verkliga data lagrade i tabeller. Dessa data är strukturerade i rader och kolumner. Dessa tabeller kan innehålla vilken data som helst, som en musikspellista. För varje låt har din musikspelare en mängd information: dess namn, sångaren, dess längd, dess genre och så vidare. Det kan också vara ett finansiellt rekord som banktransaktioner, aktiekurser etc.

Syntetisk tabelldata relaterad till banktransaktioner används för att träna modeller och designa algoritmer för att upptäcka bedrägliga transaktioner. Aktiekursdata från det förflutna kan användas för att träna och testa modeller för att förutsäga framtida priser på aktier.

En av de betydande fördelarna med att använda syntetisk data i maskininlärning är att utvecklaren har kontroll över data; han kan göra ändringar i data enligt behovet av att testa vilken idé som helst och experimentera med den. Under tiden kan en utvecklare testa modellen på syntetiserad data, och det kommer att ge en mycket tydlig uppfattning om hur modellen kommer att prestera på verkliga data. Om en utvecklare vill prova en modell och väntar på riktiga data, kan det ta veckor eller till och med månader att hämta data. Därför försenar utvecklingen och innovationen av teknik.

Nu är vi redo att diskutera hur syntetisk data hjälper till att lösa frågor som rör datasekretess.

Många branscher är beroende av den data som genereras av deras kunder för innovation och utveckling, men den informationen innehåller personlig identifierbar information (PII), och integritetslagar reglerar strängt behandlingen av sådan data. Till exempel förbjuder den allmänna dataskyddsförordningen (GDPR) användningar som inte uttryckligen godkändes när organisationen samlade in uppgifterna.‍ Eftersom syntetisk data mycket liknar den underliggande strukturen för verklig data och samtidigt säkerställer att ingen individ som finns i den verkliga datan kan återidentifieras från den syntetiska datan. Som ett resultat har bearbetning och delning av syntetiska data mycket färre regleringar, vilket resulterar i snabbare utveckling och innovationer och enkel tillgång till data.

Slutsats

Syntetisk data har många betydande fördelar. Det ger ML-utvecklare kontroll över experiment och ökar utvecklingshastigheten eftersom data nu är mer tillgänglig. Det främjar samarbete i större skala eftersom data kan delas fritt. Dessutom garanterar syntetiska data att skydda individernas integritet från verklig data.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar är konsultpraktikant på MarktechPost. Han läser för närvarande sin kandidatexamen från Indian Institute of Technology (IIT), Kanpur. Han är en maskininlärningsentusiast. Han brinner för forskning och de senaste framstegen inom djupinlärning, datorseende och relaterade områden.

<!–

Tidsstämpel: November 12, 2022November 14, 2022