Co to są dane syntetyczne? Ich rodzaje, przypadki użycia i aplikacje do uczenia maszynowego i prywatności

Opublikowane ponownie przez Plato

Obserwuje: 0

Dziedzina nauki o danych i uczenia maszynowego rozwija się każdego dnia. Ponieważ z czasem proponowane są nowe modele i algorytmy, te nowe algorytmy i modele wymagają ogromnych ilości danych do uczenia i testowania. Modele Deep Learning zyskują obecnie tak dużą popularność, a modele te są również głodne danych. Uzyskanie tak ogromnej ilości danych w kontekście różnych stwierdzeń problemu jest dość ohydnym, czasochłonnym i kosztownym procesem. Dane są zbierane na podstawie rzeczywistych scenariuszy, co rodzi zobowiązania w zakresie bezpieczeństwa i obawy dotyczące prywatności. Większość danych jest prywatna i chroniona przepisami i regulacjami dotyczącymi prywatności, co utrudnia udostępnianie i przepływ danych między organizacjami, a czasami między różnymi działami jednej organizacji, co skutkuje opóźnieniami w eksperymentach i testowaniu produktów. Powstaje więc pytanie, jak można rozwiązać ten problem? W jaki sposób można uczynić dane bardziej dostępnymi i otwartymi bez wzbudzania obaw o czyjąś prywatność?

Rozwiązaniem tego problemu jest coś znanego jako Dane syntetyczne.

Czym więc są dane syntetyczne?

Z definicji dane syntetyczne są generowane sztucznie lub algorytmicznie i bardzo przypominają strukturę i właściwości leżące u podstaw rzeczywistych danych. Jeśli zsyntetyzowane dane są dobre, są nie do odróżnienia od danych rzeczywistych.

Ile może istnieć różnych typów danych syntetycznych?

Odpowiedź na to pytanie jest bardzo otwarta, ponieważ dane mogą przybierać różne formy, ale w większości mamy

Dane tekstowe
Dane dźwiękowe lub wizualne (np. Obrazy, filmy i dźwięk)
Dane tabelaryczne

Przypadki użycia danych syntetycznych do uczenia maszynowego

Omówimy tylko przypadki użycia tylko trzech rodzajów danych syntetycznych, jak wspomniano powyżej.

Wykorzystanie syntetycznych danych tekstowych do trenowania modeli NLP

Dane syntetyczne mają zastosowanie w dziedzinie przetwarzania języka naturalnego. Na przykład zespół Alexa AI w firmie Amazon wykorzystuje dane syntetyczne do ukończenia zestawu szkoleniowego dla swojego systemu NLU (rozumienie języka naturalnego). Zapewnia im solidną podstawę do szkolenia nowych języków bez istniejących lub wystarczających danych dotyczących interakcji z konsumentami.

Wykorzystanie danych syntetycznych do trenowania algorytmów wizyjnych

Omówmy tutaj szeroko rozpowszechniony przypadek użycia. Załóżmy, że chcemy opracować algorytm do wykrywania lub liczenia twarzy na obrazie. Możemy użyć GAN lub innej sieci generatywnej, aby wygenerować realistyczne ludzkie twarze, tj. twarze, które nie istnieją w prawdziwym świecie, aby wytrenować model. Kolejną zaletą jest to, że możemy generować dowolną ilość danych z tych algorytmów bez naruszania czyjejś prywatności. Nie możemy jednak używać prawdziwych danych, ponieważ zawierają one twarze niektórych osób, dlatego niektóre zasady ochrony prywatności ograniczają korzystanie z tych danych.

Innym przypadkiem użycia jest uczenie się przez wzmacnianie w symulowanym środowisku. Załóżmy, że chcemy przetestować ramię robota przeznaczone do chwytania przedmiotu i umieszczania go w pudełku. W tym celu zaprojektowano algorytm uczenia się przez wzmacnianie. Musimy przeprowadzić eksperymenty, aby to przetestować, ponieważ w ten sposób uczy się algorytm uczenia się przez wzmacnianie. Przygotowanie eksperymentu w scenariuszu z życia wziętego jest dość kosztowne i czasochłonne, co ogranicza liczbę różnych eksperymentów, które możemy przeprowadzić. Ale jeśli przeprowadzamy eksperymenty w symulowanym środowisku, przygotowanie eksperymentu jest stosunkowo niedrogie, ponieważ nie będzie wymagało prototypu ramienia robota.

Zastosowania danych tabelarycznych

Syntetyczne dane tabelaryczne to sztucznie generowane dane, które naśladują rzeczywiste dane przechowywane w tabelach. Te dane są uporządkowane w wierszach i kolumnach. Te tabele mogą zawierać dowolne dane, takie jak lista odtwarzania muzyki. W przypadku każdego utworu odtwarzacz muzyczny przechowuje wiele informacji: nazwę, wykonawcę, długość, gatunek i tak dalej. Może to być również dokumentacja finansowa, taka jak transakcje bankowe, ceny akcji itp.

Syntetyczne dane tabelaryczne dotyczące transakcji bankowych są wykorzystywane do uczenia modeli i projektowania algorytmów w celu wykrywania nieuczciwych transakcji. Dane o cenach akcji z przeszłości można wykorzystać do trenowania i testowania modeli do przewidywania przyszłych cen akcji.

Jedną z istotnych zalet wykorzystania danych syntetycznych w uczeniu maszynowym jest to, że programista ma kontrolę nad danymi; może wprowadzać zmiany w danych zgodnie z potrzebą przetestowania dowolnego pomysłu i eksperymentowania z nim. W międzyczasie programista może przetestować model na zsyntetyzowanych danych i da to bardzo jasne wyobrażenie o tym, jak model będzie działał na rzeczywistych danych. Jeśli programista chce wypróbować model i czeka na prawdziwe dane, pozyskiwanie danych może zająć tygodnie, a nawet miesiące. Stąd opóźnienie rozwoju i innowacyjności technologii.

Teraz jesteśmy gotowi do omówienia, w jaki sposób dane syntetyczne pomagają rozwiązać problemy związane z prywatnością danych.

Wiele branż jest zależnych od danych generowanych przez swoich klientów na potrzeby innowacji i rozwoju, ale dane te zawierają dane osobowe (PII), a przepisy dotyczące prywatności ściśle regulują przetwarzanie takich danych. Na przykład Ogólne rozporządzenie o ochronie danych (RODO) zabrania wykorzystywania danych, na które organizacja nie wyraziła wyraźnej zgody w momencie zbierania danych. osoba obecna w danych rzeczywistych może zostać ponownie zidentyfikowana na podstawie danych syntetycznych. W rezultacie przetwarzanie i udostępnianie danych syntetycznych ma znacznie mniej regulacji, co skutkuje szybszym rozwojem i innowacjami oraz łatwym dostępem do danych.

Wnioski

Dane syntetyczne mają wiele istotnych zalet. Daje programistom ML kontrolę nad eksperymentami i zwiększa szybkość programowania, ponieważ dane są teraz bardziej dostępne. Promuje współpracę na większą skalę, ponieważ dane można swobodnie udostępniać. Dodatkowo dane syntetyczne gwarantują ochronę prywatności osób fizycznych przed danymi rzeczywistymi.

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar jest stażystą konsultantem w MarktechPost. Obecnie zdobywa tytuł licencjata w Indyjskim Instytucie Technologii (IIT) w Kanpur. Jest pasjonatem uczenia maszynowego. Pasjonuje się badaniami i najnowszymi osiągnięciami w Deep Learning, Computer Vision i pokrewnych dziedzinach.

<!–

Znak czasu: Listopad 12, 2022Listopad 14, 2022