Was sind synthetische Daten? Ihre Typen, Anwendungsfälle und Anwendungen für maschinelles Lernen und Datenschutz

Image

Der Bereich Data Science und Machine Learning wächst jeden Tag. Da mit der Zeit neue Modelle und Algorithmen vorgeschlagen werden, benötigen diese neuen Algorithmen und Modelle enorme Daten zum Trainieren und Testen. Deep-Learning-Modelle erfreuen sich heutzutage großer Beliebtheit, und diese Modelle sind auch datenhungrig. Das Erfassen einer so großen Datenmenge im Zusammenhang mit den verschiedenen Problemstellungen ist ein ziemlich scheußlicher, zeitaufwändiger und teurer Prozess. Die Daten werden aus realen Szenarien gesammelt, was Sicherheitsrisiken und Datenschutzbedenken aufwirft. Die meisten Daten sind privat und durch Datenschutzgesetze und -vorschriften geschützt, was den Austausch und die Übertragung von Daten zwischen Organisationen oder manchmal zwischen verschiedenen Abteilungen einer einzelnen Organisation behindert, was zu einer Verzögerung von Experimenten und Produkttests führt. Es stellt sich also die Frage, wie kann dieses Problem gelöst werden? Wie können die Daten zugänglicher und offener gemacht werden, ohne Bedenken hinsichtlich der Privatsphäre von jemandem zu wecken?  

Die Lösung für dieses Problem ist etwas, das als bekannt ist Synthetische Daten. 

Also, was sind synthetische Daten?

Per Definition werden synthetische Daten künstlich oder algorithmisch generiert und ähneln stark der zugrunde liegenden Struktur und Eigenschaft der tatsächlichen Daten. Wenn die synthetisierten Daten gut sind, sind sie nicht von echten Daten zu unterscheiden.

Wie viele verschiedene Arten von synthetischen Daten kann es geben?

Die Antwort auf diese Frage ist sehr offen, da Daten viele Formen annehmen können, aber im Wesentlichen haben wir sie 

  1. Textdaten
  2. Audio- oder visuelle Daten (z. B. Bilder, Videos und Audio)
  3. Tabellendaten

Anwendungsfälle synthetischer Daten für maschinelles Lernen

Wir werden nur die Anwendungsfälle von nur drei Arten von synthetischen Daten diskutieren, wie oben erwähnt.

  • Verwendung synthetischer Textdaten zum Trainieren von NLP-Modellen

Synthetische Daten haben Anwendungen im Bereich der Verarbeitung natürlicher Sprache. Beispielsweise verwendet das Alexa-KI-Team bei Amazon synthetische Daten, um das Trainingsset für sein NLU-System (Natural Language Understanding) fertigzustellen. Es bietet ihnen eine solide Grundlage für das Training neuer Sprachen ohne vorhandene oder genügend Daten zu Verbraucherinteraktionen.

  • Verwendung synthetischer Daten zum Trainieren von Sehalgorithmen

   Lassen Sie uns hier einen weit verbreiteten Anwendungsfall diskutieren. Angenommen, wir möchten einen Algorithmus entwickeln, um die Anzahl der Gesichter in einem Bild zu erkennen oder zu zählen. Wir können ein GAN oder ein anderes generatives Netzwerk verwenden, um realistische menschliche Gesichter zu erzeugen, dh Gesichter, die in der realen Welt nicht existieren, um das Modell zu trainieren. Ein weiterer Vorteil ist, dass wir aus diesen Algorithmen so viele Daten generieren können, wie wir wollen, ohne die Privatsphäre von irgendjemandem zu verletzen. Wir können jedoch keine echten Daten verwenden, da sie die Gesichter einiger Personen enthalten, sodass einige Datenschutzrichtlinien die Verwendung dieser Daten einschränken.

Ein weiterer Anwendungsfall ist das Reinforcement Learning in einer simulierten Umgebung. Angenommen, wir möchten einen Roboterarm testen, der dazu bestimmt ist, ein Objekt zu greifen und es in eine Kiste zu legen. Zu diesem Zweck wird ein Reinforcement-Learning-Algorithmus entwickelt. Wir müssen Experimente durchführen, um es zu testen, denn so lernt der Reinforcement-Learning-Algorithmus. Das Einrichten eines Experiments in einem realen Szenario ist ziemlich teuer und zeitaufwändig, was die Anzahl der verschiedenen Experimente, die wir durchführen können, begrenzt. Aber wenn wir die Experimente in der simulierten Umgebung durchführen, ist der Aufbau des Experiments relativ kostengünstig, da kein Roboterarm-Prototyp erforderlich ist.

  • Verwendung von Tabellendaten

Tabellarische synthetische Daten sind künstlich generierte Daten, die reale Daten nachahmen, die in Tabellen gespeichert sind. Diese Daten sind in Zeilen und Spalten strukturiert. Diese Tabellen können beliebige Daten enthalten, wie z. B. eine Musikwiedergabeliste. Für jeden Song verwaltet Ihr Musikplayer eine Reihe von Informationen: seinen Namen, den Sänger, seine Länge, sein Genre und so weiter. Es kann sich auch um Finanzaufzeichnungen wie Banktransaktionen, Aktienkurse usw. handeln.

Synthetische tabellarische Daten zu Banktransaktionen werden verwendet, um Modelle zu trainieren und Algorithmen zu entwerfen, um betrügerische Transaktionen zu erkennen. Aktienkursdaten aus der Vergangenheit können zum Trainieren und Testen von Modellen zur Vorhersage zukünftiger Aktienkurse verwendet werden.

Einer der wesentlichen Vorteile der Verwendung synthetischer Daten beim maschinellen Lernen besteht darin, dass der Entwickler die Kontrolle über die Daten hat; Er kann Änderungen an den Daten vornehmen, um jede Idee zu testen und damit zu experimentieren. In der Zwischenzeit kann ein Entwickler das Modell an synthetisierten Daten testen, und es wird eine sehr klare Vorstellung davon geben, wie sich das Modell an realen Daten verhalten wird. Wenn ein Entwickler ein Modell ausprobieren möchte und auf echte Daten wartet, kann die Datenerfassung Wochen oder sogar Monate dauern. Daher Verzögerung der Entwicklung und Innovation von Technologie.

Jetzt sind wir bereit zu diskutieren, wie synthetische Daten helfen, die Probleme im Zusammenhang mit dem Datenschutz zu lösen.

Viele Branchen sind für Innovation und Entwicklung auf die von ihren Kunden generierten Daten angewiesen, aber diese Daten enthalten personenbezogene Daten (PII), und Datenschutzgesetze regeln die Verarbeitung solcher Daten streng. Beispielsweise verbietet die Datenschutz-Grundverordnung (DSGVO) Verwendungen, denen nicht ausdrücklich zugestimmt wurde, als die Organisation die Daten erfasst hat. Da synthetische Daten der zugrunde liegenden Struktur echter Daten sehr ähnlich sind und gleichzeitig sicherstellt, dass keine Person, die in den realen Daten vorhanden ist, kann aus den synthetischen Daten reidentifiziert werden. Infolgedessen unterliegen die Verarbeitung und der Austausch synthetischer Daten viel weniger Vorschriften, was zu schnelleren Entwicklungen und Innovationen und einem einfachen Zugriff auf Daten führt.

Zusammenfassung

Synthetische Daten haben viele bedeutende Vorteile. Es gibt ML-Entwicklern die Kontrolle über Experimente und erhöht die Entwicklungsgeschwindigkeit, da die Daten jetzt leichter zugänglich sind. Es fördert die Zusammenarbeit in größerem Umfang, da Daten frei geteilt werden können. Darüber hinaus garantieren synthetische Daten den Schutz der Privatsphäre des Einzelnen vor den echten Daten.


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar ist Beratungspraktikant bei MarktechPost. Derzeit macht er seinen BS am Indian Institute of Technology (IIT), Kanpur. Er ist ein Enthusiast für maschinelles Lernen. Er interessiert sich leidenschaftlich für Forschung und die neuesten Fortschritte in Deep Learning, Computer Vision und verwandten Bereichen.

<!–

->

Zeitstempel:

Mehr von Blockchain-Berater