Qu'est-ce que les données synthétiques ? Leurs types, cas d'utilisation et applications pour l'apprentissage automatique et la confidentialité

image

Le domaine de la science des données et de l'apprentissage automatique se développe chaque jour. Comme de nouveaux modèles et algorithmes sont proposés avec le temps, ces nouveaux algorithmes et modèles nécessitent d'énormes données pour la formation et les tests. Les modèles d'apprentissage en profondeur gagnent en popularité de nos jours, et ces modèles sont également gourmands en données. L'obtention d'une telle quantité de données dans le contexte des différents énoncés de problème est un processus assez hideux, long et coûteux. Les données sont recueillies à partir de scénarios réels, ce qui soulève des problèmes de sécurité et de confidentialité. La plupart des données sont privées et protégées par des lois et réglementations sur la confidentialité, ce qui entrave le partage et le mouvement des données entre les organisations ou parfois entre les différents services d'une même organisation, ce qui retarde les expériences et les tests de produits. Alors la question se pose comment ce problème peut-il être résolu? Comment les données peuvent-elles être rendues plus accessibles et ouvertes sans soulever des inquiétudes quant à la vie privée de quelqu'un ?  

La solution à ce problème est ce qu'on appelle Données synthétiques. 

Alors, qu'est-ce que les données synthétiques ?

Par définition, les données synthétiques sont générées artificiellement ou de manière algorithmique et ressemblent étroitement à la structure et aux propriétés sous-jacentes des données réelles. Si les données synthétisées sont bonnes, elles sont indiscernables des données réelles.

Combien de types différents de données synthétiques peut-il y avoir ?

La réponse à cette question est très ouverte, car les données peuvent prendre de nombreuses formes, mais nous avons principalement 

  1. Données texte
  2. Données audio ou visuelles (par exemple, Images, vidéos et audio)
  3. Données tabulaires

Cas d'utilisation de données synthétiques pour l'apprentissage automatique

Nous ne discuterons que des cas d'utilisation de seulement trois types de données synthétiques, comme mentionné ci-dessus.

  • Utilisation de données textuelles synthétiques pour la formation de modèles NLP

Les données synthétiques ont des applications dans le domaine du traitement du langage naturel. Par exemple, l'équipe Alexa AI d'Amazon utilise des données synthétiques pour terminer l'ensemble de formation pour son système NLU (compréhension du langage naturel). Il leur fournit une base solide pour apprendre de nouvelles langues sans données existantes ou suffisantes sur les interactions avec les consommateurs.

  • Utiliser des données synthétiques pour former des algorithmes de vision

   Discutons ici d'un cas d'utilisation répandu. Supposons que nous voulions développer un algorithme pour détecter ou compter le nombre de visages dans une image. Nous pouvons utiliser un GAN ou un autre réseau génératif pour générer des visages humains réalistes, c'est-à-dire des visages qui n'existent pas dans le monde réel, pour entraîner le modèle. Un autre avantage est que nous pouvons générer autant de données que nous le souhaitons à partir de ces algorithmes sans porter atteinte à la vie privée de quiconque. Mais nous ne pouvons pas utiliser de données réelles car elles contiennent les visages de certaines personnes. Certaines politiques de confidentialité limitent donc l'utilisation de ces données.

Un autre cas d'utilisation est l'apprentissage par renforcement dans un environnement simulé. Supposons que nous voulions tester un bras robotique conçu pour saisir un objet et le placer dans une boîte. Un algorithme d'apprentissage par renforcement est conçu à cet effet. Nous devons faire des expériences pour le tester car c'est ainsi que l'algorithme d'apprentissage par renforcement apprend. La mise en place d'une expérience dans un scénario réel est assez coûteuse et prend du temps, ce qui limite le nombre d'expériences différentes que nous pouvons réaliser. Mais si nous faisons les expériences dans l'environnement simulé, la mise en place de l'expérience est relativement peu coûteuse car elle ne nécessitera pas de prototype de bras robotique.

  • Utilisations des données tabulaires

Les données synthétiques tabulaires sont des données générées artificiellement qui imitent les données du monde réel stockées dans des tables. Ces données sont structurées en lignes et en colonnes. Ces tableaux peuvent contenir n'importe quelles données, comme une liste de lecture musicale. Pour chaque chanson, votre lecteur de musique conserve un tas d'informations : son nom, le chanteur, sa durée, son genre, etc. Il peut également s'agir d'un dossier financier comme les transactions bancaires, les cours des actions, etc.

Les données tabulaires synthétiques liées aux transactions bancaires sont utilisées pour former des modèles et concevoir des algorithmes pour détecter les transactions frauduleuses. Les données passées sur les prix des actions peuvent être utilisées pour entraîner et tester des modèles permettant de prédire les prix futurs des actions.

L'un des avantages significatifs de l'utilisation de données synthétiques dans l'apprentissage automatique est que le développeur a le contrôle sur les données ; il peut apporter des modifications aux données selon la nécessité de tester n'importe quelle idée et de l'expérimenter. Pendant ce temps, un développeur peut tester le modèle sur des données synthétisées, et cela donnera une idée très claire de la façon dont le modèle fonctionnera sur des données réelles. Si un développeur veut essayer un modèle et attend des données réelles, l'acquisition de données peut prendre des semaines, voire des mois. Par conséquent, retarder le développement et l'innovation de la technologie.

Nous sommes maintenant prêts à discuter de la manière dont les données synthétiques aident à résoudre les problèmes liés à la confidentialité des données.

De nombreuses industries dépendent des données générées par leurs clients pour l'innovation et le développement, mais ces données contiennent des informations personnelles identifiables (PII), et les lois sur la confidentialité réglementent strictement le traitement de ces données. Par exemple, le règlement général sur la protection des données (RGPD) interdit les utilisations qui n'étaient pas explicitement consenties au moment où l'organisation a collecté les données.‍ Comme les données synthétiques ressemblent très étroitement à la structure sous-jacente des données réelles et, en même temps, garantissent qu'aucune l'individu présent dans les données réelles peut être ré-identifié à partir des données synthétiques. En conséquence, le traitement et le partage de données synthétiques sont beaucoup moins réglementés, ce qui entraîne des développements et des innovations plus rapides et un accès facile aux données.

Conclusion

Les données synthétiques présentent de nombreux avantages significatifs. Il donne aux développeurs ML le contrôle des expériences et augmente la vitesse de développement car les données sont désormais plus accessibles. Il favorise la collaboration à plus grande échelle puisque les données sont librement partageables. De plus, les données synthétiques garantissent la protection de la vie privée des individus contre les données réelles.


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=” avatar avatar-150 photo" alt decoding = "async" chargement = "lazy" srcset = "https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1. jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/ uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022 /11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w "sizes="(largeur maximale : 150px) 100vw, 150px" data-attachment-id="28275″ data-permalink="https://www.marktechpost.com/img20221002180119-vineet-kumar/" data-orig- file="https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg" data-orig-size="1920,2560" data-comments-opened= ”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″ , "copyright": "" "focal_length": "6.064" "," iso ":" 100 ", " shutter_speed ":" 0.0078740157480315 ", " titre ": " " " orientation ": " 1 "} " données- image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

Vineet

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar est consultant stagiaire chez MarktechPost. Il poursuit actuellement son BS de l'Indian Institute of Technology (IIT), Kanpur. C'est un passionné d'apprentissage automatique. Il est passionné par la recherche et les dernières avancées en matière d'apprentissage en profondeur, de vision par ordinateur et de domaines connexes.

<!–

->

Horodatage:

Plus de Consultants en blockchain