Détectez les modèles dans les données texte avec Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Dans cet article, nous introduisons une nouvelle analyse dans le Rapport sur la qualité des données et les informations of Gestionnaire de données Amazon SageMaker. Cette analyse vous aide à valider l'exactitude des caractéristiques textuelles et à découvrir les lignes invalides à réparer ou à omettre.

Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes. Vous pouvez simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, et effectuer chaque étape du flux de travail de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données, à partir d'une interface visuelle unique.

Vue d'ensemble de la solution

Le prétraitement des données implique souvent le nettoyage des données textuelles telles que les adresses e-mail, les numéros de téléphone et les noms de produits. Ces données peuvent avoir des contraintes d'intégrité sous-jacentes qui peuvent être décrites par des expressions régulières. Par exemple, pour être considéré comme valide, un numéro de téléphone local devra peut-être suivre un modèle tel que [1-9][0-9]{2}-[0-9]{4}, qui correspondrait à un chiffre différent de zéro, suivi de deux chiffres supplémentaires, suivi d'un tiret, suivi de quatre chiffres supplémentaires.

Les scénarios courants entraînant des données invalides peuvent inclure une saisie humaine incohérente, par exemple des numéros de téléphone dans différents formats (5551234 contre 555 1234 contre 555-1234) ou des données inattendues, telles que 0, 911 ou 411. Pour un centre d'appels client, il est important d'omettre les nombres tels que 0, 911 ou 411, et de valider (et potentiellement corriger) les entrées telles que 5551234 ou 555 1234.

Malheureusement, même si des contraintes textuelles existent, elles peuvent ne pas être fournies avec les données. Par conséquent, un data scientist préparant un ensemble de données doit découvrir manuellement les contraintes en examinant les données. Cela peut être fastidieux, sujet aux erreurs et prendre beaucoup de temps.

L'apprentissage de modèles analyse automatiquement vos données et fait apparaître les contraintes textuelles qui peuvent s'appliquer à votre ensemble de données. Pour l'exemple des numéros de téléphone, l'apprentissage de modèles peut analyser les données et identifier que la grande majorité des numéros de téléphone suivent la contrainte textuelle. [1-9][0-9]{2}-[0-9][4]. Il peut également vous alerter de l'existence d'exemples de données invalides afin que vous puissiez les exclure ou les corriger.

Dans les sections suivantes, nous montrons comment utiliser l'apprentissage de modèles dans Data Wrangler à l'aide d'un ensemble de données fictif de catégories de produits et de codes SKU (unité de gestion des stocks).

Cet ensemble de données contient des fonctionnalités qui décrivent les produits par entreprise, marque et consommation d'énergie. Notamment, il inclut un SKU de fonctionnalité mal formaté. Toutes les données de cet ensemble de données sont fictives et créées de manière aléatoire à l'aide de noms de marques et de noms d'appareils aléatoires.

Pré-requis

Avant de commencer à utiliser Data Wrangler, download l'exemple d'ensemble de données et téléchargez-le vers un emplacement dans Service de stockage simple Amazon (Amazon S3). Pour obtenir des instructions, reportez-vous à Téléchargement d'objets.

Importez votre jeu de données

Pour importer votre ensemble de données, procédez comme suit :

Dans Data Wrangler, choisissez Importer et explorer des données pour le ML.
Selectionnez L’.
Pour Importer des dates, choisissez Amazon S3.
Localisez le fichier dans Amazon S3 et choisissez L’.

Après l'importation, nous pouvons accéder au flux de données.

Obtenez des informations sur les données

Au cours de cette étape, nous créons un rapport d'analyse des données qui comprend des informations sur la qualité des données. Pour plus d'informations, reportez-vous à Obtenez des informations sur les données et la qualité des données. Effectuez les étapes suivantes :

Sur le Flux de données onglet, choisissez le signe plus à côté de Types de données.
Selectionnez Obtenez des informations sur les données.
Pour Type d'analyse, choisissez Rapport sur la qualité des données et les informations.
Pour ce post, laissez Colonne cible ainsi que Type de problème vide. Si vous envisagez d'utiliser votre ensemble de données pour une tâche de régression ou de classification avec une entité cible, vous pouvez sélectionner ces options et le rapport inclura une analyse de la relation entre vos entités en entrée et votre cible. Par exemple, il peut produire des rapports sur les fuites de cibles. Pour plus d'informations, reportez-vous à Colonne cible.
Selectionnez Création.

Nous disposons désormais d'un rapport sur la qualité des données et sur les informations sur les données. Si nous descendons jusqu'au SKU section, nous pouvons voir un exemple d’apprentissage de modèles décrivant le SKU. Cette fonctionnalité semble contenir des données non valides et une correction concrète est requise.

Avant de nettoyer la fonctionnalité SKU, faisons défiler jusqu'à Marque section pour voir plus d’informations. Ici, nous voyons que deux modèles ont été découverts, indiquant que la majorité des noms de marque sont des mots simples composés de caractères de mots ou de caractères alphabétiques. UN caractère de mot est soit un trait de soulignement, soit un caractère pouvant apparaître dans un mot dans n'importe quelle langue. Par exemple, les chaînes Hello_world ainsi que écoute les deux sont constitués de caractères de mots : H ainsi que é.

Pour cet article, nous ne nettoyons pas cette fonctionnalité.

Afficher les informations sur l'apprentissage de modèles

Revenons au nettoyage des SKU et zoomons sur le modèle et le message d'avertissement.

Comme le montre la capture d'écran suivante, l'apprentissage de modèles fait apparaître un modèle de haute précision correspondant à 97.78 % des données. Il affiche également quelques exemples correspondant au modèle ainsi que des exemples qui ne correspondent pas au modèle. Dans les non-correspondances, nous voyons des SKU invalides.

En plus des modèles affichés, un avertissement peut apparaître indiquant une action potentielle pour nettoyer les données s'il existe un modèle de haute précision ainsi que certaines données qui ne sont pas conformes au modèle.

Nous pouvons omettre les données invalides. Si on choisit (clic droit) sur l'expression régulière, on peut copier l'expression [A-Z]{3}-[0-9]{4,5}.

Supprimer les données invalides

Créons une transformation pour omettre les données non conformes qui ne correspondent pas à ce modèle.

Sur le Flux de données onglet, choisissez le signe plus à côté de Types de données.
Selectionnez Ajouter une transformation.
Selectionnez Ajouter une étape.
Rechercher regex et choisissez Rechercher et modifier.
Pour Transformer, choisissez Convertir les non-correspondances en manquants.
Pour Colonnes d'entrée, choisissez SKU.
Pour Patron de Couture, entrez notre expression régulière.
Selectionnez Aperçu, Puis choisissez Ajouter.

Désormais, les données superflues ont été supprimées des fonctionnalités.
Pour supprimer les lignes, ajoutez l'étape Poignée manquante et choisissez la transformation Goutte manquante.
Selectionnez SKU comme colonne d'entrée.

Nous revenons à notre flux de données avec les données erronées supprimées.

Conclusion

Dans cet article, nous vous avons montré comment utiliser la fonctionnalité d'apprentissage de modèles dans Data Insights pour trouver des données textuelles non valides dans votre ensemble de données, ainsi que comment corriger ou omettre ces données.

Maintenant que vous avez nettoyé une colonne textuelle, vous pouvez visualiser votre ensemble de données à l'aide d'un selon une analyse de l’Université de Princeton ou vous pouvez postuler transformations intégrées pour traiter ultérieurement vos données. Lorsque vous êtes satisfait de vos données, vous pouvez former un modèle comprenant Pilote automatique Amazon SageMakerou exporter vos données à une source de données telle qu'Amazon S3.

Nous tenons à remercier Nikita Ivkin pour son avis réfléchi.

À propos des auteurs

Vishaal Kapoor est un scientifique appliqué senior avec AWS AI. Il se passionne pour aider les clients à comprendre leurs données dans Data Wrangler. Dans ses temps libres, il fait du VTT, du snowboard et passe du temps avec sa famille.

Zohar Karnin est scientifique principal chez Amazon AI. Ses intérêts de recherche portent sur les algorithmes d’apprentissage automatique à grande échelle et en ligne. Il développe des algorithmes d'apprentissage automatique infiniment évolutifs pour Amazon SageMaker.

Ajaï Sharma est chef de produit principal pour Amazon SageMaker où il se concentre sur Data Wrangler, un outil visuel de préparation de données pour les data scientists. Avant AWS, Ajai était expert en science des données chez McKinsey and Company, où il a dirigé des missions axées sur le ML pour de grandes sociétés de finance et d'assurance du monde entier. Ajai est passionné par la science des données et aime explorer les derniers algorithmes et techniques d'apprentissage automatique.

Derek Baron est responsable du développement logiciel pour Amazon SageMaker Data Wrangler

Horodatage: 24 octobre 202224 octobre 2022

Horodatage: 30 mai 2023

Approches de test pour les modèles Amazon SageMaker ML

Cluster source:

Apprentissage automatique AWS

Nœud source: 1723753

Horodatage: Le 14 octobre 2022

Concevoir des applications SaaS IA génératives personnalisées sur Amazon SageMaker

Cluster source:

Apprentissage automatique AWS

Nœud source: 1811777

Horodatage: 9 Mar 2023

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Importez votre jeu de données

Obtenez des informations sur les données

Afficher les informations sur l'apprentissage de modèles

Supprimer les données invalides

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Automatisez vos prévisions de séries chronologiques dans Snowflake à l'aide d'Amazon Forecast

Utiliser Snowflake comme source de données pour former des modèles ML avec Amazon SageMaker

Approches de test pour les modèles Amazon SageMaker ML

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte