Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler

Dans cet article, nous introduisons une nouvelle analyse dans le Rapport sur la qualité des données et les informations of Gestionnaire de données Amazon SageMaker. Cette analyse vous aide à valider l'exactitude des caractéristiques textuelles et à découvrir les lignes invalides à réparer ou à omettre.

Data Wrangler réduit le temps nécessaire à l'agrégation et à la préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes. Vous pouvez simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, et effectuer chaque étape du flux de travail de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données, à partir d'une interface visuelle unique.

Vue d'ensemble de la solution

Le prétraitement des données implique souvent le nettoyage des données textuelles telles que les adresses e-mail, les numéros de téléphone et les noms de produits. Ces données peuvent avoir des contraintes d'intégrité sous-jacentes qui peuvent être décrites par des expressions régulières. Par exemple, pour être considéré comme valide, un numéro de téléphone local devra peut-être suivre un modèle tel que [1-9][0-9]{2}-[0-9]{4}, qui correspondrait à un chiffre différent de zéro, suivi de deux chiffres supplémentaires, suivi d'un tiret, suivi de quatre chiffres supplémentaires.

Les scénarios courants entraînant des données invalides peuvent inclure une saisie humaine incohérente, par exemple des numéros de téléphone dans différents formats (5551234 contre 555 1234 contre 555-1234) ou des données inattendues, telles que 0, 911 ou 411. Pour un centre d'appels client, il est important d'omettre les nombres tels que 0, 911 ou 411, et de valider (et potentiellement corriger) les entrées telles que 5551234 ou 555 1234.

Malheureusement, même si des contraintes textuelles existent, elles peuvent ne pas être fournies avec les données. Par conséquent, un data scientist préparant un ensemble de données doit découvrir manuellement les contraintes en examinant les données. Cela peut être fastidieux, sujet aux erreurs et prendre beaucoup de temps.

L'apprentissage de modèles analyse automatiquement vos données et fait apparaître les contraintes textuelles qui peuvent s'appliquer à votre ensemble de données. Pour l'exemple des numéros de téléphone, l'apprentissage de modèles peut analyser les données et identifier que la grande majorité des numéros de téléphone suivent la contrainte textuelle. [1-9][0-9]{2}-[0-9][4]. Il peut également vous alerter de l'existence d'exemples de données invalides afin que vous puissiez les exclure ou les corriger.

Dans les sections suivantes, nous montrons comment utiliser l'apprentissage de modèles dans Data Wrangler à l'aide d'un ensemble de données fictif de catégories de produits et de codes SKU (unité de gestion des stocks).

Cet ensemble de données contient des fonctionnalités qui décrivent les produits par entreprise, marque et consommation d'énergie. Notamment, il inclut un SKU de fonctionnalité mal formaté. Toutes les données de cet ensemble de données sont fictives et créées de manière aléatoire à l'aide de noms de marques et de noms d'appareils aléatoires.

Pré-requis

Avant de commencer à utiliser Data Wrangler, download l'exemple d'ensemble de données et téléchargez-le vers un emplacement dans Service de stockage simple Amazon (Amazon S3). Pour obtenir des instructions, reportez-vous à Téléchargement d'objets.

Importez votre jeu de données

Pour importer votre ensemble de données, procédez comme suit :

  1. Dans Data Wrangler, choisissez Importer et explorer des données pour le ML.
  2. Selectionnez L’.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  3. Pour Importer des dates, choisissez Amazon S3.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  4. Localisez le fichier dans Amazon S3 et choisissez L’.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Après l'importation, nous pouvons accéder au flux de données.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Obtenez des informations sur les données

Au cours de cette étape, nous créons un rapport d'analyse des données qui comprend des informations sur la qualité des données. Pour plus d'informations, reportez-vous à Obtenez des informations sur les données et la qualité des données. Effectuez les étapes suivantes :

  1. Sur le Flux de données onglet, choisissez le signe plus à côté de Types de données.
  2. Selectionnez Obtenez des informations sur les données.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  3. Pour Type d'analyse, choisissez Rapport sur la qualité des données et les informations.
  4. Pour ce post, laissez Colonne cible ainsi que Type de problème vide. Si vous envisagez d'utiliser votre ensemble de données pour une tâche de régression ou de classification avec une entité cible, vous pouvez sélectionner ces options et le rapport inclura une analyse de la relation entre vos entités en entrée et votre cible. Par exemple, il peut produire des rapports sur les fuites de cibles. Pour plus d'informations, reportez-vous à Colonne cible.
  5. Selectionnez Création.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous disposons désormais d'un rapport sur la qualité des données et sur les informations sur les données. Si nous descendons jusqu'au SKU section, nous pouvons voir un exemple d’apprentissage de modèles décrivant le SKU. Cette fonctionnalité semble contenir des données non valides et une correction concrète est requise.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Avant de nettoyer la fonctionnalité SKU, faisons défiler jusqu'à Marque section pour voir plus d’informations. Ici, nous voyons que deux modèles ont été découverts, indiquant que la majorité des noms de marque sont des mots simples composés de caractères de mots ou de caractères alphabétiques. UN caractère de mot est soit un trait de soulignement, soit un caractère pouvant apparaître dans un mot dans n'importe quelle langue. Par exemple, les chaînes Hello_world ainsi que écoute les deux sont constitués de caractères de mots : H ainsi que é.

Pour cet article, nous ne nettoyons pas cette fonctionnalité.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Afficher les informations sur l'apprentissage de modèles

Revenons au nettoyage des SKU et zoomons sur le modèle et le message d'avertissement.

Comme le montre la capture d'écran suivante, l'apprentissage de modèles fait apparaître un modèle de haute précision correspondant à 97.78 % des données. Il affiche également quelques exemples correspondant au modèle ainsi que des exemples qui ne correspondent pas au modèle. Dans les non-correspondances, nous voyons des SKU invalides.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

En plus des modèles affichés, un avertissement peut apparaître indiquant une action potentielle pour nettoyer les données s'il existe un modèle de haute précision ainsi que certaines données qui ne sont pas conformes au modèle.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous pouvons omettre les données invalides. Si on choisit (clic droit) sur l'expression régulière, on peut copier l'expression [A-Z]{3}-[0-9]{4,5}.

Supprimer les données invalides

Créons une transformation pour omettre les données non conformes qui ne correspondent pas à ce modèle.

  1. Sur le Flux de données onglet, choisissez le signe plus à côté de Types de données.
  2. Selectionnez Ajouter une transformation.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  3. Selectionnez Ajouter une étape.
  4. Rechercher regex et choisissez Rechercher et modifier.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  5. Pour Transformer, choisissez Convertir les non-correspondances en manquants.
  6. Pour Colonnes d'entrée, choisissez SKU.
  7. Pour Patron de Couture, entrez notre expression régulière.
  8. Selectionnez Aperçu, Puis choisissez Ajouter.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
    Désormais, les données superflues ont été supprimées des fonctionnalités.
  9. Pour supprimer les lignes, ajoutez l'étape Poignée manquante et choisissez la transformation Goutte manquante.
  10. Selectionnez SKU comme colonne d'entrée.
    Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous revenons à notre flux de données avec les données erronées supprimées.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Conclusion

Dans cet article, nous vous avons montré comment utiliser la fonctionnalité d'apprentissage de modèles dans Data Insights pour trouver des données textuelles non valides dans votre ensemble de données, ainsi que comment corriger ou omettre ces données.

Maintenant que vous avez nettoyé une colonne textuelle, vous pouvez visualiser votre ensemble de données à l'aide d'un selon une analyse de l’Université de Princeton ou vous pouvez postuler transformations intégrées pour traiter ultérieurement vos données. Lorsque vous êtes satisfait de vos données, vous pouvez former un modèle comprenant Pilote automatique Amazon SageMakerou exporter vos données à une source de données telle qu'Amazon S3.

Nous tenons à remercier Nikita Ivkin pour son avis réfléchi.


À propos des auteurs

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Vishaal Kapoor est un scientifique appliqué senior avec AWS AI. Il se passionne pour aider les clients à comprendre leurs données dans Data Wrangler. Dans ses temps libres, il fait du VTT, du snowboard et passe du temps avec sa famille.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Zohar Karnin est scientifique principal chez Amazon AI. Ses intérêts de recherche portent sur les algorithmes d’apprentissage automatique à grande échelle et en ligne. Il développe des algorithmes d'apprentissage automatique infiniment évolutifs pour Amazon SageMaker.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Ajaï Sharma est chef de produit principal pour Amazon SageMaker où il se concentre sur Data Wrangler, un outil visuel de préparation de données pour les data scientists. Avant AWS, Ajai était expert en science des données chez McKinsey and Company, où il a dirigé des missions axées sur le ML pour de grandes sociétés de finance et d'assurance du monde entier. Ajai est passionné par la science des données et aime explorer les derniers algorithmes et techniques d'apprentissage automatique.

Détectez des modèles dans les données texte avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Derek Baron est responsable du développement logiciel pour Amazon SageMaker Data Wrangler

Horodatage:

Plus de Apprentissage automatique AWS