Présentation des nouvelles visualisations intégrées d'Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

L'inspection manuelle de la qualité des données et le nettoyage des données est un processus long et fastidieux qui peut prendre une grande partie du temps d'un data scientist sur un projet. Selon une enquête menée en 2020 auprès de data scientists par Anaconda, les data scientists consacrent environ 66 % de leur temps à des tâches de préparation et d'analyse des données, notamment le chargement (19 %), le nettoyage (26 %) et la visualisation des données (21 %). Amazon Sage Maker offre une gamme d'outils de préparation de données pour répondre aux différents besoins et préférences des clients. Pour les utilisateurs qui préfèrent une interface interactive basée sur une interface graphique, Gestionnaire de données SageMaker offre plus de 300 visualisations, analyses et transformations intégrées pour traiter efficacement les données soutenues par Spark sans écrire une seule ligne de code.

La visualisation des données dans l'apprentissage automatique (ML) est un processus itératif et nécessite une visualisation continue de l'ensemble de données pour la découverte, l'investigation et la validation. La mise en perspective des données implique de voir chacune des colonnes pour comprendre les erreurs de données possibles, les valeurs manquantes, les types de données erronés, les données trompeuses/incorrectes, les données aberrantes, etc.

Dans cet article, nous allons vous montrer comment Gestionnaire de données Amazon SageMaker génère automatiquement des visualisations clés de la distribution des données, détecte les problèmes de qualité des données et présente des informations sur les données telles que les valeurs aberrantes pour chaque fonctionnalité sans écrire une seule ligne de code. Il permet d'améliorer l'expérience de la grille de données avec des avertissements de qualité automatiques (par exemple, des valeurs manquantes ou des valeurs non valides). Les visualisations générées automatiquement sont également interactives. Par exemple, vous pouvez afficher un tableau des cinq éléments les plus fréquents classés par pourcentage et passer la souris sur la barre pour basculer entre le nombre et le pourcentage.

Pré-requis

Amazon SageMaker Data Wrangler est une fonctionnalité SageMaker disponible dans SageMaker Studio. Vous pouvez suivre le processus d'intégration de Studio pour faire tourner l'environnement Studio et les notebooks. Bien que vous puissiez choisir parmi plusieurs méthodes d'authentification, le moyen le plus simple de créer un domaine Studio consiste à suivre les Instructions de démarrage rapide. Le démarrage rapide utilise les mêmes paramètres par défaut que la configuration standard de Studio. Vous pouvez également choisir d'embarquer en utilisant Centre d'identité AWS Identity and Access Management (IAM) (successeur d'AWS Single Sign-On) pour l'authentification (voir Intégration au domaine Amazon SageMaker à l'aide d'IAM Identity Center).

Présentation de la solution

Commencez votre Studio SageMaker Environnement et créer un nouveau Flux de Data Wrangler. Vous pouvez soit importer votre propre ensemble de données, soit utiliser un exemple d'ensemble de données (Titanic) comme le montre l'image suivante. Ces deux nœuds (le la source nœud et le données type node) sont cliquables – lorsque vous double-cliquez sur ces deux nœuds, Data Wrangler affiche le tableau.

Dans notre cas, faisons un clic droit sur le Types de données icône et Ajouter une transformation:

Vous devriez maintenant voir des visualisations en haut de chaque colonne. Veuillez prévoir un certain temps pour que les graphiques se chargent. La latence dépend de la taille de l'ensemble de données (pour l'ensemble de données Titanic, cela devrait prendre 1 à 2 secondes dans l'instance par défaut).

Présentation des nouvelles visualisations intégrées d'Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Faites défiler jusqu'à la barre supérieure horizontale en survolant l'info-bulle. Maintenant que les graphiques sont chargés, vous pouvez voir la distribution des données, les valeurs non valides et les valeurs manquantes. Les valeurs aberrantes et les valeurs manquantes sont des caractéristiques des données erronées, et il est essentiel de les identifier car elles pourraient affecter vos résultats. Cela signifie que parce que vos données proviennent d'un échantillon non représentatif, vos résultats peuvent ne pas être généralisables à des situations extérieures à votre étude. La classification des valeurs peut être vue sur les graphiques en bas où Info de contact. les valeurs sont représentées en blanc, invalide valeurs en bleu, et manquant valeurs en violet. Vous pouvez également consulter le valeurs aberrantes représenté par les points bleus à gauche ou à droite d'un graphique.

Présentation des nouvelles visualisations intégrées d'Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Toutes les visualisations se présentent sous forme d'histogrammes. Pour les données non catégorielles, un ensemble de compartiments est défini pour chaque classe. Pour les données catégorielles, chaque valeur unique est traitée comme une classe. En haut de l'histogramme, il y a un graphique à barres qui vous montre les valeurs invalides et manquantes. Nous pouvons afficher le rapport des valeurs valides pour les types Numeric, Categorical, Binary, Text et Datetime, ainsi que le rapport des valeurs manquantes en fonction du nombre total de cellules nulles et vides et, enfin, le rapport des valeurs invalides. Regardons quelques exemples pour comprendre comment vous pouvez les voir en utilisant Échantillon préchargé de l'ensemble de données Titanic de Data Wrangler.

Exemple 1 – On peut regarder les 20% de valeurs manquantes pour le L'âge fonction/colonne. Il est crucial de traiter les données manquantes dans le domaine de la recherche/ML liées aux données, soit en les supprimant, soit en les imputant (en traitant les valeurs manquantes avec une certaine estimation).

Présentation des nouvelles visualisations intégrées d'Amazon SageMaker Data Wrangler, PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Vous pouvez traiter les valeurs manquantes à l'aide de la Gérer les valeurs manquantes groupe de transformation. Utilisez le Imputation manquante transformer pour générer des valeurs imputées là où des valeurs manquantes ont été trouvées dans la colonne d'entrée. La configuration dépend de votre type de données.

Dans cet exemple, le L'âge la colonne a un type de données numérique. Pour l'imputation de la stratégie, nous pouvons choisir d'imputer la signifier au sein de l’ médiane approximative sur les valeurs présentes dans votre ensemble de données.

Maintenant que nous avons ajouté la transformation, nous pouvons voir que le L'âge la colonne n'a plus de valeurs manquantes.

Exemple 2 – Nous pouvons regarder les 27 % de valeurs invalides pour le BILLET fonction/colonne qui est de la STRING taper. Des données non valides peuvent produire des estimations biaisées, ce qui peut réduire la précision d'un modèle et entraîner de fausses conclusions. Explorons quelques transformations que nous pouvons utiliser pour gérer les données invalides dans le BILLET colonne.

En regardant la capture d'écran, nous voyons que certaines des entrées sont écrites dans un format qui contient des alphabets avant les chiffres "PC 17318" et d'autres ne sont que des chiffres tels que "11769 ».

Nous pouvons choisir d'appliquer une transformation pour rechercher et modifier des modèles spécifiques dans des chaînes telles que "PC" et remplacez-les. Ensuite, nous pouvons lancer notre un magnifique colonne à un nouveau type tel que Location pour faciliter l'utilisation.

Cela nous laisse encore avec 19 % de valeurs manquantes sur le BILLET caractéristique. Comme dans l'exemple 1, nous pouvons maintenant imputer les valeurs manquantes en utilisant la moyenne ou la médiane approximative. La fonctionnalité BILLET ne devrait plus avoir de valeurs invalides ou manquantes selon l'image ci-dessous.

Pour vous assurer de ne pas encourir de frais après avoir suivi ce didacticiel, assurez-vous que vous fermer l'application Data Wrangler.

Conclusion

Dans cet article, nous avons présenté le nouveau Gestionnaire de données Amazon Sagemaker widget qui aidera à supprimer le levage de charges lourdes indifférenciées pour les utilisateurs finaux lors de la préparation des données avec des visualisations de surfaçage automatique et des informations sur le profilage des données pour chaque fonctionnalité. Ce widget permet de visualiser facilement les données (par exemple, histogramme catégorique/non catégorique), de détecter les problèmes de qualité des données (par exemple, les valeurs manquantes et les valeurs non valides) et d'obtenir des informations sur les données (par exemple, les valeurs aberrantes et les N premiers éléments).

Vous pouvez commencer à utiliser cette fonctionnalité dès aujourd'hui dans toutes les régions où SageMaker Studio est disponible. Faites un essai, et dites-nous ce que vous en pensez. Nous attendons toujours avec impatience vos commentaires, que ce soit par l'intermédiaire de vos contacts d'assistance AWS habituels ou sur le Forum AWS pour Sage Maker.

À propos des auteurs

Isha Doua est un architecte de solutions senior basé dans la région de la baie de San Francisco. Elle aide les clients d'AWS Enterprise à se développer en comprenant leurs objectifs et leurs défis, et les guide sur la manière dont ils peuvent concevoir leurs applications de manière native dans le cloud tout en s'assurant qu'elles sont résilientes et évolutives. Elle est passionnée par les technologies d'apprentissage automatique et la durabilité environnementale.

Parthe Patel est architecte de solutions chez AWS dans la région de la baie de San Francisco. Parth guide les clients pour accélérer leur parcours vers le cloud et les aide à adopter le cloud AWS avec succès. Il se concentre sur le ML et la modernisation des applications.

Horodatage: 13 décembre 202213 décembre 2022

Horodatage: Le 29 septembre 2022

Présentation des nouvelles visualisations intégrées d'Amazon SageMaker Data Wrangler

Republié par Platon

Pré-requis

Présentation de la solution

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Déployez de grands modèles sur Amazon SageMaker à l'aide de DJLServing et de l'inférence parallèle de modèle DeepSpeed

Contrôlez l'accès à Amazon SageMaker Feature Store hors ligne à l'aide d'AWS Lake Formation

Améliorez la précision de la recherche avec le correcteur orthographique d'Amazon Kendra

Analysez l'infestation de rongeurs à l'aide des fonctionnalités géospatiales d'Amazon SageMaker | Services Web Amazon

Découvrez les connaissances dans les espaces de travail Slack avec une recherche intelligente à l'aide du connecteur Amazon Kendra Slack

Comment Sophos forme un détecteur de malware PDF puissant et léger à très grande échelle avec Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte