Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données

Republié par Platon

Suiveurs: 0

L'analyse exploratoire des données (EDA) est une tâche courante effectuée par les analystes métier pour découvrir des modèles, comprendre des relations, valider des hypothèses et identifier des anomalies dans leurs données. Dans l'apprentissage automatique (ML), il est important de comprendre d'abord les données et leurs relations avant de se lancer dans la création de modèles. Les cycles de développement ML traditionnels peuvent parfois prendre des mois et nécessitent des compétences avancées en science des données et en ingénierie ML, tandis que les solutions ML sans code peuvent aider les entreprises à accélérer la livraison de solutions ML en quelques jours, voire quelques heures.

Toile Amazon SageMaker est un outil de ML sans code qui aide les analystes commerciaux à générer des prédictions de ML précises sans avoir à écrire de code ou sans nécessiter d'expérience en ML. Canvas fournit une interface visuelle facile à utiliser pour charger, nettoyer et transformer les ensembles de données, puis créer des modèles ML et générer des prédictions précises.

Dans cet article, nous expliquons comment effectuer l'EDA pour mieux comprendre vos données avant de créer votre modèle ML, grâce aux visualisations avancées intégrées de Canvas. Ces visualisations vous aident à analyser les relations entre les entités de vos jeux de données et à mieux comprendre vos données. Cela se fait de manière intuitive, avec la possibilité d'interagir avec les données et de découvrir des informations qui peuvent passer inaperçues avec des requêtes ad hoc. Ils peuvent être créés rapidement via le « visualiseur de données » dans Canvas avant de créer et de former des modèles ML.

Vue d'ensemble de la solution

Ces visualisations s'ajoutent à la gamme de fonctionnalités de préparation et d'exploration des données déjà offertes par Canvas, notamment la possibilité de corriger les valeurs manquantes et de remplacer les valeurs aberrantes ; filtrer, joindre et modifier des ensembles de données ; et extraire des valeurs de temps spécifiques à partir d'horodatages. Pour en savoir plus sur la façon dont Canvas peut vous aider à nettoyer, transformer et préparer votre ensemble de données, consultez Préparer les données avec des transformations avancées.

Pour notre cas d'utilisation, nous examinons pourquoi les clients abandonnent dans n'importe quelle entreprise et illustrons comment l'EDA peut aider du point de vue d'un analyste. L'ensemble de données que nous utilisons dans cet article est un ensemble de données synthétique d'un opérateur de téléphonie mobile de télécommunications pour la prédiction de l'attrition des clients que vous pouvez télécharger (désabonnement.csv), ou vous apportez votre propre ensemble de données à expérimenter. Pour obtenir des instructions sur l'importation de votre propre jeu de données, reportez-vous à Importation de données dans Amazon SageMaker Canvas.

Pré-requis

Suivez les instructions dans Conditions préalables à la configuration d'Amazon SageMaker Canvas avant de continuer.

Importez votre jeu de données dans Canvas

Pour importer l'exemple d'ensemble de données dans Canvas, procédez comme suit :

Connectez-vous à Canvas en tant qu'utilisateur professionnel.Tout d'abord, nous téléchargeons l'ensemble de données mentionné précédemment depuis notre ordinateur local vers Canvas. Si vous souhaitez utiliser d'autres sources, telles que Redshift d'Amazon, faire référence à Se connecter à une source de données externe.
Selectionnez L’.
Selectionnez Téléchargement, Puis choisissez Sélectionnez les fichiers de votre ordinateur.
Sélectionnez votre ensemble de données (churn.csv) et choisissez Importer des dates.
Sélectionnez le jeu de données et choisissez Créer un modèle.
Pour Nom du modèle, entrez un nom (pour ce post, nous avons donné le nom Churn prédiction).
Selectionnez Création.

Dès que vous sélectionnez votre ensemble de données, vous obtenez une vue d'ensemble qui décrit les types de données, les valeurs manquantes, les valeurs non concordantes, les valeurs uniques et les valeurs moyennes ou de mode des colonnes respectives.
Du point de vue de l'EDA, vous pouvez observer qu'il n'y a pas de valeurs manquantes ou incompatibles dans l'ensemble de données. En tant qu'analyste métier, vous souhaiterez peut-être avoir un premier aperçu de la construction du modèle avant même de commencer l'exploration des données pour identifier les performances du modèle et les facteurs qui contribuent aux performances du modèle. Canvas vous donne la possibilité d'obtenir des informations à partir de vos données avant de créer un modèle en prévisualisant d'abord le modèle.
Avant de procéder à toute exploration de données, choisissez Aperçu du modèle.
Sélectionnez la colonne à prédire (churn).Canvas détecte automatiquement qu'il s'agit d'une prédiction à deux catégories.
Selectionnez Aperçu du modèle. SageMaker Canvas utilise un sous-ensemble de vos données pour créer rapidement un modèle afin de vérifier si vos données sont prêtes à générer une prédiction précise. À l'aide de cet exemple de modèle, vous pouvez comprendre la précision actuelle du modèle et l'impact relatif de chaque colonne sur les prédictions.

La capture d'écran suivante montre notre aperçu.

L'aperçu du modèle indique que le modèle prédit la bonne cible (churn ?) 95.6 % du temps. Vous pouvez également voir l'impact initial de la colonne (influence de chaque colonne sur la colonne cible). Effectuons une exploration, une visualisation et une transformation des données, puis procédons à la création d'un modèle.

Exploration de données

Canvas fournit déjà certaines visualisations de base courantes, telles que la distribution des données dans une vue de grille sur le Développer languette. Celles-ci sont idéales pour obtenir un aperçu de haut niveau des données, comprendre comment les données sont distribuées et obtenir un aperçu récapitulatif de l'ensemble de données.

En tant qu'analyste métier, vous devrez peut-être obtenir des informations de haut niveau sur la façon dont les données sont distribuées ainsi que sur la façon dont la distribution se reflète par rapport à la colonne cible (attrition) pour comprendre facilement la relation entre les données avant de créer le modèle. Vous pouvez maintenant choisir Voir la grille pour obtenir un aperçu de la distribution des données.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La capture d'écran suivante montre l'aperçu de la distribution de l'ensemble de données.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous pouvons faire les observations suivantes :

Le téléphone prend trop de valeurs uniques pour être d'une quelconque utilité pratique. Nous savons que le téléphone est un identifiant client et nous ne voulons pas créer un modèle qui pourrait prendre en compte des clients spécifiques, mais plutôt apprendre de manière plus générale ce qui pourrait entraîner un désabonnement. Vous pouvez supprimer cette variable.
La plupart des fonctionnalités numériques sont bien distribuées, suivant une Gaussienne courbe en cloche. En ML, vous souhaitez que les données soient distribuées normalement, car toute variable présentant une distribution normale peut être prévue avec une plus grande précision.

Allons plus loin et découvrons les visualisations avancées disponibles dans Canvas.

Visualisation de données

En tant qu'analystes métier, vous voulez voir s'il existe des relations entre les éléments de données et comment elles sont liées à l'attrition. Avec Canvas, vous pouvez explorer et visualiser vos données, ce qui vous aide à obtenir des informations avancées sur vos données avant de créer vos modèles ML. Vous pouvez visualiser à l'aide de nuages de points, d'histogrammes et de boîtes à moustaches, qui peuvent vous aider à comprendre vos données et à découvrir les relations entre les entités susceptibles d'affecter la précision du modèle.

Pour commencer à créer vos visualisations, procédez comme suit :

Sur le Développer de l'application Canvas, choisissez Visualiseur de données.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Un accélérateur clé de la visualisation dans Canvas est le Visualiseur de données. Modifions la taille de l'échantillon pour avoir une meilleure perspective.

Choisissez le nombre de lignes à côté de Exemple de visualisation.
Utilisez le curseur pour sélectionner la taille d'échantillon souhaitée.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Selectionnez Mises à jour pour confirmer la modification de la taille de votre échantillon.

Vous pouvez modifier la taille de l'échantillon en fonction de votre jeu de données. Dans certains cas, vous pouvez avoir quelques centaines à quelques milliers de lignes dans lesquelles vous pouvez sélectionner l'ensemble de données complet. Dans certains cas, vous pouvez avoir plusieurs milliers de lignes, auquel cas vous pouvez sélectionner quelques centaines ou quelques milliers de lignes en fonction de votre cas d'utilisation.

Un nuage de points montre la relation entre deux variables quantitatives mesurées pour les mêmes individus. Dans notre cas, il est important de comprendre la relation entre les valeurs pour vérifier la corrélation.

Étant donné que nous avons des appels, des minutes et des frais, nous tracerons la corrélation entre eux pour le jour, le soir et la nuit.

Commençons par créer un nuage de points entre la charge journalière et les minutes journalières.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous pouvons observer qu'à mesure que Day Mins augmente, Day Charge augmente également.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Il en va de même pour les appels du soir.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Les appels de nuit ont également le même schéma.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Étant donné que les minutes et la charge semblent augmenter de manière linéaire, vous pouvez observer qu'elles ont une forte corrélation les unes avec les autres. L'inclusion de ces paires de fonctionnalités dans certains algorithmes ML peut nécessiter un stockage supplémentaire et réduire la vitesse de formation, et le fait d'avoir des informations similaires dans plus d'une colonne peut conduire le modèle à suraccentuer les impacts et entraîner un biais indésirable dans le modèle. Supprimons une caractéristique de chacune des paires hautement corrélées : Day Charge de la paire avec Day Mins, Night Charge de la paire avec Night Mins et Intl Charge de la paire avec Intl Mins.

Équilibre et variation des données

Un graphique à barres est un tracé entre une variable catégorielle sur l'axe des x et une variable numérique sur l'axe des y pour explorer la relation entre les deux variables. Créons un graphique à barres pour voir comment les appels sont répartis dans notre colonne cible Churn for True and False. Choisir Diagramme à barres et faites glisser et déposez les appels du jour et le taux de désabonnement sur l'axe des y et l'axe des x, respectivement.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Maintenant, créons le même graphique à barres pour les appels du soir par rapport au taux de désabonnement.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ensuite, créons un graphique à barres pour les appels de nuit par rapport au taux de désabonnement.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Il semble qu'il y ait une différence de comportement entre les clients qui se sont retournés et ceux qui ne l'ont pas fait.

Les boîtes à moustaches sont utiles car elles montrent les différences de comportement des données par classe (attrition ou non). Étant donné que nous allons prédire l'attrition (colonne cible), créons une boîte à moustaches de certaines fonctionnalités par rapport à notre colonne cible pour déduire des statistiques descriptives sur l'ensemble de données telles que la moyenne, le maximum, le minimum, la médiane et les valeurs aberrantes.

Selectionnez Boîte à moustaches et faites glisser et déposez Day mins et Churn sur l'axe y et l'axe x, respectivement.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous pouvez également essayer la même approche pour d'autres colonnes par rapport à notre colonne cible (attrition).

Créons maintenant une boîte à moustaches des minutes quotidiennes par rapport aux appels du service client pour comprendre comment les appels du service client s'étendent sur la valeur des minutes quotidiennes. Vous pouvez voir que les appels au service client n'ont pas de dépendance ou de corrélation sur la valeur des minutes quotidiennes.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

D'après nos observations, nous pouvons déterminer que l'ensemble de données est assez équilibré. Nous voulons que les données soient réparties uniformément entre les valeurs vraies et fausses afin que le modèle ne soit pas biaisé vers une valeur.

Transformations

Sur la base de nos observations, nous supprimons la colonne Téléphone car il ne s'agit que d'un numéro de compte et les colonnes Day Charge, Eve Charge, Night Charge car elles contiennent des informations qui se chevauchent telles que les colonnes mins, mais nous pouvons exécuter à nouveau un aperçu pour confirmer.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Après l'analyse et la transformation des données, prévisualisons à nouveau le modèle.

Vous pouvez observer que la précision estimée du modèle est passée de 95.6 % à 93.6 % (cela peut varier), mais l'impact de la colonne (importance de la fonctionnalité) pour des colonnes spécifiques a considérablement changé, ce qui améliore la vitesse de formation ainsi que l'influence des colonnes sur la prédiction au fur et à mesure que nous passons aux prochaines étapes de la construction du modèle. Notre ensemble de données ne nécessite pas de transformation supplémentaire, mais si vous en avez besoin, vous pouvez profiter de Transformations de données ML pour nettoyer, transformer et préparer vos données pour la création de modèles.

Construisez le modèle

Vous pouvez maintenant procéder à la création d'un modèle et analyser les résultats. Pour plus d'informations, reportez-vous à Prévoyez l'attrition des clients grâce à l'apprentissage automatique sans code à l'aide d'Amazon SageMaker Canvas.

Nettoyer

Pour éviter d'encourir à l'avenir frais de séance, déconnecter de Toile.

Utilisez Amazon SageMaker Canvas pour l'analyse exploratoire des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Conclusion

Dans cet article, nous avons montré comment vous pouvez utiliser les fonctionnalités de visualisation Canvas pour EDA afin de mieux comprendre vos données avant la création de modèles, de créer des modèles ML précis et de générer des prédictions à l'aide d'une interface sans code, visuelle et pointer-cliquer.

À propos des auteurs

Rajakumar Sampathkumar est responsable de compte technique principal chez AWS, fournissant des conseils aux clients sur l'alignement des technologies commerciales et soutenant la réinvention de leurs modèles et processus d'exploitation du cloud. Il est passionné par le cloud et l'apprentissage automatique. Raj est également un spécialiste de l'apprentissage automatique et travaille avec les clients AWS pour concevoir, déployer et gérer leurs charges de travail et architectures AWS.

Rahul Nabera est consultant en analyse de données dans les services professionnels AWS. Son travail actuel vise à permettre aux clients de créer leurs charges de travail de données et d'apprentissage automatique sur AWS. Dans ses temps libres, il aime jouer au cricket et au volley-ball.

Raviteja Yelamanchili est un architecte de solutions d'entreprise avec Amazon Web Services basé à New York. Il travaille avec de grandes entreprises de services financiers pour concevoir et déployer des applications hautement sécurisées, évolutives, fiables et rentables sur le cloud. Il apporte plus de 11 ans d'expérience dans la gestion des risques, le conseil en technologie, l'analyse de données et l'apprentissage automatique. Lorsqu'il n'aide pas les clients, il aime voyager et jouer à la PS5.

Horodatage: 18 octobre 202219 octobre 2022

Horodatage: 1 Mar 2022

Utiliser Amazon SageMaker Canvas pour l'analyse exploratoire des données

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Importez votre jeu de données dans Canvas

Exploration de données

Visualisation de données

Équilibre et variation des données

Transformations

Construisez le modèle

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Identification des schémas de couverture de la défense dans les statistiques Next Gen de la NFL

Améliorez l'évolutivité des API sans état d'Amazon Rekognition à l'aide de plusieurs régions

Identifiez les forêts de mangroves à l'aide de fonctionnalités d'image satellite à l'aide d'Amazon SageMaker Studio et d'Amazon SageMaker Autopilot - Partie 1

Guide simple pour former Llama 2 avec AWS Trainium sur Amazon SageMaker | Services Web Amazon

Conception de fonctions modulaires pour les systèmes avancés d'aide à la conduite (ADAS) sur AWS

Formation distribuée et mise à l'échelle efficace avec les bibliothèques Amazon SageMaker Model Parallel et Data Parallel | Services Web Amazon

Détection d'anomalies avec Amazon SageMaker Edge Manager à l'aide d'AWS IoT Greengrass V2

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte