Utilisez Amazon SageMaker Data Wrangler pour la préparation des données et les laboratoires en studio pour apprendre et expérimenter le ML

Republié par Platon

Suiveurs: 0

Laboratoire Amazon SageMaker Studio est un environnement de développement de machine learning (ML) gratuit basé sur JupyterLab open source permettant à quiconque d'apprendre et d'expérimenter le ML à l'aide des ressources de calcul AWS ML. Il est basé sur la même architecture et la même interface utilisateur que Amazon SageMakerStudio, mais avec un sous-ensemble de fonctionnalités de Studio.

Lorsque vous commencez à travailler sur des initiatives de ML, vous devez effectuer une analyse exploratoire des données (EDA) ou une préparation des données avant de procéder à la création du modèle. Gestionnaire de données Amazon SageMaker est une capacité de Amazon Sage Maker cela permet aux data scientists et aux ingénieurs de préparer plus rapidement les données pour les applications ML via une interface visuelle. Data Wrangler réduit le temps nécessaire pour agréger et préparer les données pour le ML de quelques semaines à quelques minutes.

Un accélérateur clé de la préparation des fonctionnalités dans Data Wrangler est le Rapport sur la qualité des données et les informations. Ce rapport vérifie la qualité des données et aide à détecter les anomalies dans vos données, afin que vous puissiez effectuer l'ingénierie des données requise pour corriger votre jeu de données. Vous pouvez utiliser le rapport sur la qualité des données et les informations pour effectuer une analyse de vos données afin d'obtenir des informations sur votre ensemble de données, telles que le nombre de valeurs manquantes et le nombre de valeurs aberrantes. Si vous rencontrez des problèmes avec vos données, tels qu'une fuite ou un déséquilibre cible, le rapport d'informations peut attirer votre attention sur ces problèmes et vous aider à identifier les étapes de préparation des données que vous devez effectuer.

Les utilisateurs de Studio Lab peuvent bénéficier de Data Wrangler, car la qualité des données et l'ingénierie des fonctionnalités sont essentielles pour les performances prédictives de votre modèle. Data Wrangler contribue à la qualité des données et à l'ingénierie des fonctionnalités en donnant un aperçu des problèmes de qualité des données et en permettant facilement une itération et une ingénierie rapides des fonctionnalités à l'aide d'une interface utilisateur low-code.

Dans cet article, nous vous montrons comment effectuer une analyse exploratoire des données, préparer et transformer des données à l'aide de Data Wrangler, et exporter les données transformées et préparées vers Studio Lab pour effectuer la construction de modèles.

Vue d'ensemble de la solution

La solution comprend les étapes de haut niveau suivantes :

Créez un compte AWS et un utilisateur administrateur. C'est un pré-requis
Télécharger le jeu de données désabonnement.csv.
Charger le jeu de données dans Service de stockage simple Amazon (Amazon S3).
Créez un domaine SageMaker Studio et lancez Data Wrangler.
Importez l'ensemble de données dans le flux Data Wrangler depuis Amazon S3.
Créez le rapport sur la qualité des données et les informations et tirez des conclusions sur l'ingénierie des fonctionnalités nécessaires.
Effectuez les transformations de données nécessaires dans Data Wrangler.
Téléchargez le rapport sur la qualité des données et les informations et l'ensemble de données transformé.
Chargez les données dans un projet Studio Lab pour la formation du modèle.

Le diagramme suivant illustre ce flux de travail.

Pré-requis

Pour utiliser Data Wrangler et Studio Lab, vous avez besoin des prérequis suivants :

Créez un workflow de préparation des données avec Data Wrangler

Pour commencer, procédez comme suit:

Chargez votre jeu de données sur Amazon S3.
Sur la console SageMaker, sous Panneau de contrôle dans le volet de navigation, choisissez Studio.
Sur le Démarrer l'application menu à côté de votre profil utilisateur, choisissez Studio.

Après vous être connecté avec succès à Studio, vous devriez voir un environnement de développement comme la capture d'écran suivante.
Pour créer un nouveau workflow Data Wrangler, sur le Déposez votre dernière attestation menu, choisissez Nouveauté, Puis choisissez Flux de Wrangler de données.

La première étape dans Data Wrangler consiste à importer vos données. Vous pouvez importer des données à partir de plusieurs sources de données, telles qu'Amazon S3, Amazone Athéna, Redshift d'Amazon, Floconet une Databricks. Dans cet exemple, nous utilisons Amazon S3. Si vous voulez simplement voir comment fonctionne Data Wrangler, vous pouvez toujours choisir Utiliser un exemple d'ensemble de données.
Selectionnez Importer des dates.
Selectionnez Amazon S3.
Choisissez l'ensemble de données que vous avez téléchargé et choisissez L’.

Data Wrangler vous permet d'importer l'intégralité de l'ensemble de données ou d'en échantillonner une partie.
Pour obtenir rapidement des informations sur l'ensemble de données, choisissez Premier K en Échantillonnage et entrez 50000 pour Taille de l'échantillon.

Comprendre la qualité des données et obtenir des informations

Utilisons le rapport sur la qualité des données et les informations pour effectuer une analyse des données que nous avons importées dans Data Wrangler. Vous pouvez utiliser le rapport pour comprendre les étapes à suivre pour nettoyer et traiter vos données. Ce rapport fournit des informations telles que le nombre de valeurs manquantes et le nombre de valeurs aberrantes. Si vous rencontrez des problèmes avec vos données, tels qu'une fuite ou un déséquilibre cible, le rapport d'informations peut attirer votre attention sur ces problèmes.

Choisissez le signe plus à côté de Types de données et choisissez Obtenez des informations sur les données.
Pour Type d'analyse, choisissez Rapport sur la qualité des données et les informations.
Pour Colonne cible, choisissez Baratte?.
Pour Type de problèmesélectionner Classification.
Selectionnez Création.

Un rapport détaillé vous est présenté que vous pouvez consulter et télécharger. Le rapport comprend plusieurs sections telles que le modèle rapide, le résumé des fonctionnalités, la corrélation des fonctionnalités et les informations sur les données. Les captures d'écran suivantes fournissent des exemples de ces sections.

Observations du rapport

A partir du rapport, nous pouvons faire les observations suivantes :

Aucune ligne en double n'a été trouvée.
La State La colonne semble être assez uniformément répartie, de sorte que les données sont équilibrées en termes de population de l'État.
La Phone La colonne présente trop de valeurs uniques pour être d'une quelconque utilité pratique. Trop de valeurs uniques rendent cette colonne inutile. Nous pouvons laisser tomber le Phone colonne dans notre transformation.
Sur la base de la section de corrélation des fonctionnalités du rapport, Mins ainsi que Charge sont fortement corrélés. Nous pouvons en supprimer un.

De La Carrosserie

Sur la base de nos observations, nous souhaitons effectuer les transformations suivantes :

Retirer le Phone colonne car elle a de nombreuses valeurs uniques.
Nous voyons également plusieurs fonctionnalités qui ont essentiellement une corrélation de 100 % les unes avec les autres. L'inclusion de ces paires de fonctionnalités dans certains algorithmes ML peut créer des problèmes indésirables, alors que dans d'autres, cela n'introduira qu'une redondance et un biais mineurs. Supprimons une caractéristique de chacune des paires hautement corrélées : Day Charge de la paire avec Day Mins, Night Charge de la paire avec Night Minset une Intl Charge de la paire avec Intl Mins.
Convertir True or False dans le Churn colonne pour être une valeur numérique de 1 ou 0.

Revenez au flux de données et choisissez le signe plus à côté de Types de données.
Selectionnez Ajouter une transformation.
Selectionnez Ajouter une étape.
Vous pouvez rechercher la transformation que vous recherchez (dans notre cas, gérer les colonnes).
Selectionnez Gérer les colonnes.
Pour Transformer¸ choisissez Déposer la colonne.
Pour Colonnes à supprimer¸ choisissez Phone, Day Charge, Eve Charge, Night Chargeet une Intl Charge.
Selectionnez Aperçu, Puis choisissez Mises à jour.

Ajoutons une autre transformation pour effectuer un encodage catégoriel sur le Churn? colonne.
Choisissez la transformation Encoder catégorique.
Pour Transformer, choisissez Encodage ordinal.
Pour Colonnes d'entrée, choisir la Churn? colonne.
Pour Stratégie de traitement invalide, choisissez Remplacer par NaN.
Selectionnez Aperçu, Puis choisissez Mises à jour.

Maintenant True ainsi que False sont respectivement convertis en 1 et 0.

Maintenant que nous avons une bonne compréhension des données et que nous avons préparé et transformé les données pour la création de modèles, nous pouvons déplacer les données vers Studio Lab pour la création de modèles.

Téléchargez les données dans Studio Lab

Pour commencer à utiliser les données dans Studio Lab, procédez comme suit :

Selectionnez Exporter les données à Exporter à un compartiment S3.
Pour Emplacement Amazon S3, entrez votre chemin S3.
Spécifiez le type de fichier.
Selectionnez Exporter les données.
Après avoir exporté les données, vous pouvez télécharger les données du compartiment S3 sur votre ordinateur local.
Vous pouvez maintenant accéder à Studio Lab et télécharger le fichier dans Studio Lab.

Vous pouvez également vous connecter à Amazon S3 depuis Studio Lab. Pour plus d'informations, reportez-vous à Utiliser des ressources externes dans Amazon SageMaker Studio Lab.
Installons SageMaker et importons Pandas.
Importez toutes les bibliothèques selon vos besoins.
Nous pouvons maintenant lire le fichier CSV.
imprimez churn pour confirmer que l'ensemble de données est correct.

Maintenant que vous avez l'ensemble de données traité dans Studio Lab, vous pouvez effectuer les étapes supplémentaires requises pour la construction du modèle.

Tarifs Data Wrangler

Vous pouvez effectuer toutes les étapes de cet article pour l'EDA ou la préparation des données dans Data Wrangler et pay pour l'instance simple, les tâches et la tarification du stockage en fonction de l'utilisation ou de la consommation. Aucun frais initial ou de licence n'est requis.

Nettoyer

Lorsque vous n'utilisez pas Data Wrangler, il est important d'arrêter l'instance sur laquelle il s'exécute pour éviter des frais supplémentaires. Pour éviter de perdre du travail, enregistrez votre flux de données avant d'arrêter Data Wrangler.

Pour enregistrer votre flux de données dans Studio, choisissez Déposez votre dernière attestation , Puis choisissez Enregistrer le flux de Wrangler de données.
Data Wrangler enregistre automatiquement votre flux de données toutes les 60 secondes.
Pour arrêter l'instance Data Wrangler, dans Studio, choisissez Exécution d'instances et de noyaux.
Sous APPLICATIONS EN MARCHE, choisissez l'icône d'arrêt à côté de sagemaker-data-wrangler-1.0 app.
Selectionnez Fermez tout pour confirmer.

Data Wrangler s'exécute sur une instance ml.m5.4xlarge. Cette instance disparaît de INSTANCES D'EXÉCUTION lorsque vous fermez l'application Data Wrangler.

Après avoir fermé l'application Data Wrangler, elle doit redémarrer la prochaine fois que vous ouvrez un fichier de flux Data Wrangler. Cela peut prendre quelques minutes.

Conclusion

Dans cet article, nous avons vu comment vous pouvez obtenir des informations sur votre ensemble de données, effectuer une analyse exploratoire des données, préparer et transformer des données à l'aide de Data Wrangler dans Studio, exporter les données transformées et préparées vers Studio Lab et effectuer la création de modèles et d'autres étapes.

Avec SageMaker Data Wrangler, vous pouvez simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, et effectuer chaque étape du workflow de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données à partir d'une interface visuelle unique.

À propos des auteurs

Rajakumar Sampathkumar est responsable de compte technique principal chez AWS, fournissant des conseils aux clients sur l'alignement des technologies commerciales et soutenant la réinvention de leurs modèles et processus d'exploitation du cloud. Il est passionné par le cloud et l'apprentissage automatique. Raj est également un spécialiste de l'apprentissage automatique et travaille avec les clients AWS pour concevoir, déployer et gérer leurs charges de travail et architectures AWS.

Meenakshisundaram Thandavarayan est un spécialiste senior de l'IA/ML passionné par la conception, la création et la promotion d'expériences de données et d'analyse centrées sur l'humain. Il accompagne les clients stratégiques d'AWS dans leur transformation vers une organisation axée sur les données.

James Wu est un architecte de solution spécialiste senior AI/ML chez AWS. aider les clients à concevoir et à créer des solutions d'IA/ML. Le travail de James couvre un large éventail de cas d'utilisation du ML, avec un intérêt principal pour la vision par ordinateur, l'apprentissage en profondeur et la mise à l'échelle du ML dans l'entreprise. Avant de rejoindre AWS, James a été architecte, développeur et leader technologique pendant plus de 10 ans, dont 6 ans en ingénierie et 4 ans dans les secteurs du marketing et de la publicité.

Horodatage: 15 septembre 202215 septembre 2022

Horodatage: 4 Mar 2024

Utilisez Amazon SageMaker Data Wrangler pour la préparation des données et Studio Labs pour apprendre et expérimenter le ML

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Créez un workflow de préparation des données avec Data Wrangler

Comprendre la qualité des données et obtenir des informations

Observations du rapport

De La Carrosserie

Téléchargez les données dans Studio Lab

Tarifs Data Wrangler

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Accenture crée une solution de création de documents réglementaires à l'aide des services d'IA générative AWS | Services Web Amazon

Amazon Comprehend Targeted Sentiment ajoute la prise en charge synchrone

Comment BigBasket a amélioré le paiement grâce à l'IA dans ses magasins physiques à l'aide d'Amazon SageMaker | Services Web Amazon

Utiliser AWS CDK pour déployer les configurations de cycle de vie d'Amazon SageMaker Studio | Services Web Amazon

Annonce de la mise à jour du connecteur Salesforce (V2) pour Amazon Kendra

Expériences Amazon SageMaker de nouvelle génération – Organisez, suivez et comparez vos formations de machine learning à grande échelle

Atteignez la maturité DevOps avec BMC AMI zAdviser Enterprise et Amazon Bedrock | Services Web Amazon

Libérer l'innovation : AWS et Anthropic repoussent ensemble les limites de l'IA générative | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte