Utilisez des exemples Github avec Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Amazon SageMake r Gestionnaire de données est un outil de préparation de données basé sur l'interface utilisateur qui permet d'effectuer l'analyse, le prétraitement et la visualisation des données avec des fonctionnalités permettant de nettoyer, transformer et préparer les données plus rapidement. Les modèles de flux prédéfinis Data Wrangler aident à accélérer la préparation des données pour les scientifiques des données et les praticiens de l'apprentissage automatique (ML) en vous aidant à accélérer et à comprendre les modèles de bonnes pratiques pour les flux de données à l'aide d'ensembles de données courants.

Vous pouvez utiliser les flux Data Wrangler pour effectuer les tâches suivantes :

Visualisation de données – Examiner les propriétés statistiques de chaque colonne de l'ensemble de données, créer des histogrammes, étudier les valeurs aberrantes
Nettoyage des données – Suppression des doublons, suppression ou remplissage des entrées avec des valeurs manquantes, suppression des valeurs aberrantes
Enrichissement des données et ingénierie des fonctionnalités – Traitement des colonnes pour créer des fonctionnalités plus expressives, sélection d'un sous-ensemble de fonctionnalités pour la formation

Cet article vous aidera à comprendre Data Wrangler à l'aide des exemples de flux prédéfinis suivants sur GitHub. Le référentiel présente la transformation de données tabulaires, les transformations de données de séries chronologiques et les transformations d'ensembles de données joints. Chacun nécessite un type de transformation différent en raison de sa nature fondamentale. Les données tabulaires ou transversales standard sont collectées à un moment précis. En revanche, les données de séries chronologiques sont capturées de manière répétée au fil du temps, chaque point de données successif dépendant de ses valeurs passées.

Examinons un exemple de la façon dont nous pouvons utiliser l'exemple de flux de données pour les données tabulaires.

Pré-requis

Data Wrangler est un Amazon Sage Maker fonctionnalité disponible dans Amazon SageMakerStudio, nous devons donc suivre le processus d'intégration de Studio pour faire fonctionner l'environnement et les blocs-notes Studio. Bien que vous puissiez choisir parmi plusieurs méthodes d'authentification, le moyen le plus simple de créer un domaine Studio consiste à suivre les Démarrage rapide instructions. Le démarrage rapide utilise les mêmes paramètres par défaut que le configuration Studio standard. Vous pouvez également choisir d'embarquer en utilisant Centre d'identité AWS IAM (successeur d'AWS Single Sign-On) pour l'authentification (voir Intégration au domaine Amazon SageMaker à l'aide d'IAM Identity Center).

Importez l'ensemble de données et les fichiers de flux dans Data Wrangler à l'aide de Studio

Les étapes suivantes expliquent comment importer des données dans SageMaker pour les utiliser par Data Wrangler :

Initialisez Data Wrangler via l'interface utilisateur de Studio en choisissant Nouveau flux de données.

Cloner le GitHub repo pour télécharger les fichiers de flux dans votre environnement Studio.