Importez des données depuis Amazon Redshift entre comptes dans Amazon SageMaker Data Wrangler pour l'analyse exploratoire des données et la préparation des données

Republié par Platon

Suiveurs: 0

Les organisations qui évoluent vers une culture axée sur les données adoptent l'utilisation des données et de l'apprentissage automatique (ML) dans la prise de décision. Pour prendre des décisions basées sur le ML à partir de données, vous avez besoin que vos données soient disponibles, accessibles, propres et au bon format pour former des modèles de ML. Les organisations avec une architecture multi-comptes veulent éviter les situations où elles doivent extraire des données d'un compte et les charger dans un autre pour les activités de préparation des données. La création et la maintenance manuelles des différentes tâches d'extraction, de transformation et de chargement (ETL) dans différents comptes ajoutent de la complexité et des coûts, et rendent plus difficile le maintien des meilleures pratiques de gouvernance, de conformité et de sécurité pour protéger vos données.

Redshift d'Amazon est un entrepôt de données cloud rapide et entièrement géré. La fonctionnalité de partage de données entre comptes Amazon Redshift offre un moyen simple et sécurisé de partager des données récentes, complètes et cohérentes dans votre entrepôt de données Amazon Redshift avec un nombre illimité de parties prenantes dans différents comptes AWS. Gestionnaire de données Amazon SageMaker est une capacité de Amazon Sage Maker cela permet aux data scientists et aux ingénieurs de préparer plus rapidement les données pour les applications ML à l'aide d'une interface visuelle. Data Wrangler vous permet d'explorer et de transformer des données pour le ML en vous connectant aux partages de données Amazon Redshift.

Dans cet article, nous passons en revue la configuration d'une intégration entre comptes à l'aide d'un partage de données Amazon Redshift et la préparation des données à l'aide de Data Wrangler.

Vue d'ensemble de la solution

Nous commençons avec deux comptes AWS : un compte producteur avec l'entrepôt de données Amazon Redshift et un compte consommateur pour les cas d'utilisation SageMaker ML. Pour ce post, nous utilisons le ensemble de données bancaires. Pour suivre, téléchargez l'ensemble de données sur votre ordinateur local. Voici une vue d'ensemble de haut niveau du flux de travail :

Instanciez un cluster Amazon Redshift RA3 dans le compte producteur et chargez l'ensemble de données.
Créez un partage de données Amazon Redshift dans le compte producteur et autorisez le compte consommateur à accéder aux données.
Accédez au partage de données Amazon Redshift dans le compte client.
Analysez et traitez les données avec Data Wrangler dans le compte client et créez vos workflows de préparation des données.

Soyez conscient de la considérations pour travailler avec le partage de données Amazon Redshift :

Plusieurs comptes AWS – Vous avez besoin d'au moins deux comptes AWS : un compte producteur et un compte consommateur.
Type de grappe – Le partage de données est pris en charge dans le type de cluster RA3. Lors de l'instanciation d'un cluster Amazon Redshift, assurez-vous de choisir le type de cluster RA3.
Chiffrement – Pour que le partage de données fonctionne, les clusters producteur et consommateur doivent être chiffrés et doivent se trouver dans la même région AWS.
Régions – Le partage de données entre comptes est disponible pour tous les Amazon Redshift Types de nœuds RA3 dans USA Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Californie du Nord), USA Ouest (Oregon), Asie-Pacifique (Mumbai), Asie-Pacifique (Séoul), Asie-Pacifique (Singapour), Asie-Pacifique ( Sydney), Asie-Pacifique (Tokyo), Canada (Centre), Europe (Francfort), Europe (Irlande), Europe (Londres), Europe (Paris), Europe (Stockholm) et Amérique du Sud (São Paulo).
Prix – Le partage de données entre comptes est disponible entre les clusters qui se trouvent dans la même région. Il n'y a aucun coût pour partager des données. Vous ne payez que pour les clusters Amazon Redshift qui participent au partage.

Le partage de données entre comptes est un processus en deux étapes. Tout d'abord, un administrateur de cluster producteur crée un partage de données, ajoute des objets et donne accès au compte consommateur. Ensuite, l'administrateur du compte producteur autorise le partage des données pour le consommateur spécifié. Vous pouvez le faire depuis la console Amazon Redshift.

Créer un partage de données Amazon Redshift dans le compte producteur

Pour créer votre partage de données, procédez comme suit :

Sur la console Amazon Redshift, créez un cluster Amazon Redshift.
Spécifier Vidéo et choisissez le type de nœud RA3.
Sous Configurations supplémentaires, désélectionner Utiliser les valeurs par défaut.
Sous Configurations de base de données, configurez le chiffrement pour votre cluster.
Après avoir créé le cluster, importez l'ensemble de données de la banque de marketing direct. Vous pouvez télécharger à partir de l'URL suivante : https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Téléchargement bank-additional-full.csv à un Service de stockage simple Amazon (Amazon S3) compartiment auquel votre cluster a accès.

Utilisez l'éditeur de requête Amazon Redshift et exécutez la requête SQL suivante pour copier les données dans Amazon Redshift :

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Accédez à la page des détails du cluster et sur le Partages de données onglet, choisissez Créer un partage de données.
Pour Nom du partage de données, entrez un nom.
Pour Nom de la base de données, choisissez une base de données.
Dans le Ajouter des objets de partage de données , choisissez les objets de la base de données que vous souhaitez inclure dans le partage de données.
Vous avez un contrôle granulaire sur ce que vous choisissez de partager avec les autres. Pour plus de simplicité, nous partageons toutes les tables. En pratique, vous pouvez choisir une ou plusieurs tables, vues ou fonctions définies par l'utilisateur.
Selectionnez Ajouter.
Pour ajouter des consommateurs de données, sélectionnez Ajouter des comptes AWS au partage de données et ajoutez votre ID de compte AWS secondaire.
Selectionnez Créer un partage de données.
Pour autoriser le consommateur de données que vous venez de créer, rendez-vous dans Partages de données sur la console Amazon Redshift et choisissez le nouveau partage de données.
Sélectionnez le consommateur de données et choisissez Autoriser.

Le statut de consommateur passe de Pending authorization à Authorized.

Accéder au partage de données entre comptes Amazon Redshift dans le compte AWS consommateur

Maintenant que le partage de données est configuré, passez à votre compte AWS consommateur pour consommer le partage de données. Assurez-vous d'avoir au moins un cluster Amazon Redshift créé dans votre compte personnel. Le cluster doit être chiffré et dans la même région que la source.

Sur la console Amazon Redshift, choisissez Partages de données dans le volet de navigation.
Sur le Depuis d'autres comptes , sélectionnez le partage de données que vous avez créé et choisissez Associé(e) .
Vous pouvez associer le partage de données à un ou plusieurs clusters de ce compte ou associer le partage de données à l'ensemble du compte afin que les clusters actuels et futurs du compte consommateur aient accès à ce partage.
Spécifiez vos détails de connexion et choisissez NOUS CONTACTER.
Selectionnez Créer une base de données à partir du partage de données et entrez un nom pour votre nouvelle base de données.
Pour tester le partage de données, accédez à l'éditeur de requêtes et exécutez des requêtes sur la nouvelle base de données pour vous assurer que tous les objets sont disponibles dans le cadre du partage de données.

Analysez et traitez les données avec Data Wrangler

Vous pouvez désormais utiliser Data Wrangler pour accéder aux données intercomptes créées en tant que partage de données dans Amazon Redshift.

Ouvert Amazon SageMakerStudio.
Sur le Déposez votre dernière attestation menu, choisissez Nouveauté ainsi que Flux de Wrangler de données.
Sur le L’ onglet, choisissez Ajouter une source de données ainsi que Redshift d'Amazon.
Entrez les détails de connexion du cluster Amazon Redshift que vous venez de créer dans le compte consommateur pour le partage de données.
Selectionnez NOUS CONTACTER.
Utilisez l'option Gestion des identités et des accès AWS (IAM) que vous avez utilisé pour votre cluster Amazon Redshift.

Notez que même si le partage de données est une nouvelle base de données dans le cluster Amazon Redshift, vous ne pouvez pas vous y connecter directement à partir de Data Wrangler.

La méthode correcte consiste à se connecter d'abord à la base de données de cluster par défaut, puis à utiliser SQL pour interroger la base de données de partage de données. Fournissez les informations requises pour la connexion à la base de données de cluster par défaut. Notez qu'un Service de gestion des clés AWS L'ID de clé (AWS KMS) n'est pas requis pour se connecter.

Data Wrangler est maintenant connecté à l'instance Amazon Redshift.

Interrogez les données dans la base de données de partage de données Amazon Redshift à l'aide d'un éditeur SQL.
Selectionnez L’ pour importer le jeu de données dans Data Wrangler.
Entrez un nom pour le jeu de données et choisissez Ajouter.

Vous pouvez maintenant voir le flux sur le Flux de données onglet de Data Wrangler.

Après avoir chargé les données dans Data Wrangler, vous pouvez effectuer une analyse exploratoire des données et préparer les données pour le ML.

Choisissez le signe plus et choisissez Ajouter une analyse.

Data Wrangler fournit des analyses intégrées. Ceux-ci incluent, mais sans s'y limiter, un rapport sur la qualité et les informations des données, la corrélation des données, un rapport sur les biais de pré-formation, un résumé de votre ensemble de données et des visualisations (telles que des histogrammes et des nuages de points). Vous pouvez également créer votre propre visualisation personnalisée.

Vous pouvez utiliser le rapport sur la qualité des données et les informations pour générer automatiquement des visualisations et des analyses afin d'identifier les problèmes de qualité des données et recommander la bonne transformation requise pour votre jeu de données.

Selectionnez Rapport sur la qualité des données et les informations, et choisissez le Colonne cible as y.
Puisqu'il s'agit d'un énoncé de problème de classification, pour Type de problème, sélectionnez Classification.
Selectionnez Création.

Data Wrangler crée un rapport détaillé sur votre ensemble de données. Vous pouvez également télécharger le rapport sur votre machine locale.

Pour la préparation des données, choisissez le signe plus et choisissez Ajouter une analyse.
Selectionnez Ajouter une étape pour commencer à construire vos transformations.

Au moment d'écrire ces lignes, Data Wrangler fournit plus de 300 transformations intégrées. Vous pouvez également écrire vos propres transformations en utilisant Pandas ou PySpark.

Vous pouvez maintenant commencer à créer vos transformations et vos analyses en fonction des besoins de votre entreprise.

Conclusion

Dans cet article, nous avons exploré le partage de données entre les comptes à l'aide des partages de données Amazon Redshift sans avoir à télécharger et charger manuellement les données. Nous avons expliqué comment accéder aux données partagées à l'aide de Data Wrangler et préparer les données pour vos cas d'utilisation de ML. Cette capacité sans code/à faible code des partages de données Amazon Redshift et de Data Wrangler accélère la préparation des données de formation et augmente l'agilité des ingénieurs et des scientifiques des données grâce à une préparation itérative plus rapide des données.

Pour en savoir plus sur Amazon Redshift et SageMaker, consultez le Guide du développeur de base de données Amazon Redshift ainsi que Documentation Amazon SageMaker.

À propos des auteurs

Importez des données d'Amazon Redshift entre comptes dans Amazon SageMaker Data Wrangler pour l'analyse exploratoire des données et la préparation des données PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il aide les comptes stratégiques de la haute technologie dans leur parcours vers l'IA et le ML. Il est très passionné par l'IA axée sur les données.

James Wu est un architecte de solution spécialiste senior AI/ML chez AWS. aider les clients à concevoir et à créer des solutions d'IA/ML. Le travail de James couvre un large éventail de cas d'utilisation du ML, avec un intérêt principal pour la vision par ordinateur, l'apprentissage en profondeur et la mise à l'échelle du ML dans l'entreprise. Avant de rejoindre AWS, James a été architecte, développeur et leader technologique pendant plus de 10 ans, dont 6 ans en ingénierie et 4 ans dans les secteurs du marketing et de la publicité.

Horodatage: Le 23 juin 2022

Horodatage: Le 1 décembre 2022

Republié par Platon

Obtenez plus de contrôle sur vos charges de travail Amazon SageMaker Data Wrangler avec des ensembles de données paramétrés et des tâches planifiées

Recommandation de puissance et recherche à l'aide d'un graphe de connaissances IMDb - Partie 1

Augmentez les transactions frauduleuses à l'aide de données synthétiques dans Amazon SageMaker

Améliorez la gouvernance de vos modèles de machine learning avec Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte