Configurer un emplacement de sortie de requête Amazon S3 personnalisé et une politique de conservation des données pour les sources de données Amazon Athena dans Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Gestionnaire de données Amazon SageMaker réduit le temps nécessaire pour agréger et préparer les données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes Amazon SageMakerStudio, le premier environnement de développement entièrement intégré (IDE) pour ML. Avec Data Wrangler, vous pouvez simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, et effectuer chaque étape du workflow de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données, à partir d'une interface visuelle unique. Vous pouvez importer des données à partir de plusieurs sources de données telles que Service de stockage simple Amazon (Amazon S3), Redshift d'Amazon, Floconet une 26 sources de données de requêtes fédérées accompagnés par Amazone Athéna.

À partir d'aujourd'hui, lors de l'importation de données à partir de sources de données Athena, vous pouvez configurer l'emplacement de sortie de la requête S3 et la période de conservation des données pour importer des données dans Data Wrangler afin de contrôler où et combien de temps Athena stocke les données intermédiaires. Dans cet article, nous vous expliquons cette nouvelle fonctionnalité.

Vue d'ensemble de la solution

Athena est un service de requête interactif qui facilite la navigation dans Colle AWS Data Catalog et analysez les données dans Amazon S3 et 26 sources de données de requêtes fédérées à l'aide de SQL standard. Lorsque vous utilisez Athena pour importer des données, vous pouvez utiliser l'emplacement S3 par défaut de Data Wrangler pour la sortie de la requête Athena ou spécifier un groupe de travail Athena pour appliquer un emplacement S3 personnalisé. Auparavant, vous deviez implémenter des workflows de nettoyage pour supprimer ces données intermédiaires ou configurer manuellement la configuration du cycle de vie S3 pour contrôler les coûts de stockage et répondre aux exigences de sécurité des données de votre organisation. Il s'agit d'une surcharge opérationnelle importante et non évolutive.

Data Wrangler prend désormais en charge les emplacements S3 personnalisés et les périodes de conservation des données pour la sortie de votre requête Athena. Avec cette nouvelle fonctionnalité, vous pouvez remplacer l'emplacement de sortie de la requête Athena par un compartiment S3 personnalisé. Vous disposez désormais d'une stratégie de conservation des données par défaut de 5 jours pour la sortie de la requête Athena, et vous pouvez la modifier pour répondre aux exigences de sécurité des données de votre organisation. En fonction de la période de conservation, la sortie de la requête Athena dans le compartiment S3 est automatiquement nettoyée. Après avoir importé les données, vous pouvez effectuer une analyse exploratoire des données sur cet ensemble de données et stocker les données propres dans Amazon S3.

Le diagramme suivant illustre cette architecture.

Pour notre cas d'utilisation, nous utilisons un exemple d'ensemble de données bancaires pour parcourir la solution. Le flux de travail comprend les étapes suivantes :

Télécharger exemple de jeu de données et chargez-le dans un compartiment S3.
Configurer un AWS Glue chenilles pour analyser le schéma et stocker le schéma de métadonnées dans le catalogue de données AWS Glue.
Utilisez Athena pour accéder au catalogue de données afin d'interroger les données du compartiment S3.
Créez un nouveau flux Data Wrangler pour vous connecter à Athena.
Lors de la création de la connexion, définissez la durée de vie de rétention pour l'ensemble de données.
Utilisez cette connexion dans le workflow et stockez les données propres dans un autre compartiment S3.

Pour plus de simplicité, nous supposons que vous avez déjà configuré l'environnement Athena (étapes 1 à 3). Nous détaillons les étapes suivantes dans cet article.

Pré-requis

Pour configurer l'environnement Athena, reportez-vous au Guide d'utilisateur pour obtenir des instructions étape par étape, et suivez les étapes 1 à 3 comme indiqué dans la section précédente.

Importez vos données d'Athena vers Data Wrangler

Pour importer vos données, procédez comme suit :

Sur la console Studio, choisissez le Resources icône dans le volet de navigation.
Selectionnez Traqueur de données dans le menu déroulant.
Selectionnez Nouveau flux.
Sur le L’ onglet, choisissez Amazone Athéna.

Une page de détail s'ouvre où vous pouvez vous connecter à Athena et écrire une requête SQL à importer depuis la base de données.
Entrez un nom pour votre connexion.
Développer vous Configuration avancée.
Lors de la connexion à Athena, Data Wrangler utilise Amazon S3 pour organiser les données interrogées. Par défaut, ces données sont stockées à l'emplacement S3 s3://sagemaker-{region}-{account_id}/athena/ avec une période de conservation de 5 jours.
Pour Emplacement Amazon S3 des résultats de la requête, entrez votre emplacement S3.
Sélectionnez Période de conservation des données et paramétrez la durée de conservation des données (pour cette publication, 1 jour).
Si vous désélectionnez cette option, les données persisteront indéfiniment.Dans les coulisses, Data Wrangler attache une politique de configuration du cycle de vie S3 à cet emplacement S3 pour le nettoyer automatiquement. Consultez l'exemple de stratégie suivant :
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
Vous devez s3:GetLifecycleConfiguration et les s3:PutLifecycleConfiguration pour que votre rôle d'exécution SageMaker applique correctement les politiques de configuration du cycle de vie. Sans ces autorisations, vous obtenez des messages d'erreur lorsque vous essayez d'importer les données.

Le message d'erreur suivant est un exemple de manque de GetLifecycleConfiguration autorisation.

Le message d'erreur suivant est un exemple de manque de PutLifecycleConfiguration autorisation.
En option, pour Groupe De Travail, vous pouvez spécifier un groupe de travail Athena.
Un groupe de travail Athena isole les utilisateurs, les équipes, les applications ou les charges de travail en groupes, chacun avec ses propres autorisations et paramètres de configuration. Lorsque vous spécifiez un groupe de travail, Data Wrangler hérite du paramètre de groupe de travail défini dans Athena. Par exemple, si un groupe de travail dispose d'un emplacement S3 défini pour stocker les résultats de la requête et active Remplacer le côté client paramètres, vous ne pouvez pas modifier l'emplacement du résultat de la requête S3.Par défaut, Data Wrangler enregistre également la connexion Athena pour vous. Ceci est affiché comme une nouvelle tuile Athena dans le L’ languette. Vous pouvez toujours rouvrir cette connexion pour interroger et importer différentes données dans Data Wrangler.
Désélectionner Enregistrer la connexion si vous ne souhaitez pas enregistrer la connexion.
Pour configurer la connexion Athena, choisissez Aucun en Échantillonnage pour importer l'intégralité du jeu de données.

Pour les grands ensembles de données, Data Wrangler vous permet d'importer un sous-ensemble de vos données pour créer votre flux de travail de transformation et de ne traiter l'intégralité de l'ensemble de données que lorsque vous êtes prêt. Cela accélère le cycle d'itération et permet d'économiser du temps et des coûts de traitement. Pour en savoir plus sur les différentes options d'échantillonnage de données disponibles, visitez Amazon SageMaker Data Wrangler prend désormais en charge l'échantillonnage aléatoire et l'échantillonnage stratifié.
Pour Catalogue de données¸ choisissez AWSDataCatalogue.
Pour Base de données, choisissez votre base de données.

Data Wrangler affiche les tables disponibles. Vous pouvez choisir chaque table pour vérifier le schéma et prévisualiser les données.
Saisissez le code suivant dans le champ de requête :
```
Select *
From bank_additional_full
```
Selectionnez Courir pour prévisualiser les données.
Si tout semble bon, choisissez L’.
Entrez un nom de jeu de données et choisissez Ajouter pour importer les données dans votre espace de travail Data Wrangler.

Analysez et traitez les données avec Data Wrangler

Après avoir chargé les données dans Data Wrangler, vous pouvez effectuer une analyse exploratoire des données (EDA) et préparer les données pour l'apprentissage automatique.

Choisissez le signe plus à côté du bank-data jeu de données dans le flux de données, puis choisissez Ajouter une analyse.
Data Wrangler fournit des analyses intégrées, notamment un rapport sur la qualité des données et les informations, la corrélation des données, un rapport sur les biais de pré-formation, un résumé de votre ensemble de données et des visualisations (telles que des histogrammes et des nuages de points). De plus, vous pouvez créer votre propre visualisation personnalisée.
Pour Type d'analyse¸ choisissez Qualité des données et rapport d'analyse.
Cela génère automatiquement des visualisations, des analyses pour identifier les problèmes de qualité des données et des recommandations pour les bonnes transformations requises pour votre jeu de données.
Pour Colonne cible, choisissez Y.
Puisqu'il s'agit d'un énoncé de problème de classification, pour Type de problème, sélectionnez Classification.
Selectionnez Création.

Data Wrangler crée un rapport détaillé sur votre ensemble de données. Vous pouvez également télécharger le rapport sur votre machine locale.
Pour la préparation des données, choisissez le signe plus à côté de l'ensemble de données bancaires dans le flux de données, puis choisissez Ajouter une transformation.
Selectionnez Ajouter une étape pour commencer à construire vos transformations.

Au moment d'écrire ces lignes, Data Wrangler fournit plus de 300 transformations intégrées. Vous pouvez également écrire vos propres transformations en utilisant Pandas ou PySpark.

Vous pouvez maintenant commencer à créer vos transformations et analyses en fonction des besoins de votre entreprise.

Nettoyer

Pour éviter les coûts permanents, supprimez les ressources Data Wrangler en suivant les étapes ci-dessous lorsque vous avez terminé.

Sélectionnez l'icône Instances et noyaux en cours d'exécution.
Sous RUNNING APPS, cliquez sur l'icône d'arrêt à côté de sagemaker-data-wrangler-1.0 app.
Choisissez Tout arrêter pour confirmer.

Conclusion

Dans cet article, nous avons fourni un aperçu de la personnalisation de votre emplacement S3 et de l'activation des configurations de cycle de vie S3 pour l'importation de données d'Athena vers Data Wrangler. Grâce à cette fonctionnalité, vous pouvez stocker des données intermédiaires dans un emplacement S3 sécurisé et supprimer automatiquement la copie des données après la période de conservation afin de réduire le risque d'accès non autorisé aux données. Nous vous encourageons à essayer cette nouvelle fonctionnalité. Bonne construction !

Pour en savoir plus sur Athena et SageMaker, visitez le Guide de l'utilisateur d'Athéna et les Documentation Amazon SageMaker.

À propos des auteurs

Configurez un emplacement de sortie de requête Amazon S3 personnalisé et une politique de conservation des données pour les sources de données Amazon Athena dans Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Ai. Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il aide les comptes stratégiques de la haute technologie dans leur parcours vers l'IA et le ML. Il est très passionné par l'IA axée sur les données.

Harish Rajagopalan est architecte de solutions senior chez Amazon Web Services. Harish travaille avec des entreprises clientes et les aide dans leur parcours vers le cloud.

James Wu est un architecte de solution spécialiste senior AI/ML chez AWS. aider les clients à concevoir et à créer des solutions d'IA/ML. Le travail de James couvre un large éventail de cas d'utilisation du ML, avec un intérêt principal pour la vision par ordinateur, l'apprentissage en profondeur et la mise à l'échelle du ML dans l'entreprise. Avant de rejoindre AWS, James a été architecte, développeur et leader technologique pendant plus de 10 ans, dont 6 ans en ingénierie et 4 ans dans les secteurs du marketing et de la publicité.

Horodatage: 20 septembre 202221 septembre 2022

Horodatage: 10 Mar 2023

Protéger les consommateurs et promouvoir l'innovation - Réglementation de l'IA et renforcer la confiance dans une IA responsable

Cluster source:

Apprentissage automatique AWS

Nœud source: 1765573

Horodatage: Le 1 décembre 2022

Amazon SageMaker JumpStart propose désormais des blocs-notes Amazon Comprehend pour la classification personnalisée et la détection d'entités personnalisées PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Amazon SageMaker JumpStart propose désormais des blocs-notes Amazon Comprehend pour une classification personnalisée et une détection d'entité personnalisée

Cluster source:

Apprentissage automatique AWS

Nœud source: 1771393

Horodatage: Le 12 décembre 2022

Amazon Personalize lance de nouvelles recettes prenant en charge des catalogues d'articles plus volumineux avec une latence plus faible | Services Web Amazon

Cluster source:

Apprentissage automatique AWS

Nœud source: 1970709

Horodatage: 2 mai 2024

Configurer un emplacement de sortie de requête Amazon S3 personnalisé et une politique de conservation des données pour les sources de données Amazon Athena dans Amazon SageMaker Data Wrangler

Republié par Platon

Vue d'ensemble de la solution

Pré-requis

Importez vos données d'Athena vers Data Wrangler

Analysez et traitez les données avec Data Wrangler

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

MLOps pour l'inférence par lots avec surveillance et recyclage des modèles à l'aide d'Amazon SageMaker, HashiCorp Terraform et GitLab CI/CD | Services Web Amazon

Former et déployer des modèles ML dans un environnement multicloud à l'aide d'Amazon SageMaker | Services Web Amazon

Activez une formation plus rapide avec la bibliothèque parallèle de données Amazon SageMaker | Services Web Amazon

Localisez le contenu dans plusieurs langues à l'aide des services d'apprentissage automatique AWS

Protéger les consommateurs et promouvoir l'innovation - Réglementation de l'IA et renforcer la confiance dans une IA responsable

Amazon SageMaker JumpStart propose désormais des blocs-notes Amazon Comprehend pour une classification personnalisée et une détection d'entité personnalisée

Amazon Personalize lance de nouvelles recettes prenant en charge des catalogues d'articles plus volumineux avec une latence plus faible | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte