Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Gestionnaire de données Amazon SageMaker réduit le temps d'agrégation et de préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes Amazon SageMakerStudio. Data Wrangler peut simplifier vos processus de préparation des données et d'ingénierie des fonctionnalités et vous aider dans la sélection, le nettoyage, l'exploration et la visualisation des données. Data Wrangler possède plus de 300 transformations intégrées écrites dans PySpark, ce qui vous permet de traiter efficacement des ensembles de données jusqu'à des centaines de gigaoctets sur l'instance par défaut, ml.m5.4xlarge.

Toutefois, lorsque vous travaillez avec des ensembles de données allant jusqu'à des téraoctets de données à l'aide de transformations intégrées, vous pouvez rencontrer un temps de traitement plus long ou des erreurs potentielles de mémoire insuffisante. En fonction de vos besoins en données, vous pouvez désormais utiliser des Cloud de calcul élastique Amazon (Amazon EC2) Instances M5 ainsi que Instances R5. Par exemple, vous pouvez commencer avec une instance par défaut (ml.m5.4xlarge) puis passer à ml.m5.24xlarge ou ml.r5.24xlarge. Vous avez la possibilité de choisir différents types d'instances et de trouver le meilleur compromis entre les coûts de fonctionnement et les délais de traitement. La prochaine fois que vous travaillerez sur la transformation de séries chronologiques et que vous exécuterez des transformateurs lourds pour équilibrer vos données, vous pourrez dimensionner correctement votre instance Data Wrangler pour exécuter ces processus plus rapidement.

Lors du traitement de dizaines de gigaoctets ou même plus avec une transformation Pandas personnalisée, vous pouvez rencontrer des erreurs de mémoire insuffisante. Vous pouvez passer de l'instance par défaut (ml.m5.4xlarge) à ml.m5.24xlarge, et la transformation se terminera sans aucune erreur. Nous avons minutieusement comparé et observé l'accélération linéaire à mesure que nous augmentions la taille des instances sur un portefeuille d'ensembles de données.

Dans cet article, nous partageons nos résultats de deux tests de référence pour démontrer comment vous pouvez traiter des ensembles de données plus grands et plus larges avec Data Wrangler.

Tests de référence Data Wrangler

Passons en revue deux tests que nous avons exécutés, les requêtes d'agrégation et l'encodage à chaud, avec différents types d'instances utilisant des transformateurs intégrés PySpark et des transformations Pandas personnalisées. Les transformations qui ne nécessitent pas d'agrégation se terminent rapidement et fonctionnent bien avec le type d'instance par défaut. Nous nous sommes donc concentrés sur les requêtes d'agrégation et les transformations avec agrégation. Nous avons stocké notre ensemble de données de test sur Service de stockage simple Amazon (Amazon S3). La taille développée de cet ensemble de données est d'environ 100 Go avec 80 millions de lignes et 300 colonnes. Nous avons utilisé des métriques d'interface utilisateur pour chronométrer les tests de référence et mesurer la latence de bout en bout face aux clients. Lors de l'importation de notre ensemble de données de test, nous avons désactivé l'échantillonnage. L'échantillonnage est activé par défaut et Data Wrangler ne traite que les 100 premières lignes lorsqu'il est activé.x

Au fur et à mesure que nous augmentions la taille de l'instance de Data Wrangler, nous avons observé une accélération à peu près linéaire des transformations intégrées de Data Wrangler et du Spark SQL personnalisé. Les tests de requête d'agrégation Pandas ne se terminaient que lorsque nous utilisions des instances supérieures à ml.m5.16xl, et Pandas avait besoin de 180 Go de mémoire pour traiter les requêtes d'agrégation pour cet ensemble de données.

Le tableau suivant résume les résultats des tests de requête d'agrégation.

Instance	Processeur virtuel	Mémoire (Gio)	Temps de transformation Spark intégré à Data Wrangler	Le temps des pandas (Transformation personnalisée)
ml.m5.4xl	16	64	en 229 secondes	Mémoire insuffisante
ml.m5.8xl	32	128	en 130 secondes	Mémoire insuffisante
ml.m5.16xl	64	256	en 52 secondes	30 minutes

Le tableau suivant résume les résultats du test d'encodage à chaud.

Instance	Processeur virtuel	Mémoire (Gio)	Temps de transformation Spark intégré à Data Wrangler	Le temps des pandas (Transformation personnalisée)
ml.m5.4xl	16	64	en 228 secondes	Mémoire insuffisante
ml.m5.8xl	32	128	en 130 secondes	Mémoire insuffisante
ml.m5.16xl	64	256	en 52 secondes	Mémoire insuffisante

Changer le type d'instance d'un flux de données

Pour changer le type d'instance de votre flux, procédez comme suit :

Sur la console Amazon SageMaker Data Wrangler, accédez au flux de données que vous utilisez actuellement.
Choisissez le type d'instance dans la barre de navigation.
Sélectionnez le type d'instance que vous souhaitez utiliser.
Selectionnez Épargnez.

Un message de progression apparaît.

Lorsque le basculement est terminé, un message de réussite s'affiche.

Data Wrangler utilise le type d'instance sélectionné pour l'analyse et la transformation des données. L'instance par défaut et l'instance vers laquelle vous avez basculé (ml.m5.16xlarge) sont toutes deux en cours d'exécution. Vous pouvez modifier le type d'instance ou revenir à l'instance par défaut avant d'exécuter une transformation spécifique.

Arrêtez les instances inutilisées

Vous êtes facturé pour toutes les instances en cours d'exécution. Pour éviter des frais supplémentaires, arrêtez manuellement les instances que vous n'utilisez pas. Pour arrêter une instance en cours d'exécution, procédez comme suit :

Sur votre page de flux de données, choisissez l'icône d'instance dans le volet gauche de l'interface utilisateur sous Instances en cours d'exécution.
Selectionnez arrêter.

Si vous arrêtez une instance utilisée pour exécuter un flux, vous ne pouvez pas accéder temporairement au flux. Si vous obtenez une erreur lors de l'ouverture du flux exécutant une instance que vous avez précédemment arrêtée, attendez environ 5 minutes et essayez de l'ouvrir à nouveau.

Conclusion

Dans cet article, nous avons montré comment traiter des ensembles de données plus grands et plus larges avec Data Wrangler en basculant les instances vers des types d'instances M5 ou R5 plus grands. Instances M5 offrent un équilibre entre les ressources de calcul, de mémoire et de mise en réseau. Instances R5 sont des instances à mémoire optimisée. M5 et R5 fournissent des types d'instance pour optimiser les coûts et les performances de vos charges de travail.

Pour en savoir plus sur l'utilisation des flux de données avec Data Wrangler, reportez-vous à Créer et utiliser un flux Data Wrangler ainsi que Tarification d'Amazon SageMaker. Pour démarrer avec Data Wrangler, voir Préparer les données de ML avec Amazon SageMaker Data Wrangler.

À propos des auteurs

Haider Naqvi est architecte de solutions chez AWS. Il possède une vaste expérience en développement de logiciels et en architecture d'entreprise. Il s'attache à permettre aux clients d'obtenir des résultats commerciaux avec AWS. Il est basé à New York.

Huong Nguyen est chef de produit senior chez AWS. Elle dirige l'intégration de l'écosystème de données pour SageMaker, avec 14 ans d'expérience dans la création de produits centrés sur le client et basés sur les données pour les espaces d'entreprise et de consommation.

Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il aide les comptes stratégiques de la haute technologie dans leur parcours vers l'IA et le ML. Il est très passionné par l'IA axée sur les données.

Sriharsha M Sr est architecte de solutions spécialisées en IA/ML au sein de l'équipe de spécialistes stratégiques d'Amazon Web Services. Il travaille avec des clients AWS stratégiques qui tirent parti de l'IA/ML pour résoudre des problèmes commerciaux complexes. Il fournit des conseils techniques et des conseils de conception pour mettre en œuvre des applications AI/ML à grande échelle. Son expertise couvre l'architecture des applications, le Big Data, l'analyse et l'apprentissage automatique.

Nikita Ivkine est un scientifique appliqué, Amazon SageMaker Data Wrangler.

Horodatage: 6 mai 2022

Horodatage: Le 7 juillet 2022

Republié par Platon

Automatisez et implémentez le contrôle de version pour les FAQ d'Amazon Kendra

Comment LotteON a créé des tests A/B dynamiques pour son système de recommandation personnalisé | Services Web Amazon

Identifiez l'emplacement des anomalies à l'aide d'Amazon Lookout for Vision en périphérie sans utiliser de GPU

Réduisez le gaspillage alimentaire pour améliorer la durabilité et les résultats financiers dans le commerce de détail avec Amazon Forecast

Annonce de Visual Conversation Builder pour Amazon Lex

Exécutez des blocs-notes en tant que tâches par lots dans Amazon SageMaker Studio Lab

Blocs-notes illustratifs dans Amazon SageMaker JumpStart

Comment AWS Prototyping a permis à ICL-Group de créer des modèles de vision par ordinateur sur Amazon SageMaker | Services Web Amazon

Ingénierie des fonctionnalités à grande échelle pour les soins de santé et les sciences de la vie avec Amazon SageMaker Data Wrangler

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte