Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Traitez des ensembles de données de plus en plus vastes avec Amazon SageMaker Data Wrangler

Gestionnaire de données Amazon SageMaker réduit le temps d'agrégation et de préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes Amazon SageMakerStudio. Data Wrangler peut simplifier vos processus de préparation des données et d'ingénierie des fonctionnalités et vous aider dans la sélection, le nettoyage, l'exploration et la visualisation des données. Data Wrangler possède plus de 300 transformations intégrées écrites dans PySpark, ce qui vous permet de traiter efficacement des ensembles de données jusqu'à des centaines de gigaoctets sur l'instance par défaut, ml.m5.4xlarge.

Toutefois, lorsque vous travaillez avec des ensembles de données allant jusqu'à des téraoctets de données à l'aide de transformations intégrées, vous pouvez rencontrer un temps de traitement plus long ou des erreurs potentielles de mémoire insuffisante. En fonction de vos besoins en données, vous pouvez désormais utiliser des Cloud de calcul élastique Amazon (Amazon EC2) Instances M5 ainsi que Instances R5. Par exemple, vous pouvez commencer avec une instance par défaut (ml.m5.4xlarge) puis passer à ml.m5.24xlarge ou ml.r5.24xlarge. Vous avez la possibilité de choisir différents types d'instances et de trouver le meilleur compromis entre les coûts de fonctionnement et les délais de traitement. La prochaine fois que vous travaillerez sur la transformation de séries chronologiques et que vous exécuterez des transformateurs lourds pour équilibrer vos données, vous pourrez dimensionner correctement votre instance Data Wrangler pour exécuter ces processus plus rapidement.

Lors du traitement de dizaines de gigaoctets ou même plus avec une transformation Pandas personnalisée, vous pouvez rencontrer des erreurs de mémoire insuffisante. Vous pouvez passer de l'instance par défaut (ml.m5.4xlarge) à ml.m5.24xlarge, et la transformation se terminera sans aucune erreur. Nous avons minutieusement comparé et observé l'accélération linéaire à mesure que nous augmentions la taille des instances sur un portefeuille d'ensembles de données.

Dans cet article, nous partageons nos résultats de deux tests de référence pour démontrer comment vous pouvez traiter des ensembles de données plus grands et plus larges avec Data Wrangler.

Tests de référence Data Wrangler

Passons en revue deux tests que nous avons exécutés, les requêtes d'agrégation et l'encodage à chaud, avec différents types d'instances utilisant des transformateurs intégrés PySpark et des transformations Pandas personnalisées. Les transformations qui ne nécessitent pas d'agrégation se terminent rapidement et fonctionnent bien avec le type d'instance par défaut. Nous nous sommes donc concentrés sur les requêtes d'agrégation et les transformations avec agrégation. Nous avons stocké notre ensemble de données de test sur Service de stockage simple Amazon (Amazon S3). La taille développée de cet ensemble de données est d'environ 100 Go avec 80 millions de lignes et 300 colonnes. Nous avons utilisé des métriques d'interface utilisateur pour chronométrer les tests de référence et mesurer la latence de bout en bout face aux clients. Lors de l'importation de notre ensemble de données de test, nous avons désactivé l'échantillonnage. L'échantillonnage est activé par défaut et Data Wrangler ne traite que les 100 premières lignes lorsqu'il est activé.x

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Au fur et à mesure que nous augmentions la taille de l'instance de Data Wrangler, nous avons observé une accélération à peu près linéaire des transformations intégrées de Data Wrangler et du Spark SQL personnalisé. Les tests de requête d'agrégation Pandas ne se terminaient que lorsque nous utilisions des instances supérieures à ml.m5.16xl, et Pandas avait besoin de 180 Go de mémoire pour traiter les requêtes d'agrégation pour cet ensemble de données.

Le tableau suivant résume les résultats des tests de requête d'agrégation.

Instance Processeur virtuel Mémoire (Gio) Temps de transformation Spark intégré à Data Wrangler Le temps des pandas
(Transformation personnalisée)
ml.m5.4xl 16 64 en 229 secondes Mémoire insuffisante
ml.m5.8xl 32 128 en 130 secondes Mémoire insuffisante
ml.m5.16xl 64 256 en 52 secondes 30 minutes

Le tableau suivant résume les résultats du test d'encodage à chaud.

Instance Processeur virtuel Mémoire (Gio) Temps de transformation Spark intégré à Data Wrangler Le temps des pandas
(Transformation personnalisée)
ml.m5.4xl 16 64 en 228 secondes Mémoire insuffisante
ml.m5.8xl 32 128 en 130 secondes Mémoire insuffisante
ml.m5.16xl 64 256 en 52 secondes Mémoire insuffisante

Changer le type d'instance d'un flux de données

Pour changer le type d'instance de votre flux, procédez comme suit :

  1. Sur la console Amazon SageMaker Data Wrangler, accédez au flux de données que vous utilisez actuellement.
  2. Choisissez le type d'instance dans la barre de navigation.
    Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  3. Sélectionnez le type d'instance que vous souhaitez utiliser.
  4. Selectionnez Épargnez.
    Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Un message de progression apparaît.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Lorsque le basculement est terminé, un message de réussite s'affiche.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Data Wrangler utilise le type d'instance sélectionné pour l'analyse et la transformation des données. L'instance par défaut et l'instance vers laquelle vous avez basculé (ml.m5.16xlarge) sont toutes deux en cours d'exécution. Vous pouvez modifier le type d'instance ou revenir à l'instance par défaut avant d'exécuter une transformation spécifique.

Arrêtez les instances inutilisées

Vous êtes facturé pour toutes les instances en cours d'exécution. Pour éviter des frais supplémentaires, arrêtez manuellement les instances que vous n'utilisez pas. Pour arrêter une instance en cours d'exécution, procédez comme suit :

  1. Sur votre page de flux de données, choisissez l'icône d'instance dans le volet gauche de l'interface utilisateur sous Instances en cours d'exécution.
    Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  2. Selectionnez arrêter.

Si vous arrêtez une instance utilisée pour exécuter un flux, vous ne pouvez pas accéder temporairement au flux. Si vous obtenez une erreur lors de l'ouverture du flux exécutant une instance que vous avez précédemment arrêtée, attendez environ 5 minutes et essayez de l'ouvrir à nouveau.

Conclusion

Dans cet article, nous avons montré comment traiter des ensembles de données plus grands et plus larges avec Data Wrangler en basculant les instances vers des types d'instances M5 ou R5 plus grands. Instances M5 offrent un équilibre entre les ressources de calcul, de mémoire et de mise en réseau. Instances R5 sont des instances à mémoire optimisée. M5 et R5 fournissent des types d'instance pour optimiser les coûts et les performances de vos charges de travail.

Pour en savoir plus sur l'utilisation des flux de données avec Data Wrangler, reportez-vous à Créer et utiliser un flux Data Wrangler ainsi que Tarification d'Amazon SageMaker. Pour démarrer avec Data Wrangler, voir Préparer les données de ML avec Amazon SageMaker Data Wrangler.


À propos des auteurs

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Haider Naqvi est architecte de solutions chez AWS. Il possède une vaste expérience en développement de logiciels et en architecture d'entreprise. Il s'attache à permettre aux clients d'obtenir des résultats commerciaux avec AWS. Il est basé à New York.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Huong Nguyen est chef de produit senior chez AWS. Elle dirige l'intégration de l'écosystème de données pour SageMaker, avec 14 ans d'expérience dans la création de produits centrés sur le client et basés sur les données pour les espaces d'entreprise et de consommation.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Meenakshisundaram Thandavarayan est un spécialiste principal de l'IA/ML chez AWS. Il aide les comptes stratégiques de la haute technologie dans leur parcours vers l'IA et le ML. Il est très passionné par l'IA axée sur les données.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Sriharsha M Sr est architecte de solutions spécialisées en IA/ML au sein de l'équipe de spécialistes stratégiques d'Amazon Web Services. Il travaille avec des clients AWS stratégiques qui tirent parti de l'IA/ML pour résoudre des problèmes commerciaux complexes. Il fournit des conseils techniques et des conseils de conception pour mettre en œuvre des applications AI/ML à grande échelle. Son expertise couvre l'architecture des applications, le Big Data, l'analyse et l'apprentissage automatique.

Traitez des ensembles de données de plus en plus larges avec Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Nikita Ivkine est un scientifique appliqué, Amazon SageMaker Data Wrangler.

Horodatage:

Plus de Apprentissage automatique AWS