Gestionnaire de données Amazon SageMaker est un outil d'agrégation et de préparation de données spécialement conçu pour l'apprentissage automatique (ML). Il vous permet d'utiliser une interface visuelle pour accéder aux données et effectuer une analyse exploratoire des données (EDA) et une ingénierie des fonctionnalités. La fonction EDA est livrée avec des capacités d'analyse de données intégrées pour les graphiques (tels que le nuage de points ou l'histogramme) et des capacités d'analyse de modèle permettant de gagner du temps telles que l'importance des caractéristiques, la fuite cible et l'explicabilité du modèle. La capacité d'ingénierie des fonctionnalités comprend plus de 300 transformations intégrées et peut effectuer des transformations personnalisées à l'aide de l'environnement d'exécution Python, PySpark ou Spark SQL.
Pour les visualisations et les transformations personnalisées, Data Wrangler fournit désormais des exemples d'extraits de code pour les types courants de visualisations et de transformations. Dans cet article, nous montrons comment utiliser ces extraits de code pour démarrer rapidement votre EDA dans Data Wrangler.
Vue d'ensemble de la solution
Au moment d'écrire ces lignes, vous pouvez importer des ensembles de données dans Data Wrangler à partir de Service de stockage simple Amazon (Amazon S3), Amazone Athéna, Redshift d'Amazon, Databricks et Snowflake. Pour cet article, nous utilisons Amazon S3 pour stocker l'Amazon 2014 examine l'ensemble de données. Voici un exemple de l'ensemble de données :
Dans cet article, nous effectuons l'EDA en utilisant trois colonnes—asin
, reviewTime
et overall
– qui correspondent respectivement à l'ID du produit, à la date de révision et à la note globale de la révision. Nous utilisons ces données pour visualiser la dynamique du nombre d'avis au fil des mois et des années.
Utilisation d'un exemple d'extrait de code pour EDA dans Data Wrangler
Pour commencer à exécuter EDA dans Data Wrangler, procédez comme suit :
- Télécharger Ensemble de données sur les avis sur la musique numérique JSON et chargez-le sur Amazon S3.
Nous l'utilisons comme ensemble de données brutes pour l'EDA. - Ouvert Amazon SageMakerStudio et créez un nouveau flux Data Wrangler et importez l'ensemble de données depuis Amazon S3.
Cet ensemble de données comporte neuf colonnes, mais nous n'en utilisons que trois :
asin
,reviewTime
etoverall
. Nous devons supprimer les six autres colonnes. - Créez une transformation personnalisée et choisissez Python (PySpark).
- Développer vous Rechercher des extraits d'exemples et choisissez Supprimer toutes les colonnes sauf plusieurs.
- Entrez l'extrait de code fourni dans votre transformation personnalisée et suivez les instructions pour modifier le code.
Maintenant que nous avons toutes les colonnes dont nous avons besoin, filtrons les données pour ne conserver que les avis entre 2000 et 2020.
- Utilisez l'option Filtrer l'horodatage en dehors de la plage extrait pour supprimer les données avant l'an 2000 et après 2020 :
Ensuite, nous extrayons l'année et le mois de la colonne reviewTime.
- Utilisez l'option Caractériser la date/l'heure transformer.
- Pour Extraire les colonnes, choisissez an ainsi que mois.
Ensuite, nous voulons agréger le nombre d'avis par année et par mois que nous avons créés à l'étape précédente.
- Utilisez l'option Calculer des statistiques en groupes fragment:
- Renommer l'agrégation de l'étape précédente de
count(overall)
àreviews_num
en choisissant Gérer les colonnes et par Renommer la colonne transformer.
Enfin, nous voulons créer une carte thermique pour visualiser la répartition des avis par année et par mois. - Dans l'onglet Analyse, choisissez Visualisation personnalisée.
- Développer vous Rechercher un extrait et choisissez Heatmap dans le menu déroulant.
- Saisissez l'extrait fourni dans votre visualisation personnalisée :
On obtient la visualisation suivante.
Si vous souhaitez améliorer davantage la carte thermique, vous pouvez découper les données pour n'afficher que les avis antérieurs à 2011. Ceux-ci sont difficiles à identifier dans la carte thermique que nous venons de créer en raison du grand nombre d'avis depuis 2012. - Ajoutez une ligne de code à votre visualisation personnalisée :
Nous obtenons la carte thermique suivante.
Désormais, la carte thermique reflète plus visiblement les avis antérieurs à 2011 : nous pouvons observer les effets saisonniers (la fin de l'année apporte plus d'achats et donc plus d'avis) et pouvons identifier les mois anormaux, comme octobre 2003 et mars 2005. déterminer la cause de ces anomalies.
Conclusion
Data Wrangler est un outil d'agrégation et de préparation de données spécialement conçu pour le ML. Dans cet article, nous avons montré comment effectuer EDA et transformer rapidement vos données à l'aide d'extraits de code fournis par Data Wrangler. Il vous suffit de trouver un extrait, d'entrer le code et d'ajuster les paramètres pour qu'ils correspondent à votre ensemble de données. Vous pouvez continuer à itérer sur votre script pour créer des visualisations et des transformations plus complexes.
Pour en savoir plus sur Data Wrangler, consultez Créer et utiliser un flux Data Wrangler.
À propos des auteurs
Nikita Ivkine est un scientifique appliqué, Amazon SageMaker Data Wrangler.
Haider Naqvi est architecte de solutions chez AWS. Il possède une vaste expérience en développement de logiciels et en architecture d'entreprise. Il s'attache à permettre aux clients d'obtenir des résultats commerciaux avec AWS. Il est basé à New York.
Harish Rajagopalan est architecte de solutions senior chez Amazon Web Services. Harish travaille avec des entreprises clientes et les aide dans leur parcours vers le cloud.
James Wu est un spécialiste senior AI/ML SA chez AWS. Il travaille avec les clients pour accélérer leur parcours vers le cloud et accélérer la réalisation de leur valeur commerciale. En plus de cela, James est également passionné par le développement et la mise à l'échelle de grandes solutions d'IA/ML dans divers domaines. Avant de rejoindre AWS, il a dirigé une équipe technologique d'innovation multidisciplinaire avec des ingénieurs ML et des développeurs de logiciels pour une grande entreprise mondiale du marché et de l'industrie de la publicité.
- Coinsmart. Le meilleur échange Bitcoin et Crypto d'Europe.
- Platoblockchain. Intelligence métaverse Web3. Connaissance amplifiée. ACCÈS LIBRE.
- CryptoHawk. Radar Altcoins. Essai gratuit.
- Source : https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Qui sommes-nous
- accélérer
- accès
- atteindre
- à travers
- ajout
- Numérique
- Tous
- permet
- Amazon
- Amazon Web Services
- selon une analyse de l’Université de Princeton
- appliqué
- architecture
- disponibles
- AWS
- Axis
- car
- before
- jusqu'à XNUMX fois
- intégré
- la performance des entreprises
- capacités
- Causes
- Charts
- Selectionnez
- le cloud
- code
- Colonne
- Commun
- complet
- complexe
- continuer
- contrôles
- engendrent
- créée
- Customiser
- Clients
- données
- l'analyse des données
- démontrer
- démontré
- Déterminer
- mobiles
- développement
- Développement
- distribution
- domaines
- down
- Goutte
- dynamique
- les effets
- permettant
- ENGINEERING
- Les ingénieurs
- Entrer
- Entreprise
- exemple
- Sauf
- Découvrez
- les
- plus rapide
- Fonctionnalité
- finalement
- Ferme
- Prénom
- flux
- se concentre
- suivre
- Abonnement
- de
- fonction
- fonctions
- plus
- Global
- l'
- Groupes
- ayant
- utile
- aide
- Comment
- How To
- HTTPS
- identifier
- importance
- industrie
- Innovation
- Interfaces
- IT
- chemin
- XNUMX éléments à
- gros
- APPRENTISSAGE
- apprentissage
- LED
- Gamme
- Liste
- click
- machine learning
- Localisation
- Mars
- Marché
- Match
- ML
- modèle
- Mois
- mois
- PLUS
- Musique
- noms
- New York
- nombre
- Autre
- global
- passionné
- effectuer
- jouer
- Préparer
- précédent
- Produit
- fournir
- à condition de
- fournit
- achat
- achats
- quantitatif
- vite.
- raw
- Articles
- reflète
- Avis
- Avis
- mise à l'échelle
- Scientifique
- Services
- étapes
- depuis
- SIX
- Logiciels
- développement de logiciels
- Solutions
- spécialiste
- Commencer
- statistiques
- storage
- Boutique
- Target
- équipe
- Technologie
- La
- donc
- trois
- fiable
- outil
- top
- Transformer
- transformations
- types
- utilisé
- Plus-value
- divers
- visualisation
- volumes
- web
- services Web
- WHO
- merveilleux
- vos contrats
- vaut
- écriture
- X
- an
- années
- Votre