Gestionnaire de données Amazon SageMaker réduit le temps d'agrégation et de préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes. Avec Data Wrangler, vous pouvez sélectionner et interroger des données en quelques clics, transformer rapidement des données avec plus de 300 transformations de données intégrées et comprendre vos données avec des visualisations intégrées sans écrire de code.
De plus, vous pouvez créer transformations personnalisées unique à vos besoins. Les transformations personnalisées vous permettent d'écrire des transformations personnalisées à l'aide de PySpark, Pandas ou SQL.
Data Wrangler prend désormais en charge un Fonction Pandas définie par l'utilisateur (UDF) qui peut traiter efficacement de grands ensembles de données. Vous pouvez choisir parmi deux modes UDF Pandas personnalisés : Pandas et Python. Les deux modes offrent une solution efficace pour traiter les ensembles de données, et le mode que vous choisissez dépend de vos préférences.
Dans cet article, nous montrons comment utiliser la nouvelle transformation Pandas UDF dans l'un ou l'autre mode.
Vue d'ensemble de la solution
Au moment d'écrire ces lignes, vous pouvez importer des ensembles de données dans Data Wrangler à partir de Service de stockage simple Amazon (Amazon S3), Amazone Athéna, Redshift d'Amazon, Databricks et Snowflake. Pour cet article, nous utilisons Amazon S3 pour stocker le 2014 Amazon examine l'ensemble de données.
Les données ont une colonne appelée reviewText
contenant du texte généré par l'utilisateur. Le texte contient également plusieurs arrêter les mots, qui sont des mots courants qui ne fournissent pas beaucoup d'informations, tels que "un", "un" et "le". La suppression des mots vides est une étape de prétraitement courante dans les pipelines de traitement du langage naturel (NLP). Nous pouvons créer une fonction personnalisée pour supprimer les mots vides des avis.
Créer une transformation UDF Pandas personnalisée
Passons en revue le processus de création de deux transformations UDF Pandas personnalisées Data Wrangler à l'aide des modes Pandas et Python.
- Télécharger Ensemble de données sur les avis sur la musique numérique et chargez-le sur Amazon S3.
- Ouvert Amazon SageMakerStudio et créer un nouveau flux Data Wrangler.
- Sous Importer des dates, choisissez Amazon S3 et accédez à l'emplacement du jeu de données.
- Pour Type de fichier, choisissez jsonl.
Un aperçu des données doit être affiché dans le tableau.
- Selectionnez L’ procéder.
- Une fois vos données importées, choisissez le signe plus à côté de Types de données et choisissez Ajouter une transformation.
- Selectionnez Transformation personnalisée.
- Dans le menu déroulant, Python (fonction définie par l'utilisateur).
Nous créons maintenant notre transformation personnalisée pour supprimer les mots vides.
- Spécifiez votre colonne d'entrée, votre colonne de sortie, le type de retour et le mode.
L'exemple suivant utilise le mode Pandas. Cela signifie que la fonction doit accepter et renvoyer une série Pandas de même longueur. Vous pouvez considérer une série Pandas comme une colonne dans un tableau ou une partie de la colonne. Il s'agit du mode UDF Pandas le plus performant car Pandas peut vectoriser les opérations sur des lots de valeurs plutôt qu'une à la fois. Le pd.Series
des indications de type sont requises en mode Pandas.
Si vous préférez utiliser Python pur plutôt que l'API Pandas, le mode Python vous permet de spécifier une fonction Python pure qui accepte un seul argument et renvoie une seule valeur. L'exemple suivant est équivalent au code Pandas précédent en termes de sortie. Les indications de type ne sont pas requises en mode Python.
- Selectionnez Ajouter pour ajouter votre transformation personnalisée.
Conclusion
Data Wrangler a plus de 300 transformations intégrées, et vous pouvez également ajouter des transformations personnalisées uniques à vos besoins. Dans cet article, nous avons montré comment traiter des ensembles de données avec la nouvelle transformation UDF Pandas personnalisée de Data Wrangler, en utilisant à la fois les modes Pandas et Python. Vous pouvez utiliser l'un ou l'autre mode en fonction de vos préférences. Pour en savoir plus sur Data Wrangler, consultez Créer et utiliser un flux Data Wrangler.
À propos des auteurs
ben harris est un ingénieur logiciel avec une expérience dans la conception, le déploiement et la maintenance de pipelines de données évolutifs et de solutions d'apprentissage automatique dans divers domaines. Ben a construit des systèmes pour la collecte et l'étiquetage de données, la classification d'images et de textes, la modélisation séquence à séquence, l'intégration et le regroupement, entre autres.
Haider Naqvi est architecte de solutions chez AWS. Il possède une vaste expérience en développement de logiciels et en architecture d'entreprise. Il s'attache à permettre aux clients d'obtenir des résultats commerciaux avec AWS. Il est basé à New York.
Vishal Srivastava est responsable de compte technique chez AWS. Avec une formation en développement de logiciels et en analyse, il travaille principalement avec le secteur des services financiers et les clients commerciaux natifs numériques et prend en charge leur parcours vers le cloud. Pendant son temps libre, il aime voyager avec sa famille.
- Coinsmart. Le meilleur échange Bitcoin et Crypto d'Europe.
- Platoblockchain. Intelligence métaverse Web3. Connaissance amplifiée. ACCÈS LIBRE.
- CryptoHawk. Radar Altcoins. Essai gratuit.
- Source : https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- À propos
- Compte
- à travers
- Amazon
- parmi
- analytique
- api
- architecture
- disponibles
- AWS
- fond
- intégré
- la performance des entreprises
- Selectionnez
- classification
- le cloud
- code
- collection
- Colonne
- Commun
- contient
- engendrent
- La création
- Customiser
- Clients
- données
- démontrer
- démontré
- dépend
- déployer
- conception
- Développement
- numérique
- domaines
- efficace
- efficacement
- permettant
- ingénieur
- Entreprise
- exemple
- Découvrez
- les
- famille
- la traduction de documents financiers
- services financiers
- flux
- se concentre
- Abonnement
- Test d'anglais
- fonction
- Comment
- How To
- HTTPS
- image
- d'information
- contribution
- IT
- Joint
- l'étiquetage
- langue
- gros
- APPRENTISSAGE
- apprentissage
- emplacement
- click
- machine learning
- manager
- Match
- ML
- PLUS
- (en fait, presque toutes)
- Musique
- Nature
- New York
- Opérations
- Préparer
- Aperçu
- processus
- traitement
- fournir
- Rapide
- vite.
- conditions
- Exigences
- retourner
- Retours
- Avis
- évolutive
- secteur
- Série
- Services
- étapes
- Logiciels
- développement de logiciels
- Software Engineer
- sur mesure
- Solutions
- espaces
- storage
- Boutique
- Les soutiens
- Système
- Technique
- Avec
- fiable
- jeton
- Tokens
- Transformer
- Voyage
- comprendre
- unique
- utilisé
- Plus-value
- variété
- sans
- des mots
- vos contrats
- écriture