Les fonctions Pandas définies par l'utilisateur sont désormais disponibles dans Amazon SageMaker Data Wrangler

Republié par Platon

Suiveurs: 0

Gestionnaire de données Amazon SageMaker réduit le temps d'agrégation et de préparation des données pour l'apprentissage automatique (ML) de quelques semaines à quelques minutes. Avec Data Wrangler, vous pouvez sélectionner et interroger des données en quelques clics, transformer rapidement des données avec plus de 300 transformations de données intégrées et comprendre vos données avec des visualisations intégrées sans écrire de code.

De plus, vous pouvez créer transformations personnalisées unique à vos besoins. Les transformations personnalisées vous permettent d'écrire des transformations personnalisées à l'aide de PySpark, Pandas ou SQL.

Data Wrangler prend désormais en charge un Fonction Pandas définie par l'utilisateur (UDF) qui peut traiter efficacement de grands ensembles de données. Vous pouvez choisir parmi deux modes UDF Pandas personnalisés : Pandas et Python. Les deux modes offrent une solution efficace pour traiter les ensembles de données, et le mode que vous choisissez dépend de vos préférences.

Dans cet article, nous montrons comment utiliser la nouvelle transformation Pandas UDF dans l'un ou l'autre mode.

Vue d'ensemble de la solution

Au moment d'écrire ces lignes, vous pouvez importer des ensembles de données dans Data Wrangler à partir de Service de stockage simple Amazon (Amazon S3), Amazone Athéna, Redshift d'Amazon, Databricks et Snowflake. Pour cet article, nous utilisons Amazon S3 pour stocker le 2014 Amazon examine l'ensemble de données.

Les données ont une colonne appelée reviewText contenant du texte généré par l'utilisateur. Le texte contient également plusieurs arrêter les mots, qui sont des mots courants qui ne fournissent pas beaucoup d'informations, tels que "un", "un" et "le". La suppression des mots vides est une étape de prétraitement courante dans les pipelines de traitement du langage naturel (NLP). Nous pouvons créer une fonction personnalisée pour supprimer les mots vides des avis.

Créer une transformation UDF Pandas personnalisée

Passons en revue le processus de création de deux transformations UDF Pandas personnalisées Data Wrangler à l'aide des modes Pandas et Python.

Télécharger Ensemble de données sur les avis sur la musique numérique et chargez-le sur Amazon S3.
Ouvert Amazon SageMakerStudio et créer un nouveau flux Data Wrangler.
Sous Importer des dates, choisissez Amazon S3 et accédez à l'emplacement du jeu de données.
Pour Type de fichier, choisissez jsonl.

Un aperçu des données doit être affiché dans le tableau.

Selectionnez L’ procéder.
Une fois vos données importées, choisissez le signe plus à côté de Types de données et choisissez Ajouter une transformation.
Selectionnez Transformation personnalisée.
Dans le menu déroulant, Python (fonction définie par l'utilisateur).

Nous créons maintenant notre transformation personnalisée pour supprimer les mots vides.

Spécifiez votre colonne d'entrée, votre colonne de sortie, le type de retour et le mode.

L'exemple suivant utilise le mode Pandas. Cela signifie que la fonction doit accepter et renvoyer une série Pandas de même longueur. Vous pouvez considérer une série Pandas comme une colonne dans un tableau ou une partie de la colonne. Il s'agit du mode UDF Pandas le plus performant car Pandas peut vectoriser les opérations sur des lots de valeurs plutôt qu'une à la fois. Le pd.Series des indications de type sont requises en mode Pandas.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Si vous préférez utiliser Python pur plutôt que l'API Pandas, le mode Python vous permet de spécifier une fonction Python pure qui accepte un seul argument et renvoie une seule valeur. L'exemple suivant est équivalent au code Pandas précédent en termes de sortie. Les indications de type ne sont pas requises en mode Python.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Selectionnez Ajouter pour ajouter votre transformation personnalisée.

Conclusion

Data Wrangler a plus de 300 transformations intégrées, et vous pouvez également ajouter des transformations personnalisées uniques à vos besoins. Dans cet article, nous avons montré comment traiter des ensembles de données avec la nouvelle transformation UDF Pandas personnalisée de Data Wrangler, en utilisant à la fois les modes Pandas et Python. Vous pouvez utiliser l'un ou l'autre mode en fonction de vos préférences. Pour en savoir plus sur Data Wrangler, consultez Créer et utiliser un flux Data Wrangler.

À propos des auteurs

ben harris est un ingénieur logiciel avec une expérience dans la conception, le déploiement et la maintenance de pipelines de données évolutifs et de solutions d'apprentissage automatique dans divers domaines. Ben a construit des systèmes pour la collecte et l'étiquetage de données, la classification d'images et de textes, la modélisation séquence à séquence, l'intégration et le regroupement, entre autres.

Haider Naqvi est architecte de solutions chez AWS. Il possède une vaste expérience en développement de logiciels et en architecture d'entreprise. Il s'attache à permettre aux clients d'obtenir des résultats commerciaux avec AWS. Il est basé à New York.

Vishal Srivastava est responsable de compte technique chez AWS. Avec une formation en développement de logiciels et en analyse, il travaille principalement avec le secteur des services financiers et les clients commerciaux natifs numériques et prend en charge leur parcours vers le cloud. Pendant son temps libre, il aime voyager avec sa famille.

Horodatage: 28 avril 2022

Plus de Apprentissage automatique AWS

Générez des prévisions de démarrage à froid pour les produits sans données historiques à l'aide d'Amazon Forecast, désormais jusqu'à 45 % plus précises

Cluster source:

Apprentissage automatique AWS

Nœud source: 1761594

Horodatage: Le 21 novembre 2022

Localisez le contenu dans plusieurs langues à l'aide des services d'apprentissage automatique AWS

Apprentissage automatique AWS

Nœud source: 1279228

Horodatage: 25 avril 2022

Les fonctions Pandas définies par l'utilisateur sont désormais disponibles dans Amazon SageMaker Data Wrangler

Republié par Platon

Vue d'ensemble de la solution

Créer une transformation UDF Pandas personnalisée

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Générez des prévisions de démarrage à froid pour les produits sans données historiques à l'aide d'Amazon Forecast, désormais jusqu'à 45 % plus précises

Localisez le contenu dans plusieurs langues à l'aide des services d'apprentissage automatique AWS

Résumé du lancement d'Amazon Textract 2022H2

Chronomics détecte les résultats des tests COVID-19 avec les étiquettes personnalisées Amazon Rekognition

Optimisation des coûts pour Amazon SageMaker Canvas avec l'arrêt automatique des applications inactives | Services Web Amazon

Évaluer les grands modèles de langage pour en vérifier la qualité et la responsabilité | Services Web Amazon

Préparation des données, formation des modèles et déploiement unifiés avec Amazon SageMaker Data Wrangler et Amazon SageMaker Autopilot – Partie 2

Démystifier l'apprentissage automatique à la périphérie grâce à des cas d'utilisation réels

Construire un prédicteur de toxicité textuel robuste

Modèles de transformateur Host Hugging Face à l'aide de l'inférence sans serveur Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte