Las funciones definidas por el usuario de Pandas ahora están disponibles en Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Wrangler de datos de Amazon SageMaker reduce el tiempo para agregar y preparar datos para el aprendizaje automático (ML) de semanas a minutos. Con Data Wrangler, puede seleccionar y consultar datos con solo unos pocos clics, transformar rápidamente datos con más de 300 transformaciones de datos integradas y comprender sus datos con visualizaciones integradas sin escribir ningún código.

Además, puede crear transformaciones personalizadas único a sus requerimientos. Las transformaciones personalizadas le permiten escribir transformaciones personalizadas utilizando PySpark, Pandas o SQL.

Data Wrangler ahora admite una configuración personalizada Función definida por el usuario de Pandas (UDF) que puede procesar grandes conjuntos de datos de manera eficiente. Puede elegir entre dos modos personalizados de UDF de Pandas: Pandas y Python. Ambos modos brindan una solución eficiente para procesar conjuntos de datos, y el modo que elija depende de su preferencia.

En esta publicación, demostramos cómo usar la nueva transformación UDF de Pandas en cualquier modo.

Resumen de la solución

En el momento de escribir este artículo, puede importar conjuntos de datos a Data Wrangler desde Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazon, Databricks y Snowflake. Para esta publicación, usamos Amazon S3 para almacenar el 2014 Amazon revisa el conjunto de datos.

Los datos tienen una columna llamada reviewText que contiene texto generado por el usuario. El texto también contiene varios Para las palabras, que son palabras comunes que no brindan mucha información, como "a", "an" y "the". La eliminación de palabras vacías es un paso de preprocesamiento común en las canalizaciones de procesamiento de lenguaje natural (NLP). Podemos crear una función personalizada para eliminar las palabras vacías de las reseñas.

Cree una transformación UDF de Pandas personalizada

Veamos el proceso de creación de dos transformaciones UDF Pandas personalizadas de Data Wrangler mediante los modos Pandas y Python.

Descargue nuestra Conjunto de datos de reseñas de música digital y cárguelo en Amazon S3.
Abierto Estudio Amazon SageMaker y cree un nuevo flujo de Data Wrangler.
under Importar fechas, escoger Amazon S3 y navegue hasta la ubicación del conjunto de datos.
Tipo de Archivo, escoger jsonl.

Se debe mostrar una vista previa de los datos en la tabla.

Elige Importa para proceder.
Después de importar sus datos, elija el signo más junto a Tipos de datos y elige Agregar transformación.
Elige Transformación personalizada.
En el menú desplegable, Python (función definida por el usuario).

Ahora creamos nuestra transformación personalizada para eliminar palabras vacías.

Especifique su columna de entrada, columna de salida, tipo de devolución y modo.

El siguiente ejemplo usa el modo Pandas. Esto significa que la función debería aceptar y devolver una serie Pandas de la misma longitud. Puede pensar en una serie de Pandas como una columna en una tabla o una parte de la columna. Este es el modo UDF de Pandas de mayor rendimiento porque Pandas puede vectorizar operaciones en lotes de valores en lugar de uno a la vez. Él pd.Series Se requieren sugerencias de tipo en el modo Pandas.

import pandas as pd
from sklearn.feature_extraction import text # Input: the quick brown fox jumped over the lazy dog
# Output: quick brown fox jumped lazy dog
def remove_stopwords(series: pd.Series) -> pd.Series: """Removes stop words from the given string.""" # Replace nulls with empty strings and lowercase to match stop words case series = series.fillna("").str.lower() tokens = series.str.split() # Remove stop words from each entry of series tokens = tokens.apply(lambda t: [token for token in t if token not in text.ENGLISH_STOP_WORDS]) # Joins the filtered tokens by spaces return tokens.str.join(" ")

Si prefiere usar Python puro en lugar de la API de Pandas, el modo Python le permite especificar una función de Python puro que acepta un solo argumento y devuelve un solo valor. El siguiente ejemplo es equivalente al código anterior de Pandas en términos de salida. Las sugerencias de tipo no son necesarias en el modo Python.

from sklearn.feature_extraction import text def remove_stopwords(value: str) -> str: if not value: return "" tokens = value.lower().split() tokens = [token for token in tokens if token not in text.ENGLISH_STOP_WORDS] return " ".join(tokens)

Elige Añada para agregar su transformación personalizada.

Conclusión

Data Wrangler tiene más de 300 transformaciones integradas y también puede agregar transformaciones personalizadas exclusivas para sus requisitos. En esta publicación, demostramos cómo procesar conjuntos de datos con la nueva transformación UDF Pandas personalizada de Data Wrangler, utilizando los modos Pandas y Python. Puede utilizar cualquiera de los dos modos según sus preferencias. Para obtener más información sobre Data Wrangler, consulte Crear y usar un flujo de Wrangler de datos.

Acerca de los autores

Ben Harris es un ingeniero de software con experiencia en el diseño, la implementación y el mantenimiento de canalizaciones de datos escalables y soluciones de aprendizaje automático en una variedad de dominios. Ben ha creado sistemas para la recopilación y el etiquetado de datos, la clasificación de imágenes y textos, el modelado de secuencia a secuencia, la incrustación y la agrupación, entre otros.

haider naqvi es arquitecto de soluciones en AWS. Tiene una amplia experiencia en desarrollo de software y arquitectura empresarial. Se enfoca en permitir que los clientes logren resultados comerciales con AWS. Tiene su sede en Nueva York.

Vishal Srivastava es administrador técnico de cuentas en AWS. Con experiencia en desarrollo de software y análisis, trabaja principalmente con el sector de servicios financieros y clientes comerciales nativos digitales y apoya su viaje a la nube. En su tiempo libre le encanta viajar con su familia.

Sello de tiempo: Abril 28, 2022

Mas de Aprendizaje automático de AWS

Genere pronósticos de arranque en frío para productos sin datos históricos utilizando Amazon Forecast, ahora hasta un 45% más preciso PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Genere pronósticos de arranque en frío para productos sin datos históricos con Amazon Forecast, ahora hasta un 45 % más precisos

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1761594

Sello de tiempo: Nov 21, 2022

Localice el contenido en varios idiomas con los servicios de aprendizaje automático de AWS PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Localice el contenido en varios idiomas mediante los servicios de aprendizaje automático de AWS

Aprendizaje automático de AWS

Nodo de origen: 1279228

Sello de tiempo: Apr 25, 2022

Las funciones definidas por el usuario de Pandas ahora están disponibles en Amazon SageMaker Data Wrangler

Reeditado por Platón

Resumen de la solución

Cree una transformación UDF de Pandas personalizada

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Genere pronósticos de arranque en frío para productos sin datos históricos con Amazon Forecast, ahora hasta un 45 % más precisos

Localice el contenido en varios idiomas mediante los servicios de aprendizaje automático de AWS

Resumen del lanzamiento de Amazon Textract 2022H2

Chronomics detecta los resultados de las pruebas de COVID-19 con las etiquetas personalizadas de Amazon Rekognition

Optimización de costos para Amazon SageMaker Canvas con apagado automático de aplicaciones inactivas | Servicios web de Amazon

Evaluar grandes modelos lingüísticos en cuanto a calidad y responsabilidad | Servicios web de Amazon

Preparación de datos, entrenamiento de modelos e implementación unificados con Amazon SageMaker Data Wrangler y Amazon SageMaker Autopilot: parte 2

Desmitificando el aprendizaje automático en el borde a través de casos de uso reales

Cree un predictor de toxicidad sólido basado en texto

Aloje modelos de transformador Hugging Face con Amazon SageMaker Serverless Inference

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta