Wrangler de datos de Amazon SageMaker reduce el tiempo para agregar y preparar datos para el aprendizaje automático (ML) de semanas a minutos. Con Data Wrangler, puede seleccionar y consultar datos con solo unos pocos clics, transformar rápidamente datos con más de 300 transformaciones de datos integradas y comprender sus datos con visualizaciones integradas sin escribir ningún código.
Además, puede crear transformaciones personalizadas único a sus requerimientos. Las transformaciones personalizadas le permiten escribir transformaciones personalizadas utilizando PySpark, Pandas o SQL.
Data Wrangler ahora admite una configuración personalizada Función definida por el usuario de Pandas (UDF) que puede procesar grandes conjuntos de datos de manera eficiente. Puede elegir entre dos modos personalizados de UDF de Pandas: Pandas y Python. Ambos modos brindan una solución eficiente para procesar conjuntos de datos, y el modo que elija depende de su preferencia.
En esta publicación, demostramos cómo usar la nueva transformación UDF de Pandas en cualquier modo.
Resumen de la solución
En el momento de escribir este artículo, puede importar conjuntos de datos a Data Wrangler desde Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazon, Databricks y Snowflake. Para esta publicación, usamos Amazon S3 para almacenar el 2014 Amazon revisa el conjunto de datos.
Los datos tienen una columna llamada reviewText
que contiene texto generado por el usuario. El texto también contiene varios Para las palabras, que son palabras comunes que no brindan mucha información, como "a", "an" y "the". La eliminación de palabras vacías es un paso de preprocesamiento común en las canalizaciones de procesamiento de lenguaje natural (NLP). Podemos crear una función personalizada para eliminar las palabras vacías de las reseñas.
Cree una transformación UDF de Pandas personalizada
Veamos el proceso de creación de dos transformaciones UDF Pandas personalizadas de Data Wrangler mediante los modos Pandas y Python.
- Descargue nuestra Conjunto de datos de reseñas de música digital y cárguelo en Amazon S3.
- Abierto Estudio Amazon SageMaker y cree un nuevo flujo de Data Wrangler.
- under Importar fechas, escoger Amazon S3 y navegue hasta la ubicación del conjunto de datos.
- Tipo de Archivo, escoger jsonl.
Se debe mostrar una vista previa de los datos en la tabla.
- Elige Importa para proceder.
- Después de importar sus datos, elija el signo más junto a Tipos de datos y elige Agregar transformación.
- Elige Transformación personalizada.
- En el menú desplegable, Python (función definida por el usuario).
Ahora creamos nuestra transformación personalizada para eliminar palabras vacías.
- Especifique su columna de entrada, columna de salida, tipo de devolución y modo.
El siguiente ejemplo usa el modo Pandas. Esto significa que la función debería aceptar y devolver una serie Pandas de la misma longitud. Puede pensar en una serie de Pandas como una columna en una tabla o una parte de la columna. Este es el modo UDF de Pandas de mayor rendimiento porque Pandas puede vectorizar operaciones en lotes de valores en lugar de uno a la vez. Él pd.Series
Se requieren sugerencias de tipo en el modo Pandas.
Si prefiere usar Python puro en lugar de la API de Pandas, el modo Python le permite especificar una función de Python puro que acepta un solo argumento y devuelve un solo valor. El siguiente ejemplo es equivalente al código anterior de Pandas en términos de salida. Las sugerencias de tipo no son necesarias en el modo Python.
- Elige Añada para agregar su transformación personalizada.
Conclusión
Data Wrangler tiene más de 300 transformaciones integradas y también puede agregar transformaciones personalizadas exclusivas para sus requisitos. En esta publicación, demostramos cómo procesar conjuntos de datos con la nueva transformación UDF Pandas personalizada de Data Wrangler, utilizando los modos Pandas y Python. Puede utilizar cualquiera de los dos modos según sus preferencias. Para obtener más información sobre Data Wrangler, consulte Crear y usar un flujo de Wrangler de datos.
Acerca de los autores
Ben Harris es un ingeniero de software con experiencia en el diseño, la implementación y el mantenimiento de canalizaciones de datos escalables y soluciones de aprendizaje automático en una variedad de dominios. Ben ha creado sistemas para la recopilación y el etiquetado de datos, la clasificación de imágenes y textos, el modelado de secuencia a secuencia, la incrustación y la agrupación, entre otros.
haider naqvi es arquitecto de soluciones en AWS. Tiene una amplia experiencia en desarrollo de software y arquitectura empresarial. Se enfoca en permitir que los clientes logren resultados comerciales con AWS. Tiene su sede en Nueva York.
Vishal Srivastava es administrador técnico de cuentas en AWS. Con experiencia en desarrollo de software y análisis, trabaja principalmente con el sector de servicios financieros y clientes comerciales nativos digitales y apoya su viaje a la nube. En su tiempo libre le encanta viajar con su familia.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-disponible-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Sobre
- Mi Cuenta
- a través de
- Amazon
- entre
- Analytics
- abejas
- arquitectura
- Hoy Disponibles
- AWS
- fondo
- incorporado
- Elige
- clasificación
- Soluciones
- código
- --
- Columna
- Algunos
- contiene
- Para crear
- Creamos
- personalizado
- Clientes
- datos
- demostrar
- demostrado
- depende
- Desplegando
- diseño
- Desarrollo
- digital
- dominios
- eficiente
- eficiente.
- permitiendo
- ingeniero
- Empresa
- ejemplo
- experience
- en los detalles
- familia
- financiero
- servicios financieros
- de tus señales
- se centra
- siguiendo
- Gratuito
- función
- Cómo
- Como Hacer
- HTTPS
- imagen
- información
- Las opciones de entrada
- IT
- Une
- etiquetado
- idioma
- large
- APRENDE:
- aprendizaje
- Ubicación
- máquina
- máquina de aprendizaje
- gerente
- Match
- ML
- más,
- MEJOR DE TU
- Música
- Natural
- New York
- Operaciones
- Preparar
- Vista previa
- tratamiento
- proporcionar
- Búsqueda
- con rapidez
- Requisitos
- Requisitos
- volvemos
- devoluciones
- Reseñas
- escalable
- sector
- Serie
- Servicios
- sencillos
- Software
- Desarrollo de software ad-hoc
- Ingeniero de Software
- a medida
- Soluciones
- espacios
- STORAGE
- tienda
- soportes
- Todas las funciones a su disposición
- Técnico
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- ficha
- Tokens
- Transformar
- viajes
- entender
- único
- utilizan el
- propuesta de
- variedad
- sin
- palabras
- funciona
- la escritura