Utilice muestras de Github con Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Amazon SageHacer r Administrador de datos es una herramienta de preparación de datos basada en la interfaz de usuario que ayuda a realizar análisis, preprocesamiento y visualización de datos con funciones para limpiar, transformar y preparar datos más rápido. Las plantillas de flujo preconstruidas de Data Wrangler ayudan a que la preparación de datos sea más rápida para los científicos de datos y los profesionales del aprendizaje automático (ML) al ayudarlo a acelerar y comprender los patrones de mejores prácticas para los flujos de datos utilizando conjuntos de datos comunes.

Puede utilizar los flujos de Data Wrangler para realizar las siguientes tareas:

Visualización de datos - Examinar las propiedades estadísticas de cada columna del conjunto de datos, construir histogramas, estudiar valores atípicos
Limpieza de datos - Eliminar duplicados, eliminar o completar entradas con valores faltantes, eliminar valores atípicos
Enriquecimiento de datos e ingeniería de funciones - Procesamiento de columnas para crear características más expresivas, seleccionando un subconjunto de características para el entrenamiento.

Esta publicación lo ayudará a comprender Data Wrangler utilizando los siguientes flujos prediseñados de muestra en GitHub. El repositorio muestra la transformación de datos tabulares, las transformaciones de datos de series temporales y las transformaciones de conjuntos de datos unidos. Cada uno requiere un tipo diferente de transformaciones debido a su naturaleza básica. Los datos tabulares o transversales estándar se recopilan en un momento específico. Por el contrario, los datos de series temporales se capturan repetidamente a lo largo del tiempo, y cada punto de datos sucesivo depende de sus valores anteriores.

Veamos un ejemplo de cómo podemos usar el flujo de datos de muestra para datos tabulares.

Requisitos previos

Data Wrangler es un Amazon SageMaker característica disponible dentro Estudio Amazon SageMaker, por lo que debemos seguir el proceso de incorporación de Studio para activar el entorno y los cuadernos de Studio. Aunque puede elegir entre varios métodos de autenticación, la forma más sencilla de crear un dominio de Studio es seguir las Inicio rápido instrucciones. El inicio rápido utiliza la misma configuración predeterminada que el configuración de estudio estándar. También puede optar por incorporarse utilizando Centro de identidad de AWS IAM (sucesor de AWS Single Sign-On) para la autenticación (consulte Incorporación al dominio de Amazon SageMaker mediante el centro de identidad de IAM).

Importe el conjunto de datos y los archivos de flujo a Data Wrangler usando Studio

Los siguientes pasos describen cómo importar datos en SageMaker para que los consuma Data Wrangler:

Inicialice Data Wrangler a través de la interfaz de usuario de Studio eligiendo Nuevo flujo de datos.

Clona el Repositorio GitHub para descargar los archivos de flujo en su entorno Studio.