Explore las capacidades de Amazon SageMaker Data Wrangler con conjuntos de datos de muestra

Reeditado por Platón

seguidores: 0

La preparación de datos es el proceso de recopilación, limpieza y transformación de datos sin procesar para que sean adecuados para la extracción de información a través del aprendizaje automático (ML) y el análisis. La preparación de datos es crucial para las canalizaciones de ML y análisis. Su modelo y sus conocimientos solo serán tan confiables como los datos que use para entrenarlos. Los datos defectuosos producirán resultados deficientes independientemente de la sofisticación de sus algoritmos y herramientas analíticas.

Wrangler de datos de Amazon SageMaker es un servicio para ayudar a los científicos e ingenieros de datos a simplificar y acelerar la preparación de datos tabulares y de series temporales y la ingeniería de características a través de una interfaz visual. Puede importar datos de varias fuentes de datos, como Servicio de almacenamiento simple de Amazon (Amazon S3), Atenea amazónica, Desplazamiento al rojo de Amazon, Copo de nievey ladrillos de datosy procese sus datos con más de 300 transformaciones de datos integradas y una biblioteca de fragmentos de código, para que pueda normalizar, transformar y combinar funciones rápidamente sin escribir ningún código. También puede traer sus transformaciones personalizadas en PySpark, SQL o Pandas.

Anteriormente, los clientes que querían explorar Data Wrangler necesitaban traer sus propios conjuntos de datos; hemos cambiado eso. A partir de hoy, puede comenzar a experimentar con las funciones de Data Wrangler aún más rápido utilizando un conjunto de datos de muestra y siguiendo las acciones sugeridas para navegar fácilmente por el producto por primera vez. En esta publicación, lo guiamos a través de este proceso.

Resumen de la solución

Data Wrangler ofrece una versión precargada del conocido conjunto de datos Titanic, que se usa ampliamente para enseñar y experimentar con ML. Las acciones sugeridas de Data Wrangler ayudan a los clientes primerizos a descubrir funciones como el Informe de información y calidad de datos de Data Wrangler, una función que verifica la calidad de los datos y ayuda a detectar anomalías en sus datos.

En esta publicación, creamos un flujo de muestra con el conjunto de datos Titanic de muestra precargado para mostrar cómo puede comenzar a experimentar con las funciones de Data Wrangler más rápido. Luego usamos el conjunto de datos del Titanic procesado para crear un modelo de clasificación que nos diga si un pasajero sobrevivirá o no, usando la funcionalidad de entrenamiento, que le permite lanzar un Piloto automático Amazon SageMaker experimente dentro de cualquiera de los pasos en un flujo de Data Wrangler. En el camino, podemos explorar las funciones de Data Wrangler a través de las sugerencias de productos que aparecen en Data Wrangler. Estas sugerencias pueden ayudarlo a acelerar su curva de aprendizaje con Data Wrangler recomendando acciones y próximos pasos.

Requisitos previos

Para obtener todas las funciones descritas en esta publicación, debe ejecutar la última versión del kernel de Data Wrangler. Para cualquier nuevo flujo creado, el kernel siempre será el más reciente; sin embargo, para los flujos existentes, es necesario actualizar la aplicación Data Wrangler de antemano.

Importar el conjunto de datos del Titanic

El conjunto de datos del Titanic es un conjunto de datos públicos ampliamente utilizado para enseñar y experimentar con ML. Puede usarlo para crear un modelo ML que prediga qué pasajeros sobrevivirán al naufragio del Titanic. Data Wrangler ahora incorpora este conjunto de datos como un conjunto de datos de muestra que puede usar para comenzar a usar Data Wrangler más rápidamente. En esta publicación, realizamos algunas transformaciones de datos utilizando este conjunto de datos.

Vamos a crear un nuevo flujo de Data Wrangler y llamarlo Titanic. Data Wrangler le muestra dos opciones: puede importar su propio conjunto de datos o puede usar el conjunto de datos de muestra (el conjunto de datos Titanic).

Se le presenta una barra de carga que indica el progreso del conjunto de datos que se está importando a Data Wrangler. Haga clic en el carrusel para obtener más información sobre cómo Data Wrangler lo ayuda a importar, preparar y procesar conjuntos de datos para ML. Espere hasta que la barra esté completamente cargada; esto indica que su conjunto de datos está importado y listo para usar.

El conjunto de datos Titanic ahora está cargado en nuestro flujo. Para obtener una descripción del conjunto de datos, consulte Titanic: aprendizaje automático a partir de un desastre.

Explore las características de Data Wrangler

Como usuario de Data Wrangler por primera vez, ahora verá acciones sugeridas para ayudarlo a navegar por el producto y descubrir características interesantes. Sigamos los consejos sugeridos.

Elija el signo más para obtener una lista de opciones para modificar el conjunto de datos.
Elige Obtener información de datos.

Esto abre el ECONOMÉTRICOS pestaña en los datos, en la que puede crear un Informe de calidad e información de datos. Cuando crea este informe, Data Wrangler le ofrece la opción de seleccionar una columna de destino. Una columna de destino es una columna que intenta predecir. Cuando elige una columna de destino, Data Wrangler crea automáticamente un análisis de columna de destino. También clasifica las características en el orden de su poder predictivo. Cuando selecciona una columna de destino, debe especificar si está tratando de resolver un problema de regresión o de clasificación.
Elija la columna sobrevivida como la columna de destino porque ese es el valor que queremos predecir.
Tipo de problemaSeleccione Clasificación¸ porque queremos saber si un pasajero pertenece a las clases sobreviviente o no sobreviviente.
Elige Crear.
Esto crea un análisis en su conjunto de datos que contiene puntos relevantes como un resumen del conjunto de datos, filas duplicadas, muestras anómalas, detalles de características y más. Para obtener más información sobre el Informe de información y calidad de los datos, consulte Acelere la preparación de datos con información y calidad de datos en Amazon SageMaker Data Wrangler y Obtenga información sobre los datos y la calidad de los datos.
Echemos un vistazo rápido al conjunto de datos en sí.
Elija el Datos pestaña para visualizar los datos en forma de tabla.Ahora generemos algunas visualizaciones de datos de ejemplo.
Elija el ECONOMÉTRICOS pestaña para comenzar a visualizar sus datos. Puede generar tres histogramas: los dos primeros visualizan la cantidad de personas que sobrevivieron en función de las columnas de sexo y clase, como se muestra en las siguientes capturas de pantalla.El tercero visualiza las edades de las personas que abordaron el Titanic.Realicemos algunas transformaciones en los datos,
Primero, suelte las columnas boleto, cabina y nombre.
A continuación, realice una codificación one-hot en las columnas categóricas embarcado y sexo, y home.dest.
Finalmente, complete los valores faltantes para las columnas barco y cuerpo con un valor 0.
Su conjunto de datos ahora se parece a la siguiente captura de pantalla.
Ahora divida el conjunto de datos en tres conjuntos: un conjunto de entrenamiento con el 70 % de los datos, un conjunto de validación con el 20 % de los datos y un conjunto de prueba con el 10 % de los datos.Las divisiones realizadas aquí usan el enfoque de división estratificada utilizando la variable sobrevivida y son solo por el bien de la demostración.Ahora vamos a configurar el destino de nuestros datos.
Elija el signo más en cada Conjunto de datos nodo, elija Añadir destino, y elige S3 para agregar un destino de Amazon S3 para los conjuntos de datos transformados.
En Agregar un destino panel, puede configurar los detalles de Amazon S3 para almacenar sus conjuntos de datos procesados.Nuestro flujo Titanic ahora debería verse como la siguiente captura de pantalla.Ahora puede transformar todos los datos mediante trabajos de procesamiento de SageMaker.
Elige Crear trabajo.
Mantenga los valores predeterminados y elija Siguiente.
Elige Ejecutar.Ahora se crea un nuevo trabajo de procesamiento de SageMaker. Puede ver los detalles del trabajo y realizar un seguimiento de su progreso en la consola de SageMaker en Procesando trabajos.Cuando se completa el trabajo de procesamiento, puede navegar a cualquiera de las ubicaciones de S3 especificadas para almacenar los conjuntos de datos y consultar los datos solo para confirmar que el procesamiento se realizó correctamente. Ahora puede usar estos datos para alimentar sus proyectos de ML.

Inicie un experimento de Autopilot para crear un clasificador

Ya puedes lanzar Experimentos de piloto automático directamente desde Data Wrangler y use los datos en cualquiera de los pasos del flujo para entrenar automáticamente un modelo en los datos.

Elija el Conjunto de datos nodo llamado Titanic_dataset (tren) y navegue hasta el Entrenar .
Antes de la capacitación, primero debe exportar sus datos a Amazon S3.
Siga las instrucciones para exportar sus datos a una ubicación S3 de su elección.
Puede especificar exportar los datos en formato CSV o Parquet para una mayor eficiencia. Además, puede especificar un Servicio de administración de claves de AWS (AWS KMS) clave para cifrar sus datos.
En la página siguiente, configura su experimento de Autopilot.
A menos que sus datos estén divididos en varias partes, deje el valor predeterminado en Conecta tus datos.
Para esta demostración, deje los valores predeterminados para Nombre del experimento y Ubicación de los datos de salida.
under Configuración avanzada, expandir Tipo de problema de aprendizaje automático.
Elige Clasificación binaria como el tipo de problema y Exactitud como la métrica objetiva. Usted especifica estos dos valores manualmente aunque Autopilot es capaz de deducirlos de los datos.
Deje el resto de campos con los valores por defecto y elija Crear experimento.Espere un par de minutos hasta que se complete el experimento de Autopilot, y verá una tabla de clasificación como la siguiente con cada uno de los modelos obtenidos por Autopilot.

Ahora puede optar por implementar cualquiera de los modelos en la tabla de clasificación para la inferencia.

Limpiar

Cuando no esté utilizando Data Wrangler, es importante cerrar la instancia en la que se ejecuta para evitar incurrir en cargos adicionales.

Para evitar perder trabajo, guarde su flujo de datos antes de apagar Data Wrangler.

Para guardar su flujo de datos en Estudio Amazon SageMaker, escoger Archive, A continuación, elija Guardar flujo de datos Wrangler.
Data Wrangler guarda automáticamente su flujo de datos cada 60 segundos.
Para cerrar la instancia de Data Wrangler, en Studio, elija Ejecución de instancias y kernels.
under APLICACIONES EN EJECUCIÓN, elija el icono de apagado junto a la aplicación sagemaker-data-wrangler-1.0.
Elige Apagar todo para confirmar.Data Wrangler se ejecuta en una instancia ml.m5.4xlarge. Esta instancia desaparece de INSTANCIAS EN EJECUCIÓN cuando cierra la aplicación Data Wrangler.

Después de cerrar la aplicación Data Wrangler, debe reiniciarse la próxima vez que abra un archivo de flujo de Data Wrangler. Esto puede tardar unos minutos.

Conclusión

En esta publicación, demostramos cómo puede usar el nuevo conjunto de datos de muestra en Data Wrangler para explorar las características de Data Wrangler sin necesidad de traer sus propios datos. También presentamos dos características adicionales: la página de carga que le permite realizar un seguimiento visual del progreso de los datos que se importan a Data Wrangler y sugerencias de productos que brindan consejos útiles para comenzar con Data Wrangler. Fuimos más allá para mostrar cómo puede crear trabajos de procesamiento de SageMaker e iniciar experimentos de Autopilot directamente desde la interfaz de usuario de Data Wrangler.

Para obtener más información sobre el uso de flujos de datos con Data Wrangler, consulte Crear y usar un flujo de Wrangler de datos y Precios de Amazon SageMaker. Para comenzar con Data Wrangler, consulte Prepare datos de AA con Amazon SageMaker Data Wrangler. Para obtener más información sobre Autopilot y AutoML en SageMaker, visite Automatice el desarrollo de modelos con Amazon SageMaker Autopilot.

Sobre los autores

david laredo es Arquitecto de Prototipos en AWS Envision Engineering en LATAM, donde ha ayudado a desarrollar múltiples prototipos de aprendizaje automático. Anteriormente, trabajó como ingeniero de aprendizaje automático y ha estado haciendo aprendizaje automático durante más de 5 años. Sus áreas de interés son PNL, series temporales y ML de extremo a extremo.

Parto Patel es arquitecto de soluciones en AWS en el área de la bahía de San Francisco. Parth guía a los clientes para que aceleren su viaje a la nube y los ayuda a adoptar la nube de AWS con éxito. Se enfoca en ML y modernización de aplicaciones.

Sello de tiempo: 29 de agosto de 202230 de agosto de 2022

Sello de tiempo: Apr 3, 2024

Explore las capacidades de Amazon SageMaker Data Wrangler con conjuntos de datos de muestra

Reeditado por Platón

Resumen de la solución

Requisitos previos

Importar el conjunto de datos del Titanic

Explore las características de Data Wrangler

Inicie un experimento de Autopilot para crear un clasificador

Limpiar

Conclusión

Sobre los autores

Mas de Aprendizaje automático de AWS

Procesamiento inteligente de documentos con servicios de IA de AWS en la industria de seguros: Parte 1

Experimentos de Amazon SageMaker de próxima generación: organice, rastree y compare sus capacitaciones de aprendizaje automático a escala

Cómo Amp en Amazon usó datos para aumentar la participación del cliente, Parte 1: Creación de una plataforma de análisis de datos

Entrenamiento incremental con Amazon SageMaker JumpStart

Busque de forma inteligente sus proyectos de Jira con el conector en la nube de Amazon Kendra Jira

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta