Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Presentamos las nuevas visualizaciones integradas de Amazon SageMaker Data Wrangler

La inspección manual de la calidad de los datos y la limpieza de los datos es un proceso doloroso y lento que puede ocupar una gran parte del tiempo de un científico de datos en un proyecto. Según una encuesta de 2020 de científicos de datos realizada por Anaconda, los científicos de datos dedican aproximadamente el 66 % de su tiempo a tareas de preparación y análisis de datos, incluida la carga (19 %), la limpieza (26 %) y la visualización de datos (21 %). Amazon SageMaker ofrece una gama de herramientas de preparación de datos para satisfacer las diferentes necesidades y preferencias de los clientes. Para los usuarios que prefieren una interfaz interactiva basada en GUI, Administrador de datos de SageMaker ofrece más de 300 visualizaciones, análisis y transformaciones integrados para procesar de manera eficiente los datos respaldados por Spark sin escribir una sola línea de código.

La visualización de datos en el aprendizaje automático (ML) es un proceso iterativo y requiere una visualización continua del conjunto de datos para el descubrimiento, la investigación y la validación. Poner los datos en perspectiva implica ver cada una de las columnas para comprender posibles errores de datos, valores faltantes, tipos de datos incorrectos, datos engañosos/incorrectos, datos atípicos y más.

En esta publicación, le mostraremos cómo Wrangler de datos de Amazon SageMaker genera automáticamente visualizaciones clave de la distribución de datos, detecta problemas de calidad de datos y muestra información de datos, como valores atípicos para cada función, sin escribir una sola línea de código. Ayuda a mejorar la experiencia de la cuadrícula de datos con advertencias de calidad automáticas (por ejemplo, valores faltantes o valores no válidos). Las visualizaciones generadas automáticamente también son interactivas. Por ejemplo, puede mostrar una tabulación de los cinco elementos más frecuentes ordenados por porcentaje y pasar el cursor sobre la barra para cambiar entre recuento y porcentaje.

Requisitos previos

Amazon SageMaker Data Wrangler es una función de SageMaker disponible en SageMaker Studio. Puedes seguir el proceso de incorporación de Studio para activar el entorno Studio y los portátiles. Aunque puede elegir entre varios métodos de autenticación, la forma más sencilla de crear un dominio de Studio es seguir las Instrucciones de inicio rápido. El inicio rápido utiliza la misma configuración predeterminada que la configuración estándar de Studio. También puede optar por incorporarse utilizando Centro de identidad de AWS Identity and Access Management (IAM) (sucesor de AWS Single Sign-On) para la autenticación (consulte Incorporación al dominio de Amazon SageMaker mediante el centro de identidad de IAM).

Tutorial de la solución

Comience su Estudio SageMaker Ambiente y crear un nuevo Flujo de administrador de datos. Puede importar su propio conjunto de datos o usar un conjunto de datos de muestra (Titanic) como se ve en la siguiente imagen. Estos dos nodos (el fuente nodo y el datos tipo de nodo) se puede hacer clic: cuando hace doble clic en estos dos nodos, Data Wrangler mostrará la tabla.

En nuestro caso, hagamos clic derecho en el Tipos de datos ícono y Agregar una transformación:

Ahora debería ver visualizaciones en la parte superior de cada columna. Espere un tiempo para que se carguen los gráficos. La latencia depende del tamaño del conjunto de datos (para el conjunto de datos del Titanic, debería demorar entre 1 y 2 segundos en la instancia predeterminada).

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Desplácese hasta la barra superior horizontal pasando el cursor sobre la información sobre herramientas. Ahora que los gráficos se han cargado, puede ver la distribución de datos, los valores no válidos y los valores faltantes. Los valores atípicos y faltantes son características de los datos erróneos y es fundamental identificarlos porque podrían afectar sus resultados. Esto significa que debido a que sus datos provienen de una muestra no representativa, es posible que sus hallazgos no se puedan generalizar a situaciones fuera de su estudio. La clasificación de los valores se puede ver en los gráficos en la parte inferior donde IMPORTANTE los valores se representan en blanco, inválido valores en azul, y que falta valores en violeta. También puedes mirar el outliers representado por los puntos azules a la izquierda o a la derecha de un gráfico.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Todas las visualizaciones vienen en forma de histogramas. Para los datos no categóricos, se define un conjunto de cubos para cada contenedor. Para datos categóricos, cada valor único se trata como un contenedor. En la parte superior del histograma, hay un gráfico de barras que muestra los valores no válidos y los que faltan. Podemos ver la proporción de valores válidos para los tipos numérico, categórico, binario, de texto y de fecha y hora, así como la proporción de valores faltantes en función del total de celdas nulas y vacías y, por último, la proporción de valores no válidos. Veamos algunos ejemplos para entender cómo puede verlos usando Conjunto de datos Titanic de muestra precargado de Data Wrangler.

ejemplo 1 – Podemos mirar el 20% de los valores faltantes para el EDAD función/columna. Es crucial lidiar con los datos que faltan en el campo de la investigación relacionada con datos/ML, ya sea eliminándolos o imputándolos (manejando los valores faltantes con alguna estimación).

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.
Puede procesar los valores faltantes utilizando el Manejar valores faltantes transformar grupo. Utilizar el Falta imputar transforme para generar valores imputados donde se encontraron valores faltantes en la columna de entrada. La configuración depende de su tipo de datos.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

En este ejemplo, el EDAD la columna tiene un tipo de datos numérico. Para la estrategia de imputación, podemos optar por imputar la personalizado o de mediana aproximada sobre los valores que están presentes en su conjunto de datos.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Ahora que hemos agregado la transformación, podemos ver que el EDAD la columna ya no tiene valores faltantes.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

ejemplo 2 – Podemos ver el 27% de valores inválidos para el BOLETO característica/columna que es de la CADENA escribe. Los datos no válidos pueden producir estimaciones sesgadas, lo que puede reducir la precisión de un modelo y generar conclusiones falsas. Exploremos algunas transformaciones que podemos utilizar para manejar los datos no válidos en el BOLETO columna.

Mirando la captura de pantalla, vemos que algunas de las entradas están escritas en un formato que contiene letras antes de números "PC 17318” y otros son solo números como “11769.

Podemos optar por aplicar una transformación para buscar y editar patrones específicos dentro de cadenas como "ORDENADOR PERSONAL" y reemplazarlos. A continuación, podemos emitir nuestro cadena columna a un nuevo tipo como Largo para facilitar su uso.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Esto todavía nos deja con un 19% de valores faltantes en el BOLETO rasgo. Al igual que en el ejemplo 1, ahora podemos imputar los valores faltantes utilizando la media o la mediana aproximada. La característica BOLETO ya no debería tener valores inválidos o faltantes según la imagen a continuación.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.

Para asegurarse de no incurrir en cargos después de seguir este tutorial, asegúrese de cerrar la aplicación Data Wrangler.

Conclusión  

En este post presentamos el nuevo Administrador de datos de Amazon Sagemaker widget que ayudará a eliminar el levantamiento pesado indiferenciado para los usuarios finales durante la preparación de datos con visualizaciones emergentes automáticas e información de perfiles de datos para cada característica. Este widget facilita la visualización de datos (por ejemplo, histogramas categóricos/no categóricos), la detección de problemas de calidad de datos (por ejemplo, valores faltantes y valores no válidos) y la percepción de datos de superficie (por ejemplo, valores atípicos y elementos N principales).

Puede comenzar a usar esta capacidad hoy en todas las regiones donde SageMaker Studio está disponible. Darle una oportunidad, Y háganos saber lo que piensa. Siempre esperamos sus comentarios, ya sea a través de sus contactos habituales de soporte de AWS o en el Foro de AWS para SageMaker.


Acerca de los autores

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.Isha Dua es un Arquitecto de Soluciones Sénior con sede en el Área de la Bahía de San Francisco. Ella ayuda a los clientes empresariales de AWS a crecer mediante la comprensión de sus objetivos y desafíos, y los guía sobre cómo pueden diseñar sus aplicaciones de manera nativa en la nube mientras se asegura de que sean resistentes y escalables. Le apasionan las tecnologías de aprendizaje automático y la sostenibilidad ambiental.

Presentamos las nuevas visualizaciones integradas PlatoBlockchain Data Intelligence de Amazon SageMaker Data Wrangler. Búsqueda vertical. Ai.Parto Patel es arquitecto de soluciones en AWS en el área de la bahía de San Francisco. Parth guía a los clientes para que aceleren su viaje a la nube y los ayuda a adoptar la nube de AWS con éxito. Se enfoca en ML y modernización de aplicaciones.

Sello de tiempo:

Mas de Aprendizaje automático de AWS