Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Use Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML

Laboratorio de estudio de Amazon SageMaker es un entorno de desarrollo de aprendizaje automático (ML) gratuito basado en JupyterLab de código abierto para que cualquiera pueda aprender y experimentar con ML utilizando los recursos informáticos de AWS ML. Se basa en la misma arquitectura e interfaz de usuario que Estudio Amazon SageMaker, pero con un subconjunto de capacidades de Studio.

Cuando comienza a trabajar en iniciativas de ML, debe realizar un análisis exploratorio de datos (EDA) o preparar datos antes de continuar con la creación de modelos. Wrangler de datos de Amazon SageMaker es una capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de ML a través de una interfaz visual. Data Wrangler reduce el tiempo que lleva agregar y preparar datos para ML de semanas a minutos.

Un acelerador clave de la preparación de características en Data Wrangler es el Informe de información y calidad de datos. Este informe verifica la calidad de los datos y ayuda a detectar anomalías en sus datos, de modo que pueda realizar la ingeniería de datos necesaria para corregir su conjunto de datos. Puede usar el Informe de información y calidad de datos para realizar un análisis de sus datos y obtener información sobre su conjunto de datos, como la cantidad de valores faltantes y la cantidad de valores atípicos. Si tiene problemas con sus datos, como fugas o desequilibrios de destino, el informe de conocimientos puede llamar su atención sobre esos problemas y ayudarlo a identificar los pasos de preparación de datos que debe realizar.

Los usuarios de Studio Lab pueden beneficiarse de Data Wrangler porque la calidad de los datos y la ingeniería de funciones son fundamentales para el rendimiento predictivo de su modelo. Data Wrangler ayuda con la calidad de los datos y la ingeniería de funciones al brindar información sobre los problemas de calidad de los datos y permitir fácilmente la iteración e ingeniería de funciones rápidas mediante una interfaz de usuario de código bajo.

En esta publicación, le mostramos cómo realizar análisis exploratorios de datos, preparar y transformar datos con Data Wrangler y exportar los datos transformados y preparados a Studio Lab para llevar a cabo la creación de modelos.

Resumen de la solución

La solución incluye los siguientes pasos de alto nivel:

  1. Cree una cuenta de AWS y un usuario administrador. Este es un requisito previo
  2. Descargar el conjunto de datos abandono.csv.
  3. Cargue el conjunto de datos para Servicio de almacenamiento simple de Amazon (Amazon S3).
  4. Cree un dominio de SageMaker Studio e inicie Data Wrangler.
  5. Importe el conjunto de datos al flujo de Data Wrangler desde Amazon S3.
  6. Cree el Informe de información y calidad de datos y saque conclusiones sobre la ingeniería de funciones necesaria.
  7. Realice las transformaciones de datos necesarias en Data Wrangler.
  8. Descargue el Informe de información y calidad de los datos y el conjunto de datos transformado.
  9. Cargue los datos en un proyecto de Studio Lab para el entrenamiento de modelos.

El siguiente diagrama ilustra este flujo de trabajo.

Requisitos previos

Para usar Data Wrangler y Studio Lab, necesita los siguientes requisitos previos:

Cree un flujo de trabajo de preparación de datos con Data Wrangler

Para comenzar, complete los siguientes pasos:

  1. Cargue su conjunto de datos en Amazon S3.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  2. En la consola de SageMaker, en Panel de control en el panel de navegación, elija creativo.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. En Ejecutar aplicación junto a su perfil de usuario, elija creativo.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Después de iniciar sesión correctamente en Studio, debería ver un entorno de desarrollo como el de la siguiente captura de pantalla.
  4. Para crear un nuevo flujo de trabajo de Data Wrangler, en la Archive menú, seleccione Nuevo, A continuación, elija Flujo de Data Wrangler.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    El primer paso en Data Wrangler es importar tu información. Puede importar datos de varias fuentes de datos, como Amazon S3, Atenea amazónica, Desplazamiento al rojo de Amazon, Copo de nievey Databricks. En este ejemplo, usamos Amazon S3. Si solo desea ver cómo funciona Data Wrangler, siempre puede elegir Usar conjunto de datos de muestra.
  5. Elige Importar fechas.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  6. Elige Amazon S3.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  7. Elija el conjunto de datos que cargó y elija Importa.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Data Wrangler le permite importar el conjunto de datos completo o probar una parte de él.
  8. Para obtener rápidamente información sobre el conjunto de datos, elija primera k para Muestreo e ingrese 50000 para Tamaño de la muestra.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Comprender la calidad de los datos y obtener información

Usemos el Informe de información y calidad de datos para realizar un análisis de los datos que importamos a Data Wrangler. Puede usar el informe para comprender qué pasos debe seguir para limpiar y procesar sus datos. Este informe proporciona información como el número de valores faltantes y el número de valores atípicos. Si tiene problemas con sus datos, como fugas o desequilibrios en el objetivo, el informe de conocimientos puede llamar su atención sobre esos problemas.

  1. Elija el signo más junto a Tipos de datos y elige Obtener información de datos.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  2. Tipo de análisis, escoger Informe de información y calidad de datos.
  3. columna de destino, escoger ¿Batir?.
  4. Tipo de problemaSeleccione Clasificación.
  5. Elige Crear.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Se le presenta un informe detallado que puede revisar y descargar. El informe incluye varias secciones, como modelo rápido, resumen de características, correlación de características e información de datos. Las siguientes capturas de pantalla proporcionan ejemplos de estas secciones.

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Observaciones del informe

Del informe podemos hacer las siguientes observaciones:

  • No se encontraron filas duplicadas.
  • La State columna parece estar bastante uniformemente distribuida, por lo que los datos están equilibrados en términos de población estatal.
  • La Phone columna presenta demasiados valores únicos para ser de algún uso práctico. Demasiados valores únicos hacen que esta columna no sea útil. Podemos soltar el Phone columna en nuestra transformación.
  • Basado en la sección de correlación de características del informe, Mins y Charge están altamente correlacionados. Podemos eliminar uno de ellos.

Con base en nuestras observaciones, queremos hacer las siguientes transformaciones:

  • Eliminar el Phone columna porque tiene muchos valores únicos.
  • También vemos varias características que esencialmente tienen una correlación del 100% entre sí. La inclusión de estos pares de características en algunos algoritmos de ML puede crear problemas no deseados, mientras que en otros solo introducirá una redundancia y un sesgo menores. Eliminemos una característica de cada uno de los pares altamente correlacionados: Day Charge de la pareja con Day Mins, Night Charge de la pareja con Night Minsy Intl Charge de la pareja con Intl Mins.
  • Convertir True or False existentes Churn columna sea un valor numérico de 1 o 0.
  1. Vuelva al flujo de datos y elija el signo más junto a Tipos de datos.
  2. Elige Agregar transformación.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  3. Elige Agregar paso.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  4. Puede buscar la transformación que busca (en nuestro caso, administrar columnas).
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  5. Elige Administrar columnas.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  6. Transformarescoger Columna de caída.
  7. Columnas para soltarescoger Phone, Day Charge, Eve Charge, Night Chargey Intl Charge.
  8. Elige Vista previa, A continuación, elija Actualizar.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Agreguemos otra transformación para realizar una codificación categórica en el Churn? columna.
  9. Elige la transformación Codificar categórico.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  10. Transformar, escoger Codificación ordinal.
  11. Columnas de entrada, elegir la Churn? columna.
  12. Estrategia de manejo no válida, escoger Reemplazar con NaN.
  13. Elige Vista previa, A continuación, elija Actualizar.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ahora True y False se convierten en 1 y 0, respectivamente.

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ahora que tenemos una buena comprensión de los datos y los hemos preparado y transformado para la creación de modelos, podemos mover los datos a Studio Lab para la creación de modelos.

Sube los datos a Studio Lab

Para comenzar a usar los datos en Studio Lab, complete los siguientes pasos:

  1. Elige Exportar datos a exportar a un cubo S3.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  2. Ubicación de Amazon S3, ingrese su ruta S3.
  3. Especifique el tipo de archivo.
  4. Elige Exportar datos.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  5. Después de exportar los datos, puede descargar los datos del depósito S3 a su computadora local.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  6. Ahora puede ir a Studio Lab y cargar el archivo a Studio Lab.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
    Alternativamente, puede conectarse a Amazon S3 desde Studio Lab. Para obtener más información, consulte Utilice recursos externos en Amazon SageMaker Studio Lab.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  7. Instalemos SageMaker e importemos Pandas.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  8. Importe todas las bibliotecas según sea necesario.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  9. Ahora podemos leer el archivo CSV.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  10. vamos a imprimir churn para confirmar que el conjunto de datos es correcto.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Ahora que tiene el conjunto de datos procesado en Studio Lab, puede realizar los pasos necesarios para la creación de modelos.

Precios de Data Wrangler

Puede realizar todos los pasos en esta publicación para EDA o preparación de datos dentro de Data Wrangler y paga para la instancia simple, los trabajos y los precios de almacenamiento se basan en el uso o el consumo. No se requieren cuotas iniciales ni de licencia.

Limpiar

Cuando no esté utilizando Data Wrangler, es importante cerrar la instancia en la que se ejecuta para evitar incurrir en cargos adicionales. Para evitar perder trabajo, guarde su flujo de datos antes de apagar Data Wrangler.

  1. Para guardar su flujo de datos en Studio, elija Archive, A continuación, elija Guardar flujo de datos Wrangler.
    Data Wrangler guarda automáticamente su flujo de datos cada 60 segundos.
  2. Para cerrar la instancia de Data Wrangler, en Studio, elija Ejecución de instancias y kernels.
  3. under APLICACIONES EN EJECUCIÓN, elija el icono de apagado junto a la sagemaker-data-wrangler-1.0 app.
  4. Elige Apagar todo para confirmar.
    Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Data Wrangler se ejecuta en una instancia ml.m5.4xlarge. Esta instancia desaparece de INSTANCIAS EN EJECUCIÓN cuando cierra la aplicación Data Wrangler.

Después de cerrar la aplicación Data Wrangler, debe reiniciarse la próxima vez que abra un archivo de flujo de Data Wrangler. Esto puede tardar unos minutos.

Conclusión

En esta publicación, vimos cómo puede obtener información sobre su conjunto de datos, realizar análisis exploratorios de datos, preparar y transformar datos usando Data Wrangler dentro de Studio y exportar los datos transformados y preparados a Studio Lab y llevar a cabo la creación de modelos y otros pasos.

Con SageMaker Data Wrangler, puede simplificar el proceso de preparación de datos y la ingeniería de características, y completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos desde una única interfaz visual.


Sobre los autores

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Rajakumar Sampathkumar es Gerente Técnico Principal de Cuentas en AWS, brinda orientación a los clientes sobre la alineación de la tecnología comercial y apoya la reinvención de sus modelos y procesos de operación en la nube. Le apasiona la nube y el aprendizaje automático. Raj también es especialista en aprendizaje automático y trabaja con clientes de AWS para diseñar, implementar y administrar sus cargas de trabajo y arquitecturas de AWS.

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML apasionado por diseñar, crear y promover experiencias de análisis y datos centradas en el ser humano. Apoya a los clientes estratégicos de AWS en su transformación hacia una organización basada en datos.

Utilice Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.James Wu es un arquitecto de soluciones especialista en inteligencia artificial/aprendizaje automático sénior en AWS. ayudar a los clientes a diseñar y crear soluciones de IA/ML. El trabajo de James cubre una amplia gama de casos de uso de ML, con un interés principal en la visión artificial, el aprendizaje profundo y la ampliación de ML en toda la empresa. Antes de unirse a AWS, James fue arquitecto, desarrollador y líder tecnológico durante más de 10 años, incluidos 6 años en ingeniería y 4 años en las industrias de marketing y publicidad.

Sello de tiempo:

Mas de Aprendizaje automático de AWS