Use Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML

Reeditado por Platón

seguidores: 0

Laboratorio de estudio de Amazon SageMaker es un entorno de desarrollo de aprendizaje automático (ML) gratuito basado en JupyterLab de código abierto para que cualquiera pueda aprender y experimentar con ML utilizando los recursos informáticos de AWS ML. Se basa en la misma arquitectura e interfaz de usuario que Estudio Amazon SageMaker, pero con un subconjunto de capacidades de Studio.

Cuando comienza a trabajar en iniciativas de ML, debe realizar un análisis exploratorio de datos (EDA) o preparar datos antes de continuar con la creación de modelos. Wrangler de datos de Amazon SageMaker es una capacidad de Amazon SageMaker eso hace que sea más rápido para los científicos e ingenieros de datos preparar datos para aplicaciones de ML a través de una interfaz visual. Data Wrangler reduce el tiempo que lleva agregar y preparar datos para ML de semanas a minutos.

Un acelerador clave de la preparación de características en Data Wrangler es el Informe de información y calidad de datos. Este informe verifica la calidad de los datos y ayuda a detectar anomalías en sus datos, de modo que pueda realizar la ingeniería de datos necesaria para corregir su conjunto de datos. Puede usar el Informe de información y calidad de datos para realizar un análisis de sus datos y obtener información sobre su conjunto de datos, como la cantidad de valores faltantes y la cantidad de valores atípicos. Si tiene problemas con sus datos, como fugas o desequilibrios de destino, el informe de conocimientos puede llamar su atención sobre esos problemas y ayudarlo a identificar los pasos de preparación de datos que debe realizar.

Los usuarios de Studio Lab pueden beneficiarse de Data Wrangler porque la calidad de los datos y la ingeniería de funciones son fundamentales para el rendimiento predictivo de su modelo. Data Wrangler ayuda con la calidad de los datos y la ingeniería de funciones al brindar información sobre los problemas de calidad de los datos y permitir fácilmente la iteración e ingeniería de funciones rápidas mediante una interfaz de usuario de código bajo.

En esta publicación, le mostramos cómo realizar análisis exploratorios de datos, preparar y transformar datos con Data Wrangler y exportar los datos transformados y preparados a Studio Lab para llevar a cabo la creación de modelos.

Resumen de la solución

La solución incluye los siguientes pasos de alto nivel:

Cree una cuenta de AWS y un usuario administrador. Este es un requisito previo
Descargar el conjunto de datos abandono.csv.
Cargue el conjunto de datos para Servicio de almacenamiento simple de Amazon (Amazon S3).
Cree un dominio de SageMaker Studio e inicie Data Wrangler.
Importe el conjunto de datos al flujo de Data Wrangler desde Amazon S3.
Cree el Informe de información y calidad de datos y saque conclusiones sobre la ingeniería de funciones necesaria.
Realice las transformaciones de datos necesarias en Data Wrangler.
Descargue el Informe de información y calidad de los datos y el conjunto de datos transformado.
Cargue los datos en un proyecto de Studio Lab para el entrenamiento de modelos.

El siguiente diagrama ilustra este flujo de trabajo.

Requisitos previos

Para usar Data Wrangler y Studio Lab, necesita los siguientes requisitos previos:

Cree un flujo de trabajo de preparación de datos con Data Wrangler

Para comenzar, complete los siguientes pasos:

Cargue su conjunto de datos en Amazon S3.
En la consola de SageMaker, en Panel de control en el panel de navegación, elija creativo.
En Ejecutar aplicación junto a su perfil de usuario, elija creativo.

Después de iniciar sesión correctamente en Studio, debería ver un entorno de desarrollo como el de la siguiente captura de pantalla.
Para crear un nuevo flujo de trabajo de Data Wrangler, en la Archive menú, seleccione Nuevo, A continuación, elija Flujo de Data Wrangler.

El primer paso en Data Wrangler es importar tu información. Puede importar datos de varias fuentes de datos, como Amazon S3, Atenea amazónica, Desplazamiento al rojo de Amazon, Copo de nievey Databricks. En este ejemplo, usamos Amazon S3. Si solo desea ver cómo funciona Data Wrangler, siempre puede elegir Usar conjunto de datos de muestra.
Elige Importar fechas.
Elige Amazon S3.
Elija el conjunto de datos que cargó y elija Importa.

Data Wrangler le permite importar el conjunto de datos completo o probar una parte de él.
Para obtener rápidamente información sobre el conjunto de datos, elija primera k para Muestreo e ingrese 50000 para Tamaño de la muestra.

Comprender la calidad de los datos y obtener información

Usemos el Informe de información y calidad de datos para realizar un análisis de los datos que importamos a Data Wrangler. Puede usar el informe para comprender qué pasos debe seguir para limpiar y procesar sus datos. Este informe proporciona información como el número de valores faltantes y el número de valores atípicos. Si tiene problemas con sus datos, como fugas o desequilibrios en el objetivo, el informe de conocimientos puede llamar su atención sobre esos problemas.

Elija el signo más junto a Tipos de datos y elige Obtener información de datos.
Tipo de análisis, escoger Informe de información y calidad de datos.
columna de destino, escoger ¿Batir?.
Tipo de problemaSeleccione Clasificación.
Elige Crear.

Se le presenta un informe detallado que puede revisar y descargar. El informe incluye varias secciones, como modelo rápido, resumen de características, correlación de características e información de datos. Las siguientes capturas de pantalla proporcionan ejemplos de estas secciones.

Observaciones del informe

Del informe podemos hacer las siguientes observaciones:

No se encontraron filas duplicadas.
La State columna parece estar bastante uniformemente distribuida, por lo que los datos están equilibrados en términos de población estatal.
La Phone columna presenta demasiados valores únicos para ser de algún uso práctico. Demasiados valores únicos hacen que esta columna no sea útil. Podemos soltar el Phone columna en nuestra transformación.
Basado en la sección de correlación de características del informe, Mins y Charge están altamente correlacionados. Podemos eliminar uno de ellos.

Con base en nuestras observaciones, queremos hacer las siguientes transformaciones:

Eliminar el Phone columna porque tiene muchos valores únicos.
También vemos varias características que esencialmente tienen una correlación del 100% entre sí. La inclusión de estos pares de características en algunos algoritmos de ML puede crear problemas no deseados, mientras que en otros solo introducirá una redundancia y un sesgo menores. Eliminemos una característica de cada uno de los pares altamente correlacionados: Day Charge de la pareja con Day Mins, Night Charge de la pareja con Night Minsy Intl Charge de la pareja con Intl Mins.
Convertir True or False existentes Churn columna sea un valor numérico de 1 o 0.

Vuelva al flujo de datos y elija el signo más junto a Tipos de datos.
Elige Agregar transformación.
Elige Agregar paso.
Puede buscar la transformación que busca (en nuestro caso, administrar columnas).
Elige Administrar columnas.
Transformarescoger Columna de caída.
Columnas para soltarescoger Phone, Day Charge, Eve Charge, Night Chargey Intl Charge.
Elige Vista previa, A continuación, elija Actualizar.

Agreguemos otra transformación para realizar una codificación categórica en el Churn? columna.
Elige la transformación Codificar categórico.
Transformar, escoger Codificación ordinal.
Columnas de entrada, elegir la Churn? columna.
Estrategia de manejo no válida, escoger Reemplazar con NaN.
Elige Vista previa, A continuación, elija Actualizar.

Ahora True y False se convierten en 1 y 0, respectivamente.

Ahora que tenemos una buena comprensión de los datos y los hemos preparado y transformado para la creación de modelos, podemos mover los datos a Studio Lab para la creación de modelos.

Sube los datos a Studio Lab

Para comenzar a usar los datos en Studio Lab, complete los siguientes pasos:

Elige Exportar datos a exportar a un cubo S3.
Ubicación de Amazon S3, ingrese su ruta S3.
Especifique el tipo de archivo.
Elige Exportar datos.
Después de exportar los datos, puede descargar los datos del depósito S3 a su computadora local.
Ahora puede ir a Studio Lab y cargar el archivo a Studio Lab.

Alternativamente, puede conectarse a Amazon S3 desde Studio Lab. Para obtener más información, consulte Utilice recursos externos en Amazon SageMaker Studio Lab.
Instalemos SageMaker e importemos Pandas.
Importe todas las bibliotecas según sea necesario.
Ahora podemos leer el archivo CSV.
vamos a imprimir churn para confirmar que el conjunto de datos es correcto.

Ahora que tiene el conjunto de datos procesado en Studio Lab, puede realizar los pasos necesarios para la creación de modelos.

Precios de Data Wrangler

Puede realizar todos los pasos en esta publicación para EDA o preparación de datos dentro de Data Wrangler y paga para la instancia simple, los trabajos y los precios de almacenamiento se basan en el uso o el consumo. No se requieren cuotas iniciales ni de licencia.

Limpiar

Cuando no esté utilizando Data Wrangler, es importante cerrar la instancia en la que se ejecuta para evitar incurrir en cargos adicionales. Para evitar perder trabajo, guarde su flujo de datos antes de apagar Data Wrangler.

Para guardar su flujo de datos en Studio, elija Archive, A continuación, elija Guardar flujo de datos Wrangler.
Data Wrangler guarda automáticamente su flujo de datos cada 60 segundos.
Para cerrar la instancia de Data Wrangler, en Studio, elija Ejecución de instancias y kernels.
under APLICACIONES EN EJECUCIÓN, elija el icono de apagado junto a la sagemaker-data-wrangler-1.0 app.
Elige Apagar todo para confirmar.

Data Wrangler se ejecuta en una instancia ml.m5.4xlarge. Esta instancia desaparece de INSTANCIAS EN EJECUCIÓN cuando cierra la aplicación Data Wrangler.

Después de cerrar la aplicación Data Wrangler, debe reiniciarse la próxima vez que abra un archivo de flujo de Data Wrangler. Esto puede tardar unos minutos.

Conclusión

En esta publicación, vimos cómo puede obtener información sobre su conjunto de datos, realizar análisis exploratorios de datos, preparar y transformar datos usando Data Wrangler dentro de Studio y exportar los datos transformados y preparados a Studio Lab y llevar a cabo la creación de modelos y otros pasos.

Con SageMaker Data Wrangler, puede simplificar el proceso de preparación de datos y la ingeniería de características, y completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos desde una única interfaz visual.

Sobre los autores

Rajakumar Sampathkumar es Gerente Técnico Principal de Cuentas en AWS, brinda orientación a los clientes sobre la alineación de la tecnología comercial y apoya la reinvención de sus modelos y procesos de operación en la nube. Le apasiona la nube y el aprendizaje automático. Raj también es especialista en aprendizaje automático y trabaja con clientes de AWS para diseñar, implementar y administrar sus cargas de trabajo y arquitecturas de AWS.

Meenakshisundaram Thandavarayan es un especialista sénior en IA/ML apasionado por diseñar, crear y promover experiencias de análisis y datos centradas en el ser humano. Apoya a los clientes estratégicos de AWS en su transformación hacia una organización basada en datos.

James Wu es un arquitecto de soluciones especialista en inteligencia artificial/aprendizaje automático sénior en AWS. ayudar a los clientes a diseñar y crear soluciones de IA/ML. El trabajo de James cubre una amplia gama de casos de uso de ML, con un interés principal en la visión artificial, el aprendizaje profundo y la ampliación de ML en toda la empresa. Antes de unirse a AWS, James fue arquitecto, desarrollador y líder tecnológico durante más de 10 años, incluidos 6 años en ingeniería y 4 años en las industrias de marketing y publicidad.

Sello de tiempo: 15 de septiembre de 202215 de septiembre de 2022

Sello de tiempo: 8 de jul, 2022

Use Amazon SageMaker Data Wrangler para la preparación de datos y Studio Labs para aprender y experimentar con ML

Reeditado por Platón

Resumen de la solución

Requisitos previos

Cree un flujo de trabajo de preparación de datos con Data Wrangler

Comprender la calidad de los datos y obtener información

Observaciones del informe

Sube los datos a Studio Lab

Precios de Data Wrangler

Limpiar

Conclusión

Sobre los autores

Mas de Aprendizaje automático de AWS

AWS DeepRacer permite a los creadores de todos los niveles mejorar sus habilidades y comenzar con el aprendizaje automático | Servicios web de Amazon

Detecte fraudes en empresas orientadas a dispositivos móviles utilizando la inteligencia de dispositivos GrabDefense y Amazon Fraud Detector

Proporcione asistencia de agente en vivo para los usuarios de su chatbot con Amazon Lex y el centro de contacto en la nube Talkdesk | Servicios web de Amazon

Ejecute varios modelos de aprendizaje profundo en GPU con puntos de enlace de varios modelos de Amazon SageMaker

Cómo Amp en Amazon usó datos para aumentar la participación del cliente, Parte 1: Creación de una plataforma de análisis de datos

Evite la toma de posesión de la cuenta al iniciar sesión con el nuevo modelo Account Takeover Insights en Amazon Fraud Detector

Incorpore PaddleOCR con Amazon SageMaker Projects for MLOps para realizar reconocimiento óptico de caracteres en documentos de identidad

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta