Reajuste de parámetros entrenados en grandes conjuntos de datos mediante Amazon SageMaker Data Wrangler

Reeditado por Platón

seguidores: 0

Wrangler de datos de Amazon SageMaker lo ayuda a comprender, agregar, transformar y preparar datos para el aprendizaje automático (ML) desde una única interfaz visual. Contiene más de 300 transformaciones de datos integradas para que pueda normalizar, transformar y combinar funciones rápidamente sin tener que escribir ningún código.

Los profesionales de la ciencia de datos generan, observan y procesan datos para resolver problemas comerciales en los que necesitan transformar y extraer características de conjuntos de datos. Las transformaciones, como la codificación ordinal o la codificación one-hot, aprenden codificaciones en su conjunto de datos. Estas salidas codificadas se conocen como parámetros entrenados. A medida que los conjuntos de datos cambian con el tiempo, puede ser necesario reajustar las codificaciones en datos que no se habían visto anteriormente para mantener el flujo de transformación relevante para sus datos.

Nos complace anunciar la función de reacondicionamiento de parámetros entrenados, que le permite usar parámetros entrenados anteriormente y reajustarlos como desee. En esta publicación, demostramos cómo usar esta función.

Descripción general de la función de reacondicionamiento de Data Wrangler

Ilustramos cómo funciona esta función con el siguiente ejemplo, antes de profundizar en los detalles de la función de reacondicionamiento de parámetros entrenados.

Suponga que su conjunto de datos de clientes tiene una característica categórica para country representado como cadenas como Australia y Singapore. Los algoritmos de ML requieren entradas numéricas; por lo tanto, estos valores categóricos deben codificarse en valores numéricos. Codificar datos categóricos es el proceso de crear una representación numérica para categorías. Por ejemplo, si su categoría país tiene valores Australia y Singapore, puede codificar esta información en dos vectores: [1, 0] para representar Australia y [0, 1] para representar Singapore. La transformación utilizada aquí es una codificación one-hot y la nueva salida codificada refleja los parámetros entrenados.

Después de entrenar el modelo, con el tiempo sus clientes pueden aumentar y tendrá más valores distintos en la lista de países. El nuevo conjunto de datos podría contener otra categoría, India, que no formaba parte del conjunto de datos original, lo que puede afectar la precisión del modelo. Por lo tanto, es necesario volver a entrenar su modelo con los nuevos datos que se han recopilado con el tiempo.

Para superar este problema, debe actualizar la codificación para incluir la nueva categoría y actualizar la representación vectorial según su último conjunto de datos. En nuestro ejemplo, la codificación debe reflejar la nueva categoría para el country, cual es India. Comúnmente nos referimos a este proceso de actualización de una codificación como una operación de reacondicionamiento. Después de realizar la operación de reacondicionamiento, obtiene la nueva codificación: Australia: [1, 0, 0], Singapore: [0, 1, 0], y India: [0, 0, 1]. Reajustar la codificación one-hot y luego volver a entrenar el modelo en el nuevo conjunto de datos da como resultado predicciones de mejor calidad.

La función de reacondicionamiento de parámetros entrenados de Data Wrangler es útil en los siguientes casos:

Se agregan nuevos datos al conjunto de datos. – Es necesario volver a entrenar el modelo ML cuando el conjunto de datos se enriquece con nuevos datos. Para lograr resultados óptimos, necesitamos reajustar los parámetros entrenados en el nuevo conjunto de datos.
Entrenamiento en un conjunto de datos completo después de realizar ingeniería de características en datos de muestra – Para un conjunto de datos grande, se considera una muestra del conjunto de datos para aprender los parámetros entrenados, que pueden no representar su conjunto de datos completo. Necesitamos volver a aprender los parámetros entrenados en el conjunto de datos completo.

Las siguientes son algunas de las transformaciones de Data Wrangler más comunes realizadas en el conjunto de datos que se benefician de la opción de reacondicionamiento de parámetros entrenados:

Para obtener más información sobre las transformaciones en Data Wrangler, consulte Transformar datos.

En esta publicación, mostramos cómo procesar estos parámetros entrenados en conjuntos de datos usando Data Wrangler. Puede usar flujos de Data Wrangler en trabajos de producción para reprocesar sus datos a medida que crecen y cambian.

Resumen de la solución

Para esta publicación, demostramos cómo usar la función de parámetros entrenados de reacondicionamiento de Data Wrangler con el conjunto de datos disponible públicamente en Kaggle: Datos de vivienda de EE. UU. de Zillow, Propiedades en venta en los Estados Unidos. Tiene los precios de venta de viviendas en varias distribuciones geográficas de viviendas.

El siguiente diagrama ilustra la arquitectura de alto nivel de Data Wrangler utilizando la función de reacondicionamiento de parámetros entrenados. También mostramos el efecto sobre la calidad de los datos sin el parámetro entrenado de reacondicionamiento y contrastamos los resultados al final.

El flujo de trabajo incluye los siguientes pasos:

Realizar análisis de datos exploratorios – Cree un nuevo flujo en Data Wrangler para iniciar el análisis exploratorio de datos (EDA). Importe datos comerciales para comprender, limpiar, agregar, transformar y preparar sus datos para la capacitación. Referirse a Explore las capacidades de Amazon SageMaker Data Wrangler con conjuntos de datos de muestra para obtener más detalles sobre cómo realizar EDA con Data Wrangler.
Crear un trabajo de procesamiento de datos – Este paso exporta todas las transformaciones que realizó en el conjunto de datos como un archivo de flujo almacenado en el configurado Servicio de almacenamiento simple de Amazon (Amazon S3) ubicación. El trabajo de procesamiento de datos con el archivo de flujo generado por Data Wrangler aplica las transformaciones y los parámetros entrenados aprendidos en su conjunto de datos. Cuando se completa el trabajo de procesamiento de datos, los archivos de salida se cargan en la ubicación de Amazon S3 configurada en el nodo de destino. Tenga en cuenta que la opción de reacondicionamiento está desactivada de forma predeterminada. Como alternativa a la ejecución instantánea del trabajo de procesamiento, también puede programar un trabajo de procesamiento en unos pocos clics usando Data Wrangler - Crear trabajo para ejecutar en momentos específicos.
Cree un trabajo de procesamiento de datos con la función de reacondicionamiento de parámetros entrenados – Seleccione la nueva función de reacondicionamiento de parámetros entrenados mientras crea el trabajo para forzar el reaprendizaje de sus parámetros entrenados en su conjunto de datos completo o reforzado. Según la configuración de ubicación de Amazon S3 para almacenar el archivo de flujo, el trabajo de procesamiento de datos crea o actualiza el nuevo archivo de flujo. Si configura la misma ubicación de Amazon S3 que en el Paso 2, el trabajo de procesamiento de datos actualiza el archivo de flujo generado en el Paso 2, que puede usarse para mantener su flujo relevante para sus datos. Al finalizar el trabajo de procesamiento, los archivos de salida se cargan en el depósito S3 configurado del nodo de destino. Puede usar el flujo actualizado en todo su conjunto de datos para un flujo de trabajo de producción.

Requisitos previos

Antes de comenzar, cargue el conjunto de datos en un depósito de S3 y luego impórtelo a Data Wrangler. Para obtener instrucciones, consulte Importar datos de Amazon S3.

Veamos ahora los pasos mencionados en el diagrama de arquitectura.

Realizar EDA en Data Wrangler

Para probar la función de reacondicionamiento de parámetros entrenados, configure el siguiente análisis y transformación en Data Wrangler. Al final de la configuración de EDA, Data Wrangler crea un archivo de flujo capturado con parámetros entrenados del conjunto de datos.

Cree un nuevo flujo en Amazon SageMaker Data Wrangler para el análisis exploratorio de datos.
Importe los datos comerciales que cargó en Amazon S3.
Puede obtener una vista previa de los datos y las opciones para elegir el tipo de archivo, el delimitador, el muestreo, etc. Para este ejemplo, usamos el primera k opción de muestreo proporcionada por Data Wrangler para importar los primeros 50,000 XNUMX registros del conjunto de datos.
Elige Importa.