Cree un motor de pronóstico de series temporales de arranque en frío con AutoGluon

Reeditado por Platón

seguidores: 0

Ya sea que esté asignando recursos de manera más eficiente para el tráfico web, pronosticando la demanda de los pacientes para las necesidades de personal o anticipando las ventas de los productos de una empresa, la previsión es una herramienta esencial en muchas empresas. Un caso de uso particular, conocido como previsión de arranque en frío, genera pronósticos para una serie temporal que tiene pocos o ningún dato histórico existente, como un nuevo producto que acaba de ingresar al mercado en la industria minorista. Los métodos de pronóstico de series de tiempo tradicionales, como el promedio móvil integrado autorregresivo (ARIMA) o el suavizado exponencial (ES), se basan en gran medida en series de tiempo históricas de cada producto individual y, por lo tanto, no son efectivos para el pronóstico de arranque en frío.

En esta publicación, demostramos cómo construir un motor de pronóstico de arranque en frío usando AutoGluon AutoML para la previsión de series temporales, un paquete Python de código abierto para automatizar el aprendizaje automático (ML) en datos de imágenes, texto, tablas y series temporales. AutoGluon proporciona una canalización de aprendizaje automático automatizado (AutoML) de extremo a extremo para principiantes y desarrolladores de ML experimentados, lo que la convierte en la solución totalmente automatizada más precisa y fácil de usar. Usamos la libre Laboratorio de estudio de Amazon SageMaker servicio para esta demostración.

Introducción a las series temporales de AutoGluon

AutoGluón es una biblioteca líder de código abierto para AutoML para texto, imágenes y datos tabulares, lo que le permite producir modelos altamente precisos a partir de datos sin procesar con solo una línea de código. Recientemente, el equipo ha estado trabajando para extender estas capacidades a datos de series temporales y ha desarrollado un módulo de pronóstico automatizado que está disponible públicamente en GitHub. autogluon.forecasting El módulo procesa automáticamente datos de series de tiempo sin procesar en el formato apropiado, y luego entrena y ajusta varios modelos de aprendizaje profundo de última generación para producir pronósticos precisos. En esta publicación, demostramos cómo usar autogluon.forecasting y aplicarlo a tareas de previsión de arranque en frío.

Resumen de la solución

Debido a que AutoGluon es un paquete Python de código abierto, puede implementar esta solución localmente en su computadora portátil o en Amazon SageMaker Studio Lab. Caminamos a través de los siguientes pasos:

Configure AutoGluon para Amazon SageMaker Studio Lab.
Preparar el conjunto de datos.
Defina los parámetros de entrenamiento usando AutoGluon.
Entrene un motor de pronóstico de arranque en frío para el pronóstico de series temporales.
Visualice predicciones de previsión de arranque en frío.

La suposición clave del pronóstico de inicio en frío es que los artículos con características similares deben tener trayectorias de series temporales similares, que es lo que permite que el pronóstico de inicio en frío haga predicciones sobre artículos sin datos históricos, como se ilustra en la siguiente figura.

En nuestro tutorial, usamos un conjunto de datos sintéticos basado en el consumo de electricidad, que consta de la serie temporal por hora para 370 artículos, cada uno con un item_id de 0 a 369. Dentro de este conjunto de datos sintéticos, cada item_id también está asociado con una característica estática (una característica que no cambia con el tiempo). Entrenamos un AR profundo modelo utilizando AutoGluon para aprender el comportamiento típico de elementos similares y transferir dicho comportamiento para hacer predicciones sobre nuevos elementos (item_id 370–373) que no tienen datos históricos de series temporales. Aunque estamos demostrando el enfoque de pronóstico de arranque en frío con solo una característica estática, en la práctica, tener características estáticas informativas y de alta calidad es la clave para un buen pronóstico de arranque en frío.

El siguiente diagrama proporciona una descripción general de alto nivel de nuestra solución. El código fuente abierto está disponible en el Repositorio GitHub.

Requisitos previos

Para este tutorial, debe tener los siguientes requisitos previos:

An Cuenta de Amazon SageMaker Studio Lab
GitHub acceso a la cuenta

Inicie sesión en su cuenta de Amazon SageMaker Studio Lab y configure el entorno mediante el terminal:

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

Estas instrucciones también deberían funcionar desde su computadora portátil si no tiene acceso a Amazon SageMaker Studio Lab (recomendamos instalar Anaconda en su computadora portátil primero).

Cuando tenga el entorno virtual completamente configurado, inicie el cuaderno AutoGluon-cold-start-demo.ipynb y seleccione el entorno personalizado .conda-autogluon:Python núcleo.

Preparar la serie temporal de destino y el metadato de elementos

Descargue los siguientes conjuntos de datos a su instancia de notebook si no están incluidos y guárdelos en el directorio data/. Puede encontrar estos conjuntos de datos en nuestro Repositorio GitHub:

Prueba.csv.gz
ColdStartTargetData.csv
elementoMetaData.csv

Ejecute el siguiente fragmento de código para cargar el conjunto de datos de la serie temporal de destino en el kernel:

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

Las series temporales de AutoGluon requieren que las características estáticas se representen en formato numérico. Esto se puede lograr aplicando LabelEncoder() en nuestra función estática type, donde codificamos A=0, B=1, C=2, D=3 (ver el siguiente código). De forma predeterminada, AutoGluon infiere que la función estática es ordinal o categórica. También puede sobrescribir esto convirtiendo la columna de características estáticas para que sea el tipo de datos de objeto/cadena para características categóricas, o el tipo de datos entero/flotante para características ordinales.

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

Configurar e iniciar el entrenamiento del modelo AutoGluon

Necesitamos especificar save_path = ‘autogluon-coldstart-demo’ como el nombre de la carpeta del artefacto del modelo (consulte el siguiente código). También establecemos nuestro eval_metric as error porcentual absoluto medioo ‘MAPE’ para abreviar, donde definimos prediction_length como 24 horas. Si no se especifica, AutoGluon por defecto produce pronósticos probabilísticos y los puntúa mediante el pérdida ponderada del cuantil. Solo miramos el Modelo AR profundo en nuestra demostración, porque sabemos que el algoritmo DeepAR permite el pronóstico de arranque en frío por diseño. Establecemos uno de los hiperparámetros de DeepAR arbitrariamente y pasamos ese hiperparámetro al ForecastingPredictor().fit() llamada. Esto permite que AutoGluon busque solo en el modelo especificado. Para obtener una lista completa de hiperparámetros ajustables, consulte paquete gluonts.model.deepar.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

El entrenamiento dura de 30 a 45 minutos. Puede obtener el resumen del modelo llamando a la siguiente función:

ag_predictor.fit_summary()

Pronóstico en el artículo de arranque en frío

Ahora estamos listos para generar pronósticos para el artículo de arranque en frío. Recomendamos tener al menos cinco filas para cada item_id. Por lo tanto, para el item_id que tiene menos de cinco observaciones, lo llenamos con NaNs. En nuestra demostración, ambos item_id 370 y 372 tienen observación cero, un problema de arranque en frío puro, mientras que los otros dos tienen cinco valores objetivo.

Cargue el conjunto de datos de serie temporal objetivo de inicio en frío con el siguiente código:

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

Alimentamos la serie temporal del objetivo de arranque en frío en nuestro modelo de AutoGluon, junto con el conjunto de metadatos del artículo para el arranque en frío item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

Visualiza las predicciones

Podemos crear una función de trazado para generar una visualización sobre el pronóstico de arranque en frío, como se muestra en el siguiente gráfico.

Limpiar

Para optimizar el uso de recursos, considere detener el tiempo de ejecución en Amazon SageMaker Studio Lab después de haber explorado completamente el cuaderno.

Conclusión

En esta publicación, mostramos cómo crear un motor de pronóstico de arranque en frío utilizando AutoGluon AutoML para datos de series temporales en Amazon SageMaker Studio Lab. Para aquellos de ustedes que se preguntan la diferencia entre Pronóstico del Amazonas y AutoGluon (serie temporal), Amazon Forecast es un servicio completamente administrado y compatible que utiliza el aprendizaje automático (ML) para generar pronósticos muy precisos sin necesidad de experiencia previa en ML. Si bien AutoGluon es un proyecto de código abierto que cuenta con el respaldo de la comunidad con las últimas contribuciones de investigación. Repasamos un ejemplo completo para demostrar de qué es capaz AutoGluon para series temporales y proporcionamos un conjunto de datos y un caso de uso.

AutoGluon para datos de series temporales es un paquete Python de código abierto y esperamos que esta publicación, junto con nuestro ejemplo de código, le brinde una solución sencilla para abordar los desafiantes problemas de pronóstico de arranque en frío. Puede acceder al ejemplo completo en nuestro Repositorio GitHub. ¡Pruébelo y háganos saber lo que piensa!

Acerca de los autores

Iván Cui es un científico de datos de AWS Professional Services, donde ayuda a los clientes a crear e implementar soluciones utilizando el aprendizaje automático en AWS. Ha trabajado con clientes de diversas industrias, que incluyen software, finanzas, farmacéutica y atención médica. En su tiempo libre, le gusta leer, pasar tiempo con su familia y maximizar su cartera de acciones.

jonas müller es científico aplicado sénior en el grupo de investigación y educación de IA en AWS, donde desarrolla nuevos algoritmos para mejorar el aprendizaje profundo y desarrollar el aprendizaje automático automatizado. Antes de unirse a AWS para democratizar el ML, completó su doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. En su tiempo libre, le gusta explorar las montañas y el aire libre.

wenming ye es gerente de productos de investigación en AWS AI. Le apasiona ayudar a los investigadores y clientes empresariales a escalar rápidamente sus innovaciones a través de tecnología de aprendizaje automático de código abierto y de última generación. Wenming tiene diversa experiencia en I+D de Microsoft Research, el equipo de ingeniería de SQL y empresas emergentes exitosas.

Sello de tiempo: Marzo 4, 2022

Sello de tiempo: 11 de octubre de 2023

Reeditado por Platón

Manejo de la presión de los hechos de los partidos de la Bundesliga: evaluación del desempeño de los jugadores en situaciones de alta presión en AWS

Promocione el contenido de búsqueda utilizando los resultados destacados para Amazon Kendra

Entrenamiento incremental con Amazon SageMaker JumpStart

Detecte patrones en datos de texto con Amazon SageMaker Data Wrangler

Automatice la validación de documentos y la detección de fraudes en el proceso de suscripción de hipotecas mediante los servicios de IA de AWS: Parte 1 | Servicios web de Amazon

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta