Erstellen Sie mit AutoGluon eine Prognose-Engine für Kaltstart-Zeitreihen

Neuauflage von Plato

Verfolger: 0

Unabhängig davon, ob Sie Ressourcen effizienter für den Webverkehr zuweisen, die Patientennachfrage nach Personalbedarf prognostizieren oder den Verkauf der Produkte eines Unternehmens antizipieren möchten, sind Prognosen in vielen Unternehmen ein unverzichtbares Werkzeug. Ein bestimmter Anwendungsfall, bekannt als Kaltstartprognose, erstellt Prognosen für eine Zeitreihe, die nur wenige oder keine vorhandenen historischen Daten enthält, z. B. ein neues Produkt, das gerade in der Einzelhandelsbranche auf den Markt gekommen ist. Herkömmliche Zeitreihen-Prognosemethoden wie der autoregressive integrierte gleitende Durchschnitt (ARIMA) oder die exponentielle Glättung (ES) stützen sich stark auf historische Zeitreihen jedes einzelnen Produkts und sind daher für Kaltstartprognosen nicht effektiv.

In diesem Beitrag demonstrieren wir, wie man eine Kaltstart-Vorhersage-Engine mit erstellt AutoGluon AutoML für Zeitreihenprognosen, ein Open-Source-Python-Paket zur Automatisierung von maschinellem Lernen (ML) für Bild-, Text-, Tabellen- und Zeitreihendaten. AutoGluon bietet eine End-to-End-Pipeline für automatisiertes maschinelles Lernen (AutoML) für Anfänger bis hin zu erfahrenen ML-Entwicklern und ist damit die genaueste und benutzerfreundlichste vollautomatische Lösung. Wir nutzen die kostenlose Amazon SageMaker Studio Lab Dienst für diese Demonstration.

Einführung in AutoGluon-Zeitreihen

AutoGluon ist eine führende Open-Source-Bibliothek für AutoML für Text-, Bild- und Tabellendaten, mit der Sie mit nur einer Codezeile hochpräzise Modelle aus Rohdaten erstellen können. Vor kurzem hat das Team daran gearbeitet, diese Fähigkeiten auf Zeitreihendaten auszudehnen, und hat ein automatisiertes Prognosemodul entwickelt, das öffentlich verfügbar ist GitHubdem „Vermischten Geschmack“. Seine autogluon.forecasting Das Modul verarbeitet automatisch Zeitreihen-Rohdaten in das geeignete Format und trainiert und optimiert dann verschiedene hochmoderne Deep-Learning-Modelle, um genaue Prognosen zu erstellen. In diesem Beitrag demonstrieren wir die Verwendung autogluon.forecasting und wenden Sie es auf Kaltstart-Prognoseaufgaben an.

Lösungsüberblick

Da AutoGluon ein Open-Source-Python-Paket ist, können Sie diese Lösung implementieren örtlich auf Ihrem Laptop oder auf Amazon SageMaker Studio Lab. Wir gehen durch die folgenden Schritte:

Richten Sie AutoGluon für Amazon SageMaker Studio Lab ein.
Bereiten Sie den Datensatz vor.
Definieren Sie Trainingsparameter mit AutoGluon.
Trainieren Sie eine Kaltstart-Prognose-Engine für die Zeitreihen-Prognose.
Visualisieren Sie Vorhersagen für Kaltstartprognosen.

Die Hauptannahme der Kaltstartprognose ist, dass Elemente mit ähnlichen Merkmalen ähnliche Zeitreihenverläufe haben sollten, was es der Kaltstartprognose ermöglicht, Vorhersagen für Elemente ohne historische Daten zu treffen, wie in der folgenden Abbildung dargestellt.

In unserer exemplarischen Vorgehensweise verwenden wir einen synthetischen Datensatz basierend auf dem Stromverbrauch, der aus den stündlichen Zeitreihen für 370 Elemente mit jeweils einem besteht item_id von 0–369. Innerhalb dieses synthetischen Datensatzes, jeder item_id ist auch mit einem statischen Merkmal verknüpft (ein Merkmal, das sich im Laufe der Zeit nicht ändert). Wir trainieren u DeepAR modellieren Sie mit AutoGluon, um das typische Verhalten ähnlicher Elemente zu lernen, und übertragen Sie dieses Verhalten, um Vorhersagen für neue Elemente zu treffen (item_id 370–373), die keine historischen Zeitreihendaten haben. Obwohl wir den Kaltstart-Vorhersageansatz mit nur einem statischen Merkmal demonstrieren, sind in der Praxis informative und hochwertige statische Merkmale der Schlüssel für eine gute Kaltstart-Vorhersage.

Das folgende Diagramm bietet einen allgemeinen Überblick über unsere Lösung. Der Open-Source-Code ist auf der verfügbar GitHub Repo.

Voraussetzungen:

Für diese exemplarische Vorgehensweise sollten Sie die folgenden Voraussetzungen erfüllen:

An Amazon SageMaker Studio Lab-Konto
GitHub Kontozugriff

Melden Sie sich bei Ihrem Amazon SageMaker Studio Lab-Konto an und richten Sie die Umgebung über das Terminal ein:

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

Diese Anweisungen sollten auch auf Ihrem Laptop funktionieren, wenn Sie keinen Zugriff auf Amazon SageMaker Studio Lab haben (wir empfehlen, zuerst Anaconda auf Ihrem Laptop zu installieren).

Wenn Sie die virtuelle Umgebung vollständig eingerichtet haben, starten Sie das Notebook AutoGluon-cold-start-demo.ipynb und wählen Sie die benutzerdefinierte Umgebung aus .conda-autogluon:Python Kernel.

Bereiten Sie die Zielzeitreihe und das Element-Meta-Dataset vor

Laden Sie die folgenden Datasets auf Ihre Notebook-Instance herunter, falls sie nicht enthalten sind, und speichern Sie sie unter dem Verzeichnis data/. Sie finden diese Datensätze auf unserer GitHub Repo:

Test.csv.gz
coldStartTargetData.csv
itemMetaData.csv

Führen Sie das folgende Snippet aus, um das Zielzeitreihen-Dataset in den Kernel zu laden:

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

AutoGluon-Zeitreihen erfordern die Darstellung statischer Features im numerischen Format. Dies kann durch eine Bewerbung erreicht werden LabelEncoder() auf unserer statischen Funktion type, wobei wir A=0, B=1, C=2, D=3 codieren (siehe folgenden Code). Standardmäßig leitet AutoGluon ab, dass das statische Merkmal entweder ordinal oder kategorial ist. Sie können dies auch überschreiben, indem Sie die statische Feature-Spalte in den Objekt-/String-Datentyp für kategoriale Features oder den Integer-/Float-Datentyp für ordinale Features konvertieren.

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

Richten Sie das AutoGluon-Modelltraining ein und starten Sie es

Wir müssen angeben save_path = ‘autogluon-coldstart-demo’ als Ordnername des Modellartefakts (siehe folgenden Code). Wir stellen auch unsere ein eval_metric as mittlerer absoluter prozentualer Fehler, oder ‘MAPE’ kurz gesagt, wo wir definiert haben prediction_length als 24 Std. Wenn nicht angegeben, erstellt AutoGluon standardmäßig probabilistische Prognosen und bewertet sie über die gewichteter Quantilverlust. Wir schauen nur auf die DeepAR-Modell in unserer Demo, weil wir wissen, dass der DeepAR-Algorithmus eine Kaltstartprognose per Design ermöglicht. Wir legen einen der DeepAR-Hyperparameter willkürlich fest und übergeben diesen Hyperparameter an die ForecastingPredictor().fit() Anruf. Dadurch kann AutoGluon nur in das angegebene Modell schauen. Eine vollständige Liste der einstellbaren Hyperparameter finden Sie unter gluonts.model.deepar-Paket.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

Das Training dauert 30–45 Minuten. Sie können die Modellzusammenfassung abrufen, indem Sie die folgende Funktion aufrufen:

ag_predictor.fit_summary()

Prognose für den Kaltstartartikel

Jetzt können wir Prognosen für das Kaltstartelement erstellen. Wir empfehlen jeweils mindestens fünf Reihen item_id. Daher für die item_id die weniger als fünf Beobachtungen hat, füllen wir mit NaNs aus. In unserer Demo beides item_id 370 und 372 haben null Beobachtung, ein reines Kaltstartproblem, während die anderen beiden fünf Sollwerte haben.

Laden Sie den Kaltstart-Zielzeitreihen-Datensatz mit dem folgenden Code:

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

Wir speisen die Kaltstart-Zielzeitreihe zusammen mit dem Item-Metadatensatz für den Kaltstart in unser AutoGluon-Modell ein item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

Visualisieren Sie die Vorhersagen

Wir können eine Plotfunktion erstellen, um eine Visualisierung der Kaltstartprognose zu erstellen, wie in der folgenden Grafik gezeigt.

Aufräumen

Um die Ressourcennutzung zu optimieren, sollten Sie die Laufzeit in Amazon SageMaker Studio Lab beenden, nachdem Sie das Notebook vollständig erkundet haben.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie man eine Kaltstart-Prognose-Engine mit AutoGluon AutoML für Zeitreihendaten in Amazon SageMaker Studio Lab erstellt. Für diejenigen unter Ihnen, die sich fragen, was der Unterschied zwischen ist Amazon-Prognose und AutoGluon (Zeitreihen) ist Amazon Forecast ein vollständig verwalteter und unterstützter Service, der maschinelles Lernen (ML) verwendet, um hochpräzise Prognosen zu erstellen, ohne dass vorherige ML-Erfahrung erforderlich ist. Während AutoGluon ein Open-Source-Projekt ist, das von der Community mit den neuesten Forschungsbeiträgen unterstützt wird. Wir sind ein End-to-End-Beispiel durchgegangen, um zu demonstrieren, wozu AutoGluon für Zeitreihen in der Lage ist, und haben einen Datensatz und einen Anwendungsfall bereitgestellt.

AutoGluon für Zeitreihendaten ist ein Open-Source-Python-Paket, und wir hoffen, dass dieser Beitrag Ihnen zusammen mit unserem Codebeispiel eine unkomplizierte Lösung für schwierige Kaltstart-Prognoseprobleme bietet. Sie können auf das gesamte Beispiel auf unserer zugreifen GitHub Repo. Probieren Sie es aus und teilen Sie uns Ihre Meinung mit!

Über die Autoren

Ivan Cui ist Data Scientist bei AWS Professional Services, wo er Kunden bei der Entwicklung und Bereitstellung von Lösungen mit maschinellem Lernen auf AWS unterstützt. Er hat mit Kunden aus verschiedenen Branchen zusammengearbeitet, darunter Software, Finanzen, Pharma und Gesundheitswesen. In seiner Freizeit liest er gerne, verbringt Zeit mit seiner Familie und maximiert sein Aktienportfolio.

Jonas Müller ist Senior Applied Scientist in der KI-Forschungs- und Bildungsgruppe bei AWS, wo er neue Algorithmen entwickelt, um Deep Learning zu verbessern und automatisiertes maschinelles Lernen zu entwickeln. Bevor er zu AWS kam, um ML zu demokratisieren, promovierte er am MIT Computer Science and Artificial Intelligence Lab. In seiner Freizeit erkundet er gerne die Berge und die Natur.

Wenming Ja ist Research Product Manager bei AWS AI. Er ist leidenschaftlich daran interessiert, Forschern und Unternehmenskunden dabei zu helfen, ihre Innovationen durch Open-Source- und hochmoderne Technologien für maschinelles Lernen schnell zu skalieren. Wenming verfügt über vielfältige F&E-Erfahrung von Microsoft Research, dem SQL-Engineering-Team und erfolgreichen Startups.

Zeitstempel: 4. März 2022

Zeitstempel: 30. Nov 2023

Generieren Sie synchronisierte Untertitel und Audio mit dem Amazon Polly-Untertitelgenerator

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1581387

Zeitstempel: 18. Juli 2022

Neuauflage von Plato

Enträtseln Sie das Wissen in Slack-Workspaces mit intelligenter Suche mit dem Amazon Kendra Slack-Konnektor

Passen Sie Geschäftsregeln für eine intelligente Dokumentenverarbeitung mit menschlicher Überprüfung und BI-Visualisierung an

Leistungsempfehlungen und Suche mit einem IMDb Knowledge Graph – Teil 3

Erstellen Sie mithilfe der Amazon SageMaker-Modellregistrierung einen kontoübergreifenden MLOps-Workflow

Erzielen Sie einen viermal höheren ML-Inferenzdurchsatz bei dreimal niedrigeren Kosten pro Inferenz mit Amazon EC2 G5-Instances für NLP- und CV-PyTorch-Modelle

AWS und Hugging Face arbeiten zusammen, um generative KI zugänglicher und kosteneffizienter zu machen

Bewerten Sie große Sprachmodelle hinsichtlich Qualität und Verantwortung | Amazon Web Services

Generieren Sie synchronisierte Untertitel und Audio mit dem Amazon Polly-Untertitelgenerator

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto