Build A Cold Start Time Series Forecasting Engine Using AutoGluon

Újra kiadta Platón

Követő: 0

Akár hatékonyabban osztja el az erőforrásokat a webes forgalomhoz, akár előre jelezheti a betegigényeket a munkaerőigényekhez, akár egy vállalat termékeinek értékesítését tervezi, az előrejelzés számos vállalkozás számára elengedhetetlen eszköz. Egy különleges használati eset, az úgynevezett hidegindítás előrejelzése, előrejelzéseket készít egy olyan idősorra, amelyhez kevés vagy egyáltalán nem tartozik meglévő történeti adat, például egy új termékhez, amely most lépett piacra a kiskereskedelmi ágazatban. A hagyományos idősoros előrejelzési módszerek, például az autoregresszív integrált mozgóátlag (ARIMA) vagy az exponenciális simítás (ES) nagymértékben támaszkodnak az egyes termékek történeti idősoraira, ezért nem hatékonyak a hidegindítási előrejelzéshez.

Ebben a bejegyzésben bemutatjuk, hogyan készítsünk hidegindításos előrejelző motort AutoGluon AutoML az idősoros előrejelzéshez, egy nyílt forráskódú Python-csomag a gépi tanulás (ML) automatizálására kép-, szöveg-, táblázat- és idősor-adatokon. Az AutoGluon teljes körű automatizált gépi tanulási (AutoML) folyamatot biztosít a kezdőktől a tapasztalt ML-fejlesztőkig, így ez a legpontosabb és legkönnyebben használható, teljesen automatizált megoldás. Használjuk az ingyenes Amazon SageMaker Studio Lab szolgáltatás ehhez a bemutatóhoz.

Az AutoGluon idősorok bemutatása

AutoGluon az AutoML vezető nyílt forráskódú könyvtára szöveges, képi és táblázatos adatokhoz, lehetővé téve, hogy rendkívül pontos modelleket állítson elő nyers adatokból egyetlen kódsor segítségével. A csapat a közelmúltban azon dolgozik, hogy ezeket a képességeket kiterjessze az idősoros adatokra, és kifejlesztett egy automatizált előrejelző modult, amely nyilvánosan elérhető GitHub Az autogluon.forecasting modul automatikusan feldolgozza a nyers idősoradatokat a megfelelő formátumba, majd betanítja és hangolja a különböző korszerű mélytanulási modelleket a pontos előrejelzések elkészítéséhez. Ebben a bejegyzésben bemutatjuk, hogyan kell használni autogluon.forecasting és alkalmazza hidegindításos előrejelzési feladatokra.

Megoldás áttekintése

Mivel az AutoGluon egy nyílt forráskódú Python-csomag, megvalósíthatja ezt a megoldást helyileg laptopján vagy az Amazon SageMaker Studio Labban. A következő lépéseket járjuk végig:

Állítsa be az AutoGluon szolgáltatást az Amazon SageMaker Studio Lab számára.
Készítse elő az adatkészletet.
Határozza meg az edzési paramétereket az AutoGluon segítségével.
Tanítson meg egy hidegindításos előrejelző motort az idősoros előrejelzéshez.
Képzelje el a hidegindítási előrejelzéseket.

A hidegindítási előrejelzés fő feltételezése az, hogy a hasonló jellemzőkkel rendelkező tételeknek hasonló idősoros pályákkal kell rendelkezniük, ami lehetővé teszi, hogy a hidegindítási előrejelzés a korábbi adatok nélküli tételekre vonatkozóan előrejelzéseket készítsen, amint az a következő ábrán látható.

Áttekintésünkben egy szintetikus villamosenergia-fogyasztáson alapuló adatkészletet használunk, amely 370 tétel óránkénti idősoraiból áll, mindegyik egy-egy item_id 0-369 között. Ezen a szintetikus adatkészleten belül mindegyik item_id egy statikus tulajdonsághoz is kapcsolódik (egy olyan tulajdonság, amely az idő múlásával nem változik). Edzünk a DeepAR Az AutoGluon segítségével modellezzen a hasonló elemek tipikus viselkedését, és ezt a viselkedést átadja, hogy előrejelzéseket készítsen új elemekről (item_id 370–373), amelyek nem rendelkeznek történelmi idősor adatokkal. Bár a hidegindításos előrejelzési megközelítést csak egy statikus jellemzővel mutatjuk be, a gyakorlatban az informatív és jó minőségű statikus jellemzők a kulcsa a jó hidegindítási előrejelzésnek.

Az alábbi ábra magas szintű áttekintést nyújt megoldásunkról. A nyílt forráskódú kód elérhető a GitHub repo.

Előfeltételek

Ehhez az áttekintéshez a következő előfeltételekkel kell rendelkeznie:

An Amazon SageMaker Studio Lab fiók
GitHub fiók hozzáférés

Jelentkezzen be Amazon SageMaker Studio Lab fiókjába, és állítsa be a környezetet a terminál segítségével:

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

Ezeknek az utasításoknak a laptopjáról is működniük kell, ha nem fér hozzá az Amazon SageMaker Studio Labhoz (javasoljuk, hogy először telepítse az Anacondát a laptopjára).

Ha teljesen beállította a virtuális környezetet, indítsa el a notebookot AutoGluon-cold-start-demo.ipynb és válassza ki az egyéni környezetet .conda-autogluon:Python kernel.

Készítse elő a cél idősort és a cikk metaadatkészletét

Töltse le a következő adatkészleteket a jegyzetfüzet-példányára, ha nincsenek benne, és mentse őket a könyvtárba data/. Ezeket az adatkészleteket megtalálja nálunk GitHub repo:

Teszt.csv.gz
coldStartTargetData.csv
itemMetaData.csv

Futtassa a következő kódrészletet a cél idősor-adatkészlet kernelbe való betöltéséhez:

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

Az AutoGluon idősorokhoz a statikus jellemzőket numerikus formátumban kell ábrázolni. Ezt pályázat útján lehet elérni LabelEncoder() statikus jellemzőnkre type, ahol A=0, B=1, C=2, D=3 kódolunk (lásd a következő kódot). Alapértelmezés szerint az AutoGluon a statikus jellemzőt sorszámúnak vagy kategorikusnak számítja. Ezt úgy is felülírhatja, hogy a statikus jellemzőoszlopot objektum/karakterlánc adattípussá konvertálja kategorikus jellemzők esetén, vagy egész/lebegő adattípussá sorszámú jellemzők esetén.

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

Állítsa be és indítsa el az AutoGluon modell képzését

Meg kell határoznunk save_path = ‘autogluon-coldstart-demo’ mint a modell műtermékmappa neve (lásd a következő kódot). Be is állítottuk a sajátunkat eval_metric as átlagos abszolút százalékos hibavagy ‘MAPE’ röviden, ahol meghatároztuk prediction_length mint 24 óra. Ha nincs megadva, az AutoGluon alapértelmezés szerint valószínűségi előrejelzéseket készít, és pontozza azokat a következőn keresztül súlyozott kvantilis veszteség. Csak a DeepAR modell demónkban, mert tudjuk, hogy a DeepAR algoritmus lehetővé teszi a hidegindításos előrejelzést. Az egyik DeepAR hiperparamétert tetszőlegesen beállítjuk, és ezt a hiperparamétert átadjuk a ForecastingPredictor().fit() hívás. Ez lehetővé teszi, hogy az AutoGluon csak a megadott modellbe nézzen. A hangolható hiperparaméterek teljes listáját lásd: gluonts.model.deepar csomag.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

Az edzés 30-45 percig tart. A modell összefoglalóját a következő függvény meghívásával kaphatja meg:

ag_predictor.fit_summary()

Előrejelzés a hidegindítási tételről

Most készen állunk arra, hogy előrejelzéseket generáljunk a hidegindítási tételhez. Javasoljuk, hogy mindegyikhez legyen legalább öt sor item_id. Ezért a item_id amelynek ötnél kevesebb megfigyelése van, NaN-ekkel töltjük ki. A demónkban mindkettő item_id A 370-es és a 372-esnél nulla megfigyelés, tiszta hidegindítási probléma, míg a másik kettőnek öt célértéke van.

Töltse be a hidegindítási cél idősor adatkészletét a következő kóddal:

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

A hidegindítási célidősort betápláljuk az AutoGluon modellünkbe, valamint a hidegindítás elem metaadatkészletét item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

Vizualizálja az előrejelzéseket

Létrehozhatunk egy ábrázoló függvényt, amely vizualizációt generál a hidegindítási előrejelzésről, amint az a következő grafikonon látható.

Tisztítsuk meg

Az erőforrás-felhasználás optimalizálása érdekében fontolja meg a futási idő leállítását az Amazon SageMaker Studio Labban, miután teljes mértékben felfedezte a notebookot.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet hidegindítású előrejelző motort felépíteni az AutoGluon AutoML segítségével idősoradatokhoz az Amazon SageMaker Studio Labon. Azoknak, akik kíváncsiak a különbségre Amazon előrejelzés és az AutoGluon (idősor), az Amazon Forecast egy teljesen felügyelt és támogatott szolgáltatás, amely gépi tanulást (ML) használ, hogy rendkívül pontos előrejelzéseket állítson elő anélkül, hogy előzetes ML-tapasztalatot igényelne. Míg az AutoGluon egy nyílt forráskódú projekt, amelyet a közösség a legújabb kutatási hozzájárulásokkal támogat. Végigjártunk egy példát, hogy bemutassuk, mire képes az AutoGluon az idősorokhoz, és megadtuk az adatkészletet és a használati esetet.

Az AutoGluon az idősoros adatokhoz egy nyílt forráskódú Python-csomag, és reméljük, hogy ez a bejegyzés a kódpéldánkkal együtt egyértelmű megoldást ad a hidegindítási előrejelzés kihívásainak kezelésére. A teljes példát a mi oldalunkon érheti el GitHub repo. Próbálja ki, és ossza meg velünk, mit gondol!

A szerzőkről

Ivan Cui az AWS Professional Services adattudósa, ahol segít az ügyfeleknek az AWS gépi tanulást használó megoldások létrehozásában és üzembe helyezésében. Különféle iparágakban dolgozott ügyfelekkel, beleértve a szoftvereket, a pénzügyeket, a gyógyszerészetet és az egészségügyet. Szabadidejében szívesen olvas, a családjával tölt időt, és maximalizálja részvényportfólióját.

Jonas Mueller az AWS mesterséges intelligencia kutatási és oktatási csoportjának vezető alkalmazott tudósa, ahol új algoritmusokat fejleszt a mély tanulás javítása és az automatizált gépi tanulás fejlesztése érdekében. Mielőtt csatlakozott az AWS-hez, hogy demokratizálja az ML-t, doktori fokozatot szerzett az MIT Számítástechnikai és Mesterséges Intelligencia Laboratóriumában. Szabadidejében szívesen fedezi fel a hegyeket és a szabadban.

Wenming Ye az AWS AI kutatási termékmenedzsere. Szenvedélyes célja, hogy segítse a kutatókat és a vállalati ügyfeleket innovációik gyors skálázásához a nyílt forráskódú és a legkorszerűbb gépi tanulási technológia révén. Wenming sokrétű K+F tapasztalattal rendelkezik a Microsoft Researchtől, az SQL mérnöki csapattól és a sikeres startupoktól.

Időbélyeg: Március 4, 2022

Időbélyeg: 11. október 2023.

Újra kiadta Platón

Bundesliga mérkőzés tényszerű nyomáskezelés: A játékosok teljesítményének értékelése nagy nyomású helyzetekben az AWS-en

Népszerűsítsen keresési tartalmat az Amazon Kendra kiemelt találatai segítségével

Inkrementális edzés az Amazon SageMaker JumpStart segítségével

Észleljen mintákat a szöveges adatokban az Amazon SageMaker Data Wrangler segítségével

Dokumentumérvényesítés és csalásfelderítés automatizálása a jelzálog-jegyzési folyamatban az AWS AI-szolgáltatások segítségével: 1. rész | Amazon webszolgáltatások

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók