Build A Cold Start Time Series Forecasting Engine Using AutoGluon

Ponovno objavil Platon

Spremljevalci: 0

Ne glede na to, ali učinkoviteje razporejate vire za spletni promet, napovedujete povpraševanje bolnikov po kadrovskih potrebah ali predvidevate prodajo izdelkov podjetja, je napovedovanje bistveno orodje v številnih podjetjih. En poseben primer uporabe, znan kot napovedovanje hladnega zagona, gradi napovedi za časovno vrsto, ki ima malo ali nič obstoječih preteklih podatkov, kot je nov izdelek, ki je pravkar vstopil na trg v maloprodajni industriji. Tradicionalne metode napovedovanja časovnih vrst, kot je avtoregresivno integrirano drseče povprečje (ARIMA) ali eksponentno glajenje (ES), se močno zanašajo na pretekle časovne vrste vsakega posameznega izdelka in zato niso učinkovite za napovedovanje hladnega zagona.

V tej objavi prikazujemo, kako zgraditi motor za napovedovanje hladnega zagona z uporabo AutoGluon AutoML za napovedovanje časovnih vrst, odprtokodni paket Python za avtomatizacijo strojnega učenja (ML) na slikovnih, besedilnih, tabelaričnih in časovnih vrstah podatkov. AutoGluon ponuja cevovod avtomatiziranega strojnega učenja (AutoML) od konca do konca za začetnike do izkušenih razvijalcev ML, zaradi česar je najbolj natančna in popolnoma avtomatizirana rešitev, enostavna za uporabo. Uporabljamo brezplačno Amazon SageMaker Studio Lab storitev za to predstavitev.

Uvod v časovno vrsto AutoGluon

AutoGluon je vodilna odprtokodna knjižnica za AutoML za besedilne, slikovne in tabelarične podatke, ki vam omogoča izdelavo zelo natančnih modelov iz neobdelanih podatkov s samo eno vrstico kode. Nedavno si je skupina prizadevala razširiti te zmožnosti na podatke časovnih vrst in je razvila avtomatiziran modul za napovedovanje, ki je javno dostopen na GitHub. autogluon.forecasting Modul samodejno obdeluje neobdelane podatke časovnih vrst v ustrezno obliko ter nato usposablja in prilagaja različne najsodobnejše modele globokega učenja za izdelavo natančnih napovedi. V tej objavi prikazujemo, kako uporabljati autogluon.forecasting in ga uporabite za naloge napovedovanja hladnega zagona.

Pregled rešitev

Ker je AutoGluon odprtokodni paket Python, lahko implementirate to rešitev lokalno na prenosnem računalniku ali v Amazon SageMaker Studio Lab. Sprehodimo se skozi naslednje korake:

Nastavite AutoGluon za Amazon SageMaker Studio Lab.
Pripravite nabor podatkov.
Določite parametre vadbe s pomočjo AutoGluon.
Usposobite mehanizem za napovedovanje hladnega zagona za napovedovanje časovnih vrst.
Vizualizirajte napovedi napovedovanja hladnega zagona.

Ključna predpostavka napovedovanja hladnega zagona je, da bi morali imeti elementi s podobnimi značilnostmi podobne trajektorije časovnih vrst, kar omogoča napovedovanje hladnega zagona za napovedovanje elementov brez zgodovinskih podatkov, kot je prikazano na naslednji sliki.

V našem pregledu uporabljamo sintetični nabor podatkov, ki temelji na porabi električne energije in je sestavljen iz urnih časovnih vrst za 370 elementov, od katerih ima vsak item_id od 0–369. V tem sintetičnem naboru podatkov vsak item_id je povezana tudi s statično značilnostjo (značilnostjo, ki se s časom ne spremeni). Usposabljamo a DeepAR modelirajte z uporabo AutoGluona, da se naučite tipičnega vedenja podobnih elementov in prenesete takšno vedenje, da naredite napovedi za nove elemente (item_id 370–373), ki nimajo zgodovinskih podatkov o časovni vrsti. Čeprav prikazujemo pristop napovedovanja hladnega zagona s samo eno statično značilnostjo, je v praksi imeti informativne in visokokakovostne statične značilnosti ključ do dobre napovedi hladnega zagona.

Naslednji diagram ponuja pregled naše rešitve na visoki ravni. Odprtokodna koda je na voljo na GitHub repo.

Predpogoji

Za ta korak morate imeti naslednje predpogoje:

An Račun Amazon SageMaker Studio Lab
GitHub dostop do računa

Prijavite se v svoj račun Amazon SageMaker Studio Lab in s terminalom nastavite okolje:

cd sagemaker-studiolab-notebooks/ git clone https://github.com/whosivan/amazon-sagemaker-studio-lab-cold-start-forecasting-using-autogluon
conda env create -f autogluon.yml
conda activate autogluon
git clone https://github.com/yx1215/autogluon.git
cd autogluon/
git checkout --track origin/add_forecasting_predictor

Ta navodila bi morala delovati tudi na vašem prenosniku, če nimate dostopa do Amazon SageMaker Studio Lab (priporočamo, da najprej namestite Anacondo na prenosnik).

Ko imate navidezno okolje v celoti nastavljeno, zaženite prenosni računalnik AutoGluon-cold-start-demo.ipynb in izberite okolje po meri .conda-autogluon:Python jedro.

Pripravite ciljno časovno vrsto in nabor metapodatkov postavke

Prenesite naslednje nabore podatkov v svoj primerek prenosnega računalnika, če niso vključeni, in jih shranite v imenik data/. Te zbirke podatkov najdete na našem GitHub repo:

Test.csv.gz
coldStartTargetData.csv
itemMetaData.csv

Zaženite naslednji delček, da naložite nabor podatkov ciljne časovne vrste v jedro:

zipLocalFilePath = "data/test.csv.gz"
localFilePath = "data/test.csv"
util.extract_gz(zipLocalFilePath, localFilePath) tdf = pd.read_csv(zipLocalFilePath, dtype = object)
tdf['target_value'] = tdf['target_value'].astype('float')
tdf.head()

Časovna serija AutoGluon zahteva, da so statične značilnosti predstavljene v numerični obliki. To je mogoče doseči z uporabo LabelEncoder() na naši statični funkciji type, kjer kodiramo A=0, B=1, C=2, D=3 (glejte naslednjo kodo). AutoGluon privzeto sklepa, da je statična značilnost ordinalna ali kategorična. To lahko tudi prepišete tako, da stolpec statične funkcije pretvorite v podatkovni tip objekt/niz za kategorične funkcije ali podatkovni tip celo število/plavajoče za ordinalne funkcije.

localItemMetaDataFilePath = "data/itemMetaData.csv"
imdf = pd.read_csv(localItemMetaDataFilePath, dtype = object) labelencoder = LabelEncoder()
imdf['type'] = labelencoder.fit_transform(imdf['type']) imdf_without_coldstart_item['type'] = imdf_without_coldstart_item['type'].astype(str) imdf_without_coldstart_item = imdf[imdf.item_id.isin(tdf.item_id.tolist())]
imdf_without_coldstart_item.to_csv('data/itemMetaDatawithoutColdstart.csv', index=False) imdf_with_coldstart_item = imdf[~imdf.item_id.isin(tdf.item_id.tolist())]
imdf_with_coldstart_item.to_csv('data/itemMetaDataOnlyColdstart.csv', index=False)

Nastavite in začnite usposabljanje modela AutoGluon

Navesti moramo save_path = ‘autogluon-coldstart-demo’ kot ime mape artefakta modela (glejte naslednjo kodo). Postavili smo tudi svoje eval_metric as povprečna absolutna odstotna napakaali ‘MAPE’ na kratko, kjer smo definirali prediction_length kot 24 ur. Če ni določeno, AutoGluon privzeto ustvari verjetnostne napovedi in jih oceni prek utežena kvantilna izguba. Gledamo le na Model DeepAR v naši predstavitvi, ker vemo, da algoritem DeepAR omogoča načrtno napovedovanje hladnega zagona. Poljubno nastavimo enega od hiperparametrov DeepAR in ta hiperparameter posredujemo v ForecastingPredictor().fit() klic. To omogoča AutoGluonu, da pogleda samo določen model. Za celoten seznam nastavljivih hiperparametrov glejte gluonts.model.deepar paket.

save_path = 'autogluon-coldstart-demo'
eval_metric = 'MAPE'
deepar_params = { "scaling":True
} ag_predictor = ForecastingPredictor(path=save_path, eval_metric=eval_metric).fit(tdf, static_features = imdf_without_coldstart_item,
prediction_length=24, #how far out in the future we wish to forecast index_column="item_id", target_column="target_value", time_column="timestamp",
quantiles=[0.1, 0.5, 0.9], hyperparameters={"DeepAR": deepar_params})

Vadba traja 30–45 minut. Povzetek modela lahko dobite tako, da pokličete naslednjo funkcijo:

ag_predictor.fit_summary()

Napoved za postavko hladnega zagona

Zdaj smo pripravljeni na ustvarjanje napovedi za element hladnega zagona. Priporočamo, da imate za vsako vsaj pet vrstic item_id. Zato za item_id ki ima manj kot pet opazovanj, izpolnimo z NaN. V naši predstavitvi oboje item_id 370 in 372 nimata opazovanja nič, čisti problem pri hladnem zagonu, medtem ko imata druga dva pet ciljnih vrednosti.

Naložite nabor podatkov časovne vrste cilja hladnega zagona z naslednjo kodo:

localColdStartDataFilePath = "data/coldStartTargetData.csv"
cstdf = pd.read_csv(localColdStartDataFilePath, dtype = object)
cstdf.head(20)

V naš model AutoGluon vnesemo ciljno časovno vrsto hladnega zagona, skupaj z metapodatkovnim nizom postavk za hladni zagon item_id:

cold_start_prediction = ag_predictor.predict(cstdf, static_features=imdf_with_coldstart_item)

Vizualizirajte napovedi

Ustvarimo lahko funkcijo za izris, da ustvarimo vizualizacijo napovedi hladnega zagona, kot je prikazano v naslednjem grafu.

Čiščenje

Če želite optimizirati uporabo virov, razmislite o zaustavitvi izvajalnega časa v Amazon SageMaker Studio Lab, potem ko ste v celoti raziskali prenosni računalnik.

zaključek

V tej objavi smo pokazali, kako zgraditi mehanizem za napovedovanje hladnega zagona z uporabo AutoGluon AutoML za podatke časovnih vrst v Amazon SageMaker Studio Lab. Za tiste, ki se sprašujete, kakšna je razlika med Amazonska napoved in AutoGluon (časovna vrsta), je Amazon Forecast v celoti upravljana in podprta storitev, ki uporablja strojno učenje (ML) za ustvarjanje zelo natančnih napovedi, ne da bi zahtevala predhodne izkušnje z ML. Medtem ko je AutoGluon odprtokodni projekt, ki ga skupnost podpira z najnovejšimi raziskovalnimi prispevki. Sprehodili smo se skozi primer od konca do konca, da pokažemo, česa je sposoben AutoGluon for time series, ter podali nabor podatkov in primer uporabe.

AutoGluon za podatke časovnih vrst je odprtokodni paket Python in upamo, da vam ta objava skupaj z našim primerom kode ponuja preprosto rešitev za reševanje zahtevnih težav pri napovedovanju hladnega zagona. Do celotnega primera lahko dostopate na našem GitHub repo. Preizkusite in nam sporočite, kaj mislite!

O avtorjih

Ivan Cui je Data Scientist pri AWS Professional Services, kjer strankam pomaga graditi in uvajati rešitve z uporabo strojnega učenja na AWS. Delal je s strankami v različnih panogah, vključno s programsko opremo, financami, farmacijo in zdravstvenim varstvom. V prostem času uživa v branju, preživljanju časa z družino in povečanju svojega portfelja delnic.

Jonas Mueller je višji aplikativni znanstvenik v skupini za raziskave in izobraževanje AI pri AWS, kjer razvija nove algoritme za izboljšanje globokega učenja in razvoj avtomatiziranega strojnega učenja. Preden se je pridružil AWS, da bi demokratiziral ML, je doktoriral na MIT Computer Science and Artificial Intelligence Lab. V prostem času rad raziskuje gore in naravo.

Wenming Ye je raziskovalni produktni vodja pri AWS AI. Strastno želi pomagati raziskovalcem in poslovnim strankam pri hitrem povečanju njihovih inovacij z odprtokodno in najsodobnejšo tehnologijo strojnega učenja. Wenming ima raznolike izkušnje z raziskavami in razvojem Microsoftove raziskave, inženirske ekipe SQL in uspešnih startupov.

Časovni žig: Marec 4, 2022

Časovni žig: November 30, 2023

Ustvarite sinhronizirane podnapise in zvok z generatorjem podnapisov Amazon Polly

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1581387

Časovni žig: Julij 18, 2022

Ponovno objavil Platon

Razkrijte znanje v delovnih prostorih Slack z inteligentnim iskanjem s priključkom Amazon Kendra Slack

Prilagodite poslovna pravila za inteligentno obdelavo dokumentov s človeškim pregledom in vizualizacijo BI

Priporočila za moč in iskanje z uporabo grafikona znanja IMDb – 3. del

Zgradite potek dela MLOps za več računov z uporabo registra modelov Amazon SageMaker

Dosezite štirikrat večjo prepustnost sklepanja ML pri trikrat nižji ceni na sklepanje z instancami Amazon EC2 G5 za modele NLP in CV PyTorch

AWS in Hugging Face sodelujeta, da naredita generativno umetno inteligenco bolj dostopno in stroškovno učinkovito

Ocenite velike jezikovne modele glede kakovosti in odgovornosti | Spletne storitve Amazon

Ustvarite sinhronizirane podnapise in zvok z generatorjem podnapisov Amazon Polly

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun