Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler segítségével

Az idősoros adatok széles körben jelen vannak életünkben. A részvényárak, a lakásárak, az időjárási információk és az idők során rögzített eladási adatok csak néhány példa. Ahogy a vállalkozások egyre inkább új utakat keresnek annak érdekében, hogy értelmes betekintést nyerjenek az idősoros adatokból, az adatok vizualizálásának és a kívánt átalakítások alkalmazásának képessége alapvető lépés. Az idősoros adatok azonban egyedi jellemzőkkel és árnyalatokkal rendelkeznek a többi táblázatos adathoz képest, és különleges megfontolást igényelnek. Például szabványos táblázatos vagy keresztmetszeti adatokat gyűjtenek egy adott időpontban. Ezzel szemben az idősorok adatait az idő múlásával ismételten rögzítik, és minden egymást követő adatpont a múltbeli értékeitől függ.

Mivel a legtöbb idősorelemzés a megfigyelések összefüggő halmazából gyűjtött információkra támaszkodik, a hiányzó adatok és az eredendő ritkaság csökkentheti az előrejelzések pontosságát és torzítást eredményezhet. Ezenkívül a legtöbb idősorelemzési megközelítés az adatpontok közötti egyenlő távolságra, más szóval a periodicitásra támaszkodik. Ezért az adatközök szabálytalanságainak kijavítása kritikus előfeltétel. Végül az idősorelemzés gyakran további funkciók létrehozását igényli, amelyek segíthetnek megmagyarázni a bemeneti adatok és a jövőbeli előrejelzések közötti eredendő kapcsolatot. Mindezek a tényezők megkülönböztetik az idősoros projekteket a hagyományos gépi tanulási (ML) forgatókönyvektől, és külön megközelítést igényelnek az elemzésükhöz.

Ez a bejegyzés bemutatja, hogyan kell használni Amazon SageMaker Data Wrangler idősor-transzformációk alkalmazására és az adatkészlet előkészítésére az idősorok felhasználási eseteire.

A Data Wrangler használati esetei

A Data Wrangler kód nélküli/alacsony kódú megoldást kínál az idősorelemzéshez, olyan funkciókkal, amelyek segítségével gyorsabban tisztíthatók, átalakíthatók és előkészíthetők az adatok. Lehetővé teszi az adattudósok számára, hogy idősoros adatokat készítsenek az előrejelzési modelljük bemeneti formátum követelményeinek megfelelően. Az alábbiakban felsorolunk néhány módot, amellyel ezeket a képességeket használhatja:

  • Leíró elemzés– Általában minden adattudományi projekt első lépése az adatok megértése. Amikor az idősorok adatait ábrázoljuk, magas szintű áttekintést kapunk azok mintázatairól, mint például a trendről, a szezonalitásról, a ciklusokról és a véletlenszerű változásokról. Segít eldönteni a helyes előrejelzési módszertant ezen minták pontos ábrázolásához. Az ábrázolás segíthet a kiugró értékek azonosításában is, megelőzve az irreális és pontatlan előrejelzéseket. A Data Wrangler egy szezonalitás-trend dekompozíció vizualizáció egy idősor komponenseinek ábrázolására, és egy outlier-észlelési vizualizáció kiugró értékek azonosítására.
  • Magyarázó elemzés– A többváltozós idősorok esetében a két vagy több idősor közötti kapcsolat feltárásának, azonosításának és modellezésének képessége elengedhetetlen az értelmes előrejelzések megszerzéséhez. A Csoportosít Transform in Data Wrangler több idősort hoz létre a megadott cellák adatainak csoportosításával. Ezenkívül a Data Wrangler idősorok transzformációi adott esetben lehetővé teszik további azonosítóoszlopok megadását a csoportosításhoz, lehetővé téve az összetett idősorelemzést.
  • Adat-előkészítés és szolgáltatástervezés– Az idősorok adatai ritkán vannak az idősormodellek által elvárt formátumban. Gyakran adat-előkészítést igényel a nyers adatok idősor-specifikus jellemzőkké alakítása. Az elemzés előtt érdemes ellenőrizni, hogy az idősorok adatai rendszeresen vagy egyenlő távolságban vannak-e elosztva. A felhasználási esetek előrejelzéséhez érdemes további idősor-jellemzőket is beépíteni, például autokorrelációt és statisztikai tulajdonságokat. A Data Wrangler segítségével gyorsan létrehozhat idősor-funkciókat, például késleltetési oszlopokat több késleltetési periódushoz, újramintavételezheti az adatokat több időbeli részletességre, és automatikusan kinyerheti az idősorok statisztikai tulajdonságait, hogy csak néhányat említsünk.

Megoldás áttekintése

Ez a bejegyzés azt taglalja, hogyan használhatják adattudósok és elemzők a Data Wranglert az idősorok adatainak megjelenítésére és előkészítésére. A bitcoin kriptovaluta adatkészletét használjuk kriptográfiai adatok letöltése bitcoin kereskedési részletekkel, hogy bemutassa ezeket a képességeket. Megtisztítjuk, érvényesítjük és átalakítjuk a nyers adatkészletet idősoros funkciókkal, valamint bitcoin mennyiségi ár-előrejelzéseket készítünk az átalakított adatkészlet bemeneti felhasználásával.

A bitcoin kereskedési adatok mintája 1. január 19. és november 2021. között van, 464,116 XNUMX adatponttal. Az adatkészlet attribútumai magukban foglalják az árrekord időbélyegét, a nyitó vagy első árat, amelyen az érmét egy adott napon kicserélték, azt a legmagasabb árat, amelyen az érmét az adott napon kicserélték, az utolsó árat, amelyen az érmét a nap, az adott napon átváltott mennyiség kriptovaluta értékben BTC-ben és a megfelelő USD pénznemben.

Előfeltételek

Töltse le a Bitstamp_BTCUSD_2021_minute.csv fájl a kriptográfiai adatok letöltése és töltse fel ide Amazon Simple Storage Service (Amazon S3).

Importálja a bitcoin adatkészletet a Data Wranglerbe

A Data Wrangler feldolgozási folyamatának elindításához hajtsa végre a következő lépéseket:

  1. A SageMaker Stúdió konzolon, a filé menüben válasszon Új, majd válassza ki Data Wrangler Flow.
  2. Nevezze át a folyamatot tetszés szerint.
  3. A Adatok importálása, választ Amazon S3.
  4. Töltse fel a Bitstamp_BTCUSD_2021_minute.csv fájlt az S3 vödörből.

Most megtekintheti az adatkészlet előnézetét.

  1. A Részletek panelen válassza a lehetőséget Speciális konfiguráció és törölje a kijelölést Mintavétel engedélyezése.

Ez egy viszonylag kicsi adathalmaz, így nincs szükségünk mintavételre.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.

Sikeresen elkészítette a folyamatábrát, és készen áll az átalakítási lépések hozzáadására.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Transzformációk hozzáadása

Adatátalakítások hozzáadásához válassza a mellette lévő pluszjelet Adattípusok És válasszon Adattípusok szerkesztése.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Győződjön meg arról, hogy a Data Wrangler automatikusan következtetett a megfelelő adattípusokra az adatoszlopokhoz.

Esetünkben a kikövetkeztetett adattípusok helyesek. Tegyük fel azonban, hogy az egyik adattípus helytelen volt. Könnyedén módosíthatja őket a felhasználói felületen keresztül, amint az a következő képernyőképen látható.

adattípusok szerkesztése és áttekintése

Indítsuk el az elemzést, és kezdjük el az átalakítások hozzáadását.

Adattisztítás

Először több adattisztító transzformációt hajtunk végre.

Dobja el az oszlopot

Kezdjük azzal, hogy eldobjuk a unix oszlopot, mert a date oszlopot indexként.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Vissza az adatfolyamhoz.
  2. Válassza ki a mellette lévő pluszjelet Adattípusok És válasszon Transzformáció hozzáadása.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása a ÁTALAKUL ablaktábla.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kezelése.
  5. A Átalakítás, választ Dobja el az oszlopot.
  6. A Eldobandó oszlop, választ unix.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse a lépést.

Fogantyú hiányzik

Az adatok hiánya jól ismert probléma a valós adatkészletekben. Ezért célszerű ellenőrizni a hiányzó vagy null értékek jelenlétét, és megfelelően kezelni azokat. Adatkészletünk nem tartalmaz hiányzó értékeket. De ha lenne, használnánk a Fogantyú hiányzik idősorok átalakítása a javításukhoz. A hiányzó adatok kezelésére általánosan használt stratégiák közé tartozik a hiányzó értékeket tartalmazó sorok eldobása vagy a hiányzó értékek ésszerű becslésekkel való kitöltése. Mivel az idősoros adatok időbeli adatpontok sorozatán alapulnak, a hiányzó értékek kitöltése az előnyben részesített megközelítés. A hiányzó értékek kitöltésének folyamatát ún beszámítás Az Fogantyú hiányzik idősor-transzformáció lehetővé teszi, hogy több imputációs stratégia közül válasszon.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása a ÁTALAKUL ablaktábla.
  2. Válassza a Idősorok átalakítani.
  3. A Átalakítás, Válasszon Fogantyú hiányzik.
  4. A Idősor beviteli típusa, választ Oszlop mentén.
  5. A Az értékek imputálásának módszere, választ Előre kitöltés.

A Előre kitöltés módszer a hiányzó értékeket a hiányzó értékeket megelőző nem hiányzó értékekkel helyettesíti.

kezelje a hiányzó idősorok transzformációját

Visszafelé kitöltés, Állandó érték, A leggyakoribb érték és a Interpolál más imputációs stratégiák is elérhetők a Data Wranglerben. Az interpolációs technikák a szomszédos értékekre támaszkodnak a hiányzó értékek kitöltéséhez. Az idősoros adatok gyakran mutatnak korrelációt a szomszédos értékek között, így az interpoláció hatékony kitöltési stratégia. Az interpoláció alkalmazásához használható függvényekkel kapcsolatos további részletekért lásd: pandák.DataFrame.interpolate.

Érvényesítse az időbélyeget

Az idősorelemzésben az időbélyegoszlop indexoszlopként működik, amely körül az elemzés forog. Ezért elengedhetetlen annak biztosítása, hogy az időbélyeg oszlop ne tartalmazzon érvénytelen vagy helytelenül formázott időbélyegértékeket. Mert mi használjuk a date oszlopot időbélyegző oszlopként és indexként, ellenőrizze, hogy értékei helyesen vannak formázva.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása a ÁTALAKUL ablaktábla.
  2. Válassza a Idősorok átalakítani.
  3. A Átalakítás, választani Érvényesítse az időbélyegeket.

A Érvényesítse az időbélyegeket A transzformáció lehetővé teszi annak ellenőrzését, hogy az adatkészlet időbélyegző oszlopában nincsenek-e hibás időbélyegző vagy hiányzó értékek.

  1. A Időbélyeg oszlop, választ adat.
  2. A Politika legördülő menüből válasszon Jelezze.

A Jelezze A házirend-beállítás létrehoz egy logikai oszlopot, amely jelzi, hogy az időbélyeg oszlopban szereplő érték érvényes dátum/idő formátum-e. Egyéb lehetőségek a Politika következők:

  • hiba – Hibát dob, ha az időbélyegző oszlop hiányzik vagy érvénytelen
  • Csepp – Eldobja a sort, ha az időbélyegző oszlop hiányzik vagy érvénytelen
  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Egy új logikai oszlop neve date_is_valid jött létre, vele true a helyes formátumot és a nem null bejegyzéseket jelző értékek. Adatkészletünk nem tartalmaz érvénytelen időbélyegértékeket a date oszlop. De ha igen, akkor az új logikai oszlopot használhatja ezen értékek azonosítására és javítására.

Érvényesítse az időbélyeg idősor-transzformációját

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse ezt a lépést.

Idősorok megjelenítése

Miután megtisztítottuk és ellenőriztük az adatkészletet, jobban tudjuk megjeleníteni az adatokat, hogy megértsük a különböző összetevőit.

resample

Mivel minket a napi előrejelzések érdekelnek, alakítsuk át az adatok gyakoriságát napira.

A resample A transzformáció az idősoros megfigyelések gyakoriságát egy meghatározott részletességre változtatja, és mind a fel-, mind a lemintavételezési lehetőségeket tartalmazza. A felfelé mintavétel alkalmazása növeli a megfigyelések gyakoriságát (például napiról óránkéntira), míg a lefelé történő mintavétel csökkenti a megfigyelések gyakoriságát (például óránkéntiról napira).

Mivel adatkészletünk aprólékos, használjuk a mintavételezési lehetőséget.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása.
  2. Válassza a Idősorok átalakítani.
  3. A Átalakítás, választ resample.
  4. A Timestamp, választ adat.
  5. A Frekvencia egység, választ Naptári nap.
  6. A Frekvencia mennyiség, írja be a 1-et.
  7. A Számértékek összesítésének módszere, választ jelent.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Adatkészletünk gyakorisága percről napira változott.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse ezt a lépést.

Szezonális-trendbontás

Az újramintavételezés után a transzformált sorozatot és a hozzá tartozó STL (Seasonal and Trend decomposition using LOESS) komponenseket a Szezonális-Trend-dekompozíció megjelenítés. Ez az eredeti idősorokat különálló trendekre, szezonalitásokra és maradék összetevőkre bontja, így jól megértjük az egyes minták viselkedését. Az információkat az előrejelzési problémák modellezésekor is felhasználhatjuk.

A Data Wrangler a LOESS-t, egy robusztus és sokoldalú statisztikai módszert használ a trendek és a szezonális összetevők modellezésére. A mögöttes megvalósítás polinomiális regressziót használ az idősor-összetevőkben (szezonalitás, trend és maradék) jelenlévő nemlineáris kapcsolatok becslésére.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Vissza az adatfolyamhoz.
  2. Válassza a melletti pluszjelet Lépései on Adatáramlás.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Elemzés hozzáadása.
  4. A Elemzés létrehozása ablaktábla, for Elemzés típusa, választani Idősorok.
  5. A Megjelenítés, választ Szezonális-trendbontás.
  6. A Elemzés neve, írjon be egy nevet.
  7. A Időbélyeg oszlop, választ adat.
  8. A Érték oszlop, választ Kötet USD.
  9. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Az elemzés lehetővé teszi számunkra, hogy megjelenítsük a bemeneti idősorokat és a dekomponált szezonalitást, trendet és maradékot.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megtakarítás hogy mentse az elemzést.

Aktivitáskövető szezonális-trend dekompozíció vizualizáció, négy mintát generálhatunk, amint az az előző képernyőképen látható:

  • eredeti – Az eredeti idősor újramintavételezése napi részletességgel történik.
  • tendencia – A polinomiális trend összességében negatív trendmintázattal 2021-ben, ami a csökkenést jelzi Volume USD értéket.
  • Évad – A változó oszcillációs minták által képviselt multiplikatív szezonalitás. Csökken a szezonális ingadozás, amit az oszcillációk amplitúdójának csökkenése jellemez.
  • maradó – A fennmaradó maradék vagy véletlenszerű zaj. A maradék sorozat a trend és a szezonális összetevők eltávolítása után kapott sorozat. Közelebbről szemügyre véve kiugrásokat figyelünk meg január és március, valamint április és június között, ami lehetőséget ad az ilyen konkrét események történelmi adatok alapján történő modellezésére.

Ezek a vizualizációk értékes áttekintést nyújtanak az adatkutatóknak és elemzőknek a meglévő mintákhoz, és segíthetnek a modellezési stratégia kiválasztásában. Mindazonáltal mindig bevált gyakorlat az STL-felbontás kimenetének érvényesítése a leíró elemzéssel és a tartományi szakértelemmel gyűjtött információkkal.

Összefoglalva, az eredeti sorozatvizualizációval összhangban lévő csökkenő tendenciát figyelünk meg, ami növeli az önbizalmunkat abban, hogy a trendvizualizációval közvetített információkat beépítjük a későbbi döntéshozatalba. Ezzel szemben a szezonalitás-vizualizáció olyan technikák alkalmazásával segít tájékoztatni a szezonalitás meglétéről és megszüntetésének szükségességéről, mint a differenciálás, nem ad a kívánt szintű részletes betekintést a különböző jelenlévő szezonális mintákba, így mélyebb elemzést igényel.

Funkciótervezés

Miután megértettük az adatkészletünkben található mintákat, elkezdhetjük új funkciók tervezését, amelyek célja az előrejelzési modellek pontosságának növelése.

Dátum és idő megjelenítése

Kezdjük a funkciótervezési folyamatot egyszerűbb dátum/idő funkciókkal. A dátum/idő jellemzők a következőből jönnek létre timestamp oszlopban, és optimális utat biztosítanak az adattudósok számára a funkciótervezési folyamat elindításához. Kezdjük a Dátum és idő megjelenítése idősor-transzformáció a hónap, a hónap napja, az év napja, az év hete és a negyedév jellemzőinek hozzáadásához az adatkészletünkhöz. Mivel a dátum/idő összetevőket különálló funkciókként biztosítjuk, lehetővé tesszük az ML algoritmusok számára a jelek és minták észlelését az előrejelzés pontosságának javítása érdekében.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása.
  2. Válassza a Idősorok átalakítani.
  3. A Átalakítás, választani Dátum és idő megjelenítése.
  4. A Beviteli oszlop, választ adat.
  5. A Kimeneti oszlop, belép date (ez a lépés nem kötelező).
  6. A Kimeneti mód, választ Sorrendi.
  7. A Kimeneti formátum, választ Oszlopok.
  8. A dátum/idő funkciók kibontásához válassza a lehetőséget Hónap, Nap, Az év hete, Az év napjaés Negyed.
  9. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Az adatkészlet most új, nevű oszlopokat tartalmaz date_month, date_day, date_week_of_year, date_day_of_yearés date_quarter. Az ezekből az új funkciókból nyert információk segíthetnek az adattudósoknak abban, hogy további betekintést nyerjenek az adatokból, valamint a bemeneti és kimeneti jellemzők közötti kapcsolatról.

dátum-idő idősor-átalakítást tartalmaz

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse ezt a lépést.

Kategorikus kódolás

A dátum/idő jellemzők nem korlátozódnak az egész értékekre. Dönthet úgy is, hogy bizonyos kinyert dátum/idő jellemzőket kategorikus változóknak tekint, és egyszeri kódolású jellemzőkként jeleníti meg őket, és minden oszlop bináris értékeket tartalmaz. Az újonnan létrehozott date_quarter oszlop 0-3 közötti értékeket tartalmaz, és négy bináris oszlop segítségével egy-hot kódolható. Hozzunk létre négy új bináris jellemzőt, amelyek mindegyike az év megfelelő negyedévét jelenti.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása.
  2. Válassza a Kategorikus kódolás átalakítani.
  3. A Átalakítás, választ Egyszeri kódolás.
  4. A Beviteli oszlop, választ dátum_negyed.
  5. A Kimeneti stílus, választ Oszlopok.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
  7. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad lépés hozzáadásához.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Lag funkció

Ezután hozzunk létre késleltetési funkciókat a céloszlophoz Volume USD. Az idősorelemzés késleltetési jellemzői olyan korábbi időbélyegek értékei, amelyek hasznosnak tekinthetők a jövőbeli értékek megállapításában. Segítenek azonosítani az autokorrelációt is (más néven soros korreláció). Az autokorreláció hasonló a szabályos korrelációhoz, de a sorozat értékei és a múltbeli értékek között. Ez képezi az ARIMA sorozat autoregresszív előrejelzési modelljeinek alapját.

A Data Wranglerrel Lag funkció transzformációval könnyedén létrehozhat késleltetési jellemzőket n periódus távolságra. Ezenkívül gyakran szeretnénk több késleltetési funkciót létrehozni különböző késleltetésekkel, és hagyni, hogy a modell döntse el a legjelentősebb jellemzőket. Ilyen forgatókönyv esetén a Lag funkciók A transzformáció segít több késleltetési oszlop létrehozásában egy megadott ablakméreten belül.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Vissza az adatfolyamhoz.
  2. Válassza a melletti pluszjelet Lépései on Adatáramlás.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Idősorok átalakítani.
  5. A Átalakítás, választ Lag funkciók.
  6. A Hozzon létre késleltetési funkciókat ehhez az oszlophoz, választ Kötet USD.
  7. A Időbélyeg oszlop, választ adat.
  8. A csapat, belép 7.
  9. Mivel az előző hét késleltetési érték megfigyelése érdekel bennünket, válasszunk Tartalmazza a teljes késleltetési ablakot.
  10. Ha új oszlopot szeretne létrehozni minden késleltetési értékhez, válassza a lehetőséget Lapítsa ki a kimenetet.
  11. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Hét új oszlop kerül hozzáadásra, amelyek utótagja a lag_number kulcsszó a céloszlophoz Volume USD.

Lag funkció idősor transzformáció

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse a lépést.

A gördülő ablak jellemzői

Értékes statisztikai összegzéseket is kiszámíthatunk számos értéktartományban, és bemeneti jellemzőkként beépíthetjük őket. Nézzük meg a statisztikai idősorok általános jellemzőit.

A Data Wrangler a nyílt forráskód használatával valósítja meg az automatikus idősor-funkciók kinyerési képességeit tsfresh csomag. Az idősor jellemző kivonási transzformációival automatizálhatja a jellemzők kinyerési folyamatát. Ez kiküszöböli az egyébként a jelfeldolgozó könyvtárak manuális megvalósítására fordított időt és erőfeszítést. Ehhez a bejegyzéshez a funkciókat a A gördülő ablak jellemzői átalakítani. Ez a módszer statisztikai tulajdonságokat számít ki az ablakméret által meghatározott megfigyelések halmazán.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a + Lépés hozzáadása.
  2. Válassza a Idősorok átalakítani.
  3. A Átalakítás, választ A gördülő ablak jellemzői.
  4. A Gördülő ablak jellemzők létrehozása ehhez az oszlophoz, választ Kötet USD.
  5. A Időbélyeg oszlop, választ adat.
  6. A Ablak mérete, belép 7.

Az ablak méretének megadása 7 a jellemzőket az aktuális időbélyeg értékének és az előző hét időbélyeg értékeinek kombinálásával számítja ki.

  1. választ Lelapul új oszlop létrehozásához minden egyes számított jellemzőhöz.
  2. Válassza ki a stratégiáját, mint Minimális részhalmaz.

Ez a stratégia nyolc olyan funkciót von ki, amelyek hasznosak lehetnek a későbbi elemzésekben. Egyéb stratégiák közé tartozik Hatékony részhalmaz, Egyéni részhalmazés Minden funkció. A kinyerhető szolgáltatások teljes listáját lásd: Áttekintés a kivont funkciókról.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Nyolc új oszlopot láthatunk a megadott ablakmérettel 7 nevükben, adatkészletünkhöz csatolva.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad hogy mentse a lépést.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Exportálja az adatkészletet

Átalakítottuk az idősoros adatkészletet, és készen állunk arra, hogy az átalakított adatkészletet előrejelző algoritmus bemeneteként használjuk. Az utolsó lépés az átalakított adatkészlet exportálása az Amazon S3-ba. A Data Wranglerben választhat Exportálási lépés hogy automatikusan generáljon egy Jupyter notebookot Amazon SageMaker Processing kóddal az átalakított adatkészlet feldolgozásához és S3 tárolóba exportálásához. Mivel azonban adatkészletünk valamivel több mint 300 rekordot tartalmaz, használjuk ki a Adatok exportálása lehetőség a Adja hozzá az átalakítást nézetben, hogy az átalakított adatkészletet közvetlenül az Amazon S3-ba exportálja a Data Wranglerből.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

  1. A S3 hely, választ böngésző és válassza ki az S3 vödröt.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Most, hogy sikeresen átalakítottuk a bitcoin adatkészletet, használhatjuk Amazon előrejelzés bitcoin előrejelzések generálásához.

Tisztítsuk meg

Ha végzett ezzel a használati esettel, tisztítsa meg a létrehozott erőforrásokat, hogy elkerülje a további költségeket. A Data Wrangler esetében leállíthatja az alapul szolgáló példányt, ha elkészült. Hivatkozni Állítsa le a Data Wranglert dokumentációt a részletekért. Alternatív megoldásként folytathatja rész 2 sorozatból, hogy ezt az adatkészletet használja előrejelzéshez.

Összegzésként

Ez a bejegyzés bemutatta, hogyan használható a Data Wrangler az idősorelemzés egyszerűsítésére és felgyorsítására a beépített idősor-képességek segítségével. Megvizsgáltuk, hogyan tudják az adatkutatók egyszerűen és interaktív módon megtisztítani, formázni, érvényesíteni és átalakítani az idősorok adatait a kívánt formátumba az értelmes elemzés érdekében. Azt is megvizsgáltuk, hogyan gazdagíthatja idősorelemzését a Data Wrangler segítségével átfogó statisztikai jellemzők hozzáadásával. Ha többet szeretne megtudni a Data Wrangler idősor-transzformációiról, lásd: Adatok átalakítása.


A szerzőről

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Roop Bains az AWS megoldástervezője, aki az AI/ML-re összpontosít. Szenvedélyesen segíti ügyfeleit az innovációban és üzleti céljaik elérésében a mesterséges intelligencia és a gépi tanulás segítségével. Szabadidejében Roop szeret olvasni és túrázni.

Készítsen idősoros adatokat az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Nyikita Ivkin az Amazon SageMaker Data Wrangler alkalmazott tudósa.

Időbélyeg:

Még több AWS gépi tanulás