Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler

Dane szeregów czasowych są powszechnie obecne w naszym życiu. Ceny akcji, ceny domów, informacje o pogodzie i dane dotyczące sprzedaży rejestrowane w czasie to tylko kilka przykładów. Ponieważ firmy coraz częściej szukają nowych sposobów uzyskiwania znaczących wniosków z danych szeregów czasowych, podstawowym krokiem jest umiejętność wizualizacji danych i stosowania pożądanych przekształceń. Jednakże dane szeregów czasowych mają unikalne cechy i niuanse w porównaniu z innymi rodzajami danych tabelarycznych i wymagają specjalnego rozważenia. Na przykład standardowe dane tabelaryczne lub przekrojowe są gromadzone w określonym momencie. Natomiast dane szeregów czasowych są przechwytywane wielokrotnie w czasie, a każdy kolejny punkt danych zależy od jego przeszłych wartości.

Ponieważ większość analiz szeregów czasowych opiera się na informacjach zebranych w ramach ciągłego zestawu obserwacji, brakujące dane i nieodłączna rzadkość mogą zmniejszyć dokładność prognoz i wprowadzić błąd. Ponadto większość podejść do analizy szeregów czasowych opiera się na równych odstępach między punktami danych, innymi słowy, na okresowości. Dlatego możliwość naprawienia nieprawidłowości w odstępach danych jest krytycznym warunkiem wstępnym. Wreszcie analiza szeregów czasowych często wymaga stworzenia dodatkowych funkcji, które mogą pomóc w wyjaśnieniu nieodłącznego związku między danymi wejściowymi a przewidywaniami na przyszłość. Wszystkie te czynniki odróżniają projekty szeregów czasowych od tradycyjnych scenariuszy uczenia maszynowego (ML) i wymagają odrębnego podejścia do ich analizy.

W tym poście opisano, jak używać Pogromca danych Amazon SageMaker aby zastosować przekształcenia szeregów czasowych i przygotować zbiór danych na przypadki użycia szeregów czasowych.

Przypadki użycia Data Wranglera

Data Wrangler zapewnia rozwiązanie do analizy szeregów czasowych niewymagające kodu lub z małą ilością kodu, wyposażone w funkcje umożliwiające szybsze czyszczenie, przekształcanie i przygotowywanie danych. Umożliwia także analitykom danych przygotowywanie danych szeregów czasowych zgodnie z wymaganiami dotyczącymi formatu wejściowego modelu prognozowania. Oto kilka sposobów wykorzystania tych możliwości:

  • Analiza opisowa– Zwykle pierwszym krokiem w każdym projekcie związanym z analizą danych jest zrozumienie danych. Kiedy wykreślamy dane szeregów czasowych, uzyskujemy ogólny przegląd ich wzorców, takich jak trend, sezonowość, cykle i losowe odchylenia. Pomaga nam wybrać właściwą metodologię prognozowania w celu dokładnego przedstawienia tych wzorców. Wykresy mogą również pomóc w identyfikacji wartości odstających, zapobiegając tworzeniu nierealistycznych i niedokładnych prognoz. Data Wrangler jest wyposażony w wizualizacja rozkładu trendu sezonowego do reprezentowania składników szeregu czasowego oraz wizualizacja wykrywania wartości odstających zidentyfikować wartości odstające.
  • Analiza wyjaśniająca– W przypadku szeregów czasowych zawierających wiele zmiennych umiejętność badania, identyfikowania i modelowania relacji między dwoma lub większą liczbą szeregów czasowych jest niezbędna do uzyskania znaczących prognoz. The Grupuj według transform in Data Wrangler tworzy wiele szeregów czasowych, grupując dane dla określonych komórek. Dodatkowo, w stosownych przypadkach, transformacje szeregów czasowych Data Wrangler umożliwiają określenie dodatkowych kolumn identyfikatorów do grupowania, umożliwiając złożoną analizę szeregów czasowych.
  • Przygotowanie danych i inżynieria funkcji– Dane szeregów czasowych rzadko mają format oczekiwany przez modele szeregów czasowych. Często wymaga przygotowania danych w celu przekształcenia surowych danych w funkcje specyficzne dla szeregów czasowych. Przed analizą warto sprawdzić, czy dane szeregów czasowych są regularnie lub w równych odstępach. Do prognozowania przypadków użycia można także uwzględnić dodatkowe cechy szeregów czasowych, takie jak autokorelacja i właściwości statystyczne. Dzięki Data Wrangler możesz szybko tworzyć funkcje szeregów czasowych, takie jak kolumny opóźnień dla wielu okresów opóźnień, ponownie próbkować dane do wielokrotnej szczegółowości czasowej i automatycznie wyodrębniać właściwości statystyczne szeregów czasowych, żeby wymienić tylko kilka możliwości.

Omówienie rozwiązania

W tym poście opisano, w jaki sposób badacze i analitycy danych mogą używać narzędzia Data Wrangler do wizualizacji i przygotowywania danych szeregów czasowych. Korzystamy ze zbioru danych kryptowaluty Bitcoin z pobieranie kryptodanych ze szczegółami handlu bitcoinami, aby zaprezentować te możliwości. Czyścimy, sprawdzamy i przekształcamy surowy zbiór danych za pomocą funkcji szeregów czasowych, a także generujemy prognozy cen wolumenów bitcoinów, wykorzystując przekształcony zbiór danych jako dane wejściowe.

Próbka danych dotyczących handlu bitcoinami pochodzi z okresu od 1 stycznia do 19 listopada 2021 r. i obejmuje 464,116 XNUMX punktów danych. Atrybuty zbioru danych obejmują sygnaturę czasową rekordu ceny, cenę otwarcia lub pierwszą, po której moneta została wymieniona w danym dniu, najwyższą cenę, po której moneta została wymieniona w danym dniu, ostatnią cenę, po której moneta została wymieniona w dniu dnia, wolumen wymieniony w kryptowalutach, wartość w danym dniu w BTC i odpowiadająca im waluta USD.

Wymagania wstępne

Pobierz Bitstamp_BTCUSD_2021_minute.csv plik z pobieranie kryptodanych i prześlij go do Usługa Amazon Simple Storage (Amazon S3).

Zaimportuj zbiór danych Bitcoin w Data Wrangler

Aby rozpocząć proces pozyskiwania do Data Wrangler, wykonaj następujące kroki:

  1. Na Studio SageMaker konsola, na filet menu, wybierz Nowości, A następnie wybierz Przepływ danych poskramiacza danych.
  2. Zmień nazwę przepływu według potrzeb.
  3. W razie zamówieenia projektu Importuj datywybierz Amazon S3.
  4. Prześlij plik Bitstamp_BTCUSD_2021_minute.csv plik z segmentu S3.

Możesz teraz wyświetlić podgląd swojego zestawu danych.

  1. W Szczegóły okienko, wybierz Zaawansowana konfiguracja i odznacz Włącz próbkowanie.

Jest to stosunkowo mały zbiór danych, więc nie potrzebujemy pobierania próbek.

  1. Dodaj import.

Pomyślnie utworzyłeś diagram blokowy i możesz dodać etapy transformacji.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dodaj transformacje

Aby dodać transformacje danych, wybierz znak plus obok Typy danych i wybierz Edytuj typy danych.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Upewnij się, że Data Wrangler automatycznie wywnioskował prawidłowe typy danych dla kolumn danych.

W naszym przypadku wywnioskowane typy danych są prawidłowe. Załóżmy jednak, że jeden typ danych jest nieprawidłowy. Możesz je łatwo modyfikować za pomocą interfejsu użytkownika, jak pokazano na poniższym zrzucie ekranu.

edytować i przeglądać typy danych

Rozpocznijmy analizę i zacznijmy dodawać transformacje.

Czyszczenie danych

Najpierw wykonujemy kilka transformacji czyszczenia danych.

Upuść kolumnę

Zacznijmy od upuszczenia unix kolumnę, ponieważ używamy date kolumna jako indeks.

  1. Dodaj Powrót do przepływu danych.
  2. Wybierz znak plus obok Typy danych i wybierz Dodaj transformację.
  3. Dodaj + Dodaj krok PRZEKSZTAŁCA szkło.
  4. Dodaj Zarządzaj kolumnami.
  5. W razie zamówieenia projektu Przekształcaćwybierz Upuść kolumnę.
  6. W razie zamówieenia projektu Kolumna do upuszczeniawybierz UNIX.
  7. Dodaj Podgląd.
  8. Dodaj Dodaj aby zapisać krok.

Brak uchwytu

Brakujące dane to dobrze znany problem w zbiorach danych w świecie rzeczywistym. Dlatego najlepszą praktyką jest sprawdzenie obecności wszelkich brakujących wartości lub wartości null i odpowiednie postępowanie z nimi. Nasz zbiór danych nie zawiera brakujących wartości. Ale gdyby tak było, użylibyśmy Brak uchwytu transformacja szeregów czasowych, aby je naprawić. Powszechnie stosowane strategie obsługi brakujących danych obejmują usuwanie wierszy z brakującymi wartościami lub uzupełnianie brakujących wartości rozsądnymi szacunkami. Ponieważ dane szeregów czasowych opierają się na sekwencji punktów danych w czasie, preferowanym podejściem jest uzupełnianie brakujących wartości. Proces uzupełniania brakujących wartości nazywa się przypisanie, Brak uchwytu transformacja szeregów czasowych umożliwia wybór spośród wielu strategii imputacji.

  1. Dodaj + Dodaj krok PRZEKSZTAŁCA szkło.
  2. Wybierz Szereg czasowy przekształcać.
  3. W razie zamówieenia projektu Przekształcać, Wybierz Brak uchwytu.
  4. W razie zamówieenia projektu Typ wejścia szeregów czasowychwybierz Wzdłuż kolumny.
  5. W razie zamówieenia projektu Metoda przypisywania wartościwybierz Wypełnienie do przodu.

Połączenia Wypełnienie do przodu metoda zastępuje brakujące wartości wartościami, których nie brakuje, poprzedzającymi brakujące wartości.

obsłużyć brakującą transformację szeregów czasowych

Wypełnienie wsteczne, Stała wartość, Najczęstsza wartość i Interpolować są inne strategie imputacji dostępne w Data Wrangler. Techniki interpolacji polegają na sąsiednich wartościach w celu uzupełnienia brakujących wartości. Dane szeregów czasowych często wykazują korelację między sąsiednimi wartościami, dzięki czemu interpolacja jest skuteczną strategią wypełniania. Aby uzyskać dodatkowe informacje na temat funkcji, których można użyć do stosowania interpolacji, zobacz pandas.DataFrame.interpolate.

Zweryfikuj znacznik czasu

W analizie szeregów czasowych kolumna sygnatury czasowej pełni funkcję kolumny indeksu, wokół której koncentruje się analiza. Dlatego ważne jest, aby upewnić się, że kolumna sygnatury czasowej nie zawiera nieprawidłowych lub niepoprawnie sformatowanych wartości sygnatury czasowej. Ponieważ używamy date kolumnę jako kolumnę i indeks znacznika czasu, sprawdźmy, czy jej wartości są poprawnie sformatowane.

  1. Dodaj + Dodaj krok PRZEKSZTAŁCA szkło.
  2. Wybierz Szereg czasowy przekształcać.
  3. W razie zamówieenia projektu Przekształcać, wybierać Sprawdź znaczniki czasu.

Połączenia Sprawdź znaczniki czasu transform umożliwia sprawdzenie, czy kolumna sygnatury czasowej w zestawie danych nie zawiera wartości z nieprawidłowym sygnaturą czasową lub brakującymi wartościami.

  1. W razie zamówieenia projektu Kolumna ze znacznikiem czasuwybierz dane.
  2. W razie zamówieenia projektu Polityka rozwijane, wybierz Wskazać.

Połączenia Wskazać Opcja zasad tworzy kolumnę logiczną wskazującą, czy wartość w kolumnie sygnatury czasowej jest prawidłowym formatem daty/godziny. Inne opcje dla Polityka zawierać:

  • Błąd – Zgłasza błąd, jeśli brakuje kolumny znacznika czasu lub jest ona nieprawidłowa
  • Spadek – Usuwa wiersz, jeśli brakuje kolumny znacznika czasu lub jest ona nieprawidłowa
  1. Dodaj Podgląd.

Nowa kolumna logiczna o nazwie date_is_valid został stworzony, z true wartości wskazujące prawidłowy format i wpisy inne niż null. Nasz zbiór danych nie zawiera nieprawidłowych wartości znaczników czasu w pliku date kolumna. Ale gdyby tak było, można by użyć nowej kolumny logicznej do zidentyfikowania i naprawienia tych wartości.

Sprawdź transformację szeregu czasowego znacznika czasu

  1. Dodaj Dodaj aby zapisać ten krok.

Wizualizacja szeregów czasowych

Po oczyszczeniu i sprawdzeniu zbioru danych możemy lepiej zwizualizować dane, aby zrozumieć ich różne komponenty.

resample

Ponieważ interesują nas prognozy dzienne, przekształćmy częstotliwość danych na dzienną.

Połączenia resample transformacja zmienia częstotliwość obserwacji szeregów czasowych do określonej szczegółowości i jest dostępna zarówno z opcjami próbkowania w górę, jak i w dół. Zastosowanie upsamplingu zwiększa częstotliwość obserwacji (np. z dziennej na godzinową), natomiast downsampling zmniejsza częstotliwość obserwacji (np. z godzinowej na codzienną).

Ponieważ nasz zbiór danych jest bardzo szczegółowy, skorzystajmy z opcji próbkowania w dół.

  1. Dodaj + Dodaj krok.
  2. Wybierz Szereg czasowy przekształcać.
  3. W razie zamówieenia projektu Przekształcaćwybierz resample.
  4. W razie zamówieenia projektu Sygnatura czasuwybierz dane.
  5. W razie zamówieenia projektu Jednostka częstotliwościwybierz Dzień kalendarzowy.
  6. W razie zamówieenia projektu Ilość częstotliwości, wpisz 1.
  7. W razie zamówieenia projektu Metoda agregacji wartości liczbowychwybierz oznaczać.
  8. Dodaj Podgląd.

Częstotliwość naszego zbioru danych zmieniła się z minutowej na codzienną.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  1. Dodaj Dodaj aby zapisać ten krok.

Rozkład trendów sezonowych

Po ponownym próbkowaniu możemy wizualizować przekształconą serię i powiązane z nią komponenty STL (dekompozycja sezonowa i trendowa przy użyciu LOESS) za pomocą Rozkład trendów sezonowych wyobrażanie sobie. Dzieli to oryginalne szeregi czasowe na odrębne trendy, sezonowość i składniki rezydualne, co pozwala nam dobrze zrozumieć, jak zachowuje się każdy wzór. Informacje te możemy również wykorzystać podczas modelowania problemów związanych z prognozowaniem.

Data Wrangler wykorzystuje LOESS, solidną i wszechstronną metodę statystyczną do modelowania trendów i komponentów sezonowych. Podstawowa implementacja wykorzystuje regresję wielomianową do szacowania nieliniowych zależności występujących w składnikach szeregów czasowych (sezonowość, trend i reszta).

  1. Dodaj Powrót do przepływu danych.
  2. Wybierz znak plus obok Cel on Przepływ danych.
  3. Dodaj Dodaj analizę.
  4. W Utwórz analizę szyba, bo typ analizy, wybierać Szereg czasowy.
  5. W razie zamówieenia projektu Wizualizacjawybierz Rozkład trendów sezonowych.
  6. W razie zamówieenia projektu Nazwa analizy, Wpisz imię.
  7. W razie zamówieenia projektu Kolumna ze znacznikiem czasuwybierz dane.
  8. W razie zamówieenia projektu Kolumna wartościwybierz Wolumen USD.
  9. Dodaj Podgląd.

Analiza pozwala nam na wizualizację wejściowych szeregów czasowych oraz rozłożonej sezonowości, trendu i wartości resztkowej.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  1. Dodaj Zapisz aby zapisać analizę.

Z wizualizacja rozkładu trendów sezonowych, możemy wygenerować cztery wzorce, jak pokazano na poprzednim zrzucie ekranu:

  • Oryginalny – Oryginalne szeregi czasowe zostały ponownie próbkowane w celu uzyskania dziennej szczegółowości.
  • Trend – Trend wielomianowy z ogólnym trendem negatywnym na rok 2021, wskazujący na spadek Volume USD wartość.
  • Pora roku – Multiplikatywna sezonowość reprezentowana przez zmieniające się wzorce oscylacji. Obserwujemy spadek zmienności sezonowej, charakteryzujący się malejącą amplitudą oscylacji.
  • Pozostały – Pozostały szum szczątkowy lub losowy. Szereg rezydualny to szereg wynikowy po usunięciu składników trendu i sezonowości. Przyglądając się uważnie, obserwujemy skoki między styczniem a marcem oraz między kwietniem a czerwcem, co sugeruje, że jest miejsce na modelowanie takich konkretnych wydarzeń przy użyciu danych historycznych.

Te wizualizacje dostarczają naukowcom i analitykom danych cennych wskazówek dotyczących istniejących wzorców i mogą pomóc w wyborze strategii modelowania. Jednak zawsze dobrą praktyką jest sprawdzanie wyników dekompozycji STL na podstawie informacji zebranych w drodze analizy opisowej i wiedzy dziedzinowej.

Podsumowując, obserwujemy tendencję spadkową zgodną z oryginalną wizualizacją serii, co zwiększa naszą pewność co do włączania informacji przekazywanych przez wizualizację trendu do dalszego procesu decyzyjnego. Natomiast wizualizacja sezonowości pomaga poinformować o występowaniu sezonowości i potrzebie jej usunięcia poprzez zastosowanie technik takich jak różnicowanie, ale nie zapewnia pożądanego poziomu szczegółowego wglądu w różne występujące wzorce sezonowości, co wymaga głębszej analizy.

Inżynieria cech

Po zrozumieniu wzorców obecnych w naszym zbiorze danych możemy zacząć opracowywać nowe funkcje mające na celu zwiększenie dokładności modeli prognostycznych.

Cecha datetime

Rozpocznijmy proces inżynierii funkcji od prostszych funkcji daty/godziny. Funkcje daty/godziny są tworzone na podstawie pliku timestamp kolumnę i zapewnić analitykom danych optymalną możliwość rozpoczęcia procesu inżynierii funkcji. Zaczynamy od Cecha datetime transformacja szeregów czasowych w celu dodania miesiąca, dnia miesiąca, dnia roku, tygodnia w roku i cech kwartału do naszego zbioru danych. Ponieważ udostępniamy składniki daty/godziny jako osobne funkcje, umożliwiamy algorytmom ML wykrywanie sygnałów i wzorców w celu poprawy dokładności przewidywania.

  1. Dodaj + Dodaj krok.
  2. Wybierz Szereg czasowy przekształcać.
  3. W razie zamówieenia projektu Przekształcać, wybierać Cecha datetime.
  4. W razie zamówieenia projektu Kolumna wejściowawybierz dane.
  5. W razie zamówieenia projektu Kolumna wyjściowa, wchodzić date (ten krok jest opcjonalny).
  6. W razie zamówieenia projektu Tryb wyjściawybierz Porządkowy.
  7. W razie zamówieenia projektu Format wyjściowywybierz kolumny.
  8. Aby wyodrębnić funkcje daty/godziny, wybierz Miesiąc, Dzień, Tydzień w roku, Dzień w roku, Kwartał.
  9. Dodaj Podgląd.

Zestaw danych zawiera teraz nowe kolumny o nazwach date_month, date_day, date_week_of_year, date_day_of_year, date_quarter. Informacje uzyskane z tych nowych funkcji mogą pomóc badaczom danych w uzyskaniu dodatkowych informacji z danych oraz w związku między cechami wejściowymi i cechami wyjściowymi.

umożliwia transformację szeregów czasowych typu datetime

  1. Dodaj Dodaj aby zapisać ten krok.

Koduj kategorycznie

Funkcje daty/godziny nie są ograniczone do wartości całkowitych. Możesz także rozważyć pewne wyodrębnione funkcje daty/godziny jako zmienne kategoryczne i przedstawić je jako funkcje zakodowane jednokrotnie, przy czym każda kolumna zawiera wartości binarne. Nowo utworzone date_quarter kolumna zawiera wartości z zakresu 0-3 i może być kodowana jednokrotnie przy użyciu czterech kolumn binarnych. Stwórzmy cztery nowe funkcje binarne, każdy reprezentujący odpowiedni kwartał roku.

  1. Dodaj + Dodaj krok.
  2. Wybierz Koduj kategorycznie przekształcać.
  3. W razie zamówieenia projektu Przekształcaćwybierz Kodowanie na gorąco.
  4. W razie zamówieenia projektu Kolumna wejściowawybierz data_kwartał.
  5. W razie zamówieenia projektu Styl wyjściowywybierz kolumny.
  6. Dodaj Podgląd.
  7. Dodaj Dodaj aby dodać krok.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Funkcja opóźnienia

Następnie utwórzmy funkcje opóźnienia dla kolumny docelowej Volume USD. Opóźnienia w analizie szeregów czasowych to wartości we wcześniejszych znacznikach czasu, które uważa się za pomocne przy wnioskowaniu o przyszłych wartościach. Pomagają także zidentyfikować autokorelację (znaną również jako korelacja szeregowa) wzorce w szeregach resztowych poprzez ilościowe określenie związku obserwacji z obserwacjami w poprzednich krokach czasowych. Autokorelacja jest podobna do zwykłej korelacji, ale między wartościami w serii a jej przeszłymi wartościami. Stanowi podstawę dla autoregresyjnych modeli prognostycznych serii ARIMA.

Z Pogromcą Danych Funkcja opóźnienia transform, możesz łatwo tworzyć opóźnienia w odstępie n okresów. Ponadto często chcemy utworzyć wiele funkcji opóźnień przy różnych opóźnieniach i pozwolić modelowi wybrać najbardziej znaczące funkcje. W przypadku takiego scenariusza Funkcje opóźnienia transform pomaga utworzyć wiele kolumn opóźnienia w określonym rozmiarze okna.

  1. Dodaj Powrót do przepływu danych.
  2. Wybierz znak plus obok Cel on Przepływ danych.
  3. Dodaj + Dodaj krok.
  4. Dodaj Szereg czasowy przekształcać.
  5. W razie zamówieenia projektu Przekształcaćwybierz Funkcje opóźnienia.
  6. W razie zamówieenia projektu Wygeneruj funkcje opóźnienia dla tej kolumnywybierz Wolumen USD.
  7. W razie zamówieenia projektu Kolumna ze znacznikiem czasuwybierz dane.
  8. W razie zamówieenia projektu Akt, wchodzić 7.
  9. Ponieważ jesteśmy zainteresowani obserwacją aż do siedmiu poprzednich wartości opóźnienia, wybierzmy Uwzględnij całe okno opóźnienia.
  10. Aby utworzyć nową kolumnę dla każdej wartości opóźnienia, wybierz Spłaszcz wydruk.
  11. Dodaj Podgląd.

Dodano siedem nowych kolumn z przyrostkiem lag_number słowo kluczowe dla kolumny docelowej Volume USD.

Transformacja szeregu czasowego funkcji opóźnienia

  1. Dodaj Dodaj aby zapisać krok.

Funkcje okna rolowanego

Możemy również obliczyć znaczące podsumowania statystyczne w zakresie wartości i uwzględnić je jako cechy wejściowe. Wyodrębnijmy typowe cechy statystycznych szeregów czasowych.

Data Wrangler wdraża funkcje automatycznej ekstrakcji cech szeregów czasowych przy użyciu oprogramowania open source świeże pakiet. Dzięki przekształceniom ekstrakcji cech szeregów czasowych można zautomatyzować proces ekstrakcji cech. Eliminuje to czas i wysiłek poświęcony na ręczne wdrażanie bibliotek przetwarzania sygnałów. W tym poście wyodrębniamy funkcje za pomocą Funkcje okna rolowanego przekształcać. Ta metoda oblicza właściwości statystyczne w zestawie obserwacji zdefiniowanym przez rozmiar okna.

  1. Dodaj + Dodaj krok.
  2. Wybierz Szereg czasowy przekształcać.
  3. W razie zamówieenia projektu Przekształcaćwybierz Funkcje okna rolowanego.
  4. W razie zamówieenia projektu Wygeneruj funkcje okna kroczącego dla tej kolumnywybierz Wolumen USD.
  5. W razie zamówieenia projektu Kolumna ze znacznikiem czasuwybierz dane.
  6. W razie zamówieenia projektu Rozmiar okna, wchodzić 7.

Określanie rozmiaru okna 7 oblicza funkcje, łącząc wartość z bieżącego znacznika czasu i wartości z poprzednich siedmiu znaczników czasu.

  1. Wybierz Spłaszczyć aby utworzyć nową kolumnę dla każdej obliczanej cechy.
  2. Wybierz swoją strategię jako Minimalny podzbiór.

Strategia ta wyodrębnia osiem funkcji przydatnych w dalszych analizach. Inne strategie obejmują Efektywny podzbiór, Podzbiór niestandardowy, Wszystkie funkcje. Aby zapoznać się z pełną listą funkcji dostępnych do wyodrębnienia, zobacz Przegląd wyodrębnionych funkcji.

  1. Dodaj Podgląd.

Widzimy osiem nowych kolumn z określonym rozmiarem okna 7 w ich imieniu, dołączone do naszego zbioru danych.

  1. Dodaj Dodaj aby zapisać krok.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Eksportuj zbiór danych

Przekształciliśmy zbiór danych szeregów czasowych i jesteśmy gotowi do wykorzystania przekształconego zbioru danych jako danych wejściowych dla algorytmu prognozowania. Ostatnim krokiem jest wyeksportowanie przekształconego zbioru danych do Amazon S3. W Data Wrangler możesz wybierać Eksportuj krok do automatycznego generowania notatnika Jupyter z kodem przetwarzania Amazon SageMaker Processing w celu przetwarzania i eksportowania przekształconego zestawu danych do segmentu S3. Ponieważ jednak nasz zbiór danych zawiera nieco ponad 300 rekordów, skorzystajmy z możliwości Eksportuj dane opcja w Dodaj transformację view, aby wyeksportować przekształcony zbiór danych bezpośrednio do Amazon S3 z Data Wrangler.

  1. Dodaj Eksportuj dane.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  1. W razie zamówieenia projektu Lokalizacja S3wybierz Przeglądarka i wybierz wiadro S3.
  2. Dodaj Eksportuj dane.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Teraz, gdy pomyślnie przekształciliśmy zbiór danych Bitcoin, możemy z niego skorzystać Prognoza Amazon do generowania prognoz bitcoinów.

Sprzątać

Jeśli skończysz z tym przypadkiem użycia, wyczyść utworzone zasoby, aby uniknąć ponoszenia dodatkowych opłat. W przypadku Data Wranglera możesz zamknąć instancję bazową po zakończeniu. Odnosić się do Wyłącz poskramiacza danych szczegółowe informacje w dokumentacji. Alternatywnie możesz kontynuować Część 2 tej serii, aby wykorzystać ten zbiór danych do prognozowania.

Podsumowanie

W tym poście pokazano, jak wykorzystać Data Wrangler do uproszczenia i przyspieszenia analizy szeregów czasowych przy użyciu wbudowanych funkcji szeregów czasowych. Zbadaliśmy, w jaki sposób analitycy danych mogą łatwo i interaktywnie czyścić, formatować, weryfikować i przekształcać dane szeregów czasowych do żądanego formatu w celu przeprowadzenia znaczącej analizy. Zbadaliśmy również, w jaki sposób można wzbogacić analizę szeregów czasowych, dodając kompleksowy zestaw funkcji statystycznych za pomocą narzędzia Data Wrangler. Aby dowiedzieć się więcej o transformacjach szeregów czasowych w Data Wranglerze, zobacz Przekształć dane.


O autorze

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Bainsy jest architektem rozwiązań w AWS skupiającym się na AI/ML. Jego pasją jest pomaganie klientom we wprowadzaniu innowacji i osiąganiu celów biznesowych z wykorzystaniem sztucznej inteligencji i uczenia maszynowego. W wolnym czasie Roop lubi czytać i wędrować.

Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Nikita Iwkin jest naukowcem stosowanym, Amazon SageMaker Data Wrangler.

Znak czasu:

Więcej z Uczenie maszynowe AWS