Autopilot Amazon SageMaker automatycznie buduje, trenuje i dostraja najlepsze modele uczenia maszynowego (ML) na podstawie Twoich danych, jednocześnie pozwalając zachować pełną kontrolę i widoczność. Niedawno ogłosiliśmy obsługa danych szeregów czasowych w Autopilocie. Możesz użyć Autopilota, aby zająć się zadaniami regresji i klasyfikacji na danych szeregów czasowych lub ogólnie danych sekwencyjnych. Dane szeregów czasowych to specjalny rodzaj danych sekwencyjnych, w którym punkty danych są zbierane w równych odstępach czasu.
Ręczne przygotowanie danych, wybór odpowiedniego modelu ML i optymalizacja jego parametrów to złożone zadanie, nawet dla eksperta-praktyka. Chociaż istnieją zautomatyzowane podejścia, które mogą znaleźć najlepsze modele i ich parametry, zazwyczaj nie są one w stanie obsłużyć danych w postaci sekwencji, takich jak ruch sieciowy, zużycie energii elektrycznej lub wydatki gospodarstw domowych rejestrowane w czasie. Ponieważ dane te mają postać obserwacji uzyskanych w różnych punktach czasowych, kolejne obserwacje nie mogą być traktowane jako niezależne od siebie i muszą być przetwarzane jako całość. Możesz użyć Autopilota do szerokiego zakresu problemów związanych z danymi sekwencyjnymi. Na przykład można sklasyfikować ruch sieciowy rejestrowany w czasie, aby zidentyfikować złośliwe działania lub określić, czy osoby kwalifikują się do kredytu hipotecznego na podstawie ich historii kredytowej. Dostarczasz zestaw danych zawierający dane szeregów czasowych, a Autopilot obsługuje resztę, przetwarzając dane sekwencyjne za pomocą wyspecjalizowanych przekształceń funkcji i znajdując najlepszy model w Twoim imieniu.
Autopilot eliminuje trudne zadania związane z budowaniem modeli ML i pomaga automatycznie budować, trenować i dostrajać najlepszy model ML na podstawie danych. Autopilot uruchamia kilka algorytmów na Twoich danych i dostraja ich hiperparametry w w pełni zarządzanej infrastrukturze obliczeniowej. W tym poście pokazujemy, jak możesz użyć autopilot do rozwiązywania problemów klasyfikacji i regresji na danych szeregów czasowych. Aby uzyskać instrukcje dotyczące tworzenia i trenowania modelu autopilota, zobacz Przewidywanie rezygnacji klientów z Autopilotem Amazon SageMaker.
Klasyfikacja danych szeregów czasowych za pomocą Autopilota
Jako bieżący przykład rozważymy problem wieloklasowy na szeregach czasowych zestaw danych Biblioteka gestów UWaveX, zawierający równoodległe odczyty czujników akcelerometru podczas wykonywania jednego z ośmiu predefiniowanych gestów dłoni. Dla uproszczenia rozważamy tylko wymiar X akcelerometru. Zadanie polega na zbudowaniu modelu klasyfikacji, który mapuje dane szeregów czasowych z odczytów czujnika na predefiniowane gesty. Poniższy rysunek przedstawia pierwsze wiersze zestawu danych w formacie CSV. Cała tabela składa się z 896 wierszy i dwóch kolumn: pierwsza kolumna to etykieta gestów, a druga kolumna to szereg czasowy odczytów czujników.
Konwertuj dane do właściwego formatu za pomocą Amazon SageMaker Data Wrangler
Oprócz akceptowania kolumn numerycznych, kategorii i standardowych kolumn tekstowych, Autopilot akceptuje teraz również kolumnę wprowadzania sekwencji. Jeśli dane serii czasowej nie są zgodne z tym formatem, możesz je łatwo przekonwertować Pogromca danych Amazon SageMaker. Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych dla ML z tygodni do minut. Dzięki Data Wrangler możesz uprościć proces przygotowania danych i inżynierii funkcji oraz ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację za pomocą jednego interfejsu wizualnego. Rozważmy na przykład ten sam zestaw danych, ale w innym formacie wejściowym: każdy gest (określony przez ID) jest sekwencją równoodległych pomiarów akcelerometru. W przypadku przechowywania w pionie każdy wiersz zawiera znacznik czasu i jedną wartość. Poniższy rysunek porównuje te dane w ich oryginalnym formacie i formacie sekwencji.
Aby przekonwertować ten zestaw danych do formatu opisanego wcześniej za pomocą narzędzia Data Wrangler, załaduj zestaw danych z Usługa Amazon Simple Storage (Amazonka S3). Następnie użyj szeregi czasowe Grupuj według przekształceń, jak pokazano na poniższym zrzucie ekranu, i wyeksportuj dane z powrotem do Amazon S3 w formacie CSV.
Gdy zestaw danych jest w wyznaczonym formacie, możesz kontynuować korzystanie z Autopilota. Aby sprawdzić inne transformatory szeregów czasowych Data Wranglera, zapoznaj się z Przygotuj dane szeregów czasowych za pomocą Amazon SageMaker Data Wrangler.
Uruchom zadanie AutoML
Podobnie jak w przypadku innych typów danych wejściowych obsługiwanych przez Autopilot, każdy wiersz zestawu danych jest inną obserwacją, a każda kolumna jest funkcją. W tym przykładzie mamy jedną kolumnę zawierającą dane szeregów czasowych, ale możesz mieć wiele kolumn szeregów czasowych. Możesz także mieć wiele kolumn z różnymi typami danych wejściowych, takimi jak szeregi czasowe, tekst i wartości liczbowe.
Do utwórz eksperyment autopilota, umieść zbiór danych w zasobniku S3 i utwórz nowy eksperyment w Studio Amazon SageMaker. Jak pokazano na poniższym zrzucie ekranu, należy określić nazwę eksperymentu, lokalizację S3 zestawu danych, lokalizację S3 dla artefaktów wyjściowych oraz nazwę kolumny do przewidzenia.
Autopilot analizuje dane, generuje potoki ML i uruchamia domyślne 250 iteracji optymalizacji hiperparametrów dla tego zadania klasyfikacji. Jak pokazano w poniższej tabeli liderów modeli, Autopilot osiąga dokładność 0.821 i możesz wdrożyć najlepszy model za pomocą jednego kliknięcia.
Ponadto Autopilot generuje raport z eksploracji danych, gdzie możesz wizualizować i eksplorować swoje dane.
Przejrzystość to podstawa działania Autopilota. Możesz sprawdzać i modyfikować wygenerowane potoki ML w notatniku definicji kandydata. Poniższy zrzut ekranu pokazuje, w jaki sposób Autopilot zaleca szereg rurociągów, łącząc transformator szeregów czasowych TSFeatureExtractor
z różnymi algorytmami ML, takimi jak drzewa decyzyjne ze wzmocnieniem gradientowym i modele liniowe. ten TSFeatureExtractor
wyodrębnia dla Ciebie setki funkcji szeregów czasowych, które są następnie przesyłane do dalszych algorytmów w celu dokonania prognoz. Aby zapoznać się z pełną listą funkcji szeregów czasowych, zobacz Przegląd wyodrębnionych funkcji.
Wnioski
W tym poście pokazaliśmy, jak używać SageMaker Autopilot do rozwiązywania problemów z klasyfikacją i regresją szeregów czasowych za pomocą zaledwie kilku kliknięć.
Aby uzyskać więcej informacji o autopilocie, zobacz Autopilot Amazon SageMaker. Aby poznać powiązane funkcje SageMaker, zobacz Pogromca danych Amazon SageMaker.
O autorach
Nikita Iwkin jest naukowcem stosowanym, Amazon SageMaker Data Wrangler.
Anna Milbert jest inżynierem oprogramowania pracującym nad automatycznym dostrajaniem modeli Amazon SageMaker.
Walerio Perrone jest Applied Science Managerem pracującym nad automatycznym strojeniem modeli Amazon SageMaker i Autopilotem.
Meghana Satish jest inżynierem oprogramowania pracującym nad automatycznym dostrajaniem modeli Amazon SageMaker.
Ali Takbiri jest specjalistą ds. rozwiązań AI/ML i pomaga klientom za pomocą uczenia maszynowego rozwiązywać ich wyzwania biznesowe w chmurze AWS.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-autopilot-now-supports-time-series-data/
- "
- 100
- O nas
- nabyty
- zajęcia
- Algorytmy
- Pozwalać
- Chociaż
- Amazonka
- ogłosił
- zautomatyzowane
- AWS
- BEST
- Wzmocnione
- budować
- Budowanie
- Buduje
- biznes
- wyzwania
- klasyfikacja
- Chmura
- Kolumna
- kompleks
- obliczać
- kolejny
- konsumpcja
- zawiera
- kontrola
- Tworzenie
- kredyt
- Klientów
- dane
- czynienia
- rozwijać
- oprogramowania
- różne
- Wymiary
- Nie
- z łatwością
- elektryczność
- inżynier
- Inżynieria
- przykład
- wydatki
- eksperyment
- eksploracja
- Wyciągi
- Cecha
- Korzyści
- nakarmiony
- Postać
- i terminów, a
- obserwuj
- następujący
- Nasz formularz
- format
- pełny
- Ogólne
- Zarządzanie
- pomaga
- historia
- gospodarstwo domowe
- W jaki sposób
- How To
- HTTPS
- Setki
- zidentyfikować
- Włącznie z
- Informacja
- Infrastruktura
- Interfejs
- IT
- nauka
- Lista
- załadować
- lokalizacja
- maszyna
- uczenie maszynowe
- kierownik
- mapa
- ML
- model
- modele
- sieć
- ruch sieciowy
- notatnik
- optymalizacja
- Inne
- przepowiednia
- Przewidywania
- Problem
- problemy
- wygląda tak
- zapewniać
- zasięg
- zaleca
- REST
- bieganie
- nauka
- Naukowiec
- Serie
- Prosty
- Tworzenie
- rozwoju oprogramowania
- Rozwiązania
- ROZWIĄZANIA
- wyspecjalizowanym
- przechowywanie
- Utrzymany
- podpory
- zadania
- Przez
- czas
- Top
- ruch drogowy
- Trening
- pociągi
- posługiwać się
- wartość
- widoczność
- wyobrażanie sobie
- w ciągu
- pracujący
- X