Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Usługi internetowe Amazona

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Usługi internetowe Amazona

To jest post gościnny napisany wspólnie z Babu Srinivasanem z MongoDB.

W miarę ewolucji branż w dzisiejszym dynamicznym krajobrazie biznesowym brak możliwości opracowania prognoz w czasie rzeczywistym stwarza poważne wyzwania dla branż w dużym stopniu zależnych od dokładnych i aktualnych spostrzeżeń. Brak prognoz w czasie rzeczywistym w różnych branżach stwarza pilne wyzwania biznesowe, które mogą znacząco wpłynąć na proces podejmowania decyzji i efektywność operacyjną. Bez analiz w czasie rzeczywistym firmy mają trudności z przystosowaniem się do dynamicznych warunków rynkowych, dokładnym przewidywaniem popytu klientów, optymalizacją poziomu zapasów i podejmowaniem proaktywnych decyzji strategicznych. Branże takie jak finanse, handel detaliczny, zarządzanie łańcuchem dostaw i logistyka stoją w obliczu ryzyka utraty szans, zwiększonych kosztów, nieefektywnej alokacji zasobów i niemożności spełnienia oczekiwań klientów. Badając te wyzwania, organizacje mogą rozpoznać znaczenie prognozowania w czasie rzeczywistym i odkrywać innowacyjne rozwiązania pozwalające pokonać te przeszkody, umożliwiając im utrzymanie konkurencyjności, podejmowanie świadomych decyzji i prosperowanie w dzisiejszym dynamicznym środowisku biznesowym.

Wykorzystując potencjał transformacyjny natywnej bazy MongoDB szereg czasowy możliwości danych i integrowanie ich z mocą Płótno Amazon SageMakerorganizacje mogą pokonać te wyzwania i odblokować nowy poziom elastyczności. Solidne zarządzanie danymi szeregów czasowych MongoDB umożliwia przechowywanie i odzyskiwanie dużych ilości danych szeregów czasowych w czasie rzeczywistym, podczas gdy zaawansowane algorytmy uczenia maszynowego i możliwości predykcyjne zapewniają dokładne i dynamiczne modele prognozowania za pomocą SageMaker Canvas.

W tym poście zbadamy potencjał wykorzystania danych szeregów czasowych MongoDB i SageMaker Canvas jako kompleksowego rozwiązania.

Atlas MongoDB

Atlas MongoDB to w pełni zarządzana platforma danych dla programistów, która upraszcza wdrażanie i skalowanie baz danych MongoDB w chmurze. Jest to magazyn oparty na dokumentach, zapewniający w pełni zarządzaną bazę danych z wbudowanym tekstem pełnotekstowym i wektorowym Szukaj, wsparcie dla Geoprzestrzenny zapytania, Wykresy i natywne wsparcie dla wydajności szereg czasowy możliwości przechowywania i wysyłania zapytań. MongoDB Atlas oferuje automatyczne sharding, skalowalność poziomą i elastyczne indeksowanie w celu pozyskiwania dużych ilości danych. Wyróżniającą się funkcją jest między innymi natywna funkcja szeregów czasowych, dzięki której idealnie nadaje się do zarządzania dużą ilością danych szeregów czasowych, takich jak dane aplikacji o znaczeniu krytycznym dla firmy, dane telemetryczne, dzienniki serwerów i inne. Dzięki wydajnemu zapytaniu, agregacji i analizom firmy mogą wydobywać cenne spostrzeżenia z danych oznaczonych znacznikiem czasu. Korzystając z tych możliwości, firmy mogą efektywnie przechowywać, zarządzać i analizować dane szeregów czasowych, umożliwiając podejmowanie decyzji opartych na danych i zdobywanie przewagi konkurencyjnej.

Płótno Amazon SageMaker

Płótno Amazon SageMaker to usługa wizualnego uczenia maszynowego (ML), która umożliwia analitykom biznesowym i badaczom danych tworzenie i wdrażanie niestandardowych modeli uczenia maszynowego bez konieczności posiadania doświadczenia w zakresie uczenia maszynowego lub konieczności pisania nawet jednego wiersza kodu. SageMaker Canvas obsługuje wiele przypadków użycia, w tym prognozowanie szeregów czasowych, która umożliwia firmom dokładne prognozowanie przyszłego popytu, sprzedaży, zapotrzebowania na zasoby i innych danych szeregów czasowych. Usługa wykorzystuje techniki głębokiego uczenia się do obsługi złożonych wzorców danych i umożliwia firmom generowanie dokładnych prognoz nawet przy minimalnej ilości danych historycznych. Korzystając z możliwości Amazon SageMaker Canvas, firmy mogą podejmować świadome decyzje, optymalizować poziomy zapasów, poprawiać efektywność operacyjną i zwiększać zadowolenie klientów.

Interfejs użytkownika SageMaker Canvas pozwala bezproblemowo integrować źródła danych z chmury lub lokalnie, bez wysiłku łączyć zbiory danych, trenować precyzyjne modele i dokonywać prognoz na podstawie pojawiających się danych – a wszystko to bez kodowania. Jeśli potrzebujesz zautomatyzowanego przepływu pracy lub bezpośredniej integracji modelu ML z aplikacjami, funkcje prognozowania Canvas są dostępne za pośrednictwem Pszczoła.

Omówienie rozwiązania

Użytkownicy przechowują swoje transakcyjne dane szeregów czasowych w Atlasie MongoDB. Za pośrednictwem Atlas Data Federation dane są wyodrębniane do wiadra Amazon S3. Amazon SageMaker Canvas uzyskuje dostęp do danych w celu budowania modeli i tworzenia prognoz. Wyniki prognozowania przechowywane są w zasobniku S3. Korzystając z usług MongoDB Data Federation, prognozy są prezentowane wizualnie za pomocą wykresów MongoDB.

Poniższy diagram przedstawia proponowaną architekturę rozwiązania.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wymagania wstępne

W tym rozwiązaniu używamy MongoDB Atlas do przechowywania danych szeregów czasowych, Amazon SageMaker Canvas do uczenia modelu i tworzenia prognoz, a Amazon S3 do przechowywania danych wyodrębnionych z MongoDB Atlas.

Upewnij się, że masz następujące wymagania wstępne:

Skonfiguruj klaster Atlas MongoDB

Utwórz bezpłatny klaster Atlas MongoDB, postępując zgodnie z instrukcjami w Utwórz klaster. Skonfiguruj Dostęp do bazy danych i Dostęp do sieci.

Wypełnij kolekcję szeregów czasowych w MongoDB Atlas

Na potrzeby tej demonstracji możesz użyć przykładowego zestawu danych z Kaggle i prześlij to samo do Atlasu MongoDB za pomocą MongoDB narzędzia , Korzystniej Kompas MongoDB.

Poniższy kod przedstawia przykładowy zestaw danych do zbierania szeregów czasowych:

{ "store": "1 1", "timestamp": { "2010-02-05T00:00:00.000Z"}, "temperature": "42.31", "target_value": 2.572, "IsHoliday": false
}

Poniższy zrzut ekranu przedstawia przykładowe dane szeregów czasowych w MongoDB Atlas:

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utwórz wiadro S3

Stwórz wiadro S3 w AWS, w którym należy przechowywać i analizować dane szeregów czasowych. Zauważ, że mamy dwa foldery. sales-train-data służy do przechowywania danych wyodrębnionych z MongoDB Atlas, natomiast sales-forecast-output zawiera prognozy z Canvas.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utwórz federację danych

Skonfiguruj Federacja Danych w Atlasie i zarejestruj utworzony wcześniej Bucket S3 jako część źródła danych. Zwróć uwagę, że w federacji danych dla klastra Atlas tworzone są trzy różne bazy danych/kolekcje, segment S3 dla danych MongoDB Atlas i segment S3 do przechowywania wyników Canvas.

Poniższe zrzuty ekranu przedstawiają konfigurację federacji danych.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Skonfiguruj usługę aplikacji Atlas

utworzyć Usługi aplikacji MongoDB wdrożyć funkcje przesyłania danych z klastra MongoDB Atlas do segmentu S3 za pomocą $wyjście zbiór.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sprawdź konfigurację źródła danych

Usługi aplikacji tworzą nową nazwę usługi Altas, która w poniższej funkcji musi być określana jako usługi danych. Sprawdź, czy utworzono nazwę usługi Atlas i zanotuj ją do wykorzystania w przyszłości.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utwórz funkcję

Skonfiguruj usługi aplikacji Atlas, aby utworzyć plik wyzwalacz i funkcje. Należy zaplanować wyzwalacze, aby zapisywały dane w S3 z częstotliwością okresu opartą na potrzebach biznesowych w zakresie uczenia modeli.

Poniższy skrypt przedstawia funkcję zapisu do segmentu S3:

exports = function () { const service = context.services.get(""); const db = service.db("") const events = db.collection(""); const pipeline = [ { "$out": { "s3": { "bucket": "<S3_bucket_name>", "region": "<AWS_Region>", "filename": {$concat: ["<S3path>/<filename>_",{"$toString": new Date(Date.now())}]}, "format": { "name": "json", "maxFileSize": "10GB" } } } } ]; return events.aggregate(pipeline);
};

Przykładowa funkcja

Funkcję można uruchomić na karcie Uruchom, a błędy można debugować za pomocą funkcji dziennika w Usługach aplikacji. Ponadto błędy można debugować za pomocą menu Dzienniki w lewym okienku.

Poniższy zrzut ekranu przedstawia wykonanie funkcji wraz z wynikami:

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utwórz zbiór danych w Amazon SageMaker Canvas

Poniższe kroki zakładają, że utworzyłeś domenę SageMaker i profil użytkownika. Jeśli jeszcze tego nie zrobiłeś, upewnij się, że skonfigurowałeś Domena i profil użytkownika SageMaker. W profilu użytkownika zaktualizuj segment S3, aby był niestandardowy i podaj nazwę segmentu.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Po zakończeniu przejdź do SageMaker Canvas, wybierz swoją domenę i profil, a następnie wybierz Canvas.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utwórz zbiór danych dostarczający źródło danych.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz źródło zestawu danych jako S3

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz lokalizację danych z zasobnika S3 i wybierz opcję Utwórz zbiór danych.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przejrzyj schemat i kliknij opcję Utwórz zbiór danych

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Po pomyślnym zaimportowaniu zestaw danych pojawi się na liście, jak pokazano na poniższym zrzucie ekranu.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Trenuj model

Następnie użyjemy Canvas do skonfigurowania uczenia modelu. Wybierz zbiór danych i kliknij Utwórz.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
Utwórz nazwę modelu, wybierz opcję Analiza predykcyjna i wybierz opcję Utwórz.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz kolumnę docelową

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Następnie kliknij Konfiguruj model szeregów czasowych i wybierz item_id jako kolumnę Item ID.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz tm dla kolumny znacznika czasu

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Aby określić czas, jaki chcesz prognozować, wybierz 8 tygodni.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Teraz możesz wyświetlić podgląd modelu lub rozpocząć proces kompilacji.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Po wyświetleniu podglądu modelu lub uruchomieniu kompilacji model zostanie utworzony, co może zająć do czterech godzin. Możesz opuścić ekran i wrócić, aby zobaczyć status szkolenia modelu.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Gdy model będzie gotowy, wybierz model i kliknij najnowszą wersję

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przejrzyj metryki modelu i wpływ kolumn, a jeśli wydajność modelu jest zadowalająca, kliknij Prognozuj.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Następnie wybierz opcję Przewidywanie zbiorcze i kliknij Wybierz zbiór danych.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz zbiór danych i kliknij Wybierz zbiór danych.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Następnie kliknij opcję Rozpocznij prognozy.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Obserwuj utworzone zadanie lub postęp zadania w SageMaker w obszarze Wnioskowanie, Zadania transformacji wsadowej.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Po zakończeniu zadania wybierz je i zanotuj ścieżkę S3, w której Canvas zapisał przewidywania.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wizualizuj dane prognozy na wykresach Atlas

Aby wizualizować dane prognozy, utwórz plik Wykresy Atlasu MongoDB w oparciu o dane Federacyjne (dane Amazon-Forecast) dla prognoz P10, P50 i P90, jak pokazano na poniższym wykresie.

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sprzątać

  • Usuń klaster Atlas MongoDB
  • Usuń konfigurację Atlas Data Federation
  • Usuń aplikację usługi Atlas Application Service
  • Usuń wiadro S3
  • Usuń zbiór danych i modele Amazon SageMaker Canvas
  • Usuń wykresy Atlasu
  • Wyloguj się z Amazon SageMaker Canvas

Wnioski

W tym poście wyodrębniliśmy dane szeregów czasowych ze zbioru szeregów czasowych MongoDB. Jest to specjalna kolekcja zoptymalizowana pod kątem szybkości przechowywania i wykonywania zapytań dotyczących danych szeregów czasowych. Wykorzystaliśmy Amazon SageMaker Canvas do uczenia modeli i generowania prognoz, a następnie wizualizowaliśmy prognozy na wykresach Atlas.

Więcej informacji można znaleźć w następujących zasobach.


O autorach

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Igor Aleksiejew jest starszym architektem rozwiązań partnerskich w AWS w domenie Data and Analytics. W swojej roli Igor współpracuje ze strategicznymi partnerami, pomagając im budować złożone architektury zoptymalizowane pod kątem AWS. Przed dołączeniem do AWS jako Data/Solution Architect zrealizował wiele projektów w domenie Big Data, w tym kilka jezior danych w ekosystemie Hadoop. Jako Data Engineer był zaangażowany w zastosowanie AI/ML do wykrywania nadużyć i automatyzacji biura.


Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Babu Srinivasana
jest starszym architektem rozwiązań partnerskich w MongoDB. W swojej obecnej roli współpracuje z AWS przy tworzeniu integracji technicznych i architektur referencyjnych dla rozwiązań AWS i MongoDB. Ma ponad dwudziestoletnie doświadczenie w technologiach baz danych i chmur. Pasjonuje się dostarczaniem rozwiązań technicznych klientom współpracującym z wieloma globalnymi integratorami systemów (GSI) w różnych regionach.

Znak czasu:

Więcej z Uczenie maszynowe AWS