Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Usługi internetowe Amazona

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Usługi internetowe Amazona

Z radością informujemy o uruchomieniu Amazon DocumentDB (z kompatybilnością MongoDB) integracja z Płótno Amazon SageMaker, umożliwiając klientom Amazon DocumentDB tworzenie i używanie generatywnych rozwiązań AI i uczenia maszynowego (ML) bez pisania kodu. Amazon DocumentDB to w pełni zarządzana natywna baza danych dokumentów w formacie JSON, dzięki której obsługa krytycznych obciążeń związanych z dokumentami jest prosta i opłacalna w praktycznie dowolnej skali, bez konieczności zarządzania infrastrukturą. Amazon SageMaker Canvas to obszar roboczy ML bez kodu oferujący gotowe do użycia modele, w tym modele podstawowe, oraz możliwość przygotowywania danych oraz budowania i wdrażania niestandardowych modeli.

W tym poście omawiamy, jak przenieść dane przechowywane w Amazon DocumentDB do SageMaker Canvas i wykorzystać je do budowy modeli ML na potrzeby analiz predykcyjnych. Bez tworzenia i utrzymywania potoków danych będziesz mógł zasilać modele ML za pomocą nieustrukturyzowanych danych przechowywanych w Amazon DocumentDB.

Omówienie rozwiązania

Załóżmy, że jesteś analitykiem biznesowym firmy dostarczającej jedzenie. Twoja aplikacja mobilna przechowuje informacje o restauracjach w Amazon DocumentDB ze względu na jej skalowalność i elastyczne możliwości schematu. Chcesz zebrać spostrzeżenia na temat tych danych i zbudować model uczenia maszynowego, aby przewidzieć, w jaki sposób będą oceniane nowe restauracje, ale przeprowadzanie analiz na nieustrukturyzowanych danych jest dla Ciebie trudne. Napotkasz wąskie gardła, ponieważ aby osiągnąć te cele, musisz polegać na zespołach zajmujących się inżynierią danych i analityką danych.

Ta nowa integracja rozwiązuje te problemy, ułatwiając przeniesienie danych Amazon DocumentDB do SageMaker Canvas i natychmiastowe rozpoczęcie przygotowywania i analizowania danych dla ML. Dodatkowo SageMaker Canvas eliminuje zależność od wiedzy specjalistycznej z zakresu uczenia maszynowego przy tworzeniu wysokiej jakości modeli i generowaniu prognoz.

W następujących krokach pokazujemy, jak używać danych Amazon DocumentDB do tworzenia modeli ML w SageMaker Canvas:

  1. Utwórz łącznik Amazon DocumentDB w SageMaker Canvas.
  2. Analizuj dane za pomocą generatywnej sztucznej inteligencji.
  3. Przygotuj dane do uczenia maszynowego.
  4. Zbuduj model i wygeneruj prognozy.

Wymagania wstępne

Aby wdrożyć to rozwiązanie, należy spełnić następujące wymagania wstępne:

  1. Uzyskaj dostęp administratora chmury AWS za pomocą AWS Zarządzanie tożsamością i dostępem (JESTEM) użytkownik z uprawnieniami niezbędnymi do zakończenia integracji.
  2. Dokończ konfigurację środowiska za pomocą Tworzenie chmury AWS poprzez jedną z następujących opcji:
    1. Wdróż szablon CloudFormation w nowym środowisku VPC – Ta opcja tworzy nowe środowisko AWS, które składa się z VPC, prywatnych podsieci, grup bezpieczeństwa, ról wykonawczych IAM, Chmura Amazona 9, wymagane punkty końcowe VPC, Domena SageMakera. Następnie wdraża Amazon DocumentDB w tej nowej VPC. Pobierz szablon lub szybko uruchom stos CloudFormation, wybierając Uruchom stos:
      Uruchom stos CloudFormation
    2. Wdróż szablon CloudFormation w istniejącej VPC – Ta opcja tworzy wymagane punkty końcowe VPC, role wykonawcze IAM i domenę SageMaker w istniejącej VPC z prywatnymi podsieciami. Pobierz szablon lub szybko uruchom stos CloudFormation, wybierając Uruchom stos:
      Uruchom stos CloudFormation

Pamiętaj, że jeśli tworzysz nową domenę SageMaker, musisz skonfigurować ją tak, aby znajdowała się w prywatnej VPC bez dostępu do Internetu, aby móc dodać łącznik do Amazon DocumentDB. Aby dowiedzieć się więcej, zob Skonfiguruj Amazon SageMaker Canvas w VPC bez dostępu do Internetu.

  1. Śledź Tutorial aby załadować przykładowe dane restauracji do Amazon DocumentDB.
  2. Dodaj dostęp do Amazon Bedrock i znajdującego się w nim modelu Anthropic Claude. Aby uzyskać więcej informacji, zobacz Dodaj dostęp do modelu.

Utwórz łącznik Amazon DocumentDB w SageMaker Canvas

Po utworzeniu domeny SageMaker wykonaj następujące kroki:

  1. W konsoli Amazon DocumentDB wybierz Uczenie maszynowe bez kodu w okienku nawigacji.
  2. Pod Wybierz domenę i profil¸ wybierz domenę SageMaker i profil użytkownika.
  3. Dodaj Uruchom kanwę aby uruchomić SageMaker Canvas w nowej karcie.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Kiedy SageMaker Canvas zakończy ładowanie, wylądujesz na stronie Przepływy danych patka.

  1. Dodaj Stwórz aby utworzyć nowy przepływ danych.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Wprowadź nazwę przepływu danych i wybierz Stwórz.
  3. Dodaj nowe połączenie Amazon DocumentDB, wybierając Importuj daty, A następnie wybierz Tabelaryczny dla Typ zbioru danych.
  4. Na Importuj daty strona dla Źródło danychwybierz Baza dokumentów i Dodaj połączenie.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Wprowadź nazwę połączenia, na przykład demo, i wybierz żądany klaster Amazon DocumentDB.

Pamiętaj, że SageMaker Canvas wstępnie wypełni menu rozwijane klastrami w tej samej VPC, co Twoja domena SageMaker.

  1. Wprowadź nazwę użytkownika, hasło i nazwę bazy danych.
  2. Na koniec wybierz preferencje czytania.

Aby chronić wydajność instancji podstawowych, SageMaker Canvas domyślnie korzysta z Wtórny, co oznacza, że ​​będzie czytać tylko z instancji wtórnych. Kiedy preferowane jest czytanie Preferowane drugorzędne, SageMaker Canvas odczytuje z dostępnych instancji dodatkowych, ale będzie czytać z instancji podstawowej, jeśli instancja dodatkowa nie jest dostępna. Aby uzyskać więcej informacji na temat konfigurowania połączenia Amazon DocumentDB, zobacz Połącz się z bazą danych przechowywaną w AWS.

  1. Dodaj Dodaj połączenie.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Jeśli połączenie się powiedzie, zbiory w bazie danych Amazon DocumentDB zostaną pokazane w postaci tabel.

  1. Przeciągnij wybrany stół na puste płótno. W tym poście dodajemy dane naszej restauracji.

Pierwsze 100 wierszy jest wyświetlanych jako podgląd.

  1. Aby rozpocząć analizę i przygotowanie danych, wybierz Importuj daty.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Wpisz nazwę zbioru danych i wybierz Importuj daty.

Analizuj dane za pomocą generatywnej sztucznej inteligencji

Następnie chcemy uzyskać wgląd w nasze dane i poszukać wzorców. SageMaker Canvas zapewnia interfejs w języku naturalnym do analizowania i przygotowywania danych. Kiedy Dane ładuje się karta, możesz rozpocząć rozmowę ze swoimi danymi, wykonując następujące czynności:

  1. Dodaj Czat w celu przygotowania danych.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Zbierz informacje na temat swoich danych, zadając pytania podobne do przykładów pokazanych na poniższych zrzutach ekranu.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Aby dowiedzieć się więcej o tym, jak używać języka naturalnego do eksploracji i przygotowywania danych, zobacz Używaj języka naturalnego do eksploracji i przygotowywania danych dzięki nowym możliwościom Amazon SageMaker Canvas.

Uzyskajmy głębszy obraz jakości naszych danych, korzystając z raportu dotyczącego jakości danych i wniosków SageMaker Canvas, który automatycznie ocenia jakość danych i wykrywa nieprawidłowości.

  1. Na analizuje kartę, wybierz Raport dotyczący jakości danych i statystyk.
  2. Dodaj rating jako kolumna docelowa i Regresja jako typ problemu, a następnie wybierz Stwórz.

Spowoduje to symulację uczenia modeli i zapewni wgląd w to, w jaki sposób możemy ulepszyć nasze dane na potrzeby uczenia maszynowego. Kompletny raport generowany jest w ciągu kilku minut.

Z naszego raportu wynika, że ​​w 2.47% wierszy w naszej wartości docelowej brakuje wartości — zajmiemy się tym w następnym kroku. Dodatkowo z analizy wynika, że address line 2, name, type_of_food funkcje mają największą moc przewidywania w naszych danych. Oznacza to, że podstawowe informacje o restauracji, takie jak lokalizacja i kuchnia, mogą mieć ogromny wpływ na oceny.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przygotuj dane do uczenia maszynowego

SageMaker Canvas oferuje ponad 300 wbudowanych transformacji umożliwiających przygotowanie zaimportowanych danych. Więcej informacji na temat funkcji transformacji SageMaker Canvas można znaleźć w artykule Przygotuj dane z zaawansowanymi transformacjami. Dodajmy kilka transformacji, aby przygotować nasze dane do szkolenia modelu uczenia maszynowego.

  1. Wróć do Przepływ danych stronę, wybierając nazwę przepływu danych u góry strony.
  2. Wybierz znak plus obok Typy danych i wybierz Dodaj transformację.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  3. Dodaj Dodaj krok.
  4. Zmieńmy nazwę address line 2 kolumna do cities.
    1. Dodaj Zarządzaj kolumnami.
    2. Dodaj Zmień nazwę kolumny dla Przekształcać.
    3. Dodaj address line 2 dla Kolumna wejściowa, wchodzić cities dla Nowa nazwai wybierz Dodaj.
      Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Dodatkowo usuńmy kilka niepotrzebnych kolumn.
    1. Dodaj nową transformację.
    2. W razie zamówieenia projektu Przekształcaćwybierz Upuść kolumnę.
    3. W razie zamówieenia projektu Kolumny do upuszczeniawybierz URL i restaurant_id.
    4. Dodaj Dodaj.
      Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.[
  6. Autonomiczne rating kolumna funkcji zawiera brakujące wartości, więc wypełnijmy te wiersze średnią wartością z tej kolumny.
    1. Dodaj nową transformację.
    2. W razie zamówieenia projektu Przekształcaćwybierz Przypisać.
    3. W razie zamówieenia projektu Typ kolumnywybierz Numeryczne.
    4. W razie zamówieenia projektu Kolumny wejściowe, Wybierz rating Kolumna.
    5. W razie zamówieenia projektu Strategia imputacjiwybierz Oznaczać.
    6. W razie zamówieenia projektu Kolumna wyjściowa, wchodzić rating_avg_filled.
    7. Dodaj Dodaj.
      Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  7. Możemy rzucić rating kolumna, ponieważ mamy nową kolumnę z wypełnionymi wartościami.
  8. Bo type_of_food ma charakter kategoryczny, będziemy chcieli go zakodować numerycznie. Zakodujmy tę funkcję przy użyciu techniki kodowania one-hot.
    1. Dodaj nową transformację.
    2. W razie zamówieenia projektu Przekształcaćwybierz Kodowanie na gorąco.
    3. W polu Kolumny wejściowe wybierz type_of_food.
    4. W razie zamówieenia projektu Nieprawidłowa strategia obsługi¸ wybierz Trzymać.
    5. W razie zamówieenia projektu Styl wyjściowy¸ wybierz kolumny.
    6. W razie zamówieenia projektu Kolumna wyjściowa, wchodzić encoded.
    7. Dodaj Dodaj.
      Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zbuduj model i wygeneruj prognozy

Teraz, gdy przekształciliśmy nasze dane, wytrenujmy numeryczny model ML, aby przewidywać oceny restauracji.

  1. Dodaj Utwórz model.
  2. W razie zamówieenia projektu Nazwa zestawu danychwprowadź nazwę eksportu zestawu danych.
  3. Dodaj Export i poczekaj na wyeksportowanie przekształconych danych.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Wybierz Utwórz model link w lewym dolnym rogu strony.

Możesz także wybrać zbiór danych za pomocą funkcji Data Wrangler po lewej stronie.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  1. Wprowadź nazwę modelu.
  2. Dodaj Analiza predykcyjna, A następnie wybierz Stwórz.
  3. Dodaj rating_avg_filled jako kolumna docelowa.

SageMaker Canvas automatycznie wybiera odpowiedni typ modelu.

  1. Dodaj Podgląd modelu aby upewnić się, że nie występują problemy z jakością danych.
  2. Dodaj Szybka budowa zbudować model.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utworzenie modelu zajmie około 2–15 minut.

Stan modelu można wyświetlić po zakończeniu uczenia modelu. Nasz model ma RSME wynoszący 0.422, co oznacza, że ​​często przewiduje ocenę restauracji z dokładnością +/- 0.422 do rzeczywistej wartości, co stanowi solidne przybliżenie dla skali ocen od 1 do 6.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  1. Na koniec możesz wygenerować przykładowe prognozy, przechodząc do Przewiduj patka.
    Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sprzątać

Aby uniknąć przyszłych opłat, usuń zasoby utworzone podczas śledzenia tego wpisu. SageMaker Canvas wystawia Ci rachunek za czas trwania sesji i zalecamy wylogowanie się z SageMaker Canvas, jeśli z niego nie korzystasz. Odnosić się do Wylogowanie z Amazon SageMaker Canvas by uzyskać więcej szczegółów.

Wnioski

W tym poście omówiliśmy, jak wykorzystać SageMaker Canvas do generatywnej sztucznej inteligencji i uczenia maszynowego z danymi przechowywanymi w Amazon DocumentDB. W naszym przykładzie pokazaliśmy, jak analityk może szybko zbudować wysokiej jakości model ML, korzystając z przykładowego zbioru danych restauracji.

Pokazaliśmy kroki wdrożenia rozwiązania, od importu danych z Amazon DocumentDB po zbudowanie modelu ML w SageMaker Canvas. Cały proces został zrealizowany poprzez interfejs wizualny, bez pisania ani jednej linijki kodu.

Aby rozpocząć swoją przygodę z ML z niskim kodem/bez kodu, zobacz Płótno Amazon SageMaker.


O autorach

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Adeleke Coker jest Globalnym Architektem Rozwiązań z AWS. Współpracuje z klientami na całym świecie, zapewniając wskazówki i pomoc techniczną we wdrażaniu obciążeń produkcyjnych na dużą skalę w AWS. W wolnym czasie lubi uczyć się, czytać, grać i oglądać wydarzenia sportowe.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Gururaj S. Bayari jest starszym specjalistą ds. rozwiązań DocumentDB w AWS. Lubi pomagać klientom w adaptowaniu specjalnie stworzonych baz danych Amazon. Pomaga klientom projektować, oceniać i optymalizować ich skalę internetową oraz obciążenia o wysokiej wydajności obsługiwane przez NoSQL i/lub relacyjne bazy danych.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Tima Pusateri jest starszym menedżerem produktu w AWS, gdzie pracuje nad Amazon SageMaker Canvas. Jego celem jest pomoc klientom w szybkim czerpaniu wartości z AI/ML. Poza pracą uwielbia spędzać czas na świeżym powietrzu, grać na gitarze, słuchać muzyki na żywo oraz spędzać czas z rodziną i przyjaciółmi.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Pratik Das jest menedżerem produktu w AWS. Lubi pracować z klientami, którzy chcą budować odporne obciążenia i solidne podstawy danych w chmurze. Wnosi wiedzę specjalistyczną współpracując z przedsiębiorstwami w zakresie inicjatyw modernizacyjnych, analitycznych i transformacji danych.

Użyj Amazon DocumentDB do tworzenia rozwiązań do uczenia maszynowego bez kodu w Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Varma Gottumukkala jest starszym architektem rozwiązań specjalistycznych w zakresie baz danych w AWS z siedzibą w Dallas Fort Worth. Varma współpracuje z klientami nad strategią baz danych i projektuje obciążenia, korzystając z specjalnie zbudowanych baz danych AWS. Przed dołączeniem do AWS przez ostatnie 22 lata intensywnie pracował z relacyjnymi bazami danych, bazami danych NOSQL i wieloma językami programowania.

Znak czasu:

Więcej z Uczenie maszynowe AWS