Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i Studio Labs, aby uczyć się i eksperymentować z ML

Laboratorium Amazon SageMaker Studio to bezpłatne środowisko programistyczne uczenia maszynowego (ML) oparte na JupyterLab o otwartym kodzie źródłowym dla każdego, kto może uczyć się i eksperymentować z ML przy użyciu zasobów obliczeniowych AWS ML. Jest oparty na tej samej architekturze i interfejsie użytkownika, co Studio Amazon SageMaker, ale z podzbiorem możliwości programu Studio.

Rozpoczynając pracę nad inicjatywami ML, przed przystąpieniem do budowania modelu należy przeprowadzić eksploracyjną analizę danych (EDA) lub przygotować dane. Pogromca danych Amazon SageMaker jest zdolnością Amazon Sage Maker dzięki temu specjaliści ds. danych i inżynierowie mogą szybciej przygotowywać dane do aplikacji ML za pośrednictwem interfejsu wizualnego. Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych dla ML z tygodni do minut.

Kluczowym akceleratorem przygotowania funkcji w Data Wranglerze jest Raport dotyczący jakości danych i statystyk. Ten raport sprawdza jakość danych i pomaga wykrywać nieprawidłowości w danych, dzięki czemu można wykonać wymaganą inżynierię danych w celu naprawienia zestawu danych. Możesz użyć raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, aby uzyskać wgląd w zestaw danych, taki jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport wglądu może zwrócić Twoją uwagę na te problemy i pomóc w zidentyfikowaniu kroków przygotowania danych, które musisz wykonać.

Użytkownicy Studio Lab mogą czerpać korzyści z Data Wrangler, ponieważ jakość danych i inżynieria funkcji mają kluczowe znaczenie dla predykcyjnej wydajności modelu. Data Wrangler pomaga w jakości danych i inżynierii funkcji, dając wgląd w problemy z jakością danych i łatwo umożliwiając szybką iterację funkcji i inżynierię przy użyciu interfejsu użytkownika o niskim kodzie.

W tym poście pokazujemy, jak przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler oraz jak wyeksportować przekształcone i przygotowane dane do Studio Lab w celu zbudowania modelu.

Omówienie rozwiązania

Rozwiązanie obejmuje następujące etapy wysokiego poziomu:

  1. Utwórz konto AWS i administratora. Jest to warunek wstępny
  2. Pobierz zbiór danych zmiana.csv.
  3. Załaduj zbiór danych do Usługa Amazon Simple Storage (Amazonka S3).
  4. Utwórz domenę SageMaker Studio i uruchom Data Wrangler.
  5. Zaimportuj zestaw danych do przepływu Data Wrangler z Amazon S3.
  6. Utwórz raport jakości danych i wglądu i wyciągnij wnioski dotyczące niezbędnej inżynierii funkcji.
  7. Wykonaj niezbędne transformacje danych w Data Wranglerze.
  8. Pobierz raport dotyczący jakości danych i statystyk oraz przekształcony zbiór danych.
  9. Prześlij dane do projektu Studio Lab w celu trenowania modeli.

Poniższy diagram ilustruje ten przepływ pracy.

Wymagania wstępne

Aby korzystać z aplikacji Data Wrangler i Studio Lab, musisz spełnić następujące wymagania wstępne:

Zbuduj przepływ pracy przygotowujący dane z Data Wrangler

Aby rozpocząć, wykonaj następujące czynności:

  1. Prześlij swój zbiór danych do Amazon S3.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Na konsoli SageMaker pod Panel sterowania w okienku nawigacji wybierz Studio.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  3. Na Uruchom aplikację menu obok swojego profilu użytkownika, wybierz Studio.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Po pomyślnym zalogowaniu się do Studio powinieneś zobaczyć środowisko programistyczne, takie jak na poniższym zrzucie ekranu.
  4. Aby utworzyć nowy przepływ pracy Data Wrangler, na filet menu, wybierz Nowości, A następnie wybierz Przepływ danych poskramiacza danych.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Pierwszym krokiem w Data Wranglerze jest: importować Twoje dane. Możesz importować dane z wielu źródeł danych, takich jak Amazon S3, Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Snowflake, Pamięci danych. W tym przykładzie używamy Amazon S3. Jeśli chcesz tylko zobaczyć, jak działa Data Wrangler, zawsze możesz wybrać Użyj przykładowego zbioru danych.
  5. Dodaj Importuj daty.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  6. Dodaj Amazon S3.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  7. Wybierz przesłany zbiór danych i wybierz import.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Data Wrangler umożliwia importowanie całego zestawu danych lub próbkowanie jego części.
  8. Aby szybko uzyskać szczegółowe informacje na temat zbioru danych, wybierz Pierwszy K dla Próbowanie i wpisz 50000 dla Wielkość próbki.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zrozum jakość danych i uzyskaj wgląd

Użyjmy raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, które zaimportowaliśmy do Data Wrangler. Możesz użyć raportu, aby dowiedzieć się, jakie kroki należy podjąć, aby wyczyścić i przetworzyć dane. Ten raport zawiera informacje, takie jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport ze statystykami może zwrócić Twoją uwagę na te problemy.

  1. Wybierz znak plus obok Typy danych i wybierz Uzyskaj wgląd w dane.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. W razie zamówieenia projektu Typ analizywybierz Raport dotyczący jakości danych i statystyk.
  3. W razie zamówieenia projektu Kolumna docelowawybierz Maselnica?.
  4. W razie zamówieenia projektu Typ problemuWybierz Klasyfikacja.
  5. Dodaj Stwórz.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Otrzymasz szczegółowy raport, który możesz przejrzeć i pobrać. Raport zawiera kilka sekcji, takich jak szybki model, podsumowanie funkcji, korelacja funkcji i wgląd w dane. Poniższe zrzuty ekranu przedstawiają przykłady tych sekcji.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Spostrzeżenia z raportu

Z raportu możemy poczynić następujące obserwacje:

  • Nie znaleziono zduplikowanych wierszy.
  • Połączenia State kolumna wydaje się być dość równomiernie rozłożona, więc dane są zrównoważone pod względem populacji stanu.
  • Połączenia Phone kolumna przedstawia zbyt wiele unikalnych wartości, aby mogła być użyteczna w praktyce. Zbyt wiele unikalnych wartości powoduje, że ta kolumna jest nieprzydatna. Możemy upuścić Phone kolumna w naszej transformacji.
  • Na podstawie części raportu dotyczącej korelacji funkcji, Mins i Charge są silnie skorelowane. Możemy usunąć jeden z nich.

Transformacja

Na podstawie naszych obserwacji chcemy dokonać następujących przekształceń:

  • Usunąć Phone kolumna, ponieważ ma wiele unikalnych wartości.
  • Widzimy również kilka cech, które zasadniczo mają ze sobą 100% korelację. Uwzględnienie tych par cech w niektórych algorytmach ML może spowodować niepożądane problemy, podczas gdy w innych wprowadzi tylko niewielką nadmiarowość i stronniczość. Usuńmy jedną cechę z każdej z silnie skorelowanych par: Day Charge z pary z Day Mins, Night Charge z pary z Night Mins, Intl Charge z pary z Intl Mins.
  • konwertować True or False Churn kolumna będzie wartością liczbową 1 lub 0.
  1. Wróć do przepływu danych i wybierz znak plus obok Typy danych.
  2. Dodaj Dodaj transformację.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  3. Dodaj Dodaj krok.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Możesz wyszukać transformację, której szukasz (w naszym przypadku zarządzaj kolumnami).
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Dodaj Zarządzaj kolumnami.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  6. W razie zamówieenia projektu Przekształcać¸ wybierz Upuść kolumnę.
  7. W razie zamówieenia projektu Kolumny do upuszczenia¸ wybierz Phone, Day Charge, Eve Charge, Night Charge, Intl Charge.
  8. Dodaj Podgląd, A następnie wybierz Aktualizacja.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Dodajmy kolejną transformację, aby wykonać kodowanie kategoryczne na Churn? Kolumna.
  9. Wybierz transformację Koduj kategorycznie.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  10. W razie zamówieenia projektu Przekształcaćwybierz Kodowanie porządkowe.
  11. W razie zamówieenia projektu Kolumny wejściowe, Wybierz Churn? Kolumna.
  12. W razie zamówieenia projektu Nieprawidłowa strategia obsługiwybierz Zastąp przez NaN.
  13. Dodaj Podgląd, A następnie wybierz Aktualizacja.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Teraz True i False są konwertowane odpowiednio na 1 i 0.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Teraz, gdy dobrze rozumiemy dane i przygotowaliśmy i przekształciliśmy dane do budowania modelu, możemy przenieść dane do Studio Lab w celu budowania modelu.

Prześlij dane do Studio Lab

Aby rozpocząć korzystanie z danych w Studio Lab, wykonaj następujące czynności:

  1. Dodaj Eksportuj dane do eksport do wiadra S3.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. W razie zamówieenia projektu Lokalizacja Amazon S3, wprowadź swoją ścieżkę S3.
  3. Określ typ pliku.
  4. Dodaj Eksportuj dane.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Po wyeksportowaniu danych możesz pobrać dane z zasobnika S3 na komputer lokalny.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  6. Teraz możesz przejść do Studio Lab i przesłać plik do Studio Lab.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Alternatywnie możesz połączyć się z Amazon S3 ze Studio Lab. Aby uzyskać więcej informacji, zobacz Korzystaj z zewnętrznych zasobów w Amazon SageMaker Studio Lab.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  7. Zainstalujmy SageMaker i zaimportujmy Pandy.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  8. Zaimportuj wszystkie biblioteki zgodnie z wymaganiami.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  9. Teraz możemy odczytać plik CSV.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  10. Wydrukujmy churn aby potwierdzić, że zbiór danych jest poprawny.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Teraz, gdy masz już przetworzony zbiór danych w Studio Lab, możesz wykonać kolejne kroki potrzebne do budowy modelu.

Cennik Data Wranglera

Możesz wykonać wszystkie kroki w tym poście dla EDA lub przygotowania danych w Data Wrangler i zapłacić dla prostych wystąpień, zadań i cen pamięci masowej na podstawie użycia lub zużycia. Nie są wymagane żadne opłaty z góry ani opłaty licencyjne.

Sprzątać

Gdy nie korzystasz z aplikacji Data Wrangler, ważne jest, aby zamknąć instancję, na której działa, aby uniknąć ponoszenia dodatkowych opłat. Aby uniknąć utraty pracy, zapisz przepływ danych przed wyłączeniem aplikacji Data Wrangler.

  1. Aby zapisać przepływ danych w Studio, wybierz filet, A następnie wybierz Zapisz przepływ danych Wranglera.
    Data Wrangler automatycznie zapisuje przepływ danych co 60 sekund.
  2. Aby zamknąć instancję Data Wrangler, w Studio wybierz Uruchomione instancje i jądra.
  3. Pod DZIAŁAJĄCE APLIKACJE, wybierz ikonę zamykania obok sagemaker-data-wrangler-1.0 app.
  4. Dodaj Wyłącz wszystko potwierdzać.
    Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Data Wrangler działa na instancji ml.m5.4xlarge. Ta instancja znika z URUCHOMIONE INSTANCJE po zamknięciu aplikacji Data Wrangler.

Po zamknięciu aplikacji Data Wrangler musi ona zostać ponownie uruchomiona przy następnym otwarciu pliku przepływu Data Wrangler. Może to potrwać kilka minut.

Wnioski

W tym poście zobaczyliśmy, jak możesz uzyskać wgląd w swój zestaw danych, przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler w Studio, a także wyeksportować przekształcone i przygotowane dane do Studio Lab i wykonać budowanie modelu oraz inne kroki.

Dzięki SageMaker Data Wrangler możesz uprościć proces przygotowania danych i inżynierii funkcji, a także ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację z jednego interfejsu wizualnego.


O autorach

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Rajakumar Sampathkumar jest głównym kierownikiem ds. kont technicznych w AWS, udzielając klientom wskazówek dotyczących dostosowania technologii biznesowych i wspierających na nowo modele i procesy operacyjne w chmurze. Pasjonuje się chmurą i uczeniem maszynowym. Raj jest również specjalistą od uczenia maszynowego i współpracuje z klientami AWS przy projektowaniu, wdrażaniu i zarządzaniu ich obciążeniami i architekturami AWS.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z pasją do projektowania, tworzenia i promowania skoncentrowanych na człowieku doświadczeń z zakresu danych i analityki. Wspiera klientów AWS Strategic w ich transformacji w kierunku organizacji opartej na danych.

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych, a Studio Labs do nauki i eksperymentowania z ML PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.

Znak czasu:

Więcej z Uczenie maszynowe AWS