Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i laboratoriów studyjnych, aby uczyć się i eksperymentować z ML

Opublikowane ponownie przez Plato

Obserwuje: 0

Laboratorium Amazon SageMaker Studio to bezpłatne środowisko programistyczne uczenia maszynowego (ML) oparte na JupyterLab o otwartym kodzie źródłowym dla każdego, kto może uczyć się i eksperymentować z ML przy użyciu zasobów obliczeniowych AWS ML. Jest oparty na tej samej architekturze i interfejsie użytkownika, co Studio Amazon SageMaker, ale z podzbiorem możliwości programu Studio.

Rozpoczynając pracę nad inicjatywami ML, przed przystąpieniem do budowania modelu należy przeprowadzić eksploracyjną analizę danych (EDA) lub przygotować dane. Pogromca danych Amazon SageMaker jest zdolnością Amazon Sage Maker dzięki temu specjaliści ds. danych i inżynierowie mogą szybciej przygotowywać dane do aplikacji ML za pośrednictwem interfejsu wizualnego. Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych dla ML z tygodni do minut.

Kluczowym akceleratorem przygotowania funkcji w Data Wranglerze jest Raport dotyczący jakości danych i statystyk. Ten raport sprawdza jakość danych i pomaga wykrywać nieprawidłowości w danych, dzięki czemu można wykonać wymaganą inżynierię danych w celu naprawienia zestawu danych. Możesz użyć raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, aby uzyskać wgląd w zestaw danych, taki jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport wglądu może zwrócić Twoją uwagę na te problemy i pomóc w zidentyfikowaniu kroków przygotowania danych, które musisz wykonać.

Użytkownicy Studio Lab mogą czerpać korzyści z Data Wrangler, ponieważ jakość danych i inżynieria funkcji mają kluczowe znaczenie dla predykcyjnej wydajności modelu. Data Wrangler pomaga w jakości danych i inżynierii funkcji, dając wgląd w problemy z jakością danych i łatwo umożliwiając szybką iterację funkcji i inżynierię przy użyciu interfejsu użytkownika o niskim kodzie.

W tym poście pokazujemy, jak przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler oraz jak wyeksportować przekształcone i przygotowane dane do Studio Lab w celu zbudowania modelu.

Omówienie rozwiązania

Rozwiązanie obejmuje następujące etapy wysokiego poziomu:

Utwórz konto AWS i administratora. Jest to warunek wstępny
Pobierz zbiór danych zmiana.csv.
Załaduj zbiór danych do Usługa Amazon Simple Storage (Amazonka S3).
Utwórz domenę SageMaker Studio i uruchom Data Wrangler.
Zaimportuj zestaw danych do przepływu Data Wrangler z Amazon S3.
Utwórz raport jakości danych i wglądu i wyciągnij wnioski dotyczące niezbędnej inżynierii funkcji.
Wykonaj niezbędne transformacje danych w Data Wranglerze.
Pobierz raport dotyczący jakości danych i statystyk oraz przekształcony zbiór danych.
Prześlij dane do projektu Studio Lab w celu trenowania modeli.

Poniższy diagram ilustruje ten przepływ pracy.

Wymagania wstępne

Aby korzystać z aplikacji Data Wrangler i Studio Lab, musisz spełnić następujące wymagania wstępne:

Zbuduj przepływ pracy przygotowujący dane z Data Wrangler

Aby rozpocząć, wykonaj następujące czynności:

Prześlij swój zbiór danych do Amazon S3.
Na konsoli SageMaker pod Panel sterowania w okienku nawigacji wybierz Studio.
Na Uruchom aplikację menu obok swojego profilu użytkownika, wybierz Studio.

Po pomyślnym zalogowaniu się do Studio powinieneś zobaczyć środowisko programistyczne, takie jak na poniższym zrzucie ekranu.
Aby utworzyć nowy przepływ pracy Data Wrangler, na filet menu, wybierz Nowości, A następnie wybierz Przepływ danych poskramiacza danych.

Pierwszym krokiem w Data Wranglerze jest: importować Twoje dane. Możesz importować dane z wielu źródeł danych, takich jak Amazon S3, Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Snowflake, Pamięci danych. W tym przykładzie używamy Amazon S3. Jeśli chcesz tylko zobaczyć, jak działa Data Wrangler, zawsze możesz wybrać Użyj przykładowego zbioru danych.
Dodaj Importuj daty.
Dodaj Amazon S3.
Wybierz przesłany zbiór danych i wybierz import.

Data Wrangler umożliwia importowanie całego zestawu danych lub próbkowanie jego części.
Aby szybko uzyskać szczegółowe informacje na temat zbioru danych, wybierz Pierwszy K dla Próbowanie i wpisz 50000 dla Wielkość próbki.

Zrozum jakość danych i uzyskaj wgląd

Użyjmy raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, które zaimportowaliśmy do Data Wrangler. Możesz użyć raportu, aby dowiedzieć się, jakie kroki należy podjąć, aby wyczyścić i przetworzyć dane. Ten raport zawiera informacje, takie jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport ze statystykami może zwrócić Twoją uwagę na te problemy.

Wybierz znak plus obok Typy danych i wybierz Uzyskaj wgląd w dane.
W razie zamówieenia projektu Typ analizywybierz Raport dotyczący jakości danych i statystyk.
W razie zamówieenia projektu Kolumna docelowawybierz Maselnica?.
W razie zamówieenia projektu Typ problemuWybierz Klasyfikacja.
Dodaj Stwórz.

Otrzymasz szczegółowy raport, który możesz przejrzeć i pobrać. Raport zawiera kilka sekcji, takich jak szybki model, podsumowanie funkcji, korelacja funkcji i wgląd w dane. Poniższe zrzuty ekranu przedstawiają przykłady tych sekcji.

Spostrzeżenia z raportu

Z raportu możemy poczynić następujące obserwacje:

Nie znaleziono zduplikowanych wierszy.
Połączenia State kolumna wydaje się być dość równomiernie rozłożona, więc dane są zrównoważone pod względem populacji stanu.
Połączenia Phone kolumna przedstawia zbyt wiele unikalnych wartości, aby mogła być użyteczna w praktyce. Zbyt wiele unikalnych wartości powoduje, że ta kolumna jest nieprzydatna. Możemy upuścić Phone kolumna w naszej transformacji.
Na podstawie części raportu dotyczącej korelacji funkcji, Mins i Charge są silnie skorelowane. Możemy usunąć jeden z nich.

Transformacja

Na podstawie naszych obserwacji chcemy dokonać następujących przekształceń:

Usunąć Phone kolumna, ponieważ ma wiele unikalnych wartości.
Widzimy również kilka cech, które zasadniczo mają ze sobą 100% korelację. Uwzględnienie tych par cech w niektórych algorytmach ML może spowodować niepożądane problemy, podczas gdy w innych wprowadzi tylko niewielką nadmiarowość i stronniczość. Usuńmy jedną cechę z każdej z silnie skorelowanych par: Day Charge z pary z Day Mins, Night Charge z pary z Night Mins, Intl Charge z pary z Intl Mins.
konwertować True or False Churn kolumna będzie wartością liczbową 1 lub 0.

Wróć do przepływu danych i wybierz znak plus obok Typy danych.
Dodaj Dodaj transformację.
Dodaj Dodaj krok.
Możesz wyszukać transformację, której szukasz (w naszym przypadku zarządzaj kolumnami).
Dodaj Zarządzaj kolumnami.
W razie zamówieenia projektu Przekształcać¸ wybierz Upuść kolumnę.
W razie zamówieenia projektu Kolumny do upuszczenia¸ wybierz Phone, Day Charge, Eve Charge, Night Charge, Intl Charge.
Dodaj Podgląd, A następnie wybierz Aktualizacja.

Dodajmy kolejną transformację, aby wykonać kodowanie kategoryczne na Churn? Kolumna.
Wybierz transformację Koduj kategorycznie.
W razie zamówieenia projektu Przekształcaćwybierz Kodowanie porządkowe.
W razie zamówieenia projektu Kolumny wejściowe, Wybierz Churn? Kolumna.
W razie zamówieenia projektu Nieprawidłowa strategia obsługiwybierz Zastąp przez NaN.
Dodaj Podgląd, A następnie wybierz Aktualizacja.

Teraz True i False są konwertowane odpowiednio na 1 i 0.

Teraz, gdy dobrze rozumiemy dane i przygotowaliśmy i przekształciliśmy dane do budowania modelu, możemy przenieść dane do Studio Lab w celu budowania modelu.

Prześlij dane do Studio Lab

Aby rozpocząć korzystanie z danych w Studio Lab, wykonaj następujące czynności:

Dodaj Eksportuj dane do eksport do wiadra S3.
W razie zamówieenia projektu Lokalizacja Amazon S3, wprowadź swoją ścieżkę S3.
Określ typ pliku.
Dodaj Eksportuj dane.
Po wyeksportowaniu danych możesz pobrać dane z zasobnika S3 na komputer lokalny.
Teraz możesz przejść do Studio Lab i przesłać plik do Studio Lab.

Alternatywnie możesz połączyć się z Amazon S3 ze Studio Lab. Aby uzyskać więcej informacji, zobacz Korzystaj z zewnętrznych zasobów w Amazon SageMaker Studio Lab.
Zainstalujmy SageMaker i zaimportujmy Pandy.
Zaimportuj wszystkie biblioteki zgodnie z wymaganiami.
Teraz możemy odczytać plik CSV.
Wydrukujmy churn aby potwierdzić, że zbiór danych jest poprawny.

Teraz, gdy masz już przetworzony zbiór danych w Studio Lab, możesz wykonać kolejne kroki potrzebne do budowy modelu.

Cennik Data Wranglera

Możesz wykonać wszystkie kroki w tym poście dla EDA lub przygotowania danych w Data Wrangler i zapłacić dla prostych wystąpień, zadań i cen pamięci masowej na podstawie użycia lub zużycia. Nie są wymagane żadne opłaty z góry ani opłaty licencyjne.

Sprzątać

Gdy nie korzystasz z aplikacji Data Wrangler, ważne jest, aby zamknąć instancję, na której działa, aby uniknąć ponoszenia dodatkowych opłat. Aby uniknąć utraty pracy, zapisz przepływ danych przed wyłączeniem aplikacji Data Wrangler.

Aby zapisać przepływ danych w Studio, wybierz filet, A następnie wybierz Zapisz przepływ danych Wranglera.
Data Wrangler automatycznie zapisuje przepływ danych co 60 sekund.
Aby zamknąć instancję Data Wrangler, w Studio wybierz Uruchomione instancje i jądra.
Pod DZIAŁAJĄCE APLIKACJE, wybierz ikonę zamykania obok sagemaker-data-wrangler-1.0 app.
Dodaj Wyłącz wszystko potwierdzać.

Data Wrangler działa na instancji ml.m5.4xlarge. Ta instancja znika z URUCHOMIONE INSTANCJE po zamknięciu aplikacji Data Wrangler.

Po zamknięciu aplikacji Data Wrangler musi ona zostać ponownie uruchomiona przy następnym otwarciu pliku przepływu Data Wrangler. Może to potrwać kilka minut.

Wnioski

W tym poście zobaczyliśmy, jak możesz uzyskać wgląd w swój zestaw danych, przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler w Studio, a także wyeksportować przekształcone i przygotowane dane do Studio Lab i wykonać budowanie modelu oraz inne kroki.

Dzięki SageMaker Data Wrangler możesz uprościć proces przygotowania danych i inżynierii funkcji, a także ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację z jednego interfejsu wizualnego.

O autorach

Rajakumar Sampathkumar jest głównym kierownikiem ds. kont technicznych w AWS, udzielając klientom wskazówek dotyczących dostosowania technologii biznesowych i wspierających na nowo modele i procesy operacyjne w chmurze. Pasjonuje się chmurą i uczeniem maszynowym. Raj jest również specjalistą od uczenia maszynowego i współpracuje z klientami AWS przy projektowaniu, wdrażaniu i zarządzaniu ich obciążeniami i architekturami AWS.

Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z pasją do projektowania, tworzenia i promowania skoncentrowanych na człowieku doświadczeń z zakresu danych i analityki. Wspiera klientów AWS Strategic w ich transformacji w kierunku organizacji opartej na danych.

Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.

Znak czasu: 15 września 2022 r.15 września 2022 r.

Znak czasu: Mar 4, 2024

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i Studio Labs, aby uczyć się i eksperymentować z ML

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Zbuduj przepływ pracy przygotowujący dane z Data Wrangler

Zrozum jakość danych i uzyskaj wgląd

Spostrzeżenia z raportu

Transformacja

Prześlij dane do Studio Lab

Cennik Data Wranglera

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Accenture tworzy rozwiązanie do tworzenia dokumentów regulacyjnych przy użyciu generatywnych usług AI AWS | Usługi internetowe Amazona

Amazon Comrehend Targeted Sentiment dodaje obsługę synchroniczną

Jak BigBasket ulepszył realizację transakcji z włączoną sztuczną inteligencją w swoich sklepach stacjonarnych za pomocą Amazon SageMaker | Usługi internetowe Amazona

Użyj AWS CDK do wdrożenia konfiguracji cyklu życia Amazon SageMaker Studio | Usługi sieciowe Amazona

Ogłaszamy zaktualizowane złącze Salesforce (V2) dla Amazon Kendra

Eksperymenty Amazon SageMaker nowej generacji — organizuj, śledź i porównuj szkolenia z zakresu uczenia maszynowego na dużą skalę

Osiągnij dojrzałość DevOps dzięki BMC AMI zAdviser Enterprise i Amazon Bedrock | Usługi internetowe Amazona

Odblokowywanie innowacji: AWS i Anthropic wspólnie przesuwają granice generatywnej sztucznej inteligencji | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto