Laboratorium Amazon SageMaker Studio to bezpłatne środowisko programistyczne uczenia maszynowego (ML) oparte na JupyterLab o otwartym kodzie źródłowym dla każdego, kto może uczyć się i eksperymentować z ML przy użyciu zasobów obliczeniowych AWS ML. Jest oparty na tej samej architekturze i interfejsie użytkownika, co Studio Amazon SageMaker, ale z podzbiorem możliwości programu Studio.
Rozpoczynając pracę nad inicjatywami ML, przed przystąpieniem do budowania modelu należy przeprowadzić eksploracyjną analizę danych (EDA) lub przygotować dane. Pogromca danych Amazon SageMaker jest zdolnością Amazon Sage Maker dzięki temu specjaliści ds. danych i inżynierowie mogą szybciej przygotowywać dane do aplikacji ML za pośrednictwem interfejsu wizualnego. Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych dla ML z tygodni do minut.
Kluczowym akceleratorem przygotowania funkcji w Data Wranglerze jest Raport dotyczący jakości danych i statystyk. Ten raport sprawdza jakość danych i pomaga wykrywać nieprawidłowości w danych, dzięki czemu można wykonać wymaganą inżynierię danych w celu naprawienia zestawu danych. Możesz użyć raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, aby uzyskać wgląd w zestaw danych, taki jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport wglądu może zwrócić Twoją uwagę na te problemy i pomóc w zidentyfikowaniu kroków przygotowania danych, które musisz wykonać.
Użytkownicy Studio Lab mogą czerpać korzyści z Data Wrangler, ponieważ jakość danych i inżynieria funkcji mają kluczowe znaczenie dla predykcyjnej wydajności modelu. Data Wrangler pomaga w jakości danych i inżynierii funkcji, dając wgląd w problemy z jakością danych i łatwo umożliwiając szybką iterację funkcji i inżynierię przy użyciu interfejsu użytkownika o niskim kodzie.
W tym poście pokazujemy, jak przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler oraz jak wyeksportować przekształcone i przygotowane dane do Studio Lab w celu zbudowania modelu.
Omówienie rozwiązania
Rozwiązanie obejmuje następujące etapy wysokiego poziomu:
- Utwórz konto AWS i administratora. Jest to warunek wstępny
- Pobierz zbiór danych zmiana.csv.
- Załaduj zbiór danych do Usługa Amazon Simple Storage (Amazonka S3).
- Utwórz domenę SageMaker Studio i uruchom Data Wrangler.
- Zaimportuj zestaw danych do przepływu Data Wrangler z Amazon S3.
- Utwórz raport jakości danych i wglądu i wyciągnij wnioski dotyczące niezbędnej inżynierii funkcji.
- Wykonaj niezbędne transformacje danych w Data Wranglerze.
- Pobierz raport dotyczący jakości danych i statystyk oraz przekształcony zbiór danych.
- Prześlij dane do projektu Studio Lab w celu trenowania modeli.
Poniższy diagram ilustruje ten przepływ pracy.
Wymagania wstępne
Aby korzystać z aplikacji Data Wrangler i Studio Lab, musisz spełnić następujące wymagania wstępne:
Zbuduj przepływ pracy przygotowujący dane z Data Wrangler
Aby rozpocząć, wykonaj następujące czynności:
- Prześlij swój zbiór danych do Amazon S3.
- Na konsoli SageMaker pod Panel sterowania w okienku nawigacji wybierz Studio.
- Na Uruchom aplikację menu obok swojego profilu użytkownika, wybierz Studio.
Po pomyślnym zalogowaniu się do Studio powinieneś zobaczyć środowisko programistyczne, takie jak na poniższym zrzucie ekranu. - Aby utworzyć nowy przepływ pracy Data Wrangler, na filet menu, wybierz Nowości, A następnie wybierz Przepływ danych poskramiacza danych.
Pierwszym krokiem w Data Wranglerze jest: importować Twoje dane. Możesz importować dane z wielu źródeł danych, takich jak Amazon S3, Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Snowflake, Pamięci danych. W tym przykładzie używamy Amazon S3. Jeśli chcesz tylko zobaczyć, jak działa Data Wrangler, zawsze możesz wybrać Użyj przykładowego zbioru danych. - Dodaj Importuj daty.
- Dodaj Amazon S3.
- Wybierz przesłany zbiór danych i wybierz import.
Data Wrangler umożliwia importowanie całego zestawu danych lub próbkowanie jego części. - Aby szybko uzyskać szczegółowe informacje na temat zbioru danych, wybierz Pierwszy K dla Próbowanie i wpisz 50000 dla Wielkość próbki.
Zrozum jakość danych i uzyskaj wgląd
Użyjmy raportu Jakość danych i statystyki, aby przeprowadzić analizę danych, które zaimportowaliśmy do Data Wrangler. Możesz użyć raportu, aby dowiedzieć się, jakie kroki należy podjąć, aby wyczyścić i przetworzyć dane. Ten raport zawiera informacje, takie jak liczba brakujących wartości i liczba wartości odstających. Jeśli masz problemy z danymi, takie jak wyciek docelowy lub brak równowagi, raport ze statystykami może zwrócić Twoją uwagę na te problemy.
- Wybierz znak plus obok Typy danych i wybierz Uzyskaj wgląd w dane.
- W razie zamówieenia projektu Typ analizywybierz Raport dotyczący jakości danych i statystyk.
- W razie zamówieenia projektu Kolumna docelowawybierz Maselnica?.
- W razie zamówieenia projektu Typ problemuWybierz Klasyfikacja.
- Dodaj Stwórz.
Otrzymasz szczegółowy raport, który możesz przejrzeć i pobrać. Raport zawiera kilka sekcji, takich jak szybki model, podsumowanie funkcji, korelacja funkcji i wgląd w dane. Poniższe zrzuty ekranu przedstawiają przykłady tych sekcji.
Spostrzeżenia z raportu
Z raportu możemy poczynić następujące obserwacje:
- Nie znaleziono zduplikowanych wierszy.
- Połączenia
State
kolumna wydaje się być dość równomiernie rozłożona, więc dane są zrównoważone pod względem populacji stanu. - Połączenia
Phone
kolumna przedstawia zbyt wiele unikalnych wartości, aby mogła być użyteczna w praktyce. Zbyt wiele unikalnych wartości powoduje, że ta kolumna jest nieprzydatna. Możemy upuścićPhone
kolumna w naszej transformacji. - Na podstawie części raportu dotyczącej korelacji funkcji,
Mins
iCharge
są silnie skorelowane. Możemy usunąć jeden z nich.
Transformacja
Na podstawie naszych obserwacji chcemy dokonać następujących przekształceń:
- Usunąć
Phone
kolumna, ponieważ ma wiele unikalnych wartości. - Widzimy również kilka cech, które zasadniczo mają ze sobą 100% korelację. Uwzględnienie tych par cech w niektórych algorytmach ML może spowodować niepożądane problemy, podczas gdy w innych wprowadzi tylko niewielką nadmiarowość i stronniczość. Usuńmy jedną cechę z każdej z silnie skorelowanych par:
Day Charge
z pary zDay Mins
,Night Charge
z pary zNight Mins
,Intl Charge
z pary zIntl Mins
. - konwertować
True
orFalse
Churn
kolumna będzie wartością liczbową 1 lub 0.
- Wróć do przepływu danych i wybierz znak plus obok Typy danych.
- Dodaj Dodaj transformację.
- Dodaj Dodaj krok.
- Możesz wyszukać transformację, której szukasz (w naszym przypadku zarządzaj kolumnami).
- Dodaj Zarządzaj kolumnami.
- W razie zamówieenia projektu Przekształcać¸ wybierz Upuść kolumnę.
- W razie zamówieenia projektu Kolumny do upuszczenia¸ wybierz
Phone
,Day Charge
,Eve Charge
,Night Charge
,Intl Charge
. - Dodaj Podgląd, A następnie wybierz Aktualizacja.
Dodajmy kolejną transformację, aby wykonać kodowanie kategoryczne naChurn?
Kolumna. - Wybierz transformację Koduj kategorycznie.
- W razie zamówieenia projektu Przekształcaćwybierz Kodowanie porządkowe.
- W razie zamówieenia projektu Kolumny wejściowe, Wybierz
Churn?
Kolumna. - W razie zamówieenia projektu Nieprawidłowa strategia obsługiwybierz Zastąp przez NaN.
- Dodaj Podgląd, A następnie wybierz Aktualizacja.
Teraz True
i False
są konwertowane odpowiednio na 1 i 0.
Teraz, gdy dobrze rozumiemy dane i przygotowaliśmy i przekształciliśmy dane do budowania modelu, możemy przenieść dane do Studio Lab w celu budowania modelu.
Prześlij dane do Studio Lab
Aby rozpocząć korzystanie z danych w Studio Lab, wykonaj następujące czynności:
- Dodaj Eksportuj dane do eksport do wiadra S3.
- W razie zamówieenia projektu Lokalizacja Amazon S3, wprowadź swoją ścieżkę S3.
- Określ typ pliku.
- Dodaj Eksportuj dane.
- Po wyeksportowaniu danych możesz pobrać dane z zasobnika S3 na komputer lokalny.
- Teraz możesz przejść do Studio Lab i przesłać plik do Studio Lab.
Alternatywnie możesz połączyć się z Amazon S3 ze Studio Lab. Aby uzyskać więcej informacji, zobacz Korzystaj z zewnętrznych zasobów w Amazon SageMaker Studio Lab. - Zainstalujmy SageMaker i zaimportujmy Pandy.
- Zaimportuj wszystkie biblioteki zgodnie z wymaganiami.
- Teraz możemy odczytać plik CSV.
- Wydrukujmy
churn
aby potwierdzić, że zbiór danych jest poprawny.
Teraz, gdy masz już przetworzony zbiór danych w Studio Lab, możesz wykonać kolejne kroki potrzebne do budowy modelu.
Cennik Data Wranglera
Możesz wykonać wszystkie kroki w tym poście dla EDA lub przygotowania danych w Data Wrangler i zapłacić dla prostych wystąpień, zadań i cen pamięci masowej na podstawie użycia lub zużycia. Nie są wymagane żadne opłaty z góry ani opłaty licencyjne.
Sprzątać
Gdy nie korzystasz z aplikacji Data Wrangler, ważne jest, aby zamknąć instancję, na której działa, aby uniknąć ponoszenia dodatkowych opłat. Aby uniknąć utraty pracy, zapisz przepływ danych przed wyłączeniem aplikacji Data Wrangler.
- Aby zapisać przepływ danych w Studio, wybierz filet, A następnie wybierz Zapisz przepływ danych Wranglera.
Data Wrangler automatycznie zapisuje przepływ danych co 60 sekund. - Aby zamknąć instancję Data Wrangler, w Studio wybierz Uruchomione instancje i jądra.
- Pod DZIAŁAJĄCE APLIKACJE, wybierz ikonę zamykania obok
sagemaker-data-wrangler-1.0 app
. - Dodaj Wyłącz wszystko potwierdzać.
Data Wrangler działa na instancji ml.m5.4xlarge. Ta instancja znika z URUCHOMIONE INSTANCJE po zamknięciu aplikacji Data Wrangler.
Po zamknięciu aplikacji Data Wrangler musi ona zostać ponownie uruchomiona przy następnym otwarciu pliku przepływu Data Wrangler. Może to potrwać kilka minut.
Wnioski
W tym poście zobaczyliśmy, jak możesz uzyskać wgląd w swój zestaw danych, przeprowadzić eksploracyjną analizę danych, przygotować i przekształcić dane za pomocą Data Wrangler w Studio, a także wyeksportować przekształcone i przygotowane dane do Studio Lab i wykonać budowanie modelu oraz inne kroki.
Dzięki SageMaker Data Wrangler możesz uprościć proces przygotowania danych i inżynierii funkcji, a także ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację z jednego interfejsu wizualnego.
O autorach
Rajakumar Sampathkumar jest głównym kierownikiem ds. kont technicznych w AWS, udzielając klientom wskazówek dotyczących dostosowania technologii biznesowych i wspierających na nowo modele i procesy operacyjne w chmurze. Pasjonuje się chmurą i uczeniem maszynowym. Raj jest również specjalistą od uczenia maszynowego i współpracuje z klientami AWS przy projektowaniu, wdrażaniu i zarządzaniu ich obciążeniami i architekturami AWS.
Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z pasją do projektowania, tworzenia i promowania skoncentrowanych na człowieku doświadczeń z zakresu danych i analityki. Wspiera klientów AWS Strategic w ich transformacji w kierunku organizacji opartej na danych.
Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.
- AI
- ai sztuka
- generator sztuki ai
- masz robota
- Amazon Sage Maker
- Pogromca danych Amazon SageMaker
- sztuczna inteligencja
- certyfikacja sztucznej inteligencji
- sztuczna inteligencja w bankowości
- robot sztucznej inteligencji
- roboty sztucznej inteligencji
- oprogramowanie sztucznej inteligencji
- Uczenie maszynowe AWS
- blockchain
- konferencja blockchain ai
- pomysłowość
- sztuczna inteligencja konwersacyjna
- konferencja kryptograficzna
- Dall's
- głęboka nauka
- google to
- uczenie maszynowe
- plato
- Platon Ai
- Analiza danych Platona
- Gra Platona
- PlatoDane
- platogaming
- skala ai
- składnia
- zefirnet