Przedstawiamy nowe wbudowane wizualizacje Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

Ręczne sprawdzanie jakości danych i czyszczenie danych to bolesny i czasochłonny proces, który może zająć ogromną część czasu analityka danych nad projektem. Według ankiety przeprowadzonej przez firmę Anaconda wśród analityków danych w 2020 r., analitycy danych spędzają około 66% swojego czasu na zadaniach związanych z przygotowaniem i analizą danych, w tym ładowaniem (19%), czyszczeniem (26%) i wizualizacją danych (21%). Amazon Sage Maker oferuje szereg narzędzi do przygotowywania danych w celu zaspokojenia różnych potrzeb i preferencji klientów. Dla użytkowników, którzy preferują interaktywny interfejs oparty na GUI, Poskramiacz danych SageMaker oferuje ponad 300 wbudowanych wizualizacji, analiz i transformacji w celu wydajnego przetwarzania danych wspieranych przez Spark bez pisania ani jednej linii kodu.

Wizualizacja danych w uczeniu maszynowym (ML) jest procesem iteracyjnym i wymaga ciągłej wizualizacji zestawu danych w celu wykrywania, badania i sprawdzania poprawności. Spojrzenie na dane z perspektywy wymaga spojrzenia na każdą z kolumn w celu zrozumienia możliwych błędów danych, brakujących wartości, niewłaściwych typów danych, wprowadzających w błąd/niepoprawnych danych, danych odstających i nie tylko.

W tym poście pokażemy Ci, jak to zrobić Pogromca danych Amazon SageMaker automatycznie generuje kluczowe wizualizacje dystrybucji danych, wykrywa problemy z jakością danych i udostępnia spostrzeżenia dotyczące danych, takie jak wartości odstające dla każdej funkcji, bez pisania ani jednego wiersza kodu. Pomaga ulepszyć działanie siatki danych dzięki automatycznym ostrzeżeniom o jakości (na przykład brakujące wartości lub nieprawidłowe wartości). Automatycznie generowane wizualizacje są również interaktywne. Możesz na przykład wyświetlić tabelaryczne zestawienie pięciu najczęstszych elementów uporządkowanych według procentów i najechać kursorem na pasek, aby przełączać się między liczbą a wartością procentową.

Wymagania wstępne

Amazon SageMaker Data Wrangler to funkcja SageMaker dostępna w SageMaker Studio. Możesz śledzić proces dołączania do Studio aby rozkręcić środowisko Studio i notebooki. Chociaż możesz wybrać jedną z kilku metod uwierzytelniania, najprostszym sposobem na utworzenie domeny Studio jest skorzystanie z Instrukcje szybkiego startu. Szybki start używa tych samych ustawień domyślnych, co standardowa konfiguracja programu Studio. Możesz także wybrać opcję dołączania za pomocą Centrum tożsamości zarządzania tożsamością i dostępem AWS (IAM). (następca AWS Single Sign-On) w celu uwierzytelnienia (patrz Włączenie do domeny Amazon SageMaker za pomocą IAM Identity Center).

Przewodnik po rozwiązaniu

Start Your Studio SageMaker Środowisko i stworzyć nowe Przepływ danych Wranglera. Możesz zaimportować własny zestaw danych lub użyć przykładowego zestawu danych (Tytaniczny), jak widać na poniższym obrazku. Te dwa węzły (tzw źródło węzeł i dane typu node) są klikalne – po dwukrotnym kliknięciu tych dwóch węzłów Data Wrangler wyświetli tabelę.

W naszym przypadku kliknijmy prawym przyciskiem myszy plik Typy danych ikona i Dodaj transformację:

Powinieneś teraz zobaczyć wizualizacje na górze każdej kolumny. Poczekaj chwilę na załadowanie wykresów. Opóźnienie zależy od rozmiaru zestawu danych (w przypadku zestawu danych Titanica powinno to zająć 1-2 sekundy w domyślnej instancji).

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Przewiń do poziomego górnego paska, najeżdżając kursorem na etykietkę narzędzia. Po załadowaniu wykresów możesz zobaczyć rozkład danych, nieprawidłowe wartości i brakujące wartości. Wartości odstające i brakujące wartości są cechami błędnych danych i bardzo ważne jest, aby je zidentyfikować, ponieważ mogą one wpłynąć na wyniki. Oznacza to, że ponieważ Twoje dane pochodzą z niereprezentatywnej próby, Twoje ustalenia mogą nie nadawać się do uogólnienia na sytuacje poza badaniem. Klasyfikację wartości można zobaczyć na wykresach na dole gdzie ważny wartości są reprezentowane na biało, nieważny wartości na niebiesko i brakujący wartości w kolorze fioletowym. Możesz też zajrzeć do wartości odstające przedstawiony przez niebieskie kropki po lewej lub prawej stronie wykresu.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Wszystkie wizualizacje mają postać histogramów. W przypadku danych niekategorycznych zestaw zasobników jest definiowany dla każdego przedziału. W przypadku danych kategorycznych każda unikatowa wartość jest traktowana jako kosz. Na górze histogramu znajduje się wykres słupkowy przedstawiający nieprawidłowe i brakujące wartości. Możemy wyświetlić stosunek prawidłowych wartości dla typów Numeryczny, Kategoryczny, Binarny, Tekstowy i Data/godzina, a także stosunek brakujących wartości na podstawie łącznej liczby pustych i pustych komórek, a także stosunek nieprawidłowych wartości. Przyjrzyjmy się kilku przykładom, aby zrozumieć, jak można je zobaczyć za pomocą Wstępnie załadowany przykładowy zestaw danych Titanic Data Wrangler.

1 przykład – Możemy spojrzeć na 20% brakujących wartości dla WIEK cecha/kolumna. Bardzo ważne jest, aby radzić sobie z brakującymi danymi w dziedzinie badań związanych z danymi/ML, usuwając je lub imputując (obsługa brakujących wartości z pewnym oszacowaniem).

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.
Brakujące wartości można przetwarzać za pomocą Obsługuj brakujące wartości przekształć grupę. Użyj Brak przypisania transform, aby wygenerować wartości imputowane, w przypadku gdy w kolumnie wejściowej znaleziono brakujące wartości. Konfiguracja zależy od typu danych.

W tym przykładzie WIEK kolumna ma liczbowy typ danych. W przypadku strategii przypisania możemy wybrać opcję przypisania oznaczać albo przybliżona mediana nad wartościami obecnymi w zbiorze danych.

Teraz, gdy dodaliśmy transformację, widzimy, że plik WIEK kolumna nie zawiera już brakujących wartości.

2 przykład – Możemy spojrzeć na 27% nieprawidłowych wartości dla BILET funkcja/kolumna, która jest z STRING rodzaj. Nieprawidłowe dane mogą prowadzić do wypaczonych szacunków, co może zmniejszyć dokładność modelu i skutkować fałszywymi wnioskami. Przyjrzyjmy się niektórym transformacjom, których możemy użyć do obsługi nieprawidłowych danych w pliku BILET Kolumna.

Patrząc na zrzut ekranu, widzimy, że niektóre dane wejściowe są zapisane w formacie zawierającym litery alfabetu przed cyframi „PC 17318”, a inne to tylko cyfry, takie jak „11769".

Możemy zastosować transformację do wyszukiwania i edytowania określonych wzorców w ciągach, takich jak „komputer” i wymienić je. Następnie możemy rzucić nasz ciąg kolumna do nowego typu, takiego jak długo dla łatwości użycia.

To wciąż pozostawia nam 19% brakujących wartości na BILET funkcja. Podobnie jak w przykładzie 1, możemy teraz przypisać brakujące wartości za pomocą średniej lub przybliżonej mediany. funkcja BILET nie powinny już mieć nieprawidłowych lub brakujących wartości, jak na poniższym obrazku.

Aby upewnić się, że po wykonaniu tego samouczka nie zostaną naliczone opłaty, upewnij się, że ty zamknij aplikację Data Wrangler.

Wnioski

W tym poście przedstawiliśmy nowość Amazon Sagemaker Data Wrangler widżet, który pomoże usunąć niezróżnicowane podnoszenie ciężarów dla użytkowników końcowych podczas przygotowywania danych z automatycznie wyświetlającymi się wizualizacjami i wglądami w profilowanie danych dla każdej funkcji. Ten widżet ułatwia wizualizację danych (na przykład histogram jakościowy/niekategoryczny), wykrywanie problemów z jakością danych (na przykład brakujące wartości i nieprawidłowe wartości) oraz wgląd w dane powierzchniowe (na przykład wartości odstające i górne N pozycji).

Możesz zacząć korzystać z tej możliwości już dziś we wszystkich regionach, w których dostępne jest SageMaker Studio. Spróbuji daj nam znać, co myślisz. Zawsze czekamy na Twoją opinię, zarówno za pośrednictwem zwykłych kontaktów wsparcia AWS, jak i na stronie Forum AWS dla SageMakera.

O autorach

Isza Dua jest starszym architektem rozwiązań z siedzibą w San Francisco Bay Area. Pomaga klientom AWS Enterprise rozwijać się, rozumiejąc ich cele i wyzwania, a także prowadzi ich, jak mogą zaprojektować swoje aplikacje w sposób natywny dla chmury, jednocześnie upewniając się, że są odporne i skalowalne. Jej pasją są technologie uczenia maszynowego i zrównoważony rozwój środowiska.

Część Patel jest architektem rozwiązań w AWS w rejonie zatoki San Francisco. Parth prowadzi klientów do przyspieszenia ich podróży do chmury i pomaga im pomyślnie wdrożyć chmurę AWS. Koncentruje się na ML i modernizacji aplikacji.

Znak czasu: 13 grudnia 2022 r.13 grudnia 2022 r.

Znak czasu: Września 29, 2022

Przedstawiamy nowe wbudowane wizualizacje Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Wymagania wstępne

Przewodnik po rozwiązaniu

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Wdrażaj duże modele w Amazon SageMaker za pomocą równoległego wnioskowania modeli DJLServing i DeepSpeed

Kontroluj dostęp do Amazon SageMaker Feature Store w trybie offline za pomocą AWS Lake Formation

Popraw dokładność wyszukiwania dzięki funkcji sprawdzania pisowni w Amazon Kendra

Analizuj plagę gryzoni za pomocą funkcji geoprzestrzennych Amazon SageMaker | Usługi sieciowe Amazona

Odkryj wiedzę w obszarach roboczych Slack dzięki inteligentnemu wyszukiwaniu za pomocą złącza Amazon Kendra Slack

Jak Sophos szkoli potężny, lekki wykrywacz złośliwego oprogramowania PDF na ultra skalę za pomocą Amazon SageMaker

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto