Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Przedstawiamy nowe wbudowane wizualizacje Amazon SageMaker Data Wrangler

Ręczne sprawdzanie jakości danych i czyszczenie danych to bolesny i czasochłonny proces, który może zająć ogromną część czasu analityka danych nad projektem. Według ankiety przeprowadzonej przez firmę Anaconda wśród analityków danych w 2020 r., analitycy danych spędzają około 66% swojego czasu na zadaniach związanych z przygotowaniem i analizą danych, w tym ładowaniem (19%), czyszczeniem (26%) i wizualizacją danych (21%). Amazon Sage Maker oferuje szereg narzędzi do przygotowywania danych w celu zaspokojenia różnych potrzeb i preferencji klientów. Dla użytkowników, którzy preferują interaktywny interfejs oparty na GUI, Poskramiacz danych SageMaker oferuje ponad 300 wbudowanych wizualizacji, analiz i transformacji w celu wydajnego przetwarzania danych wspieranych przez Spark bez pisania ani jednej linii kodu.

Wizualizacja danych w uczeniu maszynowym (ML) jest procesem iteracyjnym i wymaga ciągłej wizualizacji zestawu danych w celu wykrywania, badania i sprawdzania poprawności. Spojrzenie na dane z perspektywy wymaga spojrzenia na każdą z kolumn w celu zrozumienia możliwych błędów danych, brakujących wartości, niewłaściwych typów danych, wprowadzających w błąd/niepoprawnych danych, danych odstających i nie tylko.

W tym poście pokażemy Ci, jak to zrobić Pogromca danych Amazon SageMaker automatycznie generuje kluczowe wizualizacje dystrybucji danych, wykrywa problemy z jakością danych i udostępnia spostrzeżenia dotyczące danych, takie jak wartości odstające dla każdej funkcji, bez pisania ani jednego wiersza kodu. Pomaga ulepszyć działanie siatki danych dzięki automatycznym ostrzeżeniom o jakości (na przykład brakujące wartości lub nieprawidłowe wartości). Automatycznie generowane wizualizacje są również interaktywne. Możesz na przykład wyświetlić tabelaryczne zestawienie pięciu najczęstszych elementów uporządkowanych według procentów i najechać kursorem na pasek, aby przełączać się między liczbą a wartością procentową.

Wymagania wstępne

Amazon SageMaker Data Wrangler to funkcja SageMaker dostępna w SageMaker Studio. Możesz śledzić proces dołączania do Studio aby rozkręcić środowisko Studio i notebooki. Chociaż możesz wybrać jedną z kilku metod uwierzytelniania, najprostszym sposobem na utworzenie domeny Studio jest skorzystanie z Instrukcje szybkiego startu. Szybki start używa tych samych ustawień domyślnych, co standardowa konfiguracja programu Studio. Możesz także wybrać opcję dołączania za pomocą Centrum tożsamości zarządzania tożsamością i dostępem AWS (IAM). (następca AWS Single Sign-On) w celu uwierzytelnienia (patrz Włączenie do domeny Amazon SageMaker za pomocą IAM Identity Center).

Przewodnik po rozwiązaniu

Start Your Studio SageMaker Środowisko i stworzyć nowe Przepływ danych Wranglera. Możesz zaimportować własny zestaw danych lub użyć przykładowego zestawu danych (Tytaniczny), jak widać na poniższym obrazku. Te dwa węzły (tzw źródło węzeł i dane typu node) są klikalne – po dwukrotnym kliknięciu tych dwóch węzłów Data Wrangler wyświetli tabelę.

W naszym przypadku kliknijmy prawym przyciskiem myszy plik Typy danych ikona i Dodaj transformację:

Powinieneś teraz zobaczyć wizualizacje na górze każdej kolumny. Poczekaj chwilę na załadowanie wykresów. Opóźnienie zależy od rozmiaru zestawu danych (w przypadku zestawu danych Titanica powinno to zająć 1-2 sekundy w domyślnej instancji).

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Przewiń do poziomego górnego paska, najeżdżając kursorem na etykietkę narzędzia. Po załadowaniu wykresów możesz zobaczyć rozkład danych, nieprawidłowe wartości i brakujące wartości. Wartości odstające i brakujące wartości są cechami błędnych danych i bardzo ważne jest, aby je zidentyfikować, ponieważ mogą one wpłynąć na wyniki. Oznacza to, że ponieważ Twoje dane pochodzą z niereprezentatywnej próby, Twoje ustalenia mogą nie nadawać się do uogólnienia na sytuacje poza badaniem. Klasyfikację wartości można zobaczyć na wykresach na dole gdzie ważny wartości są reprezentowane na biało, nieważny wartości na niebiesko i brakujący wartości w kolorze fioletowym. Możesz też zajrzeć do wartości odstające przedstawiony przez niebieskie kropki po lewej lub prawej stronie wykresu.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Wszystkie wizualizacje mają postać histogramów. W przypadku danych niekategorycznych zestaw zasobników jest definiowany dla każdego przedziału. W przypadku danych kategorycznych każda unikatowa wartość jest traktowana jako kosz. Na górze histogramu znajduje się wykres słupkowy przedstawiający nieprawidłowe i brakujące wartości. Możemy wyświetlić stosunek prawidłowych wartości dla typów Numeryczny, Kategoryczny, Binarny, Tekstowy i Data/godzina, a także stosunek brakujących wartości na podstawie łącznej liczby pustych i pustych komórek, a także stosunek nieprawidłowych wartości. Przyjrzyjmy się kilku przykładom, aby zrozumieć, jak można je zobaczyć za pomocą Wstępnie załadowany przykładowy zestaw danych Titanic Data Wrangler.

1 przykład – Możemy spojrzeć na 20% brakujących wartości dla WIEK cecha/kolumna. Bardzo ważne jest, aby radzić sobie z brakującymi danymi w dziedzinie badań związanych z danymi/ML, usuwając je lub imputując (obsługa brakujących wartości z pewnym oszacowaniem).

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.
Brakujące wartości można przetwarzać za pomocą Obsługuj brakujące wartości przekształć grupę. Użyj Brak przypisania transform, aby wygenerować wartości imputowane, w przypadku gdy w kolumnie wejściowej znaleziono brakujące wartości. Konfiguracja zależy od typu danych.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

W tym przykładzie WIEK kolumna ma liczbowy typ danych. W przypadku strategii przypisania możemy wybrać opcję przypisania oznaczać albo przybliżona mediana nad wartościami obecnymi w zbiorze danych.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Teraz, gdy dodaliśmy transformację, widzimy, że plik WIEK kolumna nie zawiera już brakujących wartości.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

2 przykład – Możemy spojrzeć na 27% nieprawidłowych wartości dla BILET funkcja/kolumna, która jest z STRING rodzaj. Nieprawidłowe dane mogą prowadzić do wypaczonych szacunków, co może zmniejszyć dokładność modelu i skutkować fałszywymi wnioskami. Przyjrzyjmy się niektórym transformacjom, których możemy użyć do obsługi nieprawidłowych danych w pliku BILET Kolumna.

Patrząc na zrzut ekranu, widzimy, że niektóre dane wejściowe są zapisane w formacie zawierającym litery alfabetu przed cyframi „PC 17318”, a inne to tylko cyfry, takie jak „11769".

Możemy zastosować transformację do wyszukiwania i edytowania określonych wzorców w ciągach, takich jak „komputer” i wymienić je. Następnie możemy rzucić nasz ciąg kolumna do nowego typu, takiego jak długo dla łatwości użycia.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

To wciąż pozostawia nam 19% brakujących wartości na BILET funkcja. Podobnie jak w przykładzie 1, możemy teraz przypisać brakujące wartości za pomocą średniej lub przybliżonej mediany. funkcja BILET nie powinny już mieć nieprawidłowych lub brakujących wartości, jak na poniższym obrazku.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.

Aby upewnić się, że po wykonaniu tego samouczka nie zostaną naliczone opłaty, upewnij się, że ty zamknij aplikację Data Wrangler.

Wnioski 

W tym poście przedstawiliśmy nowość Amazon Sagemaker Data Wrangler widżet, który pomoże usunąć niezróżnicowane podnoszenie ciężarów dla użytkowników końcowych podczas przygotowywania danych z automatycznie wyświetlającymi się wizualizacjami i wglądami w profilowanie danych dla każdej funkcji. Ten widżet ułatwia wizualizację danych (na przykład histogram jakościowy/niekategoryczny), wykrywanie problemów z jakością danych (na przykład brakujące wartości i nieprawidłowe wartości) oraz wgląd w dane powierzchniowe (na przykład wartości odstające i górne N pozycji).

Możesz zacząć korzystać z tej możliwości już dziś we wszystkich regionach, w których dostępne jest SageMaker Studio. Spróbuji daj nam znać, co myślisz. Zawsze czekamy na Twoją opinię, zarówno za pośrednictwem zwykłych kontaktów wsparcia AWS, jak i na stronie Forum AWS dla SageMakera.


O autorach

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.Isza Dua jest starszym architektem rozwiązań z siedzibą w San Francisco Bay Area. Pomaga klientom AWS Enterprise rozwijać się, rozumiejąc ich cele i wyzwania, a także prowadzi ich, jak mogą zaprojektować swoje aplikacje w sposób natywny dla chmury, jednocześnie upewniając się, że są odporne i skalowalne. Jej pasją są technologie uczenia maszynowego i zrównoważony rozwój środowiska.

Przedstawiamy nowe wbudowane wizualizacje PlatoBlockchain Data Intelligence firmy Amazon SageMaker Data Wrangler. Wyszukiwanie pionowe. AI.Część Patel jest architektem rozwiązań w AWS w rejonie zatoki San Francisco. Parth prowadzi klientów do przyspieszenia ich podróży do chmury i pomaga im pomyślnie wdrożyć chmurę AWS. Koncentruje się na ML i modernizacji aplikacji.

Znak czasu:

Więcej z Uczenie maszynowe AWS