Eksploracyjna analiza danych (EDA) to typowe zadanie wykonywane przez analityków biznesowych w celu odkrywania wzorców, zrozumienia relacji, walidacji założeń i identyfikowania anomalii w danych. W uczeniu maszynowym (ML) ważne jest, aby najpierw zrozumieć dane i ich relacje przed przystąpieniem do tworzenia modelu. Tradycyjne cykle rozwoju ML mogą czasami trwać miesiące i wymagają zaawansowanej nauki o danych oraz umiejętności inżynierii ML, podczas gdy rozwiązania ML bez kodu mogą pomóc firmom przyspieszyć dostarczanie rozwiązań ML do dni, a nawet godzin.
Płótno Amazon SageMaker to narzędzie ML bez kodu, które pomaga analitykom biznesowym generować dokładne prognozy ML bez konieczności pisania kodu lub bez żadnego doświadczenia w ML. Canvas zapewnia łatwy w użyciu interfejs wizualny do ładowania, czyszczenia i przekształcania zestawów danych, a następnie tworzenia modeli ML i generowania dokładnych prognoz.
W tym poście opisujemy, jak wykonać EDA, aby lepiej zrozumieć dane przed zbudowaniem modelu ML, dzięki wbudowanym zaawansowanym wizualizacjom Canvas. Te wizualizacje pomagają analizować relacje między funkcjami w zestawach danych i lepiej rozumieć dane. Odbywa się to intuicyjnie, z możliwością interakcji z danymi i odkrywania spostrzeżeń, które mogą pozostać niezauważone w przypadku zapytań ad hoc. Można je szybko tworzyć za pomocą „Wizualizatora danych” w kanwie przed budowaniem i trenowaniem modeli ML.
Omówienie rozwiązania
Wizualizacje te rozszerzają zakres możliwości przygotowywania i eksploracji danych już oferowanych przez Canvas, w tym możliwość korygowania brakujących wartości i zastępowania wartości odstających; filtrować, łączyć i modyfikować zbiory danych; i wyodrębnij określone wartości czasu ze znaczników czasu. Aby dowiedzieć się więcej o tym, jak Canvas może pomóc Ci oczyścić, przekształcić i przygotować zbiór danych, sprawdź Przygotuj dane z zaawansowanymi transformacjami.
W naszym przypadku użycia przyjrzymy się, dlaczego klienci odchodzą w dowolnej firmie i ilustrujemy, w jaki sposób EDA może pomóc z punktu widzenia analityka. Zestaw danych, którego używamy w tym poście, to syntetyczny zestaw danych z telekomunikacyjnego operatora telefonii komórkowej do przewidywania rezygnacji klientów, który można pobrać (zmiana.csv) lub wprowadzasz własny zestaw danych do eksperymentowania. Aby uzyskać instrukcje dotyczące importowania własnego zestawu danych, zobacz Importowanie danych do Amazon SageMaker Canvas.
Wymagania wstępne
Postępuj zgodnie z instrukcjami w Warunki wstępne konfiguracji Amazon SageMaker Canvas zanim przejdziesz dalej.
Zaimportuj swój zbiór danych do Canvas
Aby zaimportować przykładowy zestaw danych do kanwy, wykonaj następujące kroki:
- Zaloguj się do Canvas jako użytkownik biznesowy.Najpierw przesyłamy wspomniany wcześniej zestaw danych z naszego lokalnego komputera do Canvas. Jeśli chcesz skorzystać z innych źródeł, takich jak Amazonka Przesunięcie ku czerwieni, odnosić się do Połącz się z zewnętrznym źródłem danych.
- Dodaj import.
- Dodaj Prześlij, A następnie wybierz Wybierz pliki ze swojego komputera.
- Wybierz swój zbiór danych (churn.csv) i wybierz Importuj daty.
- Wybierz zbiór danych i wybierz Utwórz model.
- W razie zamówieenia projektu Nazwa modelu, wpisz nazwę (dla tego posta podaliśmy nazwę przewidywania Churn).
- Dodaj Stwórz.
Zaraz po wybraniu zestawu danych zostanie wyświetlony przegląd przedstawiający typy danych, brakujące wartości, niedopasowane wartości, unikatowe wartości oraz wartości średnie lub tryby odpowiednich kolumn.
Z perspektywy EDA można zauważyć, że w zestawie danych nie ma brakujących ani niezgodnych wartości. Jako analityk biznesowy możesz chcieć uzyskać wstępny wgląd w kompilację modelu jeszcze przed rozpoczęciem eksploracji danych, aby określić, jak model będzie działał i jakie czynniki wpływają na wydajność modelu. Kanwa umożliwia uzyskanie szczegółowych informacji na podstawie danych przed zbudowaniem modelu, najpierw wyświetlając podgląd modelu. - Zanim zaczniesz eksplorować dane, wybierz Podgląd modelu.
- Wybierz kolumnę do przewidywania (odejścia).Canvas automatycznie wykrywa, że jest to przewidywanie dwóch kategorii.
- Dodaj Podgląd modelu. SageMaker Canvas wykorzystuje podzbiór danych do szybkiego zbudowania modelu, aby sprawdzić, czy dane są gotowe do wygenerowania dokładnej prognozy. Korzystając z tego przykładowego modelu, można zrozumieć bieżącą dokładność modelu i względny wpływ każdej kolumny na prognozy.
Poniższy zrzut ekranu pokazuje nasz podgląd.
Podgląd modelu wskazuje, że model przewiduje poprawną wartość docelową (churn?) w 95.6% przypadków. Możesz także zobaczyć początkowy wpływ kolumny (wpływ każdej kolumny na kolumnę docelową). Przeprowadźmy eksplorację, wizualizację i transformację danych, a następnie przejdźmy do budowania modelu.
Eksploracja danych
Canvas zawiera już kilka typowych podstawowych wizualizacji, takich jak dystrybucja danych w widoku siatki na Budować patka. Są one doskonałe do uzyskania ogólnego przeglądu danych, zrozumienia sposobu dystrybucji danych i uzyskania podsumowania zestawu danych.
Jako analityk biznesowy może być konieczne uzyskanie szczegółowych informacji o sposobie dystrybucji danych oraz o tym, jak rozkład odzwierciedla kolumnę docelową (odpływ), aby łatwo zrozumieć relację danych przed zbudowaniem modelu. Możesz teraz wybrać Widok siatki aby uzyskać przegląd dystrybucji danych.
Poniższy zrzut ekranu przedstawia przegląd dystrybucji zestawu danych.
Możemy poczynić następujące obserwacje:
- Telefon nabiera zbyt wielu unikalnych wartości, by mógł mieć jakiekolwiek praktyczne zastosowanie. Wiemy, że telefon to identyfikator klienta i nie chcemy budować modelu, który mógłby uwzględniać konkretnych klientów, ale raczej dowiedzieć się w bardziej ogólnym sensie, co może prowadzić do odejścia. Możesz usunąć tę zmienną.
- Większość funkcji numerycznych jest ładnie rozmieszczona, zgodnie z a Gaussian krzywa dzwonowa. W ML chcesz, aby dane były rozłożone normalnie, ponieważ każda zmienna wykazująca rozkład normalny może być prognozowana z większą dokładnością.
Zajrzyjmy głębiej i sprawdźmy zaawansowane wizualizacje dostępne w Canvas.
Wizualizacja danych
Jako analitycy biznesowi chcesz sprawdzić, czy istnieją relacje między elementami danych i jak są one powiązane z odejściem. Dzięki Canvas możesz eksplorować i wizualizować swoje dane, co pomaga uzyskać zaawansowany wgląd w dane przed zbudowaniem modeli ML. Możesz wizualizować za pomocą wykresów punktowych, wykresów słupkowych i wykresów skrzynkowych, które mogą pomóc w zrozumieniu danych i odkryciu relacji między funkcjami, które mogą wpłynąć na dokładność modelu.
Aby rozpocząć tworzenie wizualizacji, wykonaj następujące czynności:
- Na Budować w aplikacji Canvas, wybierz Wizualizator danych.
Kluczowym akceleratorem wizualizacji w Canvas jest Wizualizator danych. Zmieńmy wielkość próbki, aby uzyskać lepszą perspektywę.
- Wybierz liczbę wierszy obok Przykład wizualizacji.
- Użyj suwaka, aby wybrać żądaną wielkość próbki.
- Dodaj Aktualizacja aby potwierdzić zmianę wielkości próbki.
Możesz zmienić wielkość próbki na podstawie swojego zestawu danych. W niektórych przypadkach możesz mieć od kilkuset do kilku tysięcy wierszy, w których możesz wybrać cały zestaw danych. W niektórych przypadkach możesz mieć kilka tysięcy wierszy, w którym to przypadku możesz wybrać kilkaset lub kilka tysięcy wierszy w zależności od przypadku użycia.
Wykres punktowy pokazuje związek między dwiema zmiennymi ilościowymi mierzonymi dla tych samych osób. W naszym przypadku ważne jest zrozumienie związku między wartościami, aby sprawdzić korelację.
Ponieważ mamy połączenia, minuty i opłatę, wykreślimy korelację między nimi dla dnia, wieczoru i nocy.
Najpierw stwórzmy wykres punktowy między opłatami dziennymi a dziennymi min.
Możemy zaobserwować, że wraz ze wzrostem Day Mins wzrasta również Day Charge.
To samo dotyczy rozmów wieczornych.
Rozmowy nocne również mają ten sam schemat.
Ponieważ minuty i opłata wydają się rosnąć liniowo, można zauważyć, że mają one ze sobą wysoką korelację. Uwzględnienie tych par funkcji w niektórych algorytmach ML może zająć dodatkową pamięć i zmniejszyć szybkość uczenia, a posiadanie podobnych informacji w więcej niż jednej kolumnie może prowadzić do tego, że model będzie nadmiernie podkreślał wpływy i prowadzić do niepożądanego błędu w modelu. Usuńmy jedną cechę z każdej z silnie skorelowanych par: Day Charge z pary z Day Mins, Night Charge z pary z Night Mins i Intl Charge z pary z Intl Mins.
Bilans i zmienność danych
Wykres słupkowy to wykres między zmienną kategorialną na osi x a zmienną liczbową na osi y w celu zbadania relacji między obiema zmiennymi. Utwórzmy wykres słupkowy, aby zobaczyć, w jaki sposób wywołania są rozłożone w naszej kolumnie docelowej Odejście dla prawdy i fałszu. Wybierać Wykres słupkowy oraz przeciągnij i upuść połączenia dzienne i odejścia odpowiednio do osi y i x.
Teraz stwórzmy ten sam wykres słupkowy dla rozmów wieczornych a rezygnacji.
Następnie utwórzmy wykres słupkowy dla połączeń nocnych a rezygnacji.
Wygląda na to, że istnieje różnica w zachowaniu między klientami, którzy odeszli, a tymi, którzy tego nie zrobili.
Wykresy pudełkowe są przydatne, ponieważ pokazują różnice w zachowaniu danych w zależności od klasy (churn lub nie). Ponieważ zamierzamy przewidzieć odejście (kolumna docelowa), utwórzmy wykres pudełkowy niektórych funkcji względem naszej kolumny docelowej, aby wywnioskować statystyki opisowe dotyczące zestawu danych, takie jak średnia, maksymalna, minimalna, mediana i wartości odstające.
Dodaj Działka pudełkowa oraz przeciągnij i upuść Day mins i Churn odpowiednio na oś y i oś x.
Możesz również wypróbować to samo podejście do innych kolumn w stosunku do naszej kolumny docelowej (churn).
Stwórzmy teraz wykres pudełkowy dni minut w stosunku do połączeń obsługi klienta, aby zrozumieć, jak połączenia obsługi klienta obejmują wartość dni minut. Widać, że wywołania obsługi klienta nie mają zależności ani korelacji z wartością minut dnia.
Na podstawie naszych obserwacji możemy ustalić, że zbiór danych jest dość zrównoważony. Chcemy, aby dane były równomiernie rozłożone między wartościami prawda i fałsz, aby model nie był obciążony jedną wartością.
Transformacje
Na podstawie naszych obserwacji odrzucamy kolumnę Telefon, ponieważ jest to tylko numer konta i kolumny Day Charge, Eve Charge, Night Charge, ponieważ zawierają one nakładające się informacje, takie jak kolumny min, ale możemy ponownie uruchomić podgląd, aby potwierdzić.
Po analizie i przekształceniu danych ponownie obejrzyjmy model.
Można zauważyć, że szacowana dokładność modelu zmieniła się z 95.6% do 93.6% (może się to różnić), jednak znacznie zmienił się wpływ kolumn (ważność funkcji) dla poszczególnych kolumn, co poprawia szybkość treningu oraz wpływ kolumn na przewidywanie, gdy przechodzimy do kolejnych etapów budowania modelu. Nasz zbiór danych nie wymaga dodatkowej transformacji, ale jeśli zajdzie taka potrzeba, możesz skorzystać Przekształcenia danych ML do czyszczenia, przekształcania i przygotowywania danych do budowy modelu.
Zbuduj model
Możesz teraz przystąpić do budowy modelu i analizy wyników. Aby uzyskać więcej informacji, zobacz Przewiduj odejścia klientów dzięki uczeniu maszynowemu bez kodu, korzystając z Amazon SageMaker Canvas.
Sprzątać
Aby uniknąć ponoszenia przyszłości opłaty za sesję, zaloguj się płótna.
Wnioski
W tym poście pokazaliśmy, jak można wykorzystać możliwości wizualizacji Canvas dla EDA, aby lepiej zrozumieć dane przed budowaniem modelu, tworzyć dokładne modele ML i generować prognozy za pomocą interfejsu wizualnego typu „wskaż i kliknij” bez kodu.
O autorach
Rajakumar Sampathkumar jest głównym kierownikiem ds. kont technicznych w AWS, udzielając klientom wskazówek dotyczących dostosowania technologii biznesowych i wspierających na nowo modele i procesy operacyjne w chmurze. Pasjonuje się chmurą i uczeniem maszynowym. Raj jest również specjalistą od uczenia maszynowego i współpracuje z klientami AWS przy projektowaniu, wdrażaniu i zarządzaniu ich obciążeniami i architekturami AWS.
Rahula Naberę jest konsultantem ds. analizy danych w AWS Professional Services. Jego obecna praca koncentruje się na umożliwieniu klientom budowania ich obciążeń danych i uczenia maszynowego w AWS. W wolnym czasie lubi grać w krykieta i siatkówkę.
Raviteja Yelamanchili jest architektem rozwiązań dla przedsiębiorstw w Amazon Web Services z siedzibą w Nowym Jorku. Współpracuje z dużymi klientami korporacyjnymi świadczącymi usługi finansowe, projektując i wdrażając wysoce bezpieczne, skalowalne, niezawodne i ekonomiczne aplikacje w chmurze. Posiada ponad 11-letnie doświadczenie w zarządzaniu ryzykiem, doradztwie technologicznym, analityce danych i uczeniu maszynowym. Kiedy nie pomaga klientom, lubi podróżować i grać na PS5.
- Zaawansowane (300)
- AI
- ai sztuka
- generator sztuki ai
- masz robota
- Amazon Sage Maker
- Płótno Amazon SageMaker
- sztuczna inteligencja
- certyfikacja sztucznej inteligencji
- sztuczna inteligencja w bankowości
- robot sztucznej inteligencji
- roboty sztucznej inteligencji
- oprogramowanie sztucznej inteligencji
- Uczenie maszynowe AWS
- blockchain
- konferencja blockchain ai
- pomysłowość
- sztuczna inteligencja konwersacyjna
- konferencja kryptograficzna
- Dall's
- głęboka nauka
- google to
- uczenie maszynowe
- plato
- Platon Ai
- Analiza danych Platona
- Gra Platona
- PlatoDane
- platogaming
- skala ai
- składnia
- Instrukcje techniczne
- zefirnet