Identyfikowanie i unikanie typowych problemów z danymi podczas tworzenia modeli ML bez kodu za pomocą Amazon SageMaker Canvas

Opublikowane ponownie przez Plato

Obserwuje: 0

Analitycy biznesowi pracują z danymi i lubią analizować, eksplorować i rozumieć dane, aby osiągnąć efektywne wyniki biznesowe. Aby rozwiązać problemy biznesowe, często polegają na praktykach uczenia maszynowego (ML), takich jak naukowcy zajmujący się danymi, którzy pomagają w technikach, takich jak wykorzystanie uczenia maszynowego do budowania modeli przy użyciu istniejących danych i generowania prognoz. Jednak nie zawsze jest to możliwe, ponieważ analitycy danych są zwykle zajęci swoimi zadaniami i nie mają przepustowości, aby pomóc analitykom.

Aby być niezależnym i osiągać swoje cele jako analityk biznesowy, idealnie byłoby pracować z łatwymi w obsłudze, intuicyjnymi i wizualnymi narzędziami, które wykorzystują ML bez konieczności znajomości szczegółów i używania kodu. Korzystanie z tych narzędzi pomoże Ci rozwiązać problemy biznesowe i osiągnąć pożądane rezultaty.

Mając na celu pomóc Tobie i Twojej organizacji stać się bardziej efektywnymi i korzystać z uczenia maszynowego bez pisania kodu, my wprowadzono Amazon SageMaker Canvas. Jest to rozwiązanie ML bez kodu, które pomaga budować dokładne modele ML bez konieczności poznawania szczegółów technicznych, takich jak algorytmy ML i metryki oceny. SageMaker Canvas oferuje wizualny, intuicyjny interfejs, który pozwala importować dane, trenować modele ML, przeprowadzać analizy modeli i generować prognozy ML, a wszystko to bez pisania ani jednej linijki kodu.

Podczas eksperymentowania z SageMaker Canvas możesz napotkać problemy z jakością danych, takie jak brakujące wartości lub niewłaściwy typ problemu. Problemy te mogą zostać wykryte dopiero na dość późnym etapie procesu po szkoleniu modelu ML. Aby złagodzić to wyzwanie, SageMaker Canvas obsługuje teraz sprawdzanie poprawności danych. Ta funkcja proaktywnie sprawdza problemy z danymi i zapewnia wskazówki dotyczące rozwiązań.

W tym poście pokażemy, w jaki sposób można wykorzystać funkcję sprawdzania poprawności danych w SageMaker Canvas przed budowaniem modelu. Jak sama nazwa wskazuje, ta funkcja sprawdza poprawność zestawu danych, zgłasza problemy i dostarcza przydatnych wskazówek, jak je naprawić. Korzystając z danych lepszej jakości, uzyskasz lepiej działający model ML.

Zweryfikuj dane w SageMaker Canvas

Walidacja danych to nowa funkcja w SageMaker Canvas do proaktywnego sprawdzania potencjalnych problemów z jakością danych. Po zaimportowaniu danych i wybraniu kolumny docelowej możesz sprawdzić poprawność danych, jak pokazano tutaj:

Jeśli zdecydujesz się zweryfikować swoje dane, Canvas przeanalizuje je pod kątem wielu warunków, w tym:

Zbyt wiele unikalnych etykiet w kolumnie docelowej – dla typu modelu predykcyjnego kategorii
Zbyt wiele niepowtarzalnych etykiet w kolumnie docelowej w stosunku do liczby wierszy w danych – dla typu modelu predykcyjnego kategorii
Niewłaściwy typ modelu dla Twoich danych – typ modelu nie pasuje do przewidywanych danych w kolumnie Cel
Zbyt wiele nieprawidłowych wierszy – brakujące wartości w kolumnie docelowej
Wszystkie kolumny funkcji są kolumnami tekstowymi – zostaną odrzucone w przypadku standardowych kompilacji
Za mało kolumn – za mało kolumn w danych
Brak pełnych wierszy – wszystkie wiersze w Twoich danych zawierają braki danych
Co najmniej jedna nazwa kolumny zawiera podwójne podkreślenia – SageMaker nie obsługuje (__) w nagłówku kolumny

Szczegóły dotyczące każdego kryterium walidacji zostaną podane w dalszych częściach tego wpisu.

Jeśli wszystkie kontrole zakończą się pomyślnie, otrzymasz następujące potwierdzenie: „W Twoim zbiorze danych nie znaleziono żadnych problemów”.

Jeśli zostanie znaleziony jakiś problem, otrzymasz powiadomienie, aby je wyświetlić i zrozumieć. Pozwala to na wczesne wykrycie problemów z jakością danych i natychmiastowe ich rozwiązanie przed marnowaniem czasu i zasobów w dalszej części procesu.

Możesz wprowadzać poprawki i sprawdzać poprawność swojego zbioru danych, dopóki wszystkie problemy nie zostaną rozwiązane.

Sprawdź poprawność kolumn docelowych i typów modeli

Kiedy budujesz model ML w SageMaker Canvas, kilka problemów z jakością danych związanych z kolumna docelowa może spowodować niepowodzenie kompilacji modelu. SageMaker Canvas sprawdza różne rodzaje problemów, które mogą mieć wpływ na Twoje kolumna docelowa.

Dla kolumny docelowej sprawdź Niewłaściwy typ modelu dla Twoich danych. Na przykład, jeśli wybrano model przewidywania z 2 kategoriami, ale kolumna docelowa ma więcej niż 2 unikalne etykiety, SageMaker Canvas wyświetli następujące ostrzeżenie dotyczące walidacji.
Jeśli typem modelu jest przewidywanie kategorii 2 lub 3+, należy zweryfikować zbyt wiele unikalnych etykiet dla Twojej kolumny docelowej. Maksymalna liczba unikalnych klas to 2000. Jeśli wybierzesz kolumnę zawierającą więcej niż 2000 unikalnych wartości w kolumnie Target, Canvas wyświetli następujące ostrzeżenie dotyczące walidacji.
Oprócz zbyt wielu unikalnych etykiet docelowych, należy również uważać wiele unikalnych etykiet docelowych dla liczby wierszy w danych. SageMaker Canvas wymusza, aby stosunek etykiety docelowej do łącznej liczby wierszy był mniejszy niż 10%. Daje to pewność, że masz wystarczającą reprezentację dla każdej kategorii, aby uzyskać model wysokiej jakości, i zmniejsza ryzyko nadmiernego dopasowania. Twój model jest uważany za nadmiernie dopasowany, gdy dobrze przewiduje dane treningowe, ale nie nowe dane, których wcześniej nie widział. Wspominać tutaj uczyć się więcej.
Wreszcie ostatnia kontrola dla kolumny docelowej to zbyt wiele nieprawidłowych wierszy. Jeśli w kolumnie docelowej brakuje ponad 10% danych lub są one nieprawidłowe, wpłynie to na wydajność modelu, aw niektórych przypadkach spowoduje niepowodzenie kompilacji modelu. Poniższy przykład zawiera wiele brakujących wartości (brak >90%) w kolumnie docelowej i pojawia się następujące ostrzeżenie dotyczące sprawdzania poprawności.

Jeśli pojawi się którekolwiek z powyższych ostrzeżeń dotyczących kolumny docelowej, wykonaj następujące czynności, aby złagodzić problemy:

Czy używasz właściwej kolumny docelowej?
Czy wybrałeś właściwy typ modelu?
Czy możesz zwiększyć liczbę wierszy w zbiorze danych na etykietę docelową?
Czy możesz skonsolidować/grupować podobne etykiety razem?
Czy możesz wpisać brakujące/nieprawidłowe wartości?
Czy masz wystarczająco dużo danych, aby usunąć brakujące/nieprawidłowe wartości?
Jeśli wszystkie powyższe opcje nie usuwają ostrzeżenia, należy rozważyć użycie innego zestawu danych.

Patrz: Dokumentacja transformacji danych SageMaker Canvas aby wykonać kroki imputacji, o których mowa powyżej.

Sprawdź poprawność wszystkich kolumn

Oprócz kolumny docelowej możesz napotkać problemy z jakością danych również w przypadku innych kolumn danych (kolumn cech). Kolumny funkcji to dane wejściowe używane do prognozowania ML.

Każdy zestaw danych powinien mieć co najmniej 1 kolumnę cech i 1 kolumnę docelową (łącznie 2 kolumny). W przeciwnym razie SageMaker Canvas da ci Za mało kolumn w Twoich danych ostrzeżenie. Musisz spełnić to wymaganie, zanim będziesz mógł kontynuować budowanie modelu.
Następnie musisz upewnić się, że Twoje dane mają co najmniej 1 kolumnę liczbową. Jeśli nie, to dostaniesz tzw wszystkie kolumny funkcji są kolumnami tekstowymi ostrzeżenie. Dzieje się tak, ponieważ kolumny tekstowe są zwykle usuwane podczas kompilacji standardowych, przez co model nie ma funkcji do nauczenia. W związku z tym spowoduje to niepowodzenie budowania modelu. Możesz użyć SageMaker Canvas do zakodowania niektórych kolumn tekstowych na liczby lub użyć szybkiej kompilacji zamiast standardowej kompilacji.
Trzecim rodzajem ostrzeżenia, które możesz otrzymać w przypadku kolumn funkcji, jest Brak pełnych wierszy. Ta weryfikacja sprawdza, czy masz co najmniej jeden wiersz bez brakujących wartości. SageMaker Canvas wymaga co najmniej jednego pełnego wiersza, w przeciwnym razie twój szybka budowa zawiedzie. Spróbuj uzupełnić brakujące wartości przed zbudowaniem modelu.
Ostatnim rodzajem walidacji jest Co najmniej jedna nazwa kolumny zawiera podwójne podkreślenia. Jest to specyficzne wymaganie SageMaker Canvas. Jeśli masz podwójne podkreślenia (__) w nagłówkach kolumn, spowoduje to, że twój szybka budowa nie zdać. Zmień nazwy kolumn, aby usunąć podwójne podkreślenia, a następnie spróbuj ponownie.

Sprzątać

Aby uniknąć ponoszenia przyszłości opłaty za sesję, wyloguj się z SageMaker Canvas.

Wnioski

SageMaker Canvas to rozwiązanie ML bez kodu, które umożliwia analitykom biznesowym tworzenie dokładnych modeli ML i generowanie prognoz za pomocą wizualnego interfejsu typu „wskaż i kliknij”. Pokazaliśmy Ci, w jaki sposób SageMaker Canvas pomaga zapewnić jakość danych i łagodzić problemy z danymi poprzez proaktywne sprawdzanie poprawności zestawu danych. Dzięki wczesnej identyfikacji problemów SageMaker Canvas pomaga budować wysokiej jakości modele ML i ograniczać iteracje kompilacji bez wiedzy specjalistycznej w zakresie nauki o danych i programowania. Aby dowiedzieć się więcej o tej nowej funkcji, zapoznaj się z Dokumentacja SageMaker Canvas.

Aby rozpocząć i dowiedzieć się więcej o SageMaker Canvas, zapoznaj się z następującymi zasobami:

O autorach

Hariharana Suresha jest starszym architektem rozwiązań w AWS. Pasjonuje się bazami danych, uczeniem maszynowym oraz projektowaniem innowacyjnych rozwiązań. Przed dołączeniem do AWS, Hariharan był architektem produktów, specjalistą ds. implementacji podstawowej bankowości oraz programistą i pracował z organizacjami BFSI przez ponad 11 lat. Poza technologią lubi paralotniarstwo i jazdę na rowerze.

Sainath Miriyala jest Senior Technical Account Managerem w AWS pracującym dla klientów z branży motoryzacyjnej w USA. Sainath jest pasjonatem projektowania i budowania aplikacji rozproszonych na dużą skalę przy użyciu AI/ML. W wolnym czasie Sainath spędza czas z rodziną i przyjaciółmi.

Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.

Znak czasu: Listopad 10, 2022Listopad 11, 2022

Znak czasu: 5 maja 2022 r.

Identyfikowanie i unikanie typowych problemów z danymi podczas tworzenia modeli ML bez kodu za pomocą Amazon SageMaker Canvas

Opublikowane ponownie przez Plato

Zweryfikuj dane w SageMaker Canvas

Sprawdź poprawność kolumn docelowych i typów modeli

Sprawdź poprawność wszystkich kolumn

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Ogłaszanie nowych narzędzi i możliwości umożliwiających odpowiedzialne innowacje w zakresie sztucznej inteligencji | Usługi internetowe Amazona

Włącz CI/CD wieloregionalnych punktów końcowych Amazon SageMaker

Inteligentne przetwarzanie dokumentów z usługami AWS AI i Analytics w branży ubezpieczeniowej: Część 2

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto