Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

W tym poście przedstawiamy nową analizę w Raport dotyczący jakości danych i statystyk of Pogromca danych Amazon SageMaker. Ta analiza pomaga w sprawdzaniu poprawności funkcji tekstowych i wykrywaniu nieprawidłowych wierszy do naprawy lub pominięcia.

Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych do uczenia maszynowego (ML) z tygodni do minut. Możesz uprościć proces przygotowania danych i inżynierii funkcji oraz ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację za pomocą jednego interfejsu wizualnego.

Omówienie rozwiązania

Wstępne przetwarzanie danych często obejmuje czyszczenie danych tekstowych, takich jak adresy e-mail, numery telefonów i nazwy produktów. Te dane mogą mieć podstawowe ograniczenia integralności, które mogą być opisane za pomocą wyrażeń regularnych. Na przykład, aby zostać uznany za ważny, lokalny numer telefonu może wymagać wzorca takiego jak [1-9][0-9]{2}-[0-9]{4}, co odpowiadałoby cyfrze różnej od zera, po której następowałyby kolejne dwie cyfry, po której następuje myślnik i cztery kolejne cyfry.

Typowe scenariusze skutkujące nieprawidłowymi danymi mogą obejmować niespójny wpis człowieka, na przykład numery telefonów w różnych formatach (5551234 vs. 555 1234 vs. 555-1234) lub nieoczekiwane dane, takie jak 0, 911 lub 411. ważne jest, aby pominąć liczby takie jak 0, 911 lub 411 i zweryfikować (i potencjalnie poprawne) wpisy, takie jak 5551234 lub 555 1234.

Niestety, chociaż istnieją ograniczenia tekstowe, mogą nie być dostarczane wraz z danymi. Dlatego specjalista ds. danych przygotowujący zestaw danych musi ręcznie odkryć ograniczenia, patrząc na dane. Może to być żmudne, podatne na błędy i czasochłonne.

Uczenie się wzorców automatycznie analizuje dane i ujawnia ograniczenia tekstowe, które mogą mieć zastosowanie do zestawu danych. Na przykład z numerami telefonów, uczenie się wzorców może analizować dane i identyfikować, że zdecydowana większość numerów telefonów podlega ograniczeniom tekstowym [1-9][0-9]{2}-[0-9][4]. Może również ostrzegać, że istnieją przykłady nieprawidłowych danych, dzięki czemu można je wykluczyć lub poprawić.

W poniższych sekcjach pokazujemy, jak używać uczenia się wzorców w Data Wrangler przy użyciu fikcyjnego zestawu danych kategorii produktów i kodów SKU (jednostek magazynowych).

Ten zestaw danych zawiera funkcje opisujące produkty według firmy, marki i zużycia energii. W szczególności zawiera źle sformatowaną jednostkę SKU funkcji. Wszystkie dane w tym zbiorze danych są fikcyjne i tworzone losowo przy użyciu losowych nazw marek i nazw urządzeń.

Wymagania wstępne

Zanim zaczniesz korzystać z Data Wranglera, pobieranie przykładowy zbiór danych i przesłać go do lokalizacji w Usługa Amazon Simple Storage (Amazonka S3). Aby uzyskać instrukcje, zobacz Przesyłanie obiektów.

Zaimportuj swój zbiór danych

Aby zaimportować zbiór danych, wykonaj następujące czynności:

W aplikacji Data Wrangler wybierz Importuj i eksploruj dane dla ML.
Dodaj import.
W razie zamówieenia projektu Importuj datywybierz Amazon S3.
Znajdź plik w Amazon S3 i wybierz import.

Po zaimportowaniu możemy przejść do przepływu danych.

Uzyskaj wgląd w dane

W tym kroku tworzymy raport analizy danych, który zawiera informacje o jakości danych. Aby uzyskać więcej informacji, zobacz Uzyskaj wgląd w dane i jakość danych. Wykonaj następujące kroki:

Na Przepływ danych wybierz znak plus obok Typy danych.
Dodaj Uzyskaj wgląd w dane.
W razie zamówieenia projektu Typ analizywybierz Raport dotyczący jakości danych i statystyk.
Dla tego posta zostaw Kolumna docelowa i Typ problemu puste.Jeśli planujesz użyć swojego zestawu danych do zadania regresji lub klasyfikacji z cechą docelową, możesz wybrać te opcje, a raport będzie zawierał analizę tego, jak cechy wejściowe odnoszą się do celu. Na przykład może generować raporty dotyczące docelowego wycieku. Aby uzyskać więcej informacji, zobacz Kolumna docelowa.
Dodaj Stwórz.

Mamy teraz raport dotyczący jakości danych i analizy danych. Jeśli przewiniemy w dół do SKU W sekcji możemy zobaczyć przykład uczenia się wzorców opisujący SKU. Wygląda na to, że ta funkcja zawiera nieprawidłowe dane i wymagane jest podjęcie działań naprawczych.

Zanim wyczyścimy funkcję SKU, przewiń w górę do Marka sekcji, aby zobaczyć więcej informacji. Widzimy tutaj, że odkryto dwa wzorce, co wskazuje, że większość nazw marek to pojedyncze słowa składające się ze znaków słownych lub liter alfabetu. A słowo znak to podkreślenie lub znak, który może pojawić się w słowie w dowolnym języku. Na przykład struny Hello_world i écoute oba składają się ze znaków słownych: H i é.

W tym poście nie czyścimy tej funkcji.

Zobacz spostrzeżenia dotyczące uczenia się wzorców

Wróćmy do czyszczenia jednostek SKU i powiększ wzór oraz komunikat ostrzegawczy.

Jak pokazano na poniższym zrzucie ekranu, uczenie się wzorców ujawnia wzorzec o wysokiej dokładności pasujący do 97.78% danych. Wyświetla również kilka przykładów pasujących do wzorca, a także przykłady, które nie pasują do wzorca. W niedopasowaniach widzimy kilka nieprawidłowych kodów SKU.

Oprócz wzorów na powierzchni może pojawić się ostrzeżenie wskazujące na potencjalne działanie w celu oczyszczenia danych, jeśli istnieje wzór o wysokiej dokładności, a także niektóre dane, które nie są zgodne z wzorem.

Możemy pominąć nieprawidłowe dane. Jeśli wybierzemy (kliknij prawym przyciskiem myszy) na wyrażeniu regularnym, możemy skopiować wyrażenie [A-Z]{3}-[0-9]{4,5}.

Usuń nieprawidłowe dane

Utwórzmy transformację, aby pominąć niezgodne dane, które nie pasują do tego wzorca.

Na Przepływ danych wybierz znak plus obok Typy danych.
Dodaj Dodaj transformację.
Dodaj Dodaj krok.
w szukaniu regex i wybierz Szukaj i edytuj.
W razie zamówieenia projektu Przekształcaćwybierz Konwertuj niedopasowania na brakujące.
W razie zamówieenia projektu Kolumny wejściowewybierz SKU.
W razie zamówieenia projektu Wzór, wprowadź nasze wyrażenie regularne.
Dodaj Podgląd, A następnie wybierz Dodaj.

Teraz zbędne dane zostały usunięte z funkcji.
Aby usunąć wiersze, dodaj krok Brak uchwytu i wybierz transformację Brakuje upuszczenia.
Dodaj SKU jako kolumna wejściowa.

Wracamy do naszego przepływu danych z usuniętymi błędnymi danymi.

Wnioski

W tym poście pokazaliśmy, jak korzystać z funkcji uczenia się wzorców w analizie danych, aby znaleźć nieprawidłowe dane tekstowe w zestawie danych, a także jak je poprawić lub pominąć.

Teraz, gdy wyczyściłeś kolumnę tekstową, możesz zwizualizować swój zestaw danych za pomocą analiza lub możesz złożyć wniosek wbudowane przekształcenia w celu dalszego przetwarzania Twoich danych. Kiedy jesteś zadowolony ze swoich danych, możesz wyszkolić modelkę w Autopilot Amazon SageMakerlub wyeksportować swoje dane do źródła danych, takiego jak Amazon S3.

Chcielibyśmy podziękować Nikicie Ivkinowi za jego przemyślaną recenzję.

O autorach

Vishaala Kapoora jest starszym naukowcem z AWS AI. Pasjonuje go pomaganie klientom w zrozumieniu ich danych w Data Wrangler. W wolnym czasie jeździ na rowerze górskim, snowboardzie, spędza czas z rodziną.

Zohar Karnin jest głównym naukowcem w Amazon AI. Jego zainteresowania badawcze obejmują obszary algorytmów uczenia maszynowego na dużą skalę i online. Opracowuje nieskończenie skalowalne algorytmy uczenia maszynowego dla Amazon SageMaker.

Ajai Sharma jest głównym menedżerem produktu w Amazon SageMaker, gdzie koncentruje się na Data Wrangler, wizualnym narzędziu do przygotowywania danych dla naukowców zajmujących się danymi. Przed podjęciem pracy w AWS Ajai był ekspertem ds. nauki danych w McKinsey and Company, gdzie prowadził projekty ukierunkowane na ML dla wiodących firm finansowych i ubezpieczeniowych na całym świecie. Ajai pasjonuje się nauką o danych i uwielbia poznawać najnowsze algorytmy i techniki uczenia maszynowego.

Darek Baron jest menedżerem ds. rozwoju oprogramowania dla Amazon SageMaker Data Wrangler

Znak czasu: 24 października 2022 r.24 października 2022 r.

Znak czasu: Września 15, 2022

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Zaimportuj swój zbiór danych

Uzyskaj wgląd w dane

Zobacz spostrzeżenia dotyczące uczenia się wzorców

Usuń nieprawidłowe dane

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

AWS Panorama obsługuje teraz NVIDIA JetPack SDK 4.6.2

Rozpoczęcie wdrażania modeli czasu rzeczywistego w Amazon SageMaker

Bazy wiedzy w Amazon Bedrock upraszczają teraz zadawanie pytań w jednym dokumencie | Usługi internetowe Amazona

Prognozy tygodniowe mogą teraz zaczynać się w niedzielę dzięki prognozie Amazon

Uprość ciągłe uczenie się niestandardowych modeli Amazon Comprehend za pomocą koła zamachowego Comprehend

Inteligentnie przeszukuj swoje projekty Jira za pomocą łącznika chmurowego Amazon Kendra Jira

Instancja Amazon EC2 DL2q do ekonomicznego i wydajnego wnioskowania AI jest teraz ogólnie dostępna | Usługi internetowe Amazona

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i Studio Labs, aby uczyć się i eksperymentować z ML

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto