Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler

W tym poście przedstawiamy nową analizę w Raport dotyczący jakości danych i statystyk of Pogromca danych Amazon SageMaker. Ta analiza pomaga w sprawdzaniu poprawności funkcji tekstowych i wykrywaniu nieprawidłowych wierszy do naprawy lub pominięcia.

Data Wrangler skraca czas potrzebny na agregację i przygotowanie danych do uczenia maszynowego (ML) z tygodni do minut. Możesz uprościć proces przygotowania danych i inżynierii funkcji oraz ukończyć każdy etap przepływu pracy przygotowania danych, w tym wybór danych, czyszczenie, eksplorację i wizualizację za pomocą jednego interfejsu wizualnego.

Omówienie rozwiązania

Wstępne przetwarzanie danych często obejmuje czyszczenie danych tekstowych, takich jak adresy e-mail, numery telefonów i nazwy produktów. Te dane mogą mieć podstawowe ograniczenia integralności, które mogą być opisane za pomocą wyrażeń regularnych. Na przykład, aby zostać uznany za ważny, lokalny numer telefonu może wymagać wzorca takiego jak [1-9][0-9]{2}-[0-9]{4}, co odpowiadałoby cyfrze różnej od zera, po której następowałyby kolejne dwie cyfry, po której następuje myślnik i cztery kolejne cyfry.

Typowe scenariusze skutkujące nieprawidłowymi danymi mogą obejmować niespójny wpis człowieka, na przykład numery telefonów w różnych formatach (5551234 vs. 555 1234 vs. 555-1234) lub nieoczekiwane dane, takie jak 0, 911 lub 411. ważne jest, aby pominąć liczby takie jak 0, 911 lub 411 i zweryfikować (i potencjalnie poprawne) wpisy, takie jak 5551234 lub 555 1234.

Niestety, chociaż istnieją ograniczenia tekstowe, mogą nie być dostarczane wraz z danymi. Dlatego specjalista ds. danych przygotowujący zestaw danych musi ręcznie odkryć ograniczenia, patrząc na dane. Może to być żmudne, podatne na błędy i czasochłonne.

Uczenie się wzorców automatycznie analizuje dane i ujawnia ograniczenia tekstowe, które mogą mieć zastosowanie do zestawu danych. Na przykład z numerami telefonów, uczenie się wzorców może analizować dane i identyfikować, że zdecydowana większość numerów telefonów podlega ograniczeniom tekstowym [1-9][0-9]{2}-[0-9][4]. Może również ostrzegać, że istnieją przykłady nieprawidłowych danych, dzięki czemu można je wykluczyć lub poprawić.

W poniższych sekcjach pokazujemy, jak używać uczenia się wzorców w Data Wrangler przy użyciu fikcyjnego zestawu danych kategorii produktów i kodów SKU (jednostek magazynowych).

Ten zestaw danych zawiera funkcje opisujące produkty według firmy, marki i zużycia energii. W szczególności zawiera źle sformatowaną jednostkę SKU funkcji. Wszystkie dane w tym zbiorze danych są fikcyjne i tworzone losowo przy użyciu losowych nazw marek i nazw urządzeń.

Wymagania wstępne

Zanim zaczniesz korzystać z Data Wranglera, pobieranie przykładowy zbiór danych i przesłać go do lokalizacji w Usługa Amazon Simple Storage (Amazonka S3). Aby uzyskać instrukcje, zobacz Przesyłanie obiektów.

Zaimportuj swój zbiór danych

Aby zaimportować zbiór danych, wykonaj następujące czynności:

  1. W aplikacji Data Wrangler wybierz Importuj i eksploruj dane dla ML.
  2. Dodaj import.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
  3. W razie zamówieenia projektu Importuj datywybierz Amazon S3.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
  4. Znajdź plik w Amazon S3 i wybierz import.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Po zaimportowaniu możemy przejść do przepływu danych.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Uzyskaj wgląd w dane

W tym kroku tworzymy raport analizy danych, który zawiera informacje o jakości danych. Aby uzyskać więcej informacji, zobacz Uzyskaj wgląd w dane i jakość danych. Wykonaj następujące kroki:

  1. Na Przepływ danych wybierz znak plus obok Typy danych.
  2. Dodaj Uzyskaj wgląd w dane.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
  3. W razie zamówieenia projektu Typ analizywybierz Raport dotyczący jakości danych i statystyk.
  4. Dla tego posta zostaw Kolumna docelowa i Typ problemu puste.Jeśli planujesz użyć swojego zestawu danych do zadania regresji lub klasyfikacji z cechą docelową, możesz wybrać te opcje, a raport będzie zawierał analizę tego, jak cechy wejściowe odnoszą się do celu. Na przykład może generować raporty dotyczące docelowego wycieku. Aby uzyskać więcej informacji, zobacz Kolumna docelowa.
  5. Dodaj Stwórz.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Mamy teraz raport dotyczący jakości danych i analizy danych. Jeśli przewiniemy w dół do SKU W sekcji możemy zobaczyć przykład uczenia się wzorców opisujący SKU. Wygląda na to, że ta funkcja zawiera nieprawidłowe dane i wymagane jest podjęcie działań naprawczych.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Zanim wyczyścimy funkcję SKU, przewiń w górę do Marka sekcji, aby zobaczyć więcej informacji. Widzimy tutaj, że odkryto dwa wzorce, co wskazuje, że większość nazw marek to pojedyncze słowa składające się ze znaków słownych lub liter alfabetu. A słowo znak to podkreślenie lub znak, który może pojawić się w słowie w dowolnym języku. Na przykład struny Hello_world i écoute oba składają się ze znaków słownych: H i é.

W tym poście nie czyścimy tej funkcji.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Zobacz spostrzeżenia dotyczące uczenia się wzorców

Wróćmy do czyszczenia jednostek SKU i powiększ wzór oraz komunikat ostrzegawczy.

Jak pokazano na poniższym zrzucie ekranu, uczenie się wzorców ujawnia wzorzec o wysokiej dokładności pasujący do 97.78% danych. Wyświetla również kilka przykładów pasujących do wzorca, a także przykłady, które nie pasują do wzorca. W niedopasowaniach widzimy kilka nieprawidłowych kodów SKU.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Oprócz wzorów na powierzchni może pojawić się ostrzeżenie wskazujące na potencjalne działanie w celu oczyszczenia danych, jeśli istnieje wzór o wysokiej dokładności, a także niektóre dane, które nie są zgodne z wzorem.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Możemy pominąć nieprawidłowe dane. Jeśli wybierzemy (kliknij prawym przyciskiem myszy) na wyrażeniu regularnym, możemy skopiować wyrażenie [A-Z]{3}-[0-9]{4,5}.

Usuń nieprawidłowe dane

Utwórzmy transformację, aby pominąć niezgodne dane, które nie pasują do tego wzorca.

  1. Na Przepływ danych wybierz znak plus obok Typy danych.
  2. Dodaj Dodaj transformację.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
  3. Dodaj Dodaj krok.
  4. w szukaniu regex i wybierz Szukaj i edytuj.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
  5. W razie zamówieenia projektu Przekształcaćwybierz Konwertuj niedopasowania na brakujące.
  6. W razie zamówieenia projektu Kolumny wejściowewybierz SKU.
  7. W razie zamówieenia projektu Wzór, wprowadź nasze wyrażenie regularne.
  8. Dodaj Podgląd, A następnie wybierz Dodaj.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.
    Teraz zbędne dane zostały usunięte z funkcji.
  9. Aby usunąć wiersze, dodaj krok Brak uchwytu i wybierz transformację Brakuje upuszczenia.
  10. Dodaj SKU jako kolumna wejściowa.
    Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Wracamy do naszego przepływu danych z usuniętymi błędnymi danymi.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Wnioski

W tym poście pokazaliśmy, jak korzystać z funkcji uczenia się wzorców w analizie danych, aby znaleźć nieprawidłowe dane tekstowe w zestawie danych, a także jak je poprawić lub pominąć.

Teraz, gdy wyczyściłeś kolumnę tekstową, możesz zwizualizować swój zestaw danych za pomocą analiza lub możesz złożyć wniosek wbudowane przekształcenia w celu dalszego przetwarzania Twoich danych. Kiedy jesteś zadowolony ze swoich danych, możesz wyszkolić modelkę w Autopilot Amazon SageMakerlub wyeksportować swoje dane do źródła danych, takiego jak Amazon S3.

Chcielibyśmy podziękować Nikicie Ivkinowi za jego przemyślaną recenzję.


O autorach

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.Vishaala Kapoora jest starszym naukowcem z AWS AI. Pasjonuje go pomaganie klientom w zrozumieniu ich danych w Data Wrangler. W wolnym czasie jeździ na rowerze górskim, snowboardzie, spędza czas z rodziną.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.Zohar Karnin jest głównym naukowcem w Amazon AI. Jego zainteresowania badawcze obejmują obszary algorytmów uczenia maszynowego na dużą skalę i online. Opracowuje nieskończenie skalowalne algorytmy uczenia maszynowego dla Amazon SageMaker.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.Ajai Sharma jest głównym menedżerem produktu w Amazon SageMaker, gdzie koncentruje się na Data Wrangler, wizualnym narzędziu do przygotowywania danych dla naukowców zajmujących się danymi. Przed podjęciem pracy w AWS Ajai był ekspertem ds. nauki danych w McKinsey and Company, gdzie prowadził projekty ukierunkowane na ML dla wiodących firm finansowych i ubezpieczeniowych na całym świecie. Ajai pasjonuje się nauką o danych i uwielbia poznawać najnowsze algorytmy i techniki uczenia maszynowego.

Wykrywaj wzorce w danych tekstowych za pomocą Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj. Darek Baron jest menedżerem ds. rozwoju oprogramowania dla Amazon SageMaker Data Wrangler

Znak czasu:

Więcej z Uczenie maszynowe AWS