Dopasuj wytrenowane parametry w dużych zbiorach danych za pomocą narzędzia Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

Pogromca danych Amazon SageMaker pomaga zrozumieć, agregować, przekształcać i przygotowywać dane do uczenia maszynowego (ML) za pomocą jednego interfejsu wizualnego. Zawiera ponad 300 wbudowanych transformacji danych, dzięki czemu możesz szybko normalizować, przekształcać i łączyć funkcje bez konieczności pisania kodu.

Praktycy nauki o danych generują, obserwują i przetwarzają dane w celu rozwiązywania problemów biznesowych, w których muszą przekształcać i wyodrębniać funkcje z zestawów danych. Przekształcenia, takie jak kodowanie porządkowe lub kodowanie jednokrotne, uczą kodowania w zestawie danych. Te zakodowane dane wyjściowe są określane jako wytrenowane parametry. Ponieważ zestawy danych zmieniają się w czasie, może być konieczne ponowne dopasowanie kodowania do wcześniej niewidocznych danych, aby przepływ transformacji był odpowiedni dla danych.

Z radością ogłaszamy funkcję refit wyuczonych parametrów, która pozwala na użycie poprzednio wyuczonych parametrów i ponowne dopasowanie ich zgodnie z potrzebami. W tym poście pokazujemy, jak korzystać z tej funkcji.

Przegląd funkcji remontu Data Wranglera

Zilustrujemy, jak ta funkcja działa, na poniższym przykładzie, zanim zagłębimy się w szczegóły funkcji wytrenowanych parametrów remontu.

Załóżmy, że Twój zbiór danych klientów ma funkcję kategoryczną dla country reprezentowane jako ciągi, takie jak Australia i Singapore. Algorytmy ML wymagają danych liczbowych; dlatego te wartości kategoryczne muszą być zakodowane na wartości liczbowe. Kodowanie danych kategorycznych to proces tworzenia reprezentacji numerycznej dla kategorii. Na przykład, jeśli kraj kategorii ma wartości Australia i Singapore, możesz zakodować tę informację w dwóch wektorach: [1, 0] do reprezentowania Australia i [0, 1] do reprezentowania Singapore. Zastosowana tutaj transformacja to kodowanie na gorąco, a nowe zakodowane dane wyjściowe odzwierciedlają przeszkolone parametry.

Po przeszkoleniu modelu z czasem liczba klientów może się zwiększyć, a na liście krajów pojawią się bardziej wyraźne wartości. Nowy zbiór danych może zawierać inną kategorię, India, który nie był częścią oryginalnego zestawu danych, co może wpłynąć na dokładność modelu. W związku z tym konieczne jest ponowne nauczenie modelu przy użyciu nowych danych, które zostały zebrane w czasie.

Aby rozwiązać ten problem, musisz odświeżyć kodowanie, aby uwzględnić nową kategorię i zaktualizować reprezentację wektorową zgodnie z najnowszym zestawem danych. W naszym przykładzie kodowanie powinno odzwierciedlać nową kategorię dla pliku country, który jest India. Powszechnie nazywamy ten proces odświeżania kodowania operacją remontu. Po wykonaniu operacji naprawy otrzymasz nowe kodowanie: Australia: [1, 0, 0], Singapore: [0, 1, 0] i India: [0, 0, 1]. Ponowne dopasowanie kodowania one-hot, a następnie ponowne uczenie modelu w nowym zestawie danych skutkuje lepszymi prognozami jakości.

Funkcja wytrenowanych parametrów Refit w Data Wrangler jest przydatna w następujących przypadkach:

Nowe dane są dodawane do zestawu danych – Ponowne uczenie modelu ML jest konieczne, gdy zbiór danych jest wzbogacany o nowe dane. Aby osiągnąć optymalne wyniki, musimy ponownie dopasować wytrenowane parametry do nowego zestawu danych.
Szkolenie na pełnym zbiorze danych po wykonaniu inżynierii funkcji na przykładowych danych – W przypadku dużego zestawu danych próbka zestawu danych jest brana pod uwagę w celu nauczenia wyuczonych parametrów, które mogą nie reprezentować całego zestawu danych. Musimy ponownie nauczyć się wyuczonych parametrów na pełnym zbiorze danych.

Poniżej przedstawiono niektóre z najczęstszych przekształceń Data Wrangler wykonywanych na zestawie danych, które korzystają z opcji wytrenowanego parametru Refit:

Aby uzyskać więcej informacji o przekształceniach w Data Wranglerze, zobacz Przekształć dane.

W tym poście pokazujemy, jak przetwarzać te wytrenowane parametry na zestawach danych za pomocą Data Wrangler. Przepływów Data Wrangler można używać w zadaniach produkcyjnych do ponownego przetwarzania danych w miarę ich wzrostu i zmian.

Omówienie rozwiązania

W tym poście pokazujemy, jak korzystać z funkcji przeszkolonych parametrów Refit narzędzia Data Wrangler z publicznie dostępnym zestawem danych na Kaggle: Dane mieszkaniowe w USA z Zillow, nieruchomości na sprzedaż w Stanach Zjednoczonych. Ma ceny sprzedaży domów w różnych lokalizacjach geograficznych domów.

Poniższy diagram ilustruje architekturę wysokiego poziomu programu Data Wrangler przy użyciu funkcji wytrenowanych parametrów naprawy. Pokazujemy również wpływ na jakość danych bez wytrenowanego parametru refit i na końcu zestawiamy wyniki.

Przepływ pracy obejmuje następujące kroki:

Wykonaj eksploracyjną analizę danych – Utwórz nowy przepływ w Data Wranglerze, aby rozpocząć eksploracyjną analizę danych (EDA). Importuj dane biznesowe, aby zrozumieć, oczyścić, agregować, przekształcać i przygotowywać dane do szkolenia. Odnosić się do Poznaj możliwości Amazon SageMaker Data Wrangler z przykładowymi zestawami danych aby uzyskać więcej informacji na temat wykonywania EDA z Data Wrangler.
Utwórz zadanie przetwarzania danych – Ten krok eksportuje wszystkie przekształcenia wykonane w zestawie danych jako plik przepływu przechowywany w skonfigurowanym Usługa Amazon Simple Storage (Amazon S3) lokalizacja. Zadanie przetwarzania danych z plikiem przepływu wygenerowanym przez Data Wrangler stosuje przekształcenia i wyuczone parametry wyuczone na zbiorze danych. Po zakończeniu zadania przetwarzania danych pliki wyjściowe są przesyłane do lokalizacji Amazon S3 skonfigurowanej w węźle docelowym. Pamiętaj, że opcja przebudowy jest domyślnie wyłączona. Jako alternatywę dla natychmiastowego wykonania zadania przetwarzania, możesz również zaplanować zadanie przetwarzania za pomocą kilku kliknięć za pomocą Data Wrangler – Create Job do uruchamiania w określonych godzinach.
Utwórz zadanie przetwarzania danych za pomocą funkcji przeszkolonego parametru ponownego dopasowania – Podczas tworzenia zadania wybierz nową funkcję wytrenowanego parametru przebudowy, aby wymusić ponowne uczenie wyuczonych parametrów na pełnym lub wzmocnionym zbiorze danych. Zgodnie z konfiguracją lokalizacji Amazon S3 do przechowywania pliku przepływu zadanie przetwarzania danych tworzy lub aktualizuje nowy plik przepływu. Jeśli skonfigurujesz tę samą lokalizację Amazon S3, co w kroku 2, zadanie przetwarzania danych zaktualizuje plik przepływu wygenerowany w kroku 2, którego można użyć do utrzymania zgodności przepływu z danymi. Po zakończeniu zadania przetwarzania pliki wyjściowe są przesyłane do skonfigurowanego zasobnika S3 węzła docelowego. Zaktualizowanego przepływu można użyć w całym zbiorze danych dla produkcyjnego przepływu pracy.

Wymagania wstępne

Zanim zaczniesz, prześlij zbiór danych do zasobnika S3, a następnie zaimportuj go do Data Wrangler. Aby uzyskać instrukcje, zobacz Importuj dane z Amazon S3.

Przejdźmy teraz przez kroki wymienione na diagramie architektury.

Wykonaj EDA w Data Wranglerze

Aby wypróbować funkcję przeszkolonych parametrów, skonfiguruj następującą analizę i transformację w Data Wrangler. Pod koniec konfigurowania EDA Data Wrangler tworzy plik przepływu przechwycony z przeszkolonymi parametrami ze zbioru danych.

Utwórz nowy przepływ w Amazon SageMaker Data Wrangler do eksploracyjnej analizy danych.
Zaimportuj dane biznesowe, które przesłałeś do Amazon S3.
Możesz wyświetlić podgląd danych i opcji wyboru typu pliku, ogranicznika, próbkowania itd. W tym przykładzie używamy Pierwszy K opcja próbkowania dostarczona przez Data Wrangler w celu zaimportowania pierwszych 50,000 XNUMX rekordów ze zbioru danych.
Dodaj import.