Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zestawom danych i zaplanowanym zadaniom

Dane zmieniają każdą dziedzinę i każdą firmę. Jednak ze względu na to, że dane rosną szybciej, niż większość firm jest w stanie śledzić, gromadzenie danych i czerpanie z nich wartości jest trudnym zadaniem. A nowoczesna strategia danych może pomóc w osiąganiu lepszych wyników biznesowych dzięki danym. AWS zapewnia najbardziej kompletny zestaw usług dla podróż danych od końca do końca Ci pomóc odblokować wartość ze swoich danych i przekształć to w zrozumienie.

Analitycy danych mogą poświęcić do 80% swojego czasu na przygotowywanie danych do projektów uczenia maszynowego (ML). Ten proces przygotowawczy jest w dużej mierze niezróżnicowaną i żmudną pracą i może obejmować wiele programistycznych interfejsów API i niestandardowych bibliotek. Pogromca danych Amazon SageMaker pomaga naukowcom danych i inżynierom danych uprościć i przyspieszyć przygotowywanie danych tabelarycznych i szeregów czasowych oraz inżynierię funkcji za pośrednictwem interfejsu wizualnego. Możesz importować dane z wielu źródeł danych, takich jak Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, a nawet rozwiązań innych firm, takich jak Snowflake or DataBricki przetwarzaj dane za pomocą ponad 300 wbudowanych przekształceń danych i biblioteki fragmentów kodu, dzięki czemu możesz szybko normalizować, przekształcać i łączyć funkcje bez konieczności pisania kodu. Możesz także wprowadzić własne transformacje w programach PySpark, SQL lub Pandas.

W tym poście pokazano, jak zaplanować automatyczne uruchamianie zadań przygotowywania danych. Badamy również nową funkcję Data Wrangler dotyczącą sparametryzowanych zestawów danych, która umożliwia określenie plików, które mają zostać uwzględnione w przepływie danych za pomocą sparametryzowanych identyfikatorów URI.

Omówienie rozwiązania

Data Wrangler obsługuje teraz importowanie danych przy użyciu sparametryzowanego identyfikatora URI. Pozwala to na większą elastyczność, ponieważ można teraz importować wszystkie zestawy danych pasujące do określonych parametrów, które mogą być typu String, Number, Datetime i Pattern w identyfikatorze URI. Ponadto możesz teraz uruchamiać zadania transformacji Data Wrangler zgodnie z harmonogramem.

W tym poście tworzymy przykładowy przepływ z zestawem danych Titanic, aby pokazać, jak możesz rozpocząć eksperymentowanie z tymi dwiema nowymi funkcjami Data Wranglera. Aby pobrać zestaw danych, patrz Titanic – uczenie maszynowe z katastrofy.

Wymagania wstępne

Aby uzyskać wszystkie funkcje opisane w tym poście, musisz mieć najnowszą wersję jądra Data Wranglera. Aby uzyskać więcej informacji, patrz Zaktualizuj Data Wranglera. Poza tym musisz biegać Studio Amazon SageMaker JupyterLab 3. Aby wyświetlić aktualną wersję i zaktualizować ją, patrz Wersjonowanie JupyterLab.

Struktura pliku

W tej demonstracji postępujemy zgodnie z prostą strukturą plików, którą musisz powielić, aby odtworzyć kroki opisane w tym poście.

  1. w studiu, utwórz nowy notatnik.
  2. Uruchom następujący fragment kodu, aby utworzyć używaną przez nas strukturę folderów (upewnij się, że znajdujesz się w żądanym folderze w drzewie plików):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Skopiuj train.csv i test.csv pliki z oryginalnego zestawu danych Titanica do folderów titanic_dataset/train i titanic_dataset/test, Odpowiednio.
  4. Uruchom następujący fragment kodu, aby wypełnić foldery niezbędnymi plikami:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Podzieliliśmy się train.csv plik zestawu danych Titanica na dziewięć różnych plików o nazwach part_x, gdzie x to numer części. Część 0 zawiera 100 pierwszych rekordów, część 1 kolejnych 100 i tak dalej, aż do części 8. Każdy folder węzła drzewa plików zawiera kopię dziewięciu części danych uczących, z wyjątkiem train i test foldery, które zawierają train.csv i test.csv.

Sparametryzowane zestawy danych

Użytkownicy Data Wrangler mogą teraz określać parametry zestawów danych importowanych z Amazon S3. Parametry zestawu danych są określone w identyfikatorze URI zasobów, a jego wartość można zmieniać dynamicznie, co pozwala na większą elastyczność w wyborze plików, które chcemy zaimportować. Parametry mogą mieć cztery typy danych:

  • Numer – Może przyjąć dowolną liczbę całkowitą
  • sznur – Może przyjąć wartość dowolnego ciągu tekstowego
  • Wzór – Może przyjąć wartość dowolnego wyrażenia regularnego
  • Datetime – Może przyjąć wartość dowolnego obsługiwanego formatu daty/czasu

W tej sekcji przedstawiamy przewodnik po tej nowej funkcji. Ta opcja jest dostępna tylko po zaimportowaniu zestawu danych do bieżącego przepływu i tylko w przypadku zestawów danych zaimportowanych z usługi Amazon S3.

  1. W swoim przepływie danych wybierz znak plus (+) obok kroku importu i wybierz Edytuj zbiór danych.
  2. Preferowaną (i najłatwiejszą) metodą tworzenia nowych parametrów jest zaznaczenie sekcji URI i wybranie Utwórz parametr niestandardowy w rozwijanym menu. Musisz określić cztery rzeczy dla każdego parametru, który chcesz utworzyć:
    1. Imię
    2. Rodzaj Nieruchomości
    3. Domyślna wartość
    4. Opis

    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Tutaj stworzyliśmy parametr typu String o nazwie filename_param z domyślną wartością train.csv. Teraz możesz zobaczyć nazwę parametru ujętą w podwójne nawiasy kwadratowe, zastępując część identyfikatora URI, którą wcześniej wyróżniliśmy. Ponieważ zdefiniowana wartość dla tego parametru była train.csv, teraz widzimy plik train.csv wymienione w tabeli importu.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

  3. Kiedy próbujemy utworzyć zadanie transformacji, na Skonfiguruj zadanie krok, teraz widzimy a parametry sekcji, w której możemy zobaczyć listę wszystkich zdefiniowanych przez nas parametrów.
  4. Wybór parametru daje nam możliwość zmiany wartości parametru, w tym przypadku zmiany wejściowego zbioru danych, który ma zostać przekształcony zgodnie ze zdefiniowanym przepływem.
    Zakładając, że zmienimy wartość filename_param od train.csv do part_0.csv, teraz trwa zadanie transformacji part_0.csv (pod warunkiem, że plik o nazwie part_0.csv istnieje w tym samym folderze) co nowe dane wejściowe.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Ponadto, jeśli spróbujesz wyeksportować swój przepływ do miejsca docelowego Amazon S3 (za pośrednictwem notatnika Jupyter), zobaczysz teraz nową komórkę zawierającą zdefiniowane parametry.
    Zauważ, że parametr przyjmuje wartość domyślną, ale możesz ją zmienić, zastępując jego wartość w pliku parameter_overrides słownika (pozostawiając klucze słownika bez zmian).
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Dodatkowo możesz tworzyć nowe parametry z pliku parametry UI.
  6. Otwórz go, wybierając ikonę parametrów ({{}}) znajdujący się obok Go opcja; oba znajdują się obok wartości ścieżki URI.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Zostanie otwarta tabela ze wszystkimi parametrami, które obecnie istnieją w pliku przepływu (filename_param w tym momencie).
  7. Możesz utworzyć nowe parametry dla swojego przepływu, wybierając Utwórz parametr.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Otworzy się wyskakujące okienko, w którym możesz utworzyć nowy parametr niestandardowy.
  8. Tutaj stworzyliśmy nowy example_parameter jako typ liczbowy z domyślną wartością 0. Ten nowo utworzony parametr jest teraz wymieniony w parametry stół. Najechanie kursorem na parametr wyświetla opcje Edytuj, Usuń, wstawka.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  9. Od wewnątrz parametry UI możesz wstawić jeden ze swoich parametrów do identyfikatora URI, wybierając żądany parametr i wybierając wstawka.
    Spowoduje to dodanie parametru na końcu identyfikatora URI. Musisz przenieść go do żądanej sekcji w swoim identyfikatorze URI.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  10. Zmień domyślną wartość parametru, zastosuj zmianę (z modalu), wybierz Goi wybierz ikonę odświeżania, aby zaktualizować listę podglądu przy użyciu wybranego zestawu danych na podstawie wartości nowo zdefiniowanego parametru.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Przyjrzyjmy się teraz innym typom parametrów. Załóżmy, że mamy teraz zbiór danych podzielony na wiele części, gdzie każdy plik ma numer części.
  11. Jeśli chcemy dynamicznie zmieniać numer pliku, możemy zdefiniować parametr Number, jak pokazano na poniższym zrzucie ekranu.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Zwróć uwagę, że wybrany plik jest tym, który odpowiada numerowi określonemu w parametrze.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Teraz zademonstrujmy, jak używać parametru wzorca. Załóżmy, że chcemy zaimportować wszystkie pliki part_1.csv pliki we wszystkich folderach w titanic-dataset/ teczka. Parametry wzorca mogą przyjmować dowolne prawidłowe wyrażenie regularne; istnieje kilka wzorców wyrażeń regularnych pokazanych jako przykłady.
  12. Utwórz parametr wzorca o nazwie any_pattern aby dopasować dowolny folder lub plik w titanic-dataset/ folder z wartością domyślną .*.Zauważ, że symbol wieloznaczny to nie pojedynczy * (gwiazdka), ale także kropka.
  13. Podkreśl titanic-dataset/ część ścieżki i utworzyć parametr niestandardowy. Tym razem wybieramy tzw Wzór rodzaj.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Ten wzorzec wybiera wszystkie wywoływane pliki part-1.csv z dowolnego folderu poniżej titanic-dataset/.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Parametr może być użyty więcej niż raz w ścieżce. W poniższym przykładzie używamy naszego nowo utworzonego parametru any_pattern dwukrotnie w naszym identyfikatorze URI, aby dopasować dowolny plik części w dowolnym folderze poniżej titanic-dataset/.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Na koniec utwórzmy parametr Datetime. Parametry DateTime są przydatne, gdy mamy do czynienia ze ścieżkami podzielonymi według daty i godziny, takimi jak te generowane przez Wąż strażacki Amazon Kinesis Data (Patrz Dynamiczne partycjonowanie w Kinesis Data Firehose). W tej demonstracji używamy danych z folderu datetime-data.
  14. Wybierz część ścieżki, która jest datą/godziną i utwórz parametr niestandardowy. Wybierz Datetime typ parametru.
    Wybierając typ danych Datetime, należy podać więcej szczegółów.
  15. Przede wszystkim musisz podać format daty. Możesz wybrać dowolny z predefiniowanych formatów daty/godziny lub utworzyć własny.
    W przypadku predefiniowanych formatów daty/godziny legenda zawiera przykład daty pasującej do wybranego formatu. Do tej demonstracji wybieramy format rrrr/MM/dd.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  16. Następnie określ strefę czasową dla wartości daty/godziny.
    Na przykład bieżącą datą może być 1 stycznia 2022 r. w jednej strefie czasowej, ale może to być 2 stycznia 2022 r. w innej strefie czasowej.
  17. Na koniec możesz wybrać zakres czasu, który pozwala wybrać zakres plików, które chcesz uwzględnić w przepływie danych.
    Możesz określić zakres czasu w godzinach, dniach, tygodniach, miesiącach lub latach. W tym przykładzie chcemy pobrać wszystkie pliki z ostatniego roku.
  18. Podaj opis parametru i wybierz Stwórz.
    Jeśli używasz wielu zestawów danych z różnymi strefami czasowymi, czas nie jest konwertowany automatycznie; musisz wstępnie przetworzyć każdy plik lub źródło, aby przekonwertować je na jedną strefę czasową.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Wybrane pliki to wszystkie pliki znajdujące się w folderach odpowiadających danym z zeszłego roku.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  19. Teraz, jeśli utworzymy zadanie transformacji danych, możemy zobaczyć listę wszystkich zdefiniowanych przez nas parametrów i możemy zastąpić ich wartości domyślne, aby nasze zadania transformacji wybrały określone pliki.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zaplanuj zadania przetwarzania

Możesz teraz zaplanować zadania przetwarzania, aby zautomatyzować uruchamianie zadań transformacji danych i eksportowanie przekształconych danych do Amazon S3 lub Sklep funkcji Amazon SageMaker. Możesz zaplanować zadania z czasem i częstotliwością, które odpowiadają Twoim potrzebom.

Wykorzystanie zaplanowanych zadań przetwarzania Most zdarzeń Amazona reguły aby zaplanować przebieg zadania. Dlatego, jako warunek wstępny, musisz upewnić się, że AWS Zarządzanie tożsamością i dostępem (IAM) rola używana przez Data Wrangler, a mianowicie Amazon Sage Maker rola wykonawcza instancji Studio ma uprawnienia do tworzenia reguł EventBridge.

Skonfiguruj uprawnienia

Kontynuuj następujące aktualizacje roli wykonawczej IAM SageMaker odpowiadającej instancji Studio, w której działa przepływ Data Wrangler:

  1. Dołącz AmazonEventBridgeFullAccess zarządzana polityka.
  2. Dołącz zasady, aby udzielić pozwolenia na utworzenie zadania przetwarzania:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Przyznaj EventBridge uprawnienie do przyjęcia roli, dodając następujące zasady zaufania:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Alternatywnie, jeśli używasz innej roli do uruchamiania zadania przetwarzania, zastosuj zasady opisane w krokach 2 i 3 do tej roli. Aby uzyskać szczegółowe informacje na temat konfiguracji IAM, patrz Utwórz harmonogram automatycznego przetwarzania nowych danych.

Utwórz harmonogram

Aby utworzyć harmonogram, otwórz swój przepływ w edytorze przepływu Data Wrangler.

  1. Na Przepływ danych kartę, wybierz Utwórz pracę.
  2. Skonfiguruj wymagane pola i wybierz Następnie 2. Skonfiguruj zadanie.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  3. Rozszerzać Harmonogramy stowarzyszeń.
  4. Dodaj Utwórz nowy harmonogram.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Połączenia Utwórz nowy harmonogram otworzy się okno dialogowe, w którym definiujesz szczegóły harmonogramu zadań przetwarzania.
    Okno dialogowe oferuje dużą elastyczność, aby pomóc w zdefiniowaniu harmonogramu. Możesz na przykład uruchomić zadanie przetwarzania o określonej godzinie lub co X godzin w określone dni tygodnia.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
    Okresowość może być granularna do poziomu minut.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Zdefiniuj nazwę harmonogramu i częstotliwość, a następnie wybierz Stwórz aby zapisać harmonogram.
  6. Masz możliwość natychmiastowego rozpoczęcia przetwarzania zadania wraz z planowaniem, które uwzględnia przyszłe przebiegi, lub pozostawienia zadania do wykonania tylko zgodnie z harmonogramem.
  7. Można również zdefiniować dodatkowy harmonogram dla tego samego zadania przetwarzania.
    Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  8. Aby zakończyć harmonogram zadania przetwarzania, wybierz Stwórz.
    Zostanie wyświetlony komunikat „Zadanie zaplanowane pomyślnie”. Ponadto, jeśli zdecydujesz się pozostawić zadanie, aby działało tylko zgodnie z harmonogramem, zobaczysz link do właśnie utworzonej reguły EventBridge.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Jeśli wybierzesz link harmonogramu, otworzy się nowa karta w przeglądarce, pokazująca regułę EventBridge. Na tej stronie możesz wprowadzić dalsze modyfikacje reguły i śledzić historię jej wywołań. Aby zatrzymać uruchamianie zaplanowanego zadania przetwarzania, usuń regułę zdarzenia zawierającą nazwę harmonogramu.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Reguła EventBridge jako swój cel wskazuje potok SageMaker, który jest uruchamiany zgodnie ze zdefiniowanym harmonogramem, a zadanie przetwarzania jest wywoływane jako część potoku.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Aby śledzić przebiegi potoku SageMaker, możesz wrócić do Studio, wybrać plik Zasoby SageMaker ikona, wybierz Rurociągii wybierz nazwę potoku, który chcesz śledzić. Możesz teraz zobaczyć tabelę ze wszystkimi bieżącymi i przeszłymi uruchomieniami oraz stanem tego potoku.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zobaczyć więcej szczegółów, klikając dwukrotnie określony wpis.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sprzątać

Jeśli nie korzystasz z Data Wranglera, zalecamy zamknięcie instancji, na której działa, aby uniknąć ponoszenia dodatkowych opłat.

Aby uniknąć utraty pracy, zapisz przepływ danych przed wyłączeniem aplikacji Data Wrangler.

  1. Aby zapisać przepływ danych w Studio, wybierz filet, A następnie wybierz Zapisz przepływ danych Wranglera. Data Wrangler automatycznie zapisuje przepływ danych co 60 sekund.
  2. Aby zamknąć instancję Data Wrangler, w Studio wybierz Uruchomione instancje i jądra.
  3. Pod DZIAŁAJĄCE APLIKACJE, wybierz ikonę zamykania obok sagemaker-data-wrangler-1.0 app.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Dodaj Wyłącz wszystko potwierdzać.Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Data Wrangler działa na instancji ml.m5.4xlarge. Ta instancja znika z URUCHOMIONE INSTANCJE po zamknięciu aplikacji Data Wrangler.

Po zamknięciu aplikacji Data Wrangler musi ona zostać ponownie uruchomiona przy następnym otwarciu pliku przepływu Data Wrangler. Może to potrwać kilka minut.

Wnioski

W tym poście pokazaliśmy, jak można używać parametrów do importowania zestawów danych za pomocą przepływów Data Wrangler i tworzenia na nich zadań transformacji danych. Sparametryzowane zestawy danych zapewniają większą elastyczność używanych zestawów danych i umożliwiają ponowne użycie przepływów. Pokazaliśmy również, jak można skonfigurować zaplanowane zadania, aby zautomatyzować transformacje i eksport danych do Amazon S3 lub Feature Store, w czasie i z częstotliwością odpowiadającą Twoim potrzebom, bezpośrednio z poziomu interfejsu użytkownika Data Wrangler.

Aby dowiedzieć się więcej o korzystaniu z przepływów danych w Data Wrangler, zobacz Twórz i używaj przepływu danych Wrangler i Cennik Amazon SageMaker. Aby rozpocząć korzystanie z Data Wranglera, zobacz Przygotuj dane ML za pomocą Amazon SageMaker Data Wrangler.


O autorach

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Dawid Laredo jest architektem prototypów w zespole prototypowania i inżynierii chmury w Amazon Web Services, gdzie pomógł opracować wiele prototypów uczenia maszynowego dla klientów AWS. Od 6 lat zajmuje się uczeniem maszynowym, szkoląc i dostrajając modele ML oraz wdrażając kompleksowe potoki do produkcji tych modeli. Jego obszary zainteresowań to NLP, aplikacje ML i end-to-end ML.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Givanildo Alvesa jest architektem prototypów w zespole prototypowania i inżynierii chmury w Amazon Web Services, pomagając klientom wprowadzać innowacje i przyspieszać, pokazując sztukę możliwości w AWS, mając już na swoim koncie kilka prototypów opartych na sztucznej inteligencji. Ma za sobą długą karierę w inżynierii oprogramowania, a wcześniej pracował jako inżynier rozwoju oprogramowania w Amazon.com.br.

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zbiorom danych i zaplanowanym zadaniom PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Adriana Fuentesa jest kierownikiem programu w zespole prototypowania i inżynierii chmury w Amazon Web Services, wprowadzając innowacje dla klientów w zakresie uczenia maszynowego, IoT i blockchain. Ma ponad 15 lat doświadczenia w zarządzaniu i wdrażaniu projektów oraz 1 rok pracy w AWS.

Znak czasu:

Więcej z Uczenie maszynowe AWS