Użyj Amazon SageMaker Data Wrangler w Amazon SageMaker Studio z domyślną konfiguracją cyklu życia

Opublikowane ponownie przez Plato

Obserwuje: 0

Jeśli używasz domyślnej konfiguracji cyklu życia swojej domeny lub profilu użytkownika w Studio Amazon SageMaker I użyć Pogromca danych Amazon SageMaker do przygotowania danych, to ten post jest dla Ciebie. W tym poście pokazujemy, jak utworzyć przepływ Data Wrangler i wykorzystać go do przygotowania danych w środowisku Studio z domyślną konfiguracją cyklu życia.

Data Wrangler to zdolność Amazon Sage Maker dzięki temu naukowcy i inżynierowie zajmujący się danymi mogą szybciej przygotowywać dane do aplikacji uczenia maszynowego (ML) za pośrednictwem interfejsu wizualnego. Przygotowanie danych jest kluczowym etapem cyklu życia ML, a Data Wrangler zapewnia kompleksowe rozwiązanie do importowania, eksplorowania, przekształcania, wzbogacania i przetwarzania danych dla ML w wizualnym środowisku o niewielkiej ilości kodu. Pozwala łatwo i szybko łączyć się z komponentami AWS, takimi jak Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Formacja AWS Lakeoraz źródła zewnętrzne, takie jak Snowflake i DataBricks DeltaLake. Data Wrangler obsługuje standardowe typy danych, takie jak CSV, JSON, ORC i Parquet.

Aplikacje Studio to interaktywne aplikacje, które umożliwiają korzystanie z interfejsu wizualnego Studio, tworzenie kodu i środowisko uruchamiania. Typami aplikacji mogą być Jupyter Server lub Kernel Gateway:

Serwer Jupytera – Umożliwia dostęp do interfejsu wizualnego programu Studio. Każdy użytkownik w Studio otrzymuje własną aplikację Jupyter Server.
Brama jądra – Umożliwia dostęp do środowiska uruchamiania kodu i jąder dla notebooków i terminali Studio. Aby uzyskać więcej informacji, zobacz Brama jądra Jupytera.

Konfiguracje cyklu życia (LCC) to skrypty powłoki do automatyzacji dostosowywania środowisk Studio, takich jak instalowanie rozszerzeń JupyterLab, wstępne ładowanie zestawów danych i konfigurowanie repozytoriów kodu źródłowego. Skrypty LCC są wyzwalane przez zdarzenia cyklu życia Studio, takie jak uruchomienie nowego notatnika Studio. Aby programowo ustawić konfigurację cyklu życia jako domyślną dla domeny lub profilu użytkownika, możesz utworzyć nowy zasób lub zaktualizować istniejący. Aby skojarzyć konfigurację cyklu życia jako domyślną, musisz najpierw utworzyć konfigurację cyklu życia, wykonując czynności opisane w Tworzenie i kojarzenie konfiguracji cyklu życia

Uwaga: Domyślne konfiguracje cyklu życia skonfigurowane na poziomie domeny są dziedziczone przez wszystkich użytkowników, natomiast konfiguracje skonfigurowane na poziomie użytkownika są ograniczone do określonego użytkownika. W przypadku jednoczesnego zastosowania konfiguracji na poziomie domeny i na poziomie profilu użytkownika konfiguracja cyklu życia na poziomie profilu użytkownika ma pierwszeństwo i jest stosowana do aplikacji niezależnie od tego, jaka konfiguracja cyklu życia jest stosowana na poziomie domeny. Aby uzyskać więcej informacji, zobacz Ustawianie domyślnych konfiguracji cyklu życia.

Data Wrangler akceptuje domyślną konfigurację cyklu życia Kernel Gateway, ale niektóre polecenia zdefiniowane w domyślnej konfiguracji cyklu życia Kernel Gateway nie mają zastosowania do Data Wrangler, co może spowodować niepowodzenie uruchomienia Data Wrangler. Poniższy zrzut ekranu przedstawia przykład komunikatu o błędzie, który może pojawić się podczas uruchamiania przepływu Data Wrangler. Może się to zdarzyć tylko w przypadku domyślnych konfiguracji cyklu życia, a nie konfiguracji cyklu życia.

Błąd administratora danych

Omówienie rozwiązania

Klienci korzystający z domyślnej konfiguracji cyklu życia w Studio mogą śledzić ten post i użyć dostarczonego bloku kodu w skrypcie konfiguracji cyklu życia, aby uruchomić aplikację Data Wrangler bez żadnych błędów.

Skonfiguruj domyślną konfigurację cyklu życia

Aby ustawić domyślną konfigurację cyklu życia, musisz dodać ją do DefaultResourceSpec odpowiedniego typu aplikacji. Zachowanie konfiguracji cyklu życia zależy od tego, czy została ona dodana do DefaultResourceSpec aplikacji Jupyter Server lub Kernel Gateway:

Aplikacje Jupyter Server – Po dodaniu do DefaultResourceSpec aplikacji Jupyter Server domyślny skrypt konfiguracji cyklu życia jest uruchamiany automatycznie, gdy użytkownik loguje się do Studio po raz pierwszy lub ponownie uruchamia Studio. Możesz użyć tego do zautomatyzowania jednorazowych czynności konfiguracyjnych dla środowiska deweloperskiego Studio, takich jak instalowanie rozszerzeń notatnika lub konfigurowanie repozytorium GitHub. Aby zobaczyć przykład tego, zobacz Dostosuj Amazon SageMaker Studio za pomocą konfiguracji cyklu życia.
Aplikacje Kernel Gateway – Po dodaniu do DefaultResourceSpec aplikacji Kernel Gateway Studio domyślnie wybiera skrypt konfiguracji cyklu życia z programu uruchamiającego Studio. Możesz uruchomić notebooka lub terminal z domyślnym skryptem lub wybrać inny z listy konfiguracji cyklu życia.

Domyślna konfiguracja cyklu życia Kernel Gateway określona w DefaultResourceSpec dotyczy wszystkich obrazów Kernel Gateway w domenie Studio, chyba że wybierzesz inny skrypt z listy wyświetlanej w programie uruchamiającym Studio.

Podczas pracy z konfiguracjami cyklu życia dla Studio tworzysz konfigurację cyklu życia i dołączasz ją do domeny Studio lub profilu użytkownika. Następnie możesz uruchomić aplikację Jupyter Server lub Kernel Gateway, aby użyć konfiguracji cyklu życia.

Poniższa tabela zawiera podsumowanie tych błędów, które mogą wystąpić podczas uruchamiania aplikacji Data Wrangler z domyślnymi konfiguracjami cyklu życia.

Poziom, na którym konfiguracja cyklu życia jest stosowany	Utwórz przepływ danych Wranglera Działa (lub) Błąd	Obejście
Domena	Błąd nieprawidłowego żądania	Zastosuj skrypt (patrz poniżej)
Profil użytkownika	Błąd nieprawidłowego żądania	Zastosuj skrypt (patrz poniżej)
Zastosowanie	Działa — nie ma problemu	Nie wymagane

W przypadku korzystania z domyślnej konfiguracji cyklu życia skojarzonej ze Studio i Data Wrangler (aplikacja Kernel Gateway) może wystąpić awaria aplikacji Kernel Gateway. W tym poście pokazujemy, jak prawidłowo ustawić domyślną konfigurację cyklu życia, aby wykluczyć uruchamianie poleceń w aplikacji Data Wrangler, aby uniknąć awarii aplikacji Kernel Gateway.

Powiedzmy, że chcesz zainstalować repozytorium klonów git skrypt jako domyślna konfiguracja cyklu życia, która automatycznie pobiera repozytorium Git w folderze domowym użytkownika podczas uruchamiania serwera Jupyter. Przyjrzyjmy się każdemu scenariuszowi zastosowania konfiguracji cyklu życia (domena Studio, profil użytkownika lub poziom aplikacji).

Zastosuj konfigurację cyklu życia na poziomie domeny Studio lub profilu użytkownika

Aby zastosować domyślną konfigurację cyklu życia Kernel Gateway na poziomie domeny Studio lub profilu użytkownika, wykonaj czynności opisane w tej sekcji. Zaczynamy od instrukcji dla poziomu profilu użytkownika.

W skrypcie konfiguracji cyklu życia musisz dołączyć następujący blok kodu, który sprawdza i pomija aplikację Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Na przykład użyjmy następujący skrypt jako nasz oryginał (zauważ, że folder do sklonowania repozytorium został zmieniony na /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Nowy zmodyfikowany skrypt wygląda następująco:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Możesz zapisać ten skrypt jako git_command_test.sh.

Teraz uruchamiasz serię poleceń w terminalu lub wierszu poleceń. Powinieneś skonfigurować Interfejs wiersza poleceń AWS (AWS CLI) do interakcji z AWS. Jeśli nie skonfigurowałeś interfejsu AWS CLI, zapoznaj się z Konfigurowanie interfejsu wiersza polecenia AWS.

Konwertuj swoje git_command_test.sh plik w formacie Base64. Wymóg ten zapobiega błędom wynikającym z kodowania odstępów i łamania wierszy.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```

Utwórz konfigurację cyklu życia Studio. Następujące polecenie tworzy konfigurację cyklu życia, która jest uruchamiana po uruchomieniu skojarzonej aplikacji Kernel Gateway:

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

Użyj następującego wywołania interfejsu API, aby utworzyć nowy profil użytkownika z powiązaną konfiguracją cyklu życia:

aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'

Alternatywnie, jeśli chcesz utworzyć domenę Studio, aby powiązać konfigurację cyklu życia na poziomie domeny lub zaktualizować profil użytkownika lub domenę, możesz wykonać czynności opisane w Ustawianie domyślnych konfiguracji cyklu życia.

Teraz możesz uruchomić aplikację Studio z Panelu sterowania SageMaker.
W środowisku Studio, na filet menu, wybierz Nowości i Przepływ danych poskramiacza danych.Nowy przepływ Data Wrangler powinien otworzyć się bez żadnych problemów.
Aby zweryfikować klon Git, możesz otworzyć nowy program uruchamiający w Studio.
Pod Notatniki i zasoby obliczeniowe, wybierz notatnik Python 3, a Nauka danych Obraz SageMaker, aby uruchomić skrypt jako domyślny skrypt konfiguracji cyklu życia.

Możesz zobaczyć Git sklonowany do /root na poniższym zrzucie ekranu.

Git sklonowany do /root

Pomyślnie zastosowaliśmy domyślną konfigurację cyklu życia jądra na poziomie profilu użytkownika i utworzyliśmy przepływ Data Wrangler. Aby skonfigurować na poziomie domeny Studio, jedyną zmianą jest zamiast tworzenia profilu użytkownika przekazanie ARN konfiguracji cyklu życia w tworzenie domeny połączenie.

Zastosuj konfigurację cyklu życia na poziomie aplikacji

Jeśli zastosujesz domyślną konfigurację cyklu życia bramy jądra na poziomie aplikacji, nie będziesz mieć żadnych problemów, ponieważ Data Wrangler pomija konfigurację cyklu życia stosowaną na poziomie aplikacji.

Wnioski

W tym poście pokazaliśmy, jak prawidłowo skonfigurować domyślną konfigurację cyklu życia dla Studio, gdy używasz Data Wranglera do przygotowania danych i wymagań wizualizacji.

Podsumowując, jeśli musisz użyć domyślnego konfiguracja cyklu życia dla Studio aby zautomatyzować dostosowywanie środowisk Studio i użyć Data Wranglera do przygotowania danych, możesz zastosować domyślną konfigurację cyklu życia Kernel Gateway na poziomie profilu użytkownika lub domeny Studio z odpowiednim blokiem kodu zawartym w konfiguracji cyklu życia, aby domyślna konfiguracja cyklu życia ją sprawdzała i pomija aplikację Data Wrangler Kernel Gateway.

Więcej informacji można znaleźć w następujących zasobach:

O autorach

Rajakumar Sampathkumar jest głównym kierownikiem ds. kont technicznych w AWS, udzielając klientom wskazówek dotyczących dostosowania technologii biznesowych i wspierających na nowo modele i procesy operacyjne w chmurze. Pasjonuje się chmurą i uczeniem maszynowym. Raj jest również specjalistą od uczenia maszynowego i współpracuje z klientami AWS przy projektowaniu, wdrażaniu i zarządzaniu ich obciążeniami i architekturami AWS.

Vicky Zhang jest inżynierem oprogramowania w Amazon SageMaker. Pasjonuje się rozwiązywaniem problemów. W wolnym czasie lubi oglądać filmy detektywistyczne i grać w badmintona.

Rahula Naberę jest konsultantem ds. analizy danych w AWS Professional Services. Jego obecna praca koncentruje się na umożliwieniu klientom budowania ich obciążeń danych i uczenia maszynowego w AWS. W wolnym czasie lubi grać w krykieta i siatkówkę.

Znak czasu: 5 lipca 2022 r.

Znak czasu: Czerwiec 27, 2022

Użyj Amazon SageMaker Data Wrangler w Amazon SageMaker Studio z domyślną konfiguracją cyklu życia

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Skonfiguruj domyślną konfigurację cyklu życia

Zastosuj konfigurację cyklu życia na poziomie domeny Studio lub profilu użytkownika

Zastosuj konfigurację cyklu życia na poziomie aplikacji

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton

Szybkie i ekonomiczne dostrajanie LLaMA 2 za pomocą AWS Trainium | Usługi internetowe Amazona

Popraw jakość rozmówcy dzięki podpowiedziom w Amazon Lex

Zastosuj maskowanie wulgaryzmów w Amazon Translate

Zautomatyzuj wstępne etykietowanie plików PDF dla Amazon Comrehend | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto