Використовуйте Amazon SageMaker Data Wrangler в Amazon SageMaker Studio з конфігурацією життєвого циклу за замовчуванням

Перевидано Платоном

читають: 0

Якщо ви використовуєте конфігурацію життєвого циклу за умовчанням для свого домену або профілю користувача в Студія Amazon SageMaker І використовувати Amazon SageMaker Data Wrangler для підготовки даних, тоді цей пост для вас. У цій публікації ми покажемо, як можна створити потік Data Wrangler і використовувати його для підготовки даних у середовищі Studio з конфігурацією життєвого циклу за замовчуванням.

Data Wrangler - це можливість Amazon SageMaker що дозволяє науковцям та інженерам швидше готувати дані для програм машинного навчання (ML) через візуальний інтерфейс. Підготовка даних є вирішальним етапом життєвого циклу ML, і Data Wrangler надає комплексне рішення для імпорту, дослідження, трансформації, представлення та обробки даних для ML у візуальному режимі з низьким кодом. Це дозволяє легко та швидко підключатися до таких компонентів AWS, як Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна та Формування озера AWS, а також зовнішні джерела, такі як Snowflake і DataBricks DeltaLake. Data Wrangler підтримує стандартні типи даних, такі як CSV, JSON, ORC і Parquet.

Програми Studio — це інтерактивні програми, які дають змогу використовувати візуальний інтерфейс Studio, створювати код і працювати. Додатки можуть бути як Jupyter Server, так і Kernel Gateway:

Сервер Jupyter – Надає доступ до візуального інтерфейсу для Studio. Кожен користувач Studio отримує власну програму Jupyter Server.
Шлюз ядра – Надає доступ до середовища виконання коду та ядер для ваших ноутбуків і терміналів Studio. Для отримання додаткової інформації див Шлюз ядра Jupyter.

Конфігурації життєвого циклу (LCC) — це сценарії оболонки для автоматизації налаштування середовищ Studio, наприклад встановлення розширень JupyterLab, попереднього завантаження наборів даних і налаштування сховищ вихідного коду. Сценарії LCC запускаються подіями життєвого циклу Studio, наприклад запуском нового блокнота Studio. Щоб програмно встановити конфігурацію життєвого циклу за умовчанням для вашого домену або профілю користувача, ви можете створити новий ресурс або оновити наявний. Щоб пов’язати конфігурацію життєвого циклу як стандартну, спочатку потрібно створити конфігурацію життєвого циклу, дотримуючись кроків у Створення та зв’язування конфігурації життєвого циклу

Примітка. Конфігурації життєвого циклу за замовчуванням, налаштовані на рівні домену, успадковуються всіма користувачами, тоді як ті, що налаштовані на рівні користувача, призначені для певного користувача. Якщо ви одночасно застосовуєте конфігурації життєвого циклу на рівні домену та на рівні профілю користувача, конфігурація життєвого циклу на рівні профілю користувача має пріоритет і застосовується до програми незалежно від того, яка конфігурація життєвого циклу застосована на рівні домену. Для отримання додаткової інформації див Налаштування стандартних конфігурацій життєвого циклу.

Data Wrangler приймає конфігурацію життєвого циклу Kernel Gateway за замовчуванням, але деякі команди, визначені в конфігурації життєвого циклу Kernel Gateway за замовчуванням, не застосовуються до Data Wrangler, через що Data Wrangler може не запускатися. На наступному знімку екрана показано приклад повідомлення про помилку, яке ви можете отримати під час запуску потоку Data Wrangler. Це може статися лише з конфігураціями життєвого циклу за замовчуванням, а не з конфігураціями життєвого циклу.

Помилка Data Wrangler

Огляд рішення

Клієнти, які використовують конфігурацію життєвого циклу за замовчуванням у Studio, можуть стежити за цією публікацією та використовувати наданий блок коду в сценарії конфігурації життєвого циклу, щоб запустити програму Data Wrangler без будь-яких помилок.

Налаштуйте конфігурацію життєвого циклу за умовчанням

Щоб налаштувати стандартну конфігурацію життєвого циклу, ви повинні додати її до DefaultResourceSpec відповідного типу програми. Поведінка вашої конфігурації життєвого циклу залежить від того, чи додано її до DefaultResourceSpec програми Jupyter Server або Kernel Gateway:

Програми Jupyter Server – При додаванні до DefaultResourceSpec програми Jupyter Server сценарій конфігурації життєвого циклу за умовчанням запускається автоматично, коли користувач вперше входить до Studio або перезапускає Studio. Ви можете використовувати це для автоматизації одноразових дій налаштування для середовища розробника Studio, наприклад встановлення розширень блокнота або налаштування сховища GitHub. Приклад цього див Налаштуйте Amazon SageMaker Studio за допомогою конфігурацій життєвого циклу.
Програми Kernel Gateway – При додаванні до DefaultResourceSpec програми Kernel Gateway, Studio за замовчуванням вибирає сценарій конфігурації життєвого циклу з панелі запуску Studio. Ви можете запустити блокнот чи термінал зі сценарієм за замовчуванням або вибрати інший зі списку конфігурацій життєвого циклу.

Стандартна конфігурація життєвого циклу шлюзу ядра, указана в DefaultResourceSpec застосовується до всіх образів шлюзу ядра в домені Studio, якщо ви не виберете інший сценарій зі списку, представленого в панелі запуску Studio.

Коли ви працюєте з конфігураціями життєвого циклу для Studio, ви створюєте конфігурацію життєвого циклу та приєднуєте її до свого домену Studio або профілю користувача. Потім ви можете запустити програму Jupyter Server або Kernel Gateway, щоб використовувати конфігурацію життєвого циклу.

У наведеній нижче таблиці підсумовано ці помилки, з якими ви можете зіткнутися під час запуску програми Data Wrangler із стандартними конфігураціями життєвого циклу.

Рівень, на якому конфігурація життєвого циклу Застосовується	Створіть потік Data Wrangler Працює (або) Помилка	обхідний шлях
Область	Помилка неправильного запиту	Застосуйте сценарій (див. нижче)
Профіль користувача	Помилка неправильного запиту	Застосуйте сценарій (див. нижче)
додаток	Працює — без проблем	Не потрібно

Якщо ви використовуєте конфігурацію життєвого циклу за замовчуванням, пов’язану зі Studio та Data Wrangler (програма Kernel Gateway), ви можете зіткнутися з помилкою програми Kernel Gateway. У цій публікації ми демонструємо, як правильно налаштувати конфігурацію життєвого циклу за замовчуванням, щоб виключити запущені команди в програмі Data Wrangler, щоб ви не зіткнулися з помилкою програми Kernel Gateway.

Припустімо, ви хочете встановити a git-clone-repo сценарій як стандартну конфігурацію життєвого циклу, яка автоматично перевіряє репозиторій Git у домашній папці користувача під час запуску сервера Jupyter. Давайте розглянемо кожен сценарій застосування конфігурації життєвого циклу (домен Studio, профіль користувача або рівень програми).

Застосуйте конфігурацію життєвого циклу на рівні домену або профілю користувача Studio

Щоб застосувати конфігурацію життєвого циклу шлюзу ядра за замовчуванням на рівні домену або профілю користувача Studio, виконайте кроки в цьому розділі. Ми починаємо з інструкцій для рівня профілю користувача.

У сценарій конфігурації життєвого циклу ви повинні включити такий блок коду, який перевіряє та пропускає програму Data Wrangler Kernel Gateway:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi

Наприклад, скористаємося наступний сценарій як наш оригінал (зауважте, що папку для клонування репо змінено на /root from /home/sagemaker-user):

# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL

Новий змінений сценарій виглядає так:

#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi

Ви можете зберегти цей сценарій як git_command_test.sh.

Тепер ви виконуєте серію команд у своєму терміналі або командному рядку. Ви повинні налаштувати Інтерфейс командного рядка AWS (AWS CLI) для взаємодії з AWS. Якщо ви не налаштували AWS CLI, див Налаштування AWS CLI.

Перетворіть свій git_command_test.sh файл у форматі Base64. Ця вимога запобігає помилкам через кодування інтервалів і розривів рядків.
```
LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh
```
Створіть конфігурацію життєвого циклу Studio. Наступна команда створює конфігурацію життєвого циклу, яка запускається під час запуску пов’язаної програми Kernel Gateway:
```
aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway
```
Використовуйте такий виклик API, щоб створити новий профіль користувача з пов’язаною конфігурацією життєвого циклу:
```
aws sagemaker create-user-profile --domain-id d-vqc14vvvvvvv --user-profile-name test --region us-east-2 --user-settings '{ "KernelGatewayAppSettings": { "LifecycleConfigArns" : ["arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git"], "DefaultResourceSpec": { "InstanceType": "ml.m5.xlarge", "LifecycleConfigArn": "arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git"
}
}
}'
```
Крім того, якщо ви хочете створити домен Studio, щоб зв’язати вашу конфігурацію життєвого циклу на рівні домену, або оновити профіль користувача або домен, виконайте дії, наведені в Налаштування стандартних конфігурацій життєвого циклу.
Тепер ви можете запустити програму Studio з панелі керування SageMaker.
У вашому середовищі Studio, на філе меню, виберіть Нові та Потік даних Wrangler.Новий потік Data Wrangler повинен відкриватися без проблем.
Щоб перевірити клон Git, ви можете відкрити нову програму запуску в Studio.
під Ноутбуки та обчислювальні ресурси, виберіть блокнот Python 3 і наука даних Зображення SageMaker для запуску сценарію як сценарію налаштування життєвого циклу за умовчанням.

Ви можете побачити клонований Git /root на наступному знімку екрана.

Git клоновано до /root

Ми успішно застосували стандартну конфігурацію життєвого циклу ядра на рівні профілю користувача та створили потік Data Wrangler. Щоб налаштувати на рівні домену Studio, єдина зміна полягає в тому, що замість створення профілю користувача ви передаєте ARN конфігурації життєвого циклу в створити домен дзвінок.

Застосуйте конфігурацію життєвого циклу на рівні програми

Якщо застосувати конфігурацію життєвого циклу Kernel Gateway за замовчуванням на рівні програми, у вас не виникне проблем, оскільки Data Wrangler пропускає конфігурацію життєвого циклу, застосовану на рівні програми.

Висновок

У цій публікації ми показали, як правильно налаштувати стандартну конфігурацію життєвого циклу для Studio, коли ви використовуєте Data Wrangler для підготовки даних і вимог до візуалізації.

Підводячи підсумок, якщо потрібно використовувати за замовчуванням конфігурація життєвого циклу для Studio щоб автоматизувати налаштування середовищ Studio та використовувати Data Wrangler для підготовки даних, ви можете застосувати конфігурацію життєвого циклу Kernel Gateway за замовчуванням на рівні профілю користувача або домену Studio з відповідним блоком коду, включеним у вашу конфігурацію життєвого циклу, щоб конфігурація життєвого циклу за замовчуванням перевіряла його і пропускає програму Data Wrangler Kernel Gateway.

Для отримання додаткової інформації див. такі ресурси:

Про авторів

Раджакумар Сампаткумар є головним технічним менеджером по роботі з клієнтами в AWS, надає клієнтам рекомендації щодо узгодження бізнес-технологій та підтримує оновлення їхніх моделей і процесів у хмарі. Він захоплений хмарним та машинним навчанням. Радж також є фахівцем з машинного навчання та працює з клієнтами AWS, щоб проектувати, розгортати й керувати їхніми робочими навантаженнями та архітектурами AWS.

Вікі Чжан є інженером із розробки програмного забезпечення в Amazon SageMaker. Вона захоплена вирішенням проблем. У вільний час вона любить дивитися детективи і грати в бадмінтон.

Рахул Набера є консультантом з аналізу даних у AWS Professional Services. Його поточна робота зосереджена на тому, щоб дозволити клієнтам створювати робочі навантаження даних і машинного навчання на AWS. У вільний час любить грати в крикет і волейбол.

Часова мітка: Липень 5, 2022

Часова мітка: Липень 24, 2023

Використовуйте Amazon SageMaker Data Wrangler в Amazon SageMaker Studio з конфігурацією життєвого циклу за замовчуванням

Перевидано Платоном

Огляд рішення

Налаштуйте конфігурацію життєвого циклу за умовчанням

Застосуйте конфігурацію життєвого циклу на рівні домену або профілю користувача Studio

Застосуйте конфігурацію життєвого циклу на рівні програми

Висновок

Про авторів

Більше від AWS Машинне навчання

Використовуйте послуги AWS AI та ML, щоб сприяти доступності та включенню людей із вадами зору чи комунікації

Керуйте робочими процесами AutoML за допомогою функцій AWS Step Functions та AutoGluon на Amazon SageMaker

Як Amazon Search запускає масштабні, стійкі проекти машинного навчання за допомогою Amazon SageMaker

Відновіть навчені параметри на великих наборах даних за допомогою Amazon SageMaker Data Wrangler

Використовуйте спільний доступ до конвеєрів Amazon SageMaker, щоб переглядати або керувати конвеєрами в облікових записах AWS

Запускайте кілька моделей глибокого навчання на GPU за допомогою мультимодельних кінцевих точок Amazon SageMaker

Локалізуйте вміст кількома мовами за допомогою сервісів машинного навчання AWS

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки