Якщо ви використовуєте конфігурацію життєвого циклу за умовчанням для свого домену або профілю користувача в Студія Amazon SageMaker І використовувати Amazon SageMaker Data Wrangler для підготовки даних, тоді цей пост для вас. У цій публікації ми покажемо, як можна створити потік Data Wrangler і використовувати його для підготовки даних у середовищі Studio з конфігурацією життєвого циклу за замовчуванням.
Data Wrangler - це можливість Amazon SageMaker що дозволяє науковцям та інженерам швидше готувати дані для програм машинного навчання (ML) через візуальний інтерфейс. Підготовка даних є вирішальним етапом життєвого циклу ML, і Data Wrangler надає комплексне рішення для імпорту, дослідження, трансформації, представлення та обробки даних для ML у візуальному режимі з низьким кодом. Це дозволяє легко та швидко підключатися до таких компонентів AWS, як Служба простого зберігання Amazon (Amazon S3), Амазонка Афіна, Амазонська червона зміна та Формування озера AWS, а також зовнішні джерела, такі як Snowflake і DataBricks DeltaLake. Data Wrangler підтримує стандартні типи даних, такі як CSV, JSON, ORC і Parquet.
Програми Studio — це інтерактивні програми, які дають змогу використовувати візуальний інтерфейс Studio, створювати код і працювати. Додатки можуть бути як Jupyter Server, так і Kernel Gateway:
- Сервер Jupyter – Надає доступ до візуального інтерфейсу для Studio. Кожен користувач Studio отримує власну програму Jupyter Server.
- Шлюз ядра – Надає доступ до середовища виконання коду та ядер для ваших ноутбуків і терміналів Studio. Для отримання додаткової інформації див Шлюз ядра Jupyter.
Конфігурації життєвого циклу (LCC) — це сценарії оболонки для автоматизації налаштування середовищ Studio, наприклад встановлення розширень JupyterLab, попереднього завантаження наборів даних і налаштування сховищ вихідного коду. Сценарії LCC запускаються подіями життєвого циклу Studio, наприклад запуском нового блокнота Studio. Щоб програмно встановити конфігурацію життєвого циклу за умовчанням для вашого домену або профілю користувача, ви можете створити новий ресурс або оновити наявний. Щоб пов’язати конфігурацію життєвого циклу як стандартну, спочатку потрібно створити конфігурацію життєвого циклу, дотримуючись кроків у Створення та зв’язування конфігурації життєвого циклу
Примітка. Конфігурації життєвого циклу за замовчуванням, налаштовані на рівні домену, успадковуються всіма користувачами, тоді як ті, що налаштовані на рівні користувача, призначені для певного користувача. Якщо ви одночасно застосовуєте конфігурації життєвого циклу на рівні домену та на рівні профілю користувача, конфігурація життєвого циклу на рівні профілю користувача має пріоритет і застосовується до програми незалежно від того, яка конфігурація життєвого циклу застосована на рівні домену. Для отримання додаткової інформації див Налаштування стандартних конфігурацій життєвого циклу.
Data Wrangler приймає конфігурацію життєвого циклу Kernel Gateway за замовчуванням, але деякі команди, визначені в конфігурації життєвого циклу Kernel Gateway за замовчуванням, не застосовуються до Data Wrangler, через що Data Wrangler може не запускатися. На наступному знімку екрана показано приклад повідомлення про помилку, яке ви можете отримати під час запуску потоку Data Wrangler. Це може статися лише з конфігураціями життєвого циклу за замовчуванням, а не з конфігураціями життєвого циклу.
Огляд рішення
Клієнти, які використовують конфігурацію життєвого циклу за замовчуванням у Studio, можуть стежити за цією публікацією та використовувати наданий блок коду в сценарії конфігурації життєвого циклу, щоб запустити програму Data Wrangler без будь-яких помилок.
Налаштуйте конфігурацію життєвого циклу за умовчанням
Щоб налаштувати стандартну конфігурацію життєвого циклу, ви повинні додати її до DefaultResourceSpec
відповідного типу програми. Поведінка вашої конфігурації життєвого циклу залежить від того, чи додано її до DefaultResourceSpec
програми Jupyter Server або Kernel Gateway:
- Програми Jupyter Server – При додаванні до
DefaultResourceSpec
програми Jupyter Server сценарій конфігурації життєвого циклу за умовчанням запускається автоматично, коли користувач вперше входить до Studio або перезапускає Studio. Ви можете використовувати це для автоматизації одноразових дій налаштування для середовища розробника Studio, наприклад встановлення розширень блокнота або налаштування сховища GitHub. Приклад цього див Налаштуйте Amazon SageMaker Studio за допомогою конфігурацій життєвого циклу. - Програми Kernel Gateway – При додаванні до
DefaultResourceSpec
програми Kernel Gateway, Studio за замовчуванням вибирає сценарій конфігурації життєвого циклу з панелі запуску Studio. Ви можете запустити блокнот чи термінал зі сценарієм за замовчуванням або вибрати інший зі списку конфігурацій життєвого циклу.
Стандартна конфігурація життєвого циклу шлюзу ядра, указана в DefaultResourceSpec
застосовується до всіх образів шлюзу ядра в домені Studio, якщо ви не виберете інший сценарій зі списку, представленого в панелі запуску Studio.
Коли ви працюєте з конфігураціями життєвого циклу для Studio, ви створюєте конфігурацію життєвого циклу та приєднуєте її до свого домену Studio або профілю користувача. Потім ви можете запустити програму Jupyter Server або Kernel Gateway, щоб використовувати конфігурацію життєвого циклу.
У наведеній нижче таблиці підсумовано ці помилки, з якими ви можете зіткнутися під час запуску програми Data Wrangler із стандартними конфігураціями життєвого циклу.
Рівень, на якому конфігурація життєвого циклу Застосовується |
Створіть потік Data Wrangler Працює (або) Помилка |
обхідний шлях |
Область | Помилка неправильного запиту | Застосуйте сценарій (див. нижче) |
Профіль користувача | Помилка неправильного запиту | Застосуйте сценарій (див. нижче) |
додаток | Працює — без проблем | Не потрібно |
Якщо ви використовуєте конфігурацію життєвого циклу за замовчуванням, пов’язану зі Studio та Data Wrangler (програма Kernel Gateway), ви можете зіткнутися з помилкою програми Kernel Gateway. У цій публікації ми демонструємо, як правильно налаштувати конфігурацію життєвого циклу за замовчуванням, щоб виключити запущені команди в програмі Data Wrangler, щоб ви не зіткнулися з помилкою програми Kernel Gateway.
Припустімо, ви хочете встановити a git-clone-repo сценарій як стандартну конфігурацію життєвого циклу, яка автоматично перевіряє репозиторій Git у домашній папці користувача під час запуску сервера Jupyter. Давайте розглянемо кожен сценарій застосування конфігурації життєвого циклу (домен Studio, профіль користувача або рівень програми).
Застосуйте конфігурацію життєвого циклу на рівні домену або профілю користувача Studio
Щоб застосувати конфігурацію життєвого циклу шлюзу ядра за замовчуванням на рівні домену або профілю користувача Studio, виконайте кроки в цьому розділі. Ми починаємо з інструкцій для рівня профілю користувача.
У сценарій конфігурації життєвого циклу ви повинні включити такий блок коду, який перевіряє та пропускає програму Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Наприклад, скористаємося наступний сценарій як наш оригінал (зауважте, що папку для клонування репо змінено на /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Новий змінений сценарій виглядає так:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Ви можете зберегти цей сценарій як git_command_test.sh
.
Тепер ви виконуєте серію команд у своєму терміналі або командному рядку. Ви повинні налаштувати Інтерфейс командного рядка AWS (AWS CLI) для взаємодії з AWS. Якщо ви не налаштували AWS CLI, див Налаштування AWS CLI.
- Перетворіть свій
git_command_test.sh
файл у форматі Base64. Ця вимога запобігає помилкам через кодування інтервалів і розривів рядків. - Створіть конфігурацію життєвого циклу Studio. Наступна команда створює конфігурацію життєвого циклу, яка запускається під час запуску пов’язаної програми Kernel Gateway:
- Використовуйте такий виклик API, щоб створити новий профіль користувача з пов’язаною конфігурацією життєвого циклу:
Крім того, якщо ви хочете створити домен Studio, щоб зв’язати вашу конфігурацію життєвого циклу на рівні домену, або оновити профіль користувача або домен, виконайте дії, наведені в Налаштування стандартних конфігурацій життєвого циклу.
- Тепер ви можете запустити програму Studio з панелі керування SageMaker.
- У вашому середовищі Studio, на філе меню, виберіть Нові та Потік даних Wrangler.Новий потік Data Wrangler повинен відкриватися без проблем.
- Щоб перевірити клон Git, ви можете відкрити нову програму запуску в Studio.
- під Ноутбуки та обчислювальні ресурси, виберіть блокнот Python 3 і наука даних Зображення SageMaker для запуску сценарію як сценарію налаштування життєвого циклу за умовчанням.
Ви можете побачити клонований Git /root
на наступному знімку екрана.
Ми успішно застосували стандартну конфігурацію життєвого циклу ядра на рівні профілю користувача та створили потік Data Wrangler. Щоб налаштувати на рівні домену Studio, єдина зміна полягає в тому, що замість створення профілю користувача ви передаєте ARN конфігурації життєвого циклу в створити домен дзвінок.
Застосуйте конфігурацію життєвого циклу на рівні програми
Якщо застосувати конфігурацію життєвого циклу Kernel Gateway за замовчуванням на рівні програми, у вас не виникне проблем, оскільки Data Wrangler пропускає конфігурацію життєвого циклу, застосовану на рівні програми.
Висновок
У цій публікації ми показали, як правильно налаштувати стандартну конфігурацію життєвого циклу для Studio, коли ви використовуєте Data Wrangler для підготовки даних і вимог до візуалізації.
Підводячи підсумок, якщо потрібно використовувати за замовчуванням конфігурація життєвого циклу для Studio щоб автоматизувати налаштування середовищ Studio та використовувати Data Wrangler для підготовки даних, ви можете застосувати конфігурацію життєвого циклу Kernel Gateway за замовчуванням на рівні профілю користувача або домену Studio з відповідним блоком коду, включеним у вашу конфігурацію життєвого циклу, щоб конфігурація життєвого циклу за замовчуванням перевіряла його і пропускає програму Data Wrangler Kernel Gateway.
Для отримання додаткової інформації див. такі ресурси:
- Документація конфігурації життєвого циклу Amazon SageMaker Studio
- Студія Amazon SageMaker
- Репозиторій прикладів сценаріїв налаштування життєвого циклу
- Налагодження конфігурацій життєвого циклу
Про авторів
Раджакумар Сампаткумар є головним технічним менеджером по роботі з клієнтами в AWS, надає клієнтам рекомендації щодо узгодження бізнес-технологій та підтримує оновлення їхніх моделей і процесів у хмарі. Він захоплений хмарним та машинним навчанням. Радж також є фахівцем з машинного навчання та працює з клієнтами AWS, щоб проектувати, розгортати й керувати їхніми робочими навантаженнями та архітектурами AWS.
Вікі Чжан є інженером із розробки програмного забезпечення в Amazon SageMaker. Вона захоплена вирішенням проблем. У вільний час вона любить дивитися детективи і грати в бадмінтон.
Рахул Набера є консультантом з аналізу даних у AWS Professional Services. Його поточна робота зосереджена на тому, щоб дозволити клієнтам створювати робочі навантаження даних і машинного навчання на AWS. У вільний час любить грати в крикет і волейбол.
- Coinsmart. Найкраща в Європі біржа біткойн та криптовалют.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. БЕЗКОШТОВНИЙ ДОСТУП.
- CryptoHawk. Альткойн Радар. Безкоштовне випробування.
- Джерело: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- МЕНЮ
- доступ
- рахунки
- дії
- доданий
- ВСІ
- Amazon
- аналітика
- API
- додаток
- застосовно
- додаток
- застосування
- прикладної
- Застосовувати
- Застосування
- відповідний
- додатка
- Юрист
- асоційований
- автоматизувати
- автоматично
- AWS
- оскільки
- нижче
- Блокувати
- border
- ламається
- будувати
- call
- Викликати
- зміна
- Перевірки
- Вибирати
- хмара
- код
- повний
- Компоненти
- обчислення
- конфігурація
- З'єднуватися
- консультант
- містить
- контроль
- створювати
- створений
- створює
- створення
- крикет
- вирішальне значення
- Поточний
- Клієнти
- дані
- Analytics даних
- демонструвати
- залежить
- розгортання
- дизайн
- Розробник
- розробка
- різний
- домен
- кожен
- легко
- нудьгувати
- включіть
- дозволяє
- дозволяє
- кінець в кінець
- інженер
- Інженери
- Навколишнє середовище
- Події
- приклад
- існуючий
- досвід
- дослідити
- Розширення
- Провал
- швидше
- Перший
- перший раз
- потік
- фокусується
- стежити
- після
- формат
- від
- шлюз
- Git
- GitHub
- траплятися
- висота
- тут
- Головна
- Як
- How To
- HTTPS
- зображення
- зображень
- включати
- включені
- інформація
- встановлювати
- екземпляр
- інтерактивний
- інтерфейс
- питання
- IT
- запуск
- запуск
- вивчення
- рівень
- Лінія
- список
- подивитися
- машина
- навчання за допомогою машини
- РОБОТИ
- управляти
- менеджер
- може бути
- ML
- Моделі
- більше
- кіно
- ноутбук
- відкрити
- операція
- оригінал
- власний
- панель
- пристрасний
- ігри
- Готувати
- Головний
- Проблема
- процес
- процеси
- професійний
- профіль
- забезпечує
- забезпечення
- швидко
- Сховище
- запросити
- Вимога
- ресурс
- ресурси
- прогін
- біг
- то ж
- зберегти
- наука
- Вчені
- Серія
- Послуги
- комплект
- установка
- установка
- Склад
- Показувати
- простий
- So
- Софтвер
- розробка програмного забезпечення
- solid
- рішення
- Розв’язування
- деякі
- вихідні
- спеціаліст
- конкретний
- standard
- старт
- починається
- зберігання
- студія
- Успішно
- Підтримуючий
- Опори
- технічний
- термінал
- тест
- Команда
- час
- Перетворення
- спрацьовує
- Типи
- при
- Оновити
- використання
- користувачі
- візуалізації
- Що
- Чи
- в
- без
- Work
- працює
- вашу