Специалистам по данным нужна согласованная и воспроизводимая среда для машинного обучения (ML) и рабочих нагрузок обработки данных, которая позволяет управлять зависимостями и является безопасной. Контейнеры глубокого обучения AWS уже предоставляет готовые образы Docker для обучения и обслуживания моделей в распространенных средах, таких как TensorFlow, PyTorch и MXNet. Чтобы улучшить этот опыт, мы анонсировали общедоступную бета-версию дистрибутива с открытым исходным кодом SageMaker на JupyterCon 2023. Это обеспечивает единый сквозной опыт машинного обучения для разработчиков машинного обучения с разным уровнем знаний. Разработчикам больше не нужно переключаться между различными контейнерами фреймворка для экспериментов или при переходе от локальных сред JupyterLab и записных книжек SageMaker к производственным заданиям в SageMaker. Дистрибутив SageMaker с открытым исходным кодом поддерживает наиболее распространенные пакеты и библиотеки для обработки данных, машинного обучения и визуализации, такие как TensorFlow, PyTorch, Scikit-learn, Pandas и Matplotlib. Вы можете начать использовать контейнер с Публичная галерея Amazon ECR начиная с сегодняшнего дня.
В этом посте мы покажем вам, как вы можете использовать дистрибутив SageMaker с открытым исходным кодом, чтобы быстро экспериментировать в вашей локальной среде и легко продвигать их на рабочие места в SageMaker.
Обзор решения
В нашем примере мы демонстрируем обучение модели классификации изображений с использованием PyTorch. Мы используем КМНИСТ набор данных доступен публично на PyTorch. Мы обучаем модель нейронной сети, проверяем производительность модели и, наконец, печатаем результаты обучения и проверки. Полный блокнот для этого примера доступен в Репозиторий примеров SageMaker Studio Lab. Начинаем экспериментировать на локальном ноуте с помощью опенсорсного дистрибутива, переносим его на Студия Amazon SageMaker для использования более крупного экземпляра, а затем запланируйте записную книжку как задание записной книжки.
Предпосылки
Вам необходимы следующие предпосылки:
Настройте локальную среду
Вы можете сразу начать использовать дистрибутив с открытым исходным кодом на своем локальном ноутбуке. Чтобы запустить JupyterLab, выполните следующие команды на своем терминале:
Вы можете заменить ECR_IMAGE_ID
с любым из тегов изображения, доступных в Публичная галерея Amazon ECR, или выберите latest-gpu
тег, если вы используете машину, поддерживающую GPU.
Эта команда запустит JupyterLab и предоставит URL-адрес на терминале, например http://127.0.0.1:8888/lab?token=<token>
. Скопируйте ссылку и введите ее в предпочитаемом вами браузере, чтобы запустить JupyterLab.
Настроить студию
Studio — это комплексная интегрированная среда разработки (IDE) для машинного обучения, которая позволяет разработчикам и специалистам по данным создавать, обучать, развертывать и отслеживать модели машинного обучения в любом масштабе. Studio предоставляет обширный список собственных образов с распространенными платформами и пакетами, такими как Data Science, TensorFlow, PyTorch и Spark. Эти изображения упрощают специалистам по обработке и анализу данных возможность начать работу с машинным обучением, просто выбрав платформу и тип экземпляра по своему выбору для вычислений.
Теперь вы можете использовать дистрибутив SageMaker с открытым исходным кодом в Studio с помощью принести свой собственный образ особенность. Чтобы добавить дистрибутив с открытым исходным кодом в свой домен SageMaker, выполните следующие действия:
- Добавьте дистрибутив с открытым исходным кодом в свою учетную запись Реестр Amazon Elastic Container (Amazon ECR), выполнив следующие команды на своем терминале:
- Создайте образ SageMaker и прикрепите его к домену Studio:
- На консоли SageMaker запустите Studio, выбрав свой домен и существующий профиль пользователя.
- При необходимости перезапустите Studio, выполнив действия, описанные в Завершите работу и обновите SageMaker Studio..
Скачать блокнот
Загрузите образец записной книжки локально с веб-сайта Репо GitHub.
Откройте записную книжку в выбранной вами среде IDE и добавьте ячейку в начало записной книжки для установки. torchsummary
, torchsummary
package не является частью дистрибутива, и его установка на ноутбуке гарантирует, что ноутбук будет работать от начала до конца. Мы рекомендуем использовать conda
or micromamba
для управления средами и зависимостями. Добавьте следующую ячейку в блокнот и сохраните блокнот:
Эксперимент на локальном блокноте
Загрузите блокнот в пользовательский интерфейс JupyterLab, который вы запустили, выбрав значок загрузки, как показано на следующем снимке экрана.
Когда он будет загружен, запустите cv-kmnist.ipynb
блокнот. Вы можете сразу запустить ячейки, не устанавливая никаких зависимостей, таких как torch, matplotlib или ipywidgets.
Если вы выполнили предыдущие шаги, вы увидите, что можете использовать дистрибутив локально со своего ноутбука. На следующем этапе мы используем тот же дистрибутив в Studio, чтобы воспользоваться преимуществами функций Studio.
Переместите эксперимент в Studio (необязательно)
При желании давайте продвинем эксперимент в Studio. Одним из преимуществ Studio является то, что базовые вычислительные ресурсы полностью эластичны, поэтому вы можете легко увеличивать или уменьшать доступные ресурсы, а изменения происходят автоматически в фоновом режиме, не прерывая вашу работу. Если вы хотели запустить ту же записную книжку, что и ранее, в более крупном наборе данных и вычислительном экземпляре, вы можете перейти на Studio.
Перейдите к пользовательскому интерфейсу Studio, который вы запустили ранее, и выберите значок загрузки, чтобы загрузить блокнот.
После запуска блокнота вам будет предложено выбрать образ и тип экземпляра. В средстве запуска ядра выберите sagemaker-runtime
как образ и ml.t3.medium
экземпляр, затем выберите Выберите.
Теперь вы можете запускать записную книжку от начала до конца без каких-либо изменений в записной книжке из локальной среды разработки в записные книжки Studio!
Запланируйте блокнот как работу
Когда вы закончите свои эксперименты, SageMaker предоставляет несколько вариантов для повышения производительности вашего ноутбука, таких как обучающие задания и конвейеры SageMaker. Одним из таких вариантов является прямой запуск самой записной книжки как неинтерактивного запланированного задания записной книжки с помощью Задания для ноутбуков SageMaker. Например, вы можете периодически переобучать свою модель или периодически получать выводы на основе входящих данных и создавать отчеты для использования вашими заинтересованными сторонами.
В Studio выберите значок задания записной книжки, чтобы запустить задание записной книжки. Если вы установили расширение заданий для ноутбука локально на своем ноутбуке, вы также можете запланировать выполнение ноутбука прямо с вашего ноутбука. Видеть Руководство по установке для локальной настройки расширения заданий для ноутбуков.
Задание блокнота автоматически использует URI образа ECR дистрибутива с открытым исходным кодом, поэтому вы можете напрямую запланировать задание блокнота.
Выберите Работать по расписанию, выберите расписание, например каждую неделю по субботам, и выберите Создать. Вы также можете выбрать Беги сейчас если вы хотите просмотреть результаты немедленно.
Когда первое задание записной книжки завершено, вы можете просмотреть выходные данные записной книжки непосредственно из пользовательского интерфейса Studio, выбрав ноутбук под Выходные файлы.
Дополнительные соображения
Помимо использования общедоступного образа ECR непосредственно для рабочих нагрузок ML, дистрибутив с открытым исходным кодом предлагает следующие преимущества:
- Файл Dockerfile, используемый для создания образа, доступен разработчикам для изучения и создания собственных образов. Вы также можете наследовать этот образ в качестве базового образа и установить свои пользовательские библиотеки, чтобы получить воспроизводимую среду.
- Если вы не привыкли к Docker и предпочитаете использовать среды Conda в своей среде JupyterLab, мы предоставляем
env.out
файл для каждой из опубликованных версий. Вы можете использовать инструкции в файле, чтобы создать собственную среду Conda, которая будет имитировать ту же среду. Например, см. файл среды ЦП cpu.env.out. - Вы можете использовать версии изображения для графического процессора для запуска рабочих нагрузок, совместимых с графическим процессором, таких как глубокое обучение и обработка изображений.
Убирать
Выполните следующие шаги, чтобы очистить ресурсы:
- Если вы запланировали запуск ноутбука по расписанию, приостановите или удалите расписание в Определения работы ноутбука вкладку, чтобы не платить за будущие рабочие места.
- Закройте все приложения Studio, чтобы не платить за неиспользованные вычислительные ресурсы. Видеть Завершение работы и обновление приложений Studio для получения инструкций.
- При желании удалите домен Studio, если вы его создали.
Заключение
Поддержание воспроизводимой среды на разных этапах жизненного цикла машинного обучения — одна из самых больших проблем для специалистов по данным и разработчиков. В дистрибутиве с открытым исходным кодом SageMaker мы предоставляем образ с взаимно совместимыми версиями наиболее распространенных фреймворков и пакетов машинного обучения. Дистрибутив также имеет открытый исходный код, предоставляя разработчикам прозрачность пакетов и процессов сборки, что упрощает настройку их собственного дистрибутива.
В этом посте мы показали вам, как использовать дистрибутив в вашей локальной среде, в Studio и в качестве контейнера для ваших учебных заданий. Эта функция в настоящее время находится в публичной бета-версии. Мы рекомендуем вам попробовать это и поделиться своими отзывами и проблемами на общедоступный репозиторий GitHub!
Об авторах
Дурга Сьюри является архитектором решений машинного обучения в команде Amazon SageMaker Service SA. Она увлечена тем, чтобы сделать машинное обучение доступным для всех. За 4 года работы в AWS она помогла настроить платформы AI/ML для корпоративных клиентов. Когда она не работает, она любит поездки на мотоцикле, детективные романы и долгие прогулки со своим 5-летним хаски.
Кетан Виджайваргия является старшим инженером по разработке программного обеспечения в Amazon Web Services (AWS). Его основные направления — машинное обучение, распределенные системы и открытый исходный код. Вне работы он любит проводить время, у себя дома и наслаждаясь природой.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- ЭВМ Финанс. Единый интерфейс для децентрализованных финансов. Доступ здесь.
- Квантум Медиа Групп. ИК/PR усиление. Доступ здесь.
- ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/get-started-with-the-open-source-amazon-sagemaker-distribution/
- :имеет
- :является
- :нет
- $UP
- 1
- 10
- 100
- 11
- 2023
- 7
- 9
- a
- О нас
- доступной
- через
- Добавить
- дополнение
- дополнительный
- плюс
- Преимущества
- AI / ML
- Все
- уже
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon Web Services
- Веб-службы Amazon (AWS)
- an
- и
- объявило
- любой
- приложение
- Программы
- МЫ
- области
- AS
- At
- прикреплять
- автоматически
- доступен
- избежать
- AWS
- фон
- Использование темпера с изогнутым основанием
- основанный
- BE
- начало
- beta
- между
- Крупнейшая
- браузер
- строить
- by
- CAN
- КПП
- Клетки
- проблемы
- изменения
- выбор
- Выберите
- Выбирая
- классификация
- COM
- Общий
- совместим
- полный
- Вычисление
- Конфигурация
- последовательный
- Консоли
- потребление
- Container
- Контейнеры
- Создайте
- создали
- В настоящее время
- изготовленный на заказ
- Клиенты
- настроить
- данным
- наука о данных
- Наборы данных
- глубоко
- глубокое обучение
- По умолчанию
- развертывание
- описывать
- застройщиков
- Развитие
- различный
- непосредственно
- распределенный
- распределенные системы
- распределение
- Docker
- домен
- сделанный
- вниз
- каждый
- Ранее
- легче
- легко
- позволяет
- поощрять
- конец
- впритык
- инженер
- обеспечивать
- Enter
- Предприятие
- Окружающая среда
- средах
- Каждая
- все члены
- пример
- Примеры
- существующий
- опыт
- эксперимент
- опыта
- Больше
- экспорт
- расширение
- обширный
- Особенность
- Особенности
- Обратная связь
- Файл
- в заключение
- Во-первых,
- Фокус
- следует
- после
- Что касается
- Рамки
- каркасы
- от
- полный
- полностью
- будущее
- порождать
- получить
- GitHub
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Есть
- имеющий
- he
- помог
- ее
- его
- Как
- How To
- HTML
- HTTPS
- ICON
- if
- изображение
- Классификация изображений
- изображений
- немедленно
- улучшать
- in
- Входящий
- устанавливать
- установлен
- Установка
- пример
- инструкции
- интегрированный
- в
- вопросы
- IT
- саму трезвость
- работа
- Джобс
- JPG
- JSON
- лаборатория
- портативный компьютер
- больше
- запуск
- запустили
- изучение
- Lets
- уровни
- библиотеки
- Жизненный цикл
- такое как
- нравится
- LINK
- Список
- локальным
- в местном масштабе
- Войти
- Длинное
- дольше
- от
- любит
- машина
- обучение с помощью машины
- сделать
- Создание
- управлять
- управления
- Matplotlib
- может быть
- мигрировать
- ML
- модель
- Модели
- монитор
- самых
- мотоцикл
- двигаться
- с разными
- взаимно
- Тайна
- имя
- природа
- Необходимость
- нуждающихся
- сеть
- нейронной сети
- Новые
- следующий
- нет
- ноутбук
- сейчас
- of
- Предложения
- on
- ONE
- открытый
- с открытым исходным кодом
- Опция
- Опции
- or
- наши
- внешний
- внешнюю
- собственный
- пакет
- пакеты
- панд
- часть
- страстный
- Пауза
- платить
- производительность
- Часть
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- предпочитать
- привилегированный
- предпосылки
- Печать / PDF
- частная
- Процессы
- обработка
- Производство
- Профиль
- продвижении
- обеспечивать
- приводит
- обеспечение
- что такое варган?
- публично
- опубликованный
- Push
- Питон
- pytorch
- быстро
- рекомендовать
- замещать
- Отчеты
- хранилище
- Требования
- Полезные ресурсы
- Итоги
- Run
- Бег
- s
- SA
- sagemaker
- Конвейеры SageMaker
- то же
- суббота
- Сохранить
- Шкала
- график
- считаться
- Наука
- Ученые
- scikit учиться
- безопасный
- посмотреть
- старший
- обслуживание
- Услуги
- выступающей
- набор
- настройки
- Поделиться
- она
- показывать
- демонстрации
- показал
- показанный
- просто
- просто
- So
- Software
- разработка программного обеспечения
- Решения
- Источник
- Искриться
- тратить
- этапы
- заинтересованных сторон
- Начало
- и политические лидеры
- Начало
- Шаг
- Шаги
- студия
- такие
- Поддержка
- Коммутатор
- системы
- TAG
- взять
- команда
- tensorflow
- Терминал
- тестXNUMX
- который
- Ассоциация
- их
- Их
- тогда
- Эти
- они
- этой
- время
- в
- сегодня
- факел
- Train
- Обучение
- Прозрачность
- стараться
- напишите
- ui
- лежащий в основе
- унифицированный
- неиспользованный
- Обновление ПО
- загружено
- URL
- Применение
- использование
- используемый
- Информация о пользователе
- использования
- через
- версия
- Вид
- визуализация
- хотеть
- стремятся
- we
- Web
- веб-сервисы
- неделя
- когда
- будете
- без
- Работа
- работает
- лет
- Ты
- ВАШЕ
- зефирнет