RStudio на Amazon SageMaker — это первый в отрасли полностью управляемый RStudio Workbench в облаке. Вы можете быстро запустить знакомую интегрированную среду разработки (IDE) RStudio и подключать и отключать базовые вычислительные ресурсы, не прерывая свою работу, что упрощает создание решений для машинного обучения (ML) и аналитики в R в любом масштабе. RStudio в SageMaker уже поставляется с встроенное изображение предварительно настроенный с помощью инструментов программирования R и обработки данных; однако вам часто нужно настроить среду IDE. Начиная с сегодняшнего дня, вы можете добавить свой собственный образ с пакетами и инструментами по вашему выбору и сделать их доступными для всех пользователей RStudio в SageMaker несколькими щелчками мыши.
Использование собственного изображения имеет несколько преимуществ. Вы можете стандартизировать и упростить начало работы для специалистов по обработке и анализу данных и разработчиков, предоставив начальный образ, предварительно настроив драйверы, необходимые для подключения к хранилищам данных, или предварительно установив специализированное программное обеспечение для анализа данных в вашей сфере деятельности. Кроме того, организации, которые ранее размещали свои собственные RStudio Workbench, могут иметь существующие контейнерные среды, которые они хотят продолжать использовать в RStudio на SageMaker.
В этом посте мы делимся пошаговыми инструкциями по созданию пользовательского образа и переносу его в RStudio на SageMaker с помощью Консоль управления AWS or Интерфейс командной строки AWS (интерфейс командной строки AWS). Вы можете настроить и запустить свою первую пользовательскую среду IDE, выполнив несколько простых шагов. Для получения дополнительной информации о содержании, обсуждаемом в этом посте, см. Принесите свой собственный образ RStudio.
Обзор решения
Когда специалист по данным запускает новый сеанс в RStudio на SageMaker, создается новый вычислительный экземпляр машинного обучения по требованию, а образ контейнера, определяющий среду выполнения (операционная система, библиотеки, версии R и т. д.), запускается на машинном обучении. пример. Вы можете предоставить специалистам по данным несколько вариантов среды выполнения, создав пользовательские образы контейнеров и сделав их доступными в средстве запуска RStudio Workbench, как показано на следующем снимке экрана.
На следующей диаграмме описан процесс переноса пользовательского изображения. Сначала вы создаете собственный образ контейнера из Dockerfile и отправляете его в репозиторий в Реестр Amazon Elastic Container (Амазон ЭКР). Затем вы создаете образ SageMaker, который указывает на образ контейнера в Amazon ECR, и прикрепляете этот образ к Домен SageMaker. Это делает пользовательский образ доступным для запуска нового сеанса в RStudio.
Предпосылки
Для реализации этого решения у вас должны быть следующие предпосылки:
- RStudio в домене SageMaker
- Управление идентификацией и доступом AWS (IAM) для взаимодействия с Amazon ECR
- Подходящая версия интерфейса командной строки AWS
Мы предоставляем более подробную информацию о каждом в этом разделе.
RStudio в домене SageMaker
Если у вас есть домен SageMaker с включенным RStudio до 7 апреля 2022 г., вы должны удалить и заново создать RStudioServerPro
приложение под именем профиля пользователя domain-shared
чтобы получить последние обновления для использования собственных возможностей изображения. Команды интерфейса командной строки AWS следующие. Обратите внимание, что это действие прерывает работу пользователей RStudio в SageMaker.
Если вы впервые используете RStudio в SageMaker, выполните пошаговый процесс установки, описанный в Начните работу с RStudio на Amazon SageMaker, или выполните следующее AWS CloudFormation шаблон для настройки вашей первой RStudio в домене SageMaker. Если у вас уже есть работающая RStudio в домене SageMaker, вы можете пропустить этот шаг.
Для следующего шаблона RStudio в SageMaker CloudFormation требуется лицензия RStudio, утвержденная через AWS License Manager. Дополнительные сведения о лицензировании см. Лицензия RStudio. Также обратите внимание, что для каждого региона AWS разрешен только один домен SageMaker, поэтому вам потребуется использовать учетную запись AWS и регион, в котором нет существующего домена.
- Выберите Стек запуска.
Ссылка ведет в регион us-east-1, но вы можете изменить его на предпочитаемый регион. - В Укажите шаблон раздел, выбрать Следующая.
- В Укажите детали стека раздел, для Название стекавведите имя.
- Что касается параметры, введите имя профиля пользователя SageMaker.
- Выберите Следующая.
- В Настроить параметры стека раздел, выбрать Следующая.
- В Обзор раздел, выберите Я признаю, что AWS CloudFormation может создавать ресурсы IAM , а затем выбрать Следующая.
- Когда статус стека изменится на
CREATE_COMPLETE
, Перейдите к Панель управления на консоли SageMaker, чтобы найти домен и нового пользователя.
Политики IAM для взаимодействия с Amazon ECR
Для взаимодействия с вашими частными репозиториями Amazon ECR вам потребуются следующие разрешения IAM для пользователя или роли IAM, которые вы будете использовать для создания и отправки образов Docker:
Чтобы изначально выполнить сборку из общедоступного образа Amazon ECR, как показано в этом посте, вам необходимо прикрепить образ, управляемый AWS. AmazonElasticContainerRegistryPublicReadOnly политики для вашего пользователя или роли IAM.
Чтобы создать образ контейнера Docker, вы можете использовать либо локальный клиент Docker, либо Докер-сборка SageMaker Инструмент CLI из терминала в RStudio на SageMaker. Для последнего выполните предварительные условия в Использование интерфейса командной строки Amazon SageMaker Studio Image Build для создания образов контейнеров из записных книжек Studio для настройки разрешений IAM и инструмента CLI.
Версии интерфейса командной строки AWS
Существуют минимальные требования к версии инструмента AWS CLI для запуска команд, упомянутых в этом посте. Обязательно обновите AWS CLI на выбранном вами терминале:
- Интерфейс командной строки AWS v1 >= 1.23.6
- Интерфейс командной строки AWS v2 >= 2.6.2
Подготовьте Dockerfile
Вы можете настроить среду выполнения в RStudio в Dockerfile. Поскольку настройка зависит от вашего варианта использования и требований, мы покажем вам основные и наиболее распространенные настройки в этом примере. Вы можете скачать полную образец Dockerfile.
Установите компоненты сеанса RStudio Workbench
Наиболее важным программным обеспечением для установки в ваш собственный образ контейнера является RStudio Workbench. Мы скачиваем с общедоступная корзина S3, размещенная на RStudio PBC. Существует множество выпусков версий и дистрибутивов ОС для использования. Версия установки должна быть совместима с версией RStudio Workbench, используемой в RStudio на SageMaker, которая на момент написания была 1.4.1717-3. ОС (аргумент ОС в следующем фрагменте) должна соответствовать базе OS
используется в образе контейнера. В нашем образце Dockerfile, мы используем базовый образ Amazon Linux 2 из общедоступного репозитория Amazon ECR, управляемого AWS. Совместимая ОС RStudio Workbench — centos7.
Вы можете найти все варианты выпуска ОС с помощью следующей команды:
Установите R (и версии R)
Для среды выполнения вашего пользовательского образа контейнера RStudio требуется по крайней мере одна версия R. Мы можем сначала установить версию R и сделать ее R по умолчанию, создав программные ссылки на /usr/local/bin/
:
Специалистам по данным часто требуется несколько версий R, чтобы они могли легко переключаться между проектами и кодовой базой. RStudio в SageMaker поддерживает простое переключение между версиями R, как показано на следующем снимке экрана.
RStudio на SageMaker автоматически сканирует и обнаруживает версии R в следующих каталогах:
Мы можем установить больше версий в образ контейнера, как показано в следующем фрагменте. Они будут установлены в /opt/R/
.
Установите профессиональные драйверы RStudio
Специалистам по данным часто требуется доступ к данным из таких источников, как Амазонка Афина и Амазонка Redshift в RStudio на SageMaker. Вы можете сделать это, используя Профессиональные драйверы RStudio и Соединения RStudio. Убедитесь, что вы установили соответствующие библиотеки и драйверы, как показано в следующем фрагменте:
Установить пользовательские библиотеки
Вы также можете установить дополнительные библиотеки R и Python, чтобы специалистам по данным не приходилось устанавливать их на лету:
Когда вы закончите настройку в Dockerfile, пришло время создать образ контейнера и отправить его в Amazon ECR.
Создание и отправка в Amazon ECR
Вы можете создать образ контейнера из Dockerfile с терминала, на котором установлен механизм Docker, например с вашего локального терминала или Облако AWS9. Если вы создаете его из терминала в RStudio на SageMaker, вы можете использовать Создание образа SageMaker Studio. Мы демонстрируем шаги для обоих подходов.
В локальном терминале, где присутствует движок Docker, вы можете запустить следующие команды из того места, где находится Dockerfile. Вы можете использовать пример скрипта создать-и-обновить-image.sh.
В терминале RStudio на SageMaker выполните следующие команды:
После этих команд у вас есть репозиторий и образ контейнера Docker в Amazon ECR для нашего следующего шага, на котором мы прикрепляем образ контейнера для использования в RStudio на SageMaker. Обратите внимание на URI изображения в Amazon ECR. <ACCOUNT_ID>.dkr.ecr.<REGION>.amazonaws.com/<REPO>:<TAG>
для дальнейшего использования.
Обновите RStudio на SageMaker через консоль
RStudio в SageMaker позволяет настраивать среду выполнения с помощью пользовательского образа SageMaker. Образ SageMaker является держателем набора версий образа SageMaker. Каждая версия образа представляет собой образ контейнера, совместимый с RStudio в SageMaker и хранящийся в репозитории Amazon ECR. Чтобы сделать собственный образ SageMaker доступным для всех пользователей RStudio в домене, вы можете прикрепить образ к домену, выполнив действия, описанные в этом разделе.
- В консоли SageMaker перейдите к Пользовательские образы SageMaker Studio, прикрепленные к домену страницу и выберите Приложить изображение.
- Выберите Новое изображениеи введите URI образа Amazon ECR.
- Выберите Следующая.
- В Свойства изображения раздел, предоставить Название изображения (обязательный), Отображаемое имя изображения (по желанию), Описание (необязательно), роль IAM и теги.
Ассоциация отображаемое имя изображения, если он указан, отображается в средстве запуска сеансов в RStudio на SageMaker. Если Отображаемое имя изображения поле остается пустым, имя изображения вместо этого отображается в RStudio на SageMaker. - Оставлять путь монтирования EFS и Расширенная конфигурация (Идентификатор пользователя и Идентификатор группы) по умолчанию, потому что RStudio в SageMaker управляет конфигурацией вместо нас.
- В Тип изображения раздел, выберите Образ RStudio.
- Выберите Отправить.
Теперь вы можете увидеть новую запись в списке. Стоит отметить, что с введением поддержки пользовательских образов RStudio вы можете увидеть новый Тип использования столбец в таблице, чтобы указать, является ли изображение изображением RStudio или Студия Amazon SageMaker изображения.
Доступ к пользовательским изображениям в пользовательском интерфейсе средства запуска сеанса может занять до 5–10 минут. Затем вы можете запустить новый сеанс R в RStudio на SageMaker с вашими пользовательскими изображениями.
Со временем вы можете удалить старые и устаревшие изображения. Чтобы удалить пользовательские изображения из списка пользовательских изображений в RStudio, выберите изображения в списке и выберите Отсоединить.
Выберите Отсоединить для подтверждения.
Обновите RStudio в SageMaker через интерфейс командной строки AWS
В следующих разделах описываются шаги по созданию образа SageMaker и присоединению его для использования в RStudio в SageMaker на консоли SageMaker и с использованием интерфейса командной строки AWS. Вы можете использовать пример скрипта создать-и-обновить-image.sh.
Создайте образ SageMaker и версию образа
Первый шаг — создать образ SageMaker из пользовательского образа контейнера в Amazon ECR, выполнив следующие две команды:
Обратите внимание, что пользовательское изображение, отображаемое в средстве запуска сеанса в RStudio на SageMaker, определяется вводом --display-name
. Если необязательное отображаемое имя не указано, ввод --image-name
вместо этого используется. Также обратите внимание, что роль IAM позволяет SageMaker прикреплять образ Amazon ECR к RStudio в SageMaker.
Создайте AppImageConfig
В дополнение к образу SageMaker, который захватывает URI изображения из Amazon ECR, конфигурация образа приложения (AppImageConfig) требуется для использования в домене SageMaker. Мы упрощаем настройку для RSessionApp
image, поэтому мы можем просто создать конфигурацию заполнителя с помощью следующей команды:
Присоединиться к домену SageMaker
Создав образ SageMaker и конфигурацию образа приложения, мы готовы прикрепить пользовательский образ контейнера к домену SageMaker. Чтобы сделать собственный образ SageMaker доступным для всех пользователей RStudio в домене, вы прикрепляете образ к домену в качестве настройки пользователя по умолчанию. Все существующие пользователи и любые новые пользователи смогут использовать пользовательский образ.
Для лучшей читаемости мы помещаем следующую конфигурацию в файл JSON. по умолчанию-user-settings.json:
В этом файле мы можем указать изображение и AppImageConfig
пары имен в списке в DefaultUserSettings.RSessionAppSettings.CustomImages
. В этом предыдущем фрагменте предполагается, что создаются два пользовательских изображения.
Затем выполните следующую команду, чтобы обновить домен SageMaker:
После обновления домена может пройти до 5–10 минут, прежде чем пользовательские изображения станут доступны в пользовательском интерфейсе средства запуска сеанса. Затем вы можете запустить новый сеанс R в RStudio на SageMaker с вашими пользовательскими изображениями.
Отсоединение изображений от домена SageMaker
Вы можете отсоединить изображения, просто удалив ImageName
и AppImageConfigName
пары из default-user-settings.json
и обновление домена.
Например, обновление домена следующим default-user-settings.json
удаляет r-4.1.3-rstudio-2022
из сеанса R, запускающего пользовательский интерфейс, и покидает r-4.1.3-rstudio-1.4.1717-3
как единственное пользовательское изображение, доступное всем пользователям в домене:
Убирать
Чтобы безопасно удалить изображения и ресурсы в домене SageMaker, выполните следующие шаги в Очистить ресурсы изображения.
Чтобы безопасно удалить RStudio из SageMaker и домена SageMaker, выполните следующие шаги в Удалить домен Amazon SageMaker чтобы удалить любое приложение RSessionGateway, профиль пользователя и домен.
Чтобы безопасно удалить образы и репозитории в Amazon ECR, выполните следующие шаги в Удаление изображения.
Наконец, чтобы удалить шаблон CloudFormation:
- В консоли AWS CloudFormation выберите Стеки.
- Выберите стек, который вы развернули для этого решения.
- Выберите Удалить.
Заключение
RStudio на SageMaker упрощает для специалистов по обработке и анализу данных создание масштабируемых решений машинного обучения и аналитики в R, а администраторам — управление надежной средой обработки данных для своих разработчиков. Специалисты по данным хотят настроить среду так, чтобы они могли использовать правильные библиотеки для правильной работы и достигать желаемой воспроизводимости для каждого проекта машинного обучения. Администраторам необходимо стандартизировать среду обработки данных по нормативным требованиям и соображениям безопасности. Теперь вы можете создавать собственные образы контейнеров, отвечающие требованиям вашей организации, и разрешать специалистам по данным использовать их в RStudio на SageMaker.
Мы рекомендуем вам попробовать это. Удачной разработки!
Об авторах
Майкл Хси является старшим специалистом по ИИ/МО, архитектором решений. Он работает с клиентами, чтобы продвигать их на пути к машинному обучению, сочетая предложения AWS ML и свои знания в области машинного обучения. Будучи переселенцем из Сиэтла, он любит исследовать великую Мать-природу, которую может предложить город, например, пешеходные тропы, пейзажи на байдарках в SLU и закат в заливе Шилсхол.
Деклан Келли — инженер-программист в команде Amazon SageMaker Studio. Он работает над Amazon SageMaker Studio с момента ее запуска на AWS re:Invent 2019. Вне работы он любит пешие прогулки и скалолазание.
Шон Морган является архитектором решений AI/ML в AWS. У него есть опыт работы в области полупроводников и академических исследований, и он использует свой опыт, чтобы помочь клиентам достичь своих целей в AWS. В свободное время Шон активно участвует в разработке и сопровождении проектов с открытым исходным кодом, а также является руководителем специальной группы по интересам надстроек TensorFlow.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/use-a-custom-image-to-bring-your-own-development-environment-to-rstudio-on-amazon-sagemaker/
- "
- &
- 1.3
- 10
- 100
- 2019
- 2022
- 7
- a
- О нас
- доступ
- Учетная запись
- Достигать
- Действие
- активный
- дополнение
- дополнительный
- администраторы
- продвижение
- Все
- позволяет
- уже
- Amazon
- аналитика
- приложение
- подходы
- соответствующий
- апрель
- доступен
- AWS
- залив
- , так как:
- не являетесь
- Преимущества
- Лучшая
- между
- граница
- приносить
- строить
- Строительство
- бизнес
- Может получить
- перехватывает
- случаев
- изменение
- выбор
- выбор
- Выберите
- Город
- облако
- код
- Column
- сочетание
- Общий
- совместим
- полный
- Вычисление
- Конфигурация
- Соединительный
- Консоли
- Container
- содержание
- продолжать
- участник
- Создайте
- создали
- Создающий
- изготовленный на заказ
- Клиенты
- настроить
- данным
- наука о данных
- ученый данных
- демонстрировать
- зависит
- развернуть
- описывать
- описано
- подробнее
- застройщиков
- Развитие
- Дисплей
- распределения
- Docker
- не
- домен
- вниз
- скачать
- каждый
- легко
- эффект
- поощрять
- Двигатель
- инженер
- Enter
- Окружающая среда
- предметы первой необходимости
- пример
- существующий
- опыт
- знакомый
- Поля
- First
- Впервые
- следовать
- после
- следующим образом
- Бесплатно
- от
- полный
- Более того
- получающий
- Цели
- большой
- группы
- счастливый
- помощь
- держатель
- состоялся
- Однако
- HTTPS
- Личность
- изображение
- изображений
- осуществлять
- важную
- отрасли
- информация
- вход
- устанавливать
- пример
- интегрированный
- интерес
- IT
- работа
- путешествие
- знания
- последний
- запуск
- запуск
- вести
- изучение
- Лицензия
- Лицензирование
- линия
- LINK
- связи
- Linux
- Список
- локальным
- машина
- обучение с помощью машины
- сделать
- ДЕЛАЕТ
- Создание
- управлять
- управляемого
- управление
- менеджер
- Совпадение
- упомянутый
- может быть
- минимальный
- ML
- БОЛЕЕ
- Морган
- самых
- мать
- с разными
- природа
- Откройте
- потребности
- следующий
- предлагают
- Предложения
- операционный
- операционная система
- Опции
- организационной
- организации
- собственный
- пунктов
- сборах
- политика
- привилегированный
- представить
- частная
- процесс
- профессиональный
- Профиль
- Программирование
- Проект
- проектов
- обеспечивать
- при условии
- обеспечение
- что такое варган?
- быстро
- RE
- достигать
- причины
- область
- регуляторы
- освободить
- публикации
- соответствующие
- удаление
- хранилище
- представляет
- обязательный
- Требования
- требуется
- исследованиям
- ресурс
- Полезные ресурсы
- Роли
- Run
- Бег
- безопасно
- Шкала
- Наука
- Ученый
- Ученые
- Шон
- безопасность
- полупроводник
- набор
- установка
- установка
- несколько
- Поделиться
- показывать
- показанный
- просто
- с
- So
- мягкая
- Software
- Инженер-программист
- твердый
- Решение
- Решения
- особый
- специалист
- специализированный
- стек
- и политические лидеры
- начинается
- заявление
- Статус:
- магазины
- студия
- Закат
- поддержка
- Поддержка
- Коммутатор
- система
- команда
- Терминал
- Ассоциация
- Через
- время
- сегодня
- инструментом
- инструменты
- ui
- под
- Обновление ПО
- Updates
- обновление
- us
- использование
- пользователей
- версия
- будь то
- в
- без
- Работа
- работает
- работает
- стоимость
- письмо
- ВАШЕ