Представляем Amazon SageMaker HyperPod для обучения моделей Foundation в масштабе

Переиздано Платоном

Читают: 0

Создание базовых моделей (FM) требует создания, обслуживания и оптимизации больших кластеров для обучения моделей с десятками и сотнями миллиардов параметров на огромных объемах данных. Создание устойчивой среды, способной справляться с сбоями и изменениями среды без потери дней или недель прогресса обучения модели, является эксплуатационной задачей, которая требует от вас внедрения масштабирования кластера, упреждающего мониторинга работоспособности, контрольных точек заданий и возможностей автоматического возобновления обучения в случае возникновения сбоев или проблем. .

Мы рады поделиться этим Amazon SageMaker HyperPod теперь общедоступен, что позволяет использовать модели базовой подготовки с тысячами ускорителей на 40 % быстрее, обеспечивая высокоустойчивую среду обучения и устраняя при этом недифференцированную тяжелую работу, необходимую для работы крупномасштабных тренировочных кластеров. С помощью SageMaker HyperPod специалисты по машинному обучению (ML) могут обучать FM в течение недель и месяцев без перерывов и без необходимости сталкиваться с проблемами сбоев оборудования.

Такие клиенты, как Stability AI, используют SageMaker HyperPod для обучения своих базовых моделей, включая Stable Diffusion.

«Как ведущая компания по созданию ИИ с открытым исходным кодом, наша цель — максимизировать доступность современного ИИ. Мы создаем базовые модели с десятками миллиардов параметров, которым требуется инфраструктура для оптимального масштабирования эффективности обучения. Благодаря управляемой инфраструктуре и библиотекам оптимизации SageMaker HyperPod мы можем сократить время и затраты на обучение более чем на 50%. Это делает наше обучение моделей более гибким и производительным, что позволяет быстрее создавать современные модели».

– Эмад Мостак, основатель и генеральный директор Stability AI.

Чтобы сделать полный цикл разработки FM устойчивым к аппаратным сбоям, SageMaker HyperPod помогает создавать кластеры, отслеживать работоспособность кластеров, оперативно восстанавливать и заменять неисправные узлы, сохранять частые контрольные точки и автоматически возобновлять обучение без потери прогресса. Кроме того, в SageMaker HyperPod предварительно настроена Создатель мудреца Амазонки распределенные учебные библиотеки, в том числе Библиотека параллелизма данных SageMaker (SMDDP) и Библиотека параллелизма моделей SageMaker (SMP), чтобы повысить производительность обучения FM за счет упрощения разделения обучающих данных и моделей на более мелкие фрагменты и их параллельной обработки на узлах кластера, при этом полностью используя вычислительную и сетевую инфраструктуру кластера. SageMaker HyperPod интегрирует Slurm Workload Manager для оркестрации кластеров и заданий обучения.

Обзор диспетчера рабочих нагрузок Slurm

Слёрм, ранее известная как Simple Linux Utility for Resource Management, представляет собой планировщик заданий для запуска заданий в распределенном вычислительном кластере. Он также предоставляет основу для запуска параллельных заданий с использованием Библиотека коллективных коммуникаций NVIDIA (NCCL) or Интерфейс передачи сообщений (MPI) стандарты. Slurm — это популярная система управления кластерными ресурсами с открытым исходным кодом, широко используемая в высокопроизводительных вычислениях (HPC), а также в рабочих нагрузках для обучения генеративному искусственному интеллекту и FM. SageMaker HyperPod предоставляет простой способ приступить к работе с кластером Slurm за считанные минуты.

Ниже представлена общая архитектурная диаграмма того, как пользователи взаимодействуют с SageMaker HyperPod и как различные компоненты кластера взаимодействуют друг с другом и с другими сервисами AWS, такими как Amazon FSx для блеска и Простой сервис хранения Amazon (Amazon S3).

Задания Slurm отправляются командами в командной строке. Команды для запуска заданий Slurm: srun и sbatch, srun команда запускает задание обучения в интерактивном и блокирующем режиме, а sbatch работает в пакетном режиме и неблокирующем режиме. srun в основном используется для выполнения немедленных задач, в то время как sbatch может использоваться для последующих запусков заданий.

Информацию о дополнительных командах и настройке Slurm см. Документация Slurm Workload Manager.

Возможности автоматического возобновления и исцеления

Одной из новых функций SageMaker HyperPod является возможность автоматического возобновления выполнения ваших заданий. Раньше, если рабочий узел выходил из строя во время выполнения задания обучения или тонкой настройки, пользователь должен был проверить состояние задания, перезапустить задание с последней контрольной точки и продолжать отслеживать задание на протяжении всего выполнения. Поскольку задания по обучению или задания по точной настройке должны выполняться в течение нескольких дней, недель или даже месяцев, это становится дорогостоящим из-за дополнительных административных расходов, связанных с тем, что пользователю приходится тратить циклы на мониторинг и поддержку задания в случае, если сбои узлов, а также стоимость простоя дорогостоящих экземпляров ускоренных вычислений.

SageMaker HyperPod обеспечивает устойчивость заданий, используя автоматические проверки работоспособности, замену узлов и восстановление заданий. Задания Slurm в SageMaker HyperPod контролируются с помощью специального плагина Slurm для SageMaker, использующего СПАНК-фреймворк. В случае сбоя задания обучения SageMaker HyperPod проверит работоспособность кластера с помощью набора проверок работоспособности. Если в кластере обнаружен неисправный узел, SageMaker HyperPod автоматически удалит узел из кластера, заменит его исправным узлом и перезапустит задание обучения. При использовании контрольных точек в учебных заданиях любое прерванное или неудачное задание можно возобновить с последней контрольной точки.

Обзор решения

Чтобы развернуть SageMaker HyperPod, вы сначала подготавливаете свою среду, настраивая Виртуальное частное облако Amazon (Amazon VPC) сети и группы безопасности, развертывание вспомогательных служб, таких как FSx для Lustre, в вашем VPC и публикация сценариев жизненного цикла Slurm в корзине S3. Затем вы развертываете и настраиваете свой SageMaker HyperPod и подключаетесь к головному узлу, чтобы начать задания по обучению.

Предпосылки

Прежде чем создавать SageMaker HyperPod, сначала необходимо настроить VPC, создать файловую систему FSx для Lustre и установить корзину S3 с нужными сценариями жизненного цикла кластера. Вам также потребуется последняя версия Интерфейс командной строки AWS (AWS CLI) и плагин CLI, установленный для Менеджер сеансов AWS, способность Менеджер систем AWS.

SageMaker HyperPod полностью интегрирован с вашим VPC. Информацию о создании нового VPC см. Создайте VPC по умолчанию or Создать облако VPC. Чтобы обеспечить плавное соединение с максимальной производительностью между ресурсами, вам следует создать все ресурсы в одном регионе и зоне доступности, а также убедиться, что связанные правила группы безопасности разрешают соединение между ресурсами кластера.

Затем вы создать файловую систему FSx для Lustre. Она будет служить высокопроизводительной файловой системой для использования во время обучения модели. Убедитесь, что группы безопасности FSx for Lustre и кластера разрешают входящий и исходящий обмен данными между ресурсами кластера и файловой системой FSx for Lustre.

Чтобы настроить сценарии жизненного цикла кластера, которые запускаются при возникновении таких событий, как создание нового экземпляра кластера, вы создаете корзину S3, а затем копируете и при необходимости настраиваете сценарии жизненного цикла по умолчанию. В этом примере мы храним все сценарии жизненного цикла в префиксе корзины lifecycle-scripts.

Сначала вы загружаете примеры сценариев жизненного цикла с сайта Репо GitHub. Вам следует настроить их в соответствии с желаемым поведением кластера.

Затем создайте корзину S3 для хранения настроенных сценариев жизненного цикла.

aws s3 mb s3://<your_bucket_name>

Затем скопируйте сценарии жизненного цикла по умолчанию из локального каталога в нужную корзину и добавьте префикс, используя aws s3 sync:

aws s3 sync . s3://<your_bucket_name>/lifecycle-scripts

Наконец, чтобы настроить клиент для упрощенного подключения к головному узлу кластера, необходимо установить или обновить интерфейс командной строки AWS и установите Плагин AWS Session Manager CLI чтобы разрешить интерактивные терминальные соединения для администрирования кластера и выполнения обучающих заданий.

Вы можете создать кластер SageMaker HyperPod, используя доступные ресурсы по требованию или запросив резервирование мощности с помощью SageMaker. Чтобы создать резервирование мощности, вы создаете запрос на увеличение квоты для резервирования определенных типов вычислительных экземпляров и распределения мощности на панели мониторинга «Квоты служб».

Настройте свой тренировочный кластер

Чтобы создать кластер SageMaker HyperPod, выполните следующие шаги:

На консоли SageMaker выберите Управление кластером под Кластеры HyperPod в навигационной панели.
Выберите Создать кластер.
Укажите имя кластера и, при необходимости, любые теги, которые будут применяться к ресурсам кластера, затем выберите Следующая.
Выберите Создать группу экземпляров и укажите имя группы экземпляров, необходимый тип экземпляра, желаемое количество экземпляров, а также путь к корзине S3 и префиксу, куда вы ранее скопировали сценарии жизненного цикла кластера.

Рекомендуется иметь разные группы экземпляров для узлов контроллера, используемых для администрирования кластера и отправки заданий, а также для рабочих узлов, используемых для выполнения заданий обучения с использованием экземпляров ускоренных вычислений. При желании вы можете настроить дополнительную группу экземпляров для узлов входа.

Сначала вы создаете группу экземпляров контроллера, которая будет включать головной узел кластера.
Для этой группы экземпляров Управление идентификацией и доступом AWS (IAM) роль, выберите Создать новую роль и укажите любые сегменты S3, к которым вы хотите, чтобы экземпляры кластера в группе экземпляров имели доступ.

Сгенерированной роли по умолчанию будет предоставлен доступ только для чтения к указанным сегментам.

Выберите Создать роль.
Введите имя сценария, который будет запускаться при каждом создании экземпляра, в приглашении сценария при создании. В этом примере сценарий создания называется on_create.sh.
Выберите Сохранить.
Выберите Создать группу экземпляров чтобы создать группу рабочих экземпляров.
Предоставьте все запрошенные сведения, включая тип экземпляра и желаемое количество.

В этом примере для выполнения задания обучения используются четыре ускоренных экземпляра ml.trn1.32xl. Вы можете использовать ту же роль IAM, что и раньше, или настроить роль для рабочих экземпляров. Аналогично, вы можете использовать сценарии жизненного цикла при создании для этой группы рабочих экземпляров, отличные от сценариев для предыдущей группы экземпляров.

Выберите Следующая продолжать.
Выберите желаемое VPC, подсеть и группы безопасности для экземпляров вашего кластера.

Мы размещаем экземпляры кластера в одной зоне доступности и подсети, чтобы обеспечить низкую задержку.

Обратите внимание: если вы будете часто получать доступ к данным S3, рекомендуется создать конечную точку VPC, связанную с таблицей маршрутизации частной подсети, чтобы снизить любые потенциальные затраты на передачу данных.

Выберите Следующая.
Просмотрите сводную информацию о кластере, затем выберите Отправить.

Альтернативно, чтобы создать HyperPod SageMaker с помощью интерфейса командной строки AWS, сначала настройте параметры JSON, используемые для создания кластера:

// create-cluster-slurm-default-vpc.json
{ "ClusterName": "sagemaker-demo-cluster", "InstanceGroups": [ { "InstanceGroupName": "my-controller-group", "InstanceType": "ml.m5.xlarge", "InstanceCount": 1, "lifecycleConfig": { "SourceS3Uri": "s3://<your-s3-bucket>/<lifecycle-script-directory>/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role-for-cluster", "ThreadsPerCore": 1 }, { "InstanceGroupName": "worker-group-1", "InstanceType": "ml.trn1.32xlarge", "InstanceCount": 4, "lifecycleConfig": { "SourceS3Uri": "s3://<your-s3-bucket>/<lifecycle-script-directory>/", "OnCreate": "on_create.sh" }, "ExecutionRole": "arn:aws:iam::111122223333:role/my-role-for-cluster", "ThreadsPerCore": 1 } ]
}

Затем используйте следующую команду, чтобы создать кластер, используя предоставленные входные данные:

aws sagemaker create-cluster create-cluster-slurm-default-vpc.json

Выполните свое первое тренировочное задание с помощью Llama 2.

Обратите внимание, что использование модели Llama 2 регулируется лицензией Meta. Чтобы загрузить веса моделей и токенизатор, посетите сайт веб-сайт и примите лицензию, прежде чем запрашивать доступ на Веб-сайт «Обнимающее лицо Меты».

После запуска кластера войдите в систему с помощью диспетчера сеансов, используя идентификатор кластера, имя группы экземпляров и идентификатор экземпляра. Используйте следующую команду, чтобы просмотреть сведения о вашем кластере:

aws sagemaker describe-cluster –cluster-name <cluster_name>

Запишите в ответе идентификатор кластера, включенный в ARN кластера.

“ClusterArn”: “arn:aws:sagemaker:us-west-2:111122223333:cluster/<cluster_id>”

Используйте следующую команду, чтобы получить имя группы экземпляров и идентификатор экземпляра, необходимые для входа в кластер.

aws sagemaker list-cluster-nodes --cluster-name <cluster_name>

Обратите внимание на InstanceGroupName и InstanceId в ответе, поскольку они будут использоваться для подключения к экземпляру с помощью диспетчера сеансов.

Теперь вы используете Session Manager для входа в головной узел или один из узлов входа и запускаете задание обучения:

aws ssm start-session —target sagemaker-cluster:<cluster_id>_<instance_group_name>-<instance_id>

Далее мы подготовим среду и загрузим Llama 2 и набор данных RedPajama. Полный код и его пошаговое руководство см. в инструкциях на странице Распределенное обучение AWSome GitHub репо.

git clone https://github.com/aws-samples/awsome-distributed-training.git

Следуйте инструкциям, описанным в 2.test_cases/8.neuronx-nemo-megatron/README.md файл. После выполнения шагов по подготовке среды, подготовке модели, загрузке и токенизации набора данных и предварительной компиляции модели вам следует отредактировать файл 6.pretrain-model.sh сценарий и sbatch команду отправки задания, чтобы включить параметр, который позволит вам воспользоваться функцией автоматического возобновления SageMaker HyperPod.

Редактировать sbatch строка будет выглядеть следующим образом:

sbatch --nodes 4 --auto-resume=1 run.slurm ./llama2_7b.sh

После отправки вакансии вы получите JobID который вы можете использовать для проверки статуса задания, используя следующий код:

squeue <jobid>

Кроме того, вы можете отслеживать задание, следуя журналу вывода задания, используя следующий код:

tail -f slurm-run.slurm-<jobid>.out

Убирать

Чтобы удалить кластер SageMaker HyperPod, используйте консоль SageMaker или следующую команду AWS CLI:

aws sagemaker delete-cluster --cluster-name <cluster_name>

Заключение

В этом посте показано, как подготовить среду AWS, развернуть первый кластер SageMaker HyperPod и обучить модель Llama 7 с 2 миллиардами параметров. Сегодня SageMaker HyperPod обычно доступен в регионах Северной и Южной Америки (Сев. Вирджиния, Огайо и Орегон), Азиатско-Тихоокеанского региона (Сингапур, Сидней и Токио) и Европы (Франкфурт, Ирландия и Стокгольм). Их можно развернуть через консоль SageMaker, AWS CLI и AWS SDK, и они поддерживают семейства экземпляров p4d, p4de, p5, trn1, inf2, g5, c5, c5n, m5 и t3.

Чтобы узнать больше о SageMaker HyperPod, посетите Amazon SageMaker HyperPod.

Об авторах

Брэд Доран — старший технический менеджер по работе с клиентами в Amazon Web Services, специализирующийся на генеративном искусственном интеллекте. Он отвечает за решение инженерных задач для клиентов генеративного ИИ в сегменте рынка цифрового бизнеса. Он имеет опыт разработки инфраструктуры и программного обеспечения, а в настоящее время учится в докторантуре и занимается исследованиями в области искусственного интеллекта и машинного обучения.

Представляем Amazon SageMaker HyperPod для обучения моделей фундамента в большом масштабе | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Кейта Ватанабэ является старшим специалистом-архитектором решений GenAI в Amazon Web Services, где он помогает разрабатывать решения машинного обучения с использованием проектов OSS, таких как Slurm и Kubernetes. Его опыт работы связан с исследованиями и разработками в области машинного обучения. До прихода в AWS Кейта работал в сфере электронной коммерции научным сотрудником, разрабатывающим системы поиска изображений для поиска товаров. Кейта имеет степень доктора наук Токийского университета.

Джастин Пиртл — главный архитектор решений в Amazon Web Services. Он регулярно консультирует клиентов, занимающихся генеративным искусственным интеллектом, по вопросам проектирования, развертывания и масштабирования их инфраструктуры. Он регулярно выступает на конференциях AWS, включая re:Invent, а также на других мероприятиях AWS. Джастин получил степень бакалавра в области информационных систем управления в Техасском университете в Остине и степень магистра в области разработки программного обеспечения в Университете Сиэтла.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/introducing-amazon-sagemaker-hyperpod-to-train-foundation-models-at-scale/

Отметка времени: 30 ноября 2023

Отметка времени: 17 ноября, 2022

Переиздано Платоном

Bongo Learn предоставляет обратную связь в режиме реального времени для улучшения результатов обучения с помощью Amazon Transcribe

Объявление об обновленном соединителе Microsoft OneDrive (V2) для Amazon Kendra

Интеллектуальный поиск содержимого Alfresco с помощью Amazon Kendra

Автоматизируйте процесс изменения фона изображения с помощью Amazon Bedrock и AWS Step Functions | Веб-сервисы Amazon

AlexaTM 20B теперь доступен в Amazon SageMaker JumpStart

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись