Сокращение энергопотребления рабочих нагрузок машинного обучения до 90 % с помощью специально разработанных ускорителей AWS | Веб-сервисы Амазонки

Сокращение энергопотребления рабочих нагрузок машинного обучения до 90 % с помощью специально разработанных ускорителей AWS | Веб-сервисы Амазонки

Инженеры по машинному обучению (ML) традиционно стремились найти баланс между обучением модели, затратами на развертывание и производительностью. Экологичность (энергоэффективность) все чаще становится дополнительной целью для клиентов. Это важно, потому что обучение моделей машинного обучения, а затем использование обученных моделей для прогнозирования (вывода) может быть очень энергоемкой задачей. Кроме того, все больше и больше приложений вокруг нас используют ML, и каждый день создаются новые приложения на основе ML. Популярным примером является ChatGPT от OpenAI, основанный на современной большой языковой модели (LMM). Для справки, GPT-3, LLM более раннего поколения имеет 175 миллиардов параметров и требует месяцев непрерывного обучения на кластере из тысяч ускоренных процессоров. Исследование Carbontracker По оценкам, обучение GPT-3 с нуля может выбрасывать до 85 метрических тонн эквивалента CO2 при использовании кластеров специализированных аппаратных ускорителей.

Существует несколько способов, с помощью которых AWS позволяет специалистам по машинному обучению снизить воздействие своих рабочих нагрузок на окружающую среду. Один из способов — предоставление предписывающее руководство по архитектуре ваших рабочих нагрузок AI/ML для обеспечения устойчивости. Другой способ — предложить управляемое обучение машинному обучению и услуги оркестровки, такие как Студия Amazon SageMaker, который автоматически сокращает и масштабирует ресурсы машинного обучения, когда они не используются, и предоставляет множество готовых инструментов, экономящих затраты и ресурсы. Еще одним важным стимулом является развитие энергоэффективные, высокопроизводительные, специализированные ускорители для обучения и развертывания моделей машинного обучения.

В этом посте основное внимание уделяется аппаратному обеспечению как рычагу устойчивого машинного обучения. Мы представляем результаты недавних экспериментов с производительностью и энергопотреблением, проведенных AWS, которые количественно оценивают преимущества энергоэффективности, которые вы можете ожидать при переносе рабочих нагрузок глубокого обучения с других ускоренных вычислений, оптимизированных для вывода и обучения. Эластичное вычислительное облако Amazon (Amazon EC2) для Вывод AWS и AWS Трениум. Inferentia и Trainium Недавнее дополнение AWS к портфолио специализированных ускорителей специально разработан Amazon Аннапурна Лаборатории для логических выводов и обучающих рабочих нагрузок машинного обучения.

AWS Inferentia и AWS Trainium для устойчивого машинного обучения

Чтобы предоставить вам реалистичные данные о потенциале энергосбережения AWS Inferentia и AWS Trainium в реальном приложении, мы провели несколько контрольных экспериментов по энергопотреблению. Мы разработали эти тесты с учетом следующих ключевых критериев:

  • Во-первых, мы хотели убедиться, что мы зафиксировали прямое потребление энергии, связанное с тестовой рабочей нагрузкой, включая не только ускоритель машинного обучения, но также вычисления, память и сеть. Поэтому в нашей тестовой установке мы измерили энергопотребление на этом уровне.
  • Во-вторых, при выполнении рабочих нагрузок обучения и логических выводов мы гарантировали, что все экземпляры работают с соответствующими ограничениями физического оборудования, и проводили измерения только после достижения этого предела, чтобы обеспечить сопоставимость.
  • Наконец, мы хотели быть уверены, что экономия энергии, описанная в этом посте, может быть достигнута в практическом реальном приложении. Поэтому мы использовали распространенные варианты использования машинного обучения, вдохновленные клиентами, для сравнительного анализа и тестирования.

Результаты представлены в следующих разделах.

Логический эксперимент: понимание документа в реальном времени с помощью LayoutLM

Вывод, в отличие от обучения, представляет собой непрерывную неограниченную рабочую нагрузку, не имеющую определенной точки завершения. Таким образом, он составляет большую часть потребления ресурсов рабочей нагрузки машинного обучения в течение всего жизненного цикла. Получение правильного вывода является ключом к достижению высокой производительности, низкой стоимости и устойчивости (лучшей энергоэффективности) на протяжении всего жизненного цикла машинного обучения. В задачах логического вывода клиенты обычно заинтересованы в достижении определенной скорости логического вывода, чтобы не отставать от спроса на поглощение.

Эксперимент, представленный в этом посте, вдохновлен вариантом использования понимания документов в реальном времени, который является распространенным приложением в таких отраслях, как банковское дело или страхование (например, для обработки претензий или форм заявок). В частности, мы выбираем МакетЛМ, предварительно обученная модель преобразователя, используемая для обработки изображений документов и извлечения информации. Мы устанавливаем целевое SLA в 1,000,000 XNUMX XNUMX выводов в час, значение, которое часто рассматривается как реальное время, а затем указываем две аппаратные конфигурации, способные удовлетворить это требование: одна с использованием Инстансы Amazon EC2 Inf1, использующий AWS Inferentia, и один, использующий сопоставимые ускоренные инстансы EC2, оптимизированные для задач логического вывода. На протяжении всего эксперимента мы отслеживаем несколько показателей для измерения производительности логических выводов, стоимости и энергоэффективности обеих аппаратных конфигураций. Результаты представлены на следующем рисунке.

Сократите энергопотребление рабочих нагрузок машинного обучения до 90 % с помощью специальных ускорителей AWS | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Результаты тестов производительности, стоимости и энергоэффективности на основе логических выводов

AWS Inferentia обеспечивает в 6.3 раза более высокую пропускную способность. В результате с помощью Inferentia вы можете запускать одну и ту же рабочую нагрузку для анализа документов на основе LayoutLM в реальном времени на меньшем количестве экземпляров (6 экземпляров AWS Inferentia против 33 других ускоренных инстансов EC2, оптимизированных для вывода, что эквивалентно сокращению на 82 %), использовать меньше чем десятая часть (-92%) энергии в процессе, при этом достигается значительно более низкая стоимость одного вывода (2 доллара США против 25 долларов США за миллион выводов, что эквивалентно снижению затрат на 91%).

Обучающий эксперимент: обучение BERT Large с нуля

Обучение, в отличие от логического вывода, представляет собой конечный процесс, который повторяется гораздо реже. Инженеры машинного обучения обычно заинтересованы в высокой производительности кластера, чтобы сократить время обучения, сохраняя при этом затраты под контролем. Энергоэффективность является второстепенной (но растущей) проблемой. С AWS Trainium нет компромиссного решения: инженеры по машинному обучению могут извлечь выгоду из высокой эффективности обучения, а также оптимизировать расходы и уменьшить воздействие на окружающую среду.

Чтобы проиллюстрировать это, мы выбираем БЕРТ Большой, популярная языковая модель, используемая для вариантов использования понимания естественного языка, таких как ответы на вопросы на основе чат-бота и прогнозирование ответов в разговоре. Обучение хорошо работающей модели BERT с нуля обычно требует обработки 450 миллионов последовательностей. Мы сравниваем две конфигурации кластера, каждая из которых имеет фиксированный размер 16 экземпляров и способна обучать BERT Large с нуля (обработано 450 миллионов последовательностей) менее чем за день. В первом используются традиционные ускоренные инстансы EC2. Вторая установка использует Инстансы Amazon EC2 Trn1 с участием AWS Trainium. Опять же, мы сравниваем обе конфигурации с точки зрения эффективности обучения, стоимости и воздействия на окружающую среду (энергоэффективность). Результаты показаны на следующем рисунке.

Сократите энергопотребление рабочих нагрузок машинного обучения до 90 % с помощью специальных ускорителей AWS | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Результаты тестов производительности, стоимости и энергоэффективности обучения

В ходе экспериментов инстансы на базе AWS Trainium превзошли сопоставимые инстансы EC2, оптимизированные для обучения, в 1.7 раза по количеству последовательностей, обрабатываемых в час, и сократили общее время обучения на 43 % (2.3 ч против 4 ч на сравнимых инстансах EC2 с ускорением). . В результате при использовании кластера инстансов на основе Trainium общее потребление энергии для обучения BERT Large с нуля примерно на 29 % ниже по сравнению с кластером того же размера из сопоставимых ускоренных инстансов EC2. Опять же, эти преимущества в производительности и энергоэффективности также сопровождаются значительным снижением затрат: затраты на обучение для рабочей нагрузки BERT ML примерно на 62 % ниже на инстансах Trainium (787 долларов США по сравнению с 2091 долларами США за полный цикл обучения).

Начало работы со специальными ускорителями AWS для машинного обучения

Хотя во всех проведенных здесь экспериментах используются стандартные модели из области обработки естественного языка (NLP), AWS Inferentia и AWS Trainium превосходно работают со многими другими сложными архитектурами моделей, включая LLM и самые сложные генеративный ИИ архитектуры, которые создают пользователи (например, GPT-3). Эти ускорители особенно хорошо работают с моделями с более чем 10 миллиардами параметров или моделями компьютерного зрения, такими как стабильная диффузия (см. Руководство по подгонке архитектуры модели Больше подробностей). Действительно, многие из наших клиентов уже используют Inferentia и Trainium для самых разных целей. Примеры использования машинного обучения.

Чтобы выполнять сквозные рабочие нагрузки глубокого обучения на инстансах на базе AWS Inferentia и AWS Trainium, вы можете использовать АВС Нейрон. Neuron — это комплексный комплект для разработки программного обеспечения (SDK), который включает в себя компилятор глубокого обучения, среду выполнения и инструменты, изначально интегрированные в самые популярные платформы машинного обучения, такие как TensorFlow и PyTorch. Вы можете использовать Neuron SDK, чтобы легко перенести существующие рабочие нагрузки машинного обучения для глубокого обучения TensorFlow или PyTorch в Inferentia и Trainium и начать создавать новые модели с использованием тех же самых известных платформ машинного обучения. Для упрощения настройки используйте один из наших Amazon Machine Images (AMI) для глубокого обучения, которые поставляются со многими необходимыми пакетами и зависимостями. Еще проще: вы можете использовать Amazon SageMaker Studio, который изначально поддерживает TensorFlow и PyTorch в Inferentia и Trainium (см. репозиторий aws-samples на GitHub для примера).

И последнее замечание: хотя Inferentia и Trainium специально созданы для рабочих нагрузок глубокого обучения, многие менее сложные алгоритмы машинного обучения могут хорошо работать на экземплярах на базе ЦП (например, XGBoost и LightGBM и даже некоторые CNN). В этих случаях миграция на АМС Гравитон3 может значительно снизить воздействие ваших рабочих нагрузок машинного обучения на окружающую среду. Инстансы на базе AWS Graviton потребляют на 60 % меньше энергии при той же производительности, что и сопоставимые ускоренные инстансы EC2.

Заключение

Существует распространенное заблуждение, что выполнение рабочих нагрузок машинного обучения устойчивым и энергоэффективным образом означает жертвование производительностью или стоимостью. Благодаря специальным ускорителям AWS для машинного обучения инженерам машинного обучения не нужно идти на этот компромисс. Вместо этого они могут запускать свои рабочие нагрузки глубокого обучения на узкоспециализированном специализированном оборудовании для глубокого обучения, таком как AWS Inferentia и AWS Trainium, которое значительно превосходит по производительности сопоставимые ускоренные типы инстансов EC2, обеспечивая более низкую стоимость, более высокую производительность и лучшую энергоэффективность — до 90% — все одновременно. Чтобы начать выполнять рабочие нагрузки машинного обучения на Inferentia и Trainium, ознакомьтесь с Документация AWS Нейрон или раскрутить один из образцы записных книжек. Вы также можете посмотреть выступление AWS re:Invent 2022 на Устойчивое развитие и микросхема AWS (SUS206), который охватывает многие темы, обсуждаемые в этом посте.


Об авторах

Сократите энергопотребление рабочих нагрузок машинного обучения до 90 % с помощью специальных ускорителей AWS | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Карстен Шроер является архитектором решений в AWS. Он поддерживает клиентов в использовании данных и технологий для обеспечения устойчивости их ИТ-инфраструктуры и создания решений на основе данных, которые обеспечивают устойчивую работу в соответствующих вертикалях. Карстен присоединился к AWS после получения докторской степени в области прикладного машинного обучения и управления операциями. Он искренне увлечен технологическими решениями социальных проблем и любит глубоко погружаться в методы и архитектуры приложений, лежащие в основе этих решений.

Сократите энергопотребление рабочих нагрузок машинного обучения до 90 % с помощью специальных ускорителей AWS | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Камран Хан является старшим менеджером по техническим продуктам в AWS Annapurna Labs. Он тесно сотрудничает с клиентами AI/ML, чтобы сформировать дорожную карту для специализированных кремниевых инноваций AWS, выходящих из Amazon’s Annapurna Labs. Особое внимание он уделяет чипам ускоренного глубокого обучения, включая AWS Trainium и AWS Inferentia. Камран имеет 18-летний опыт работы в полупроводниковой промышленности. Камран имеет более чем десятилетний опыт помощи разработчикам в достижении их целей в области машинного обучения.

Отметка времени:

Больше от Машинное обучение AWS