Інженери машинного навчання (ML) традиційно зосереджуються на досягненні балансу між навчанням моделі та вартістю розгортання та продуктивністю. Екологічність (енергоефективність) все частіше стає додатковою метою для клієнтів. Це важливо, оскільки навчання моделей ML і подальше використання навчених моделей для прогнозування (висновків) може бути дуже енергоємним завданням. Крім того, все більше й більше додатків навколо нас переповнені ML, і щодня з’являються нові програми на основі ML. Популярним прикладом є ChatGPT від OpenAI, який базується на сучасній моделі великої мови (LMM). Для довідки, GPT-3, LLM попереднього покоління має 175 мільярдів параметрів і вимагає місяців безперервного навчання на кластері з тисяч прискорених процесорів. The Дослідження Carbontracker підраховано, що підготовка GPT-3 з нуля може викидати до 85 метричних тонн CO2 еквівалента, використовуючи кластери спеціалізованих апаратних прискорювачів.
Є кілька способів, за допомогою яких AWS дає змогу фахівцям ML знизити вплив своїх робочих навантажень на навколишнє середовище. Один із шляхів – надання рекомендаційні вказівки щодо проектування ваших робочих навантажень AI/ML для сталості. Інший спосіб – пропонувати кероване навчання ML та послуги оркестровки, наприклад Студія Amazon SageMaker, який автоматично розбирає та масштабує ресурси ML, коли вони не використовуються, і надає безліч готових інструментів, які економлять кошти та ресурси. Іншим важливим чинником є розвиток енергоефективні, високоефективні, спеціальні прискорювачі для навчання та розгортання моделей ML.
Ця публікація зосереджена на апаратному забезпеченні як важелі сталого ML. Ми представляємо результати нещодавніх експериментів із продуктивністю та енергоспоживанням, проведених AWS, які кількісно визначають переваги енергоефективності, які ви можете очікувати під час переміщення робочих навантажень глибокого навчання з інших прискорених систем, оптимізованих для висновків і навчання. Обчислювальна хмара Amazon Elastic (Amazon EC2) примірники AWS Inferentia та AWS Trainium. Inferentia і Trainium є Нещодавнє доповнення AWS до портфоліо спеціально створених прискорювачів спеціально розроблений компанією Amazon Лабораторії Аннапурни для висновків ML і навчальних навантажень.
AWS Inferentia та AWS Trainium для сталого ML
Щоб надати вам реалістичні цифри потенціалу енергозбереження AWS Inferentia та AWS Trainium у реальних програмах, ми провели кілька еталонних експериментів споживання електроенергії. Ми розробили ці контрольні показники з урахуванням таких ключових критеріїв:
- По-перше, ми хотіли переконатися, що ми зафіксували пряме енергоспоживання, пов’язане з тестовим навантаженням, включаючи не лише прискорювач ML, але й обчислення, пам’ять і мережу. Тому в нашій тестовій установці ми вимірювали енергоспоживання на цьому рівні.
- По-друге, під час виконання робочих навантажень навчання та логічного висновку ми переконалися, що всі екземпляри працювали на відповідних обмеженнях фізичного обладнання, і виконали вимірювання лише після досягнення цього обмеження, щоб забезпечити порівняння.
- Нарешті, ми хотіли бути впевненими, що економія енергії, про яку йдеться в цій публікації, може бути досягнута в практичному реальному застосуванні. Тому для порівняльного аналізу та тестування ми використовували звичайні випадки використання ML, натхненні клієнтами.
Результати представлені в наступних розділах.
Експеримент із висновками: розуміння документа в реальному часі за допомогою LayoutLM
Висновок, на відміну від навчання, є безперервним, необмеженим навантаженням, яке не має визначеної точки завершення. Таким чином, це становить значну частину споживання ресурсів робочого навантаження ML протягом усього життя. Правильний висновок є ключовим для досягнення високої продуктивності, низької вартості та стійкості (краща енергоефективність) протягом усього життєвого циклу машинного навчання. З завданнями логічного висновку клієнти зазвичай зацікавлені в досягненні певної швидкості логічного висновку, щоб не відставати від попиту.
Експеримент, представлений у цій публікації, заснований на прикладі використання розуміння документів у реальному часі, який є звичайним застосуванням у таких галузях, як банківська справа чи страхування (наприклад, для претензій або обробки форм заяв). Конкретно вибираємо МакетLM, попередньо навчена модель трансформатора, яка використовується для обробки зображень документів і вилучення інформації. Ми встановлюємо цільовий рівень SLA у 1,000,000 XNUMX XNUMX висновків на годину, значення, яке часто розглядається як реальний час, а потім визначаємо дві конфігурації обладнання, здатні задовольнити цю вимогу: одна використовує Екземпляри Amazon EC2 Inf1, що включає AWS Inferentia, і один, що використовує порівняльні прискорені екземпляри EC2, оптимізовані для завдань логічного висновку. Під час експерименту ми відстежуємо кілька показників, щоб виміряти продуктивність висновків, вартість і енергоефективність обох апаратних конфігурацій. Результати представлені на наступному малюнку.
AWS Inferentia забезпечує в 6.3 рази вищу пропускну здатність. Як наслідок, за допомогою Inferentia ви можете запускати те саме робоче навантаження для розуміння документів у режимі реального часу на основі LayoutLM на меншій кількості екземплярів (6 екземплярів AWS Inferentia проти 33 інших екземплярів, оптимізованих для виведення, прискорених екземплярів EC2, що еквівалентно скороченню на 82%), використовувати менше ніж десяту частину (-92%) енергії в процесі, досягаючи при цьому значно нижчих витрат на висновок (2 долари США проти 25 доларів США на мільйон висновків, що еквівалентно зниженню витрат на 91%).
Навчальний експеримент: Навчання BERT Large з нуля
Навчання, на відміну від логічного висновку, є кінцевим процесом, який повторюється набагато рідше. Інженери ML зазвичай зацікавлені у високій продуктивності кластера, щоб скоротити час навчання, тримаючи витрати під контролем. Енергоефективність є другорядною (проте зростаючою) проблемою. З AWS Trainium немає компромісного рішення: інженери ML можуть отримати вигоду від високої продуктивності навчання, а також оптимізувати витрати та зменшити вплив на навколишнє середовище.
Щоб проілюструвати це, виберемо БЕРТ Великий, популярна мовна модель, яка використовується для розуміння природної мови, наприклад для відповідей на запитання на основі чат-бота та прогнозування розмовних відповідей. Навчання високопродуктивної великої моделі BERT з нуля зазвичай потребує обробки 450 мільйонів послідовностей. Ми порівнюємо дві конфігурації кластера, кожна з яких має фіксований розмір у 16 екземплярів і здатна навчити BERT Large з нуля (оброблено 450 мільйонів послідовностей) менш ніж за день. Перший використовує традиційні прискорені екземпляри EC2. Друга установка використовує Екземпляри Amazon EC2 Trn1 за участю AWS Trainium. Знову ж таки, ми порівнюємо обидві конфігурації з точки зору ефективності навчання, вартості та впливу на навколишнє середовище (енергоефективності). Результати показані на наступному малюнку.
Під час експериментів екземпляри на основі AWS Trainium перевершили аналогічні прискорені екземпляри EC2, оптимізовані для навчання, у 1.7 разу за кількістю послідовностей, оброблених за годину, скоротивши загальний час навчання на 43% (2.3 години проти 4 годин на порівнянних прискорених екземплярах EC2). . У результаті при використанні кластера екземплярів на базі Trainium загальне споживання енергії для навчання BERT Large з нуля приблизно на 29% менше порівняно з кластером такого ж розміру порівнянних прискорених екземплярів EC2. Знову ж таки, ці переваги продуктивності та енергоефективності також супроводжуються значним покращенням вартості: вартість навчання для робочого навантаження BERT ML приблизно на 62% нижча на примірниках Trainium (787 доларів США проти 2091 доларів США за повний цикл навчання).
Початок роботи зі спеціальними прискорювачами AWS для машинного навчання
Хоча всі проведені тут експерименти використовують стандартні моделі з домену обробки природної мови (NLP), AWS Inferentia та AWS Trainium перевершують багато інших складних архітектур моделей, включаючи LLM та найскладніші генеративний ШІ архітектури, яку будують користувачі (наприклад, GPT-3). Ці прискорювачі особливо добре справляються з моделями з понад 10 мільярдами параметрів або моделями комп’ютерного зору, такими як стабільна дифузія (див. Рекомендації щодо відповідності архітектури моделі для більш детальної інформації). Дійсно, багато наших клієнтів уже використовують Inferentia та Trainium для різноманітних Варіанти використання ML.
Щоб виконувати робочі навантаження наскрізного глибокого навчання на примірниках на основі AWS Inferentia та AWS Trainium, ви можете використовувати AWS нейрон. Neuron — це комплексний набір для розробки програмного забезпечення (SDK), який включає компілятор глибокого навчання, середовище виконання та інструменти, вбудовані в найпопулярніші фреймворки ML, такі як TensorFlow і PyTorch. Ви можете використовувати Neuron SDK, щоб легко перенести свої існуючі робочі навантаження глибокого навчання ML TensorFlow або PyTorch на Inferentia та Trainium і почати створювати нові моделі, використовуючи ті самі добре відомі фреймворки ML. Для спрощення налаштування скористайтеся одним із наших Amazon Machine Images (AMI) для глибокого навчання, які постачаються з багатьма необхідними пакетами та залежностями. Ще простіше: ви можете використовувати Amazon SageMaker Studio, яка нативно підтримує TensorFlow і PyTorch на Inferentia і Trainium (див. aws-samples GitHub repo для прикладу).
Останнє зауваження: незважаючи на те, що Inferentia та Trainium створені спеціально для робочих навантажень із глибоким навчанням, багато менш складних алгоритмів машинного навчання можуть добре працювати на екземплярах на основі ЦП (наприклад, XGBoost і LightGBM і навіть деякі CNN). У цих випадках міграція до AWS Graviton3 може значно зменшити вплив на навколишнє середовище ваших робочих навантажень МЛ. Екземпляри на базі AWS Graviton споживають до 60% менше енергії за тієї самої продуктивності, ніж порівняльні прискорені екземпляри EC2.
Висновок
Існує поширена хибна думка, що виконання робочих навантажень ML у стабільний та енергоефективний спосіб означає жертви продуктивністю або вартістю. Завдяки спеціально розробленим прискорювачам AWS для машинного навчання інженерам ML не потрібно йти на компроміс. Натомість вони можуть виконувати робочі навантаження глибокого навчання на вузькоспеціалізованому апаратному забезпеченні глибокого навчання, такому як AWS Inferentia та AWS Trainium, яке значно перевершує порівняні прискорені типи екземплярів EC2, забезпечуючи нижчу вартість, вищу продуктивність і кращу енергоефективність — до 90% — все одночасно. Щоб почати виконувати свої робочі навантаження ML на Inferentia та Trainium, перегляньте Документація AWS Neuron або розкрутіть один із зразки зошитів. Ви також можете переглянути розмову AWS re:Invent 2022 Екологічність і силікон AWS (SUS206), яка охоплює багато тем, які обговорюються в цій публікації.
Про авторів
Карстен Шроер є архітектором рішень в AWS. Він підтримує клієнтів у використанні даних і технологій для забезпечення стійкості їхньої ІТ-інфраструктури та створення керованих даними рішень, які забезпечують стабільну роботу у відповідних вертикалях. Карстен приєднався до AWS після отримання аспірантури з прикладного машинного навчання та управління операціями. Він справді захоплюється технологічними рішеннями суспільних проблем і любить глибоко занурюватися в методи та архітектури додатків, які лежать в основі цих рішень.
Кямран Хан є старшим менеджером із технічних продуктів у AWS Annapurna Labs. Він тісно співпрацює з клієнтами AI/ML, щоб сформувати дорожню карту для спеціально розроблених кремнієвих інновацій AWS, які надходять від Amazon Annapurna Labs. Його особливу увагу приділено мікросхемам прискореного глибокого навчання, зокрема AWS Trainium і AWS Inferentia. Камран має 18-річний досвід роботи в напівпровідниковій промисловості. Kamran має понад десятирічний досвід допомоги розробникам у досягненні цілей ML.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- EVM Фінанси. Уніфікований інтерфейс для децентралізованих фінансів. Доступ тут.
- Quantum Media Group. ІЧ/ПР посилений. Доступ тут.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/
- : має
- :є
- : ні
- $UP
- 000
- 1
- 10
- 100
- 16
- 2022
- 25
- 7
- a
- МЕНЮ
- прискорений
- прискорювач
- прискорювачі
- Achieve
- досягнутий
- досягнення
- доповнення
- Додатковий
- після
- знову
- AI / ML
- алгоритми
- ВСІ
- по
- вже
- Також
- Amazon
- Amazon EC2
- Amazon SageMaker
- Студія Amazon SageMaker
- Amazon Web Services
- an
- та
- Інший
- додаток
- застосування
- прикладної
- приблизно
- архітектура
- ЕСТЬ
- ARM
- навколо
- AS
- At
- автоматично
- AWS
- AWS Inferentia
- AWS re:Invent
- Balance
- Banking
- BE
- оскільки
- ставати
- становлення
- еталонний тест
- бенчмаркінг
- тести
- користь
- Переваги
- Краще
- між
- Мільярд
- обидва
- будувати
- Створюємо
- побудований
- але
- by
- CAN
- здатний
- захоплений
- випадок
- випадків
- певний
- проблеми
- складні
- ChatGPT
- перевірка
- Чіпси
- претензій
- тісно
- кластер
- Приходити
- майбутній
- загальний
- порівнянний
- порівняти
- порівняний
- завершення
- комплекс
- обчислення
- комп'ютер
- Комп'ютерне бачення
- задуманий
- Занепокоєння
- проводиться
- вважається
- споживання
- безперервний
- контроль
- діалоговий
- Коштувати
- зниження витрат
- може
- Обкладинки
- Критерії
- Клієнти
- різання
- дані
- керовані даними
- день
- десятиліття
- рішення
- глибокий
- глибоке навчання
- певний
- надання
- постачає
- Попит
- розгортання
- розгортання
- призначений
- деталі
- розробників
- розробка
- радіомовлення
- прямий
- обговорювалися
- do
- документ
- Ні
- домен
- Не знаю
- вниз
- малювати
- управляти
- кожен
- Раніше
- легше
- легко
- ефективність
- ефективний
- включіть
- активатор
- дозволяє
- кінець в кінець
- енергія
- Енергоспоживання
- Інженери
- забезпечувати
- навколишній
- Еквівалент
- Оцінки
- Навіть
- Кожен
- кожен день
- приклад
- перевершувати
- існуючий
- очікувати
- досвід
- експеримент
- Експерименти
- фактор
- мода
- Показуючи
- менше
- Рисунок
- остаточний
- Перший
- відповідати
- фіксованою
- Сфокусувати
- увагу
- після
- для
- форма
- каркаси
- часто
- від
- Повний
- покоління
- отримання
- GitHub
- Цілі
- Зростання
- керівництво
- апаратні засоби
- Мати
- he
- допомогу
- тут
- Високий
- висока продуктивність
- вище
- дуже
- його
- господар
- годину
- HTML
- HTTP
- HTTPS
- зображення
- зображень
- Impact
- важливо
- поліпшення
- in
- includes
- У тому числі
- все більше і більше
- індикатори
- промисловості
- промисловість
- інформація
- вилучення інформації
- Інфраструктура
- інновації
- натхненний
- екземпляр
- замість
- страхування
- інтегрований
- зацікавлений
- в
- IT
- ЙОГО
- приєднався
- просто
- тримати
- зберігання
- ключ
- Комплект (SDK)
- Labs
- мова
- великий
- вивчення
- менше
- рівень
- використання
- Життєвий цикл
- термін
- як
- МЕЖА
- рамки
- любить
- низький
- знизити
- машина
- навчання за допомогою машини
- основний
- зробити
- РОБОТИ
- вдалося
- управління
- менеджер
- багато
- Може..
- засоби
- вимір
- вимірювання
- засідання
- пам'ять
- методика
- метрика
- мігруючи
- міграція
- мільйона
- mind
- ML
- модель
- Моделі
- місяців
- більше
- найбільш
- Найбільш популярний
- багато
- Природний
- Обробка природних мов
- мережу
- Нові
- nlp
- немає
- номера
- мета
- of
- пропонує
- часто
- on
- ONE
- тільки
- операційний
- операції
- протистояли
- оптимізований
- оптимізуючий
- or
- оркестровка
- Інше
- наші
- з
- Переважає
- над
- пакети
- параметри
- особливо
- пристрасний
- Виконувати
- продуктивність
- фізичний
- plato
- Інформація про дані Платона
- PlatoData
- точка
- популярний
- портфель
- частина
- пошта
- потенціал
- влада
- Харчування
- Практичний
- прогноз
- Прогнози
- представити
- представлений
- процес
- Оброблено
- обробка
- процесори
- Product
- менеджер по продукції
- забезпечувати
- забезпечує
- забезпечення
- мета
- піторх
- питання
- ставка
- RE
- досяг
- реальний
- Реальний світ
- реального часу
- реалістичний
- останній
- зменшити
- зниження
- скорочення
- повторний
- Повідомляється
- вимагається
- вимога
- Вимагається
- ресурс
- ресурси
- ті
- відповідь
- результат
- результати
- право
- Дорожня карта
- прогін
- біг
- жертвуючи
- мудрець
- то ж
- Економія
- ваги
- подряпати
- Sdk
- другий
- вторинний
- розділам
- побачити
- напівпровідник
- Послуги
- комплект
- установка
- кілька
- Форма
- показаний
- значний
- істотно
- Кремній
- Розмір
- суспільний
- Софтвер
- розробка програмного забезпечення
- комплект для розробки програмного забезпечення
- Рішення
- спеціалізований
- конкретний
- конкретно
- Спін
- стабільний
- standard
- старт
- почалася
- впроваджений
- Дослідження
- студія
- такі
- Опори
- Sustainability
- сталого
- балаканина
- Мета
- завдання
- технічний
- Технологія
- тензорний потік
- terms
- тест
- Тестування
- ніж
- Що
- Команда
- їх
- потім
- Там.
- отже
- Ці
- вони
- це
- тисячі
- через
- по всьому
- пропускна здатність
- час
- times
- до
- Тон
- прийняли
- інструменти
- теми
- Усього:
- трек
- традиційний
- традиційно
- поїзд
- навчений
- Навчання
- трансформатор
- по-справжньому
- два
- Типи
- типово
- при
- Основа
- розуміння
- us
- USD
- використання
- використання випадку
- використовуваний
- користувачі
- використовує
- використання
- зазвичай
- значення
- різноманітність
- Проти
- вертикалі
- бачення
- vs
- хотів
- було
- годинник
- шлях..
- способи
- we
- Web
- веб-сервіси
- ДОБРЕ
- добре відомі
- були
- коли
- який
- в той час як
- широкий
- з
- працює
- років
- ще
- Ти
- вашу
- зефірнет