Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Веб-сервіси Amazon

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Веб-сервіси Amazon

Інженери машинного навчання (ML) традиційно зосереджуються на досягненні балансу між навчанням моделі та вартістю розгортання та продуктивністю. Екологічність (енергоефективність) все частіше стає додатковою метою для клієнтів. Це важливо, оскільки навчання моделей ML і подальше використання навчених моделей для прогнозування (висновків) може бути дуже енергоємним завданням. Крім того, все більше й більше додатків навколо нас переповнені ML, і щодня з’являються нові програми на основі ML. Популярним прикладом є ChatGPT від OpenAI, який базується на сучасній моделі великої мови (LMM). Для довідки, GPT-3, LLM попереднього покоління має 175 мільярдів параметрів і вимагає місяців безперервного навчання на кластері з тисяч прискорених процесорів. The Дослідження Carbontracker підраховано, що підготовка GPT-3 з нуля може викидати до 85 метричних тонн CO2 еквівалента, використовуючи кластери спеціалізованих апаратних прискорювачів.

Є кілька способів, за допомогою яких AWS дає змогу фахівцям ML знизити вплив своїх робочих навантажень на навколишнє середовище. Один із шляхів – надання рекомендаційні вказівки щодо проектування ваших робочих навантажень AI/ML для сталості. Інший спосіб – пропонувати кероване навчання ML та послуги оркестровки, наприклад Студія Amazon SageMaker, який автоматично розбирає та масштабує ресурси ML, коли вони не використовуються, і надає безліч готових інструментів, які економлять кошти та ресурси. Іншим важливим чинником є ​​розвиток енергоефективні, високоефективні, спеціальні прискорювачі для навчання та розгортання моделей ML.

Ця публікація зосереджена на апаратному забезпеченні як важелі сталого ML. Ми представляємо результати нещодавніх експериментів із продуктивністю та енергоспоживанням, проведених AWS, які кількісно визначають переваги енергоефективності, які ви можете очікувати під час переміщення робочих навантажень глибокого навчання з інших прискорених систем, оптимізованих для висновків і навчання. Обчислювальна хмара Amazon Elastic (Amazon EC2) примірники AWS Inferentia та AWS Trainium. Inferentia і Trainium є Нещодавнє доповнення AWS до портфоліо спеціально створених прискорювачів спеціально розроблений компанією Amazon Лабораторії Аннапурни для висновків ML і навчальних навантажень.

AWS Inferentia та AWS Trainium для сталого ML

Щоб надати вам реалістичні цифри потенціалу енергозбереження AWS Inferentia та AWS Trainium у реальних програмах, ми провели кілька еталонних експериментів споживання електроенергії. Ми розробили ці контрольні показники з урахуванням таких ключових критеріїв:

  • По-перше, ми хотіли переконатися, що ми зафіксували пряме енергоспоживання, пов’язане з тестовим навантаженням, включаючи не лише прискорювач ML, але й обчислення, пам’ять і мережу. Тому в нашій тестовій установці ми вимірювали енергоспоживання на цьому рівні.
  • По-друге, під час виконання робочих навантажень навчання та логічного висновку ми переконалися, що всі екземпляри працювали на відповідних обмеженнях фізичного обладнання, і виконали вимірювання лише після досягнення цього обмеження, щоб забезпечити порівняння.
  • Нарешті, ми хотіли бути впевненими, що економія енергії, про яку йдеться в цій публікації, може бути досягнута в практичному реальному застосуванні. Тому для порівняльного аналізу та тестування ми використовували звичайні випадки використання ML, натхненні клієнтами.

Результати представлені в наступних розділах.

Експеримент із висновками: розуміння документа в реальному часі за допомогою LayoutLM

Висновок, на відміну від навчання, є безперервним, необмеженим навантаженням, яке не має визначеної точки завершення. Таким чином, це становить значну частину споживання ресурсів робочого навантаження ML протягом усього життя. Правильний висновок є ключовим для досягнення високої продуктивності, низької вартості та стійкості (краща енергоефективність) протягом усього життєвого циклу машинного навчання. З завданнями логічного висновку клієнти зазвичай зацікавлені в досягненні певної швидкості логічного висновку, щоб не відставати від попиту.

Експеримент, представлений у цій публікації, заснований на прикладі використання розуміння документів у реальному часі, який є звичайним застосуванням у таких галузях, як банківська справа чи страхування (наприклад, для претензій або обробки форм заяв). Конкретно вибираємо МакетLM, попередньо навчена модель трансформатора, яка використовується для обробки зображень документів і вилучення інформації. Ми встановлюємо цільовий рівень SLA у 1,000,000 XNUMX XNUMX висновків на годину, значення, яке часто розглядається як реальний час, а потім визначаємо дві конфігурації обладнання, здатні задовольнити цю вимогу: одна використовує Екземпляри Amazon EC2 Inf1, що включає AWS Inferentia, і один, що використовує порівняльні прискорені екземпляри EC2, оптимізовані для завдань логічного висновку. Під час експерименту ми відстежуємо кілька показників, щоб виміряти продуктивність висновків, вартість і енергоефективність обох апаратних конфігурацій. Результати представлені на наступному малюнку.

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Продуктивність, вартість і енергоефективність. Результати порівняльних тестів

AWS Inferentia забезпечує в 6.3 рази вищу пропускну здатність. Як наслідок, за допомогою Inferentia ви можете запускати те саме робоче навантаження для розуміння документів у режимі реального часу на основі LayoutLM на меншій кількості екземплярів (6 екземплярів AWS Inferentia проти 33 інших екземплярів, оптимізованих для виведення, прискорених екземплярів EC2, що еквівалентно скороченню на 82%), використовувати менше ніж десяту частину (-92%) енергії в процесі, досягаючи при цьому значно нижчих витрат на висновок (2 долари США проти 25 доларів США на мільйон висновків, що еквівалентно зниженню витрат на 91%).

Навчальний експеримент: Навчання BERT Large з нуля

Навчання, на відміну від логічного висновку, є кінцевим процесом, який повторюється набагато рідше. Інженери ML зазвичай зацікавлені у високій продуктивності кластера, щоб скоротити час навчання, тримаючи витрати під контролем. Енергоефективність є другорядною (проте зростаючою) проблемою. З AWS Trainium немає компромісного рішення: інженери ML можуть отримати вигоду від високої продуктивності навчання, а також оптимізувати витрати та зменшити вплив на навколишнє середовище.

Щоб проілюструвати це, виберемо БЕРТ Великий, популярна мовна модель, яка використовується для розуміння природної мови, наприклад для відповідей на запитання на основі чат-бота та прогнозування розмовних відповідей. Навчання високопродуктивної великої моделі BERT з нуля зазвичай потребує обробки 450 мільйонів послідовностей. Ми порівнюємо дві конфігурації кластера, кожна з яких має фіксований розмір у 16 ​​екземплярів і здатна навчити BERT Large з нуля (оброблено 450 мільйонів послідовностей) менш ніж за день. Перший використовує традиційні прискорені екземпляри EC2. Друга установка використовує Екземпляри Amazon EC2 Trn1 за участю AWS Trainium. Знову ж таки, ми порівнюємо обидві конфігурації з точки зору ефективності навчання, вартості та впливу на навколишнє середовище (енергоефективності). Результати показані на наступному малюнку.

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Продуктивність, вартість та енергоефективність Результати тестів навчання

Під час експериментів екземпляри на основі AWS Trainium перевершили аналогічні прискорені екземпляри EC2, оптимізовані для навчання, у 1.7 разу за кількістю послідовностей, оброблених за годину, скоротивши загальний час навчання на 43% (2.3 години проти 4 годин на порівнянних прискорених екземплярах EC2). . У результаті при використанні кластера екземплярів на базі Trainium загальне споживання енергії для навчання BERT Large з нуля приблизно на 29% менше порівняно з кластером такого ж розміру порівнянних прискорених екземплярів EC2. Знову ж таки, ці переваги продуктивності та енергоефективності також супроводжуються значним покращенням вартості: вартість навчання для робочого навантаження BERT ML приблизно на 62% нижча на примірниках Trainium (787 доларів США проти 2091 доларів США за повний цикл навчання).

Початок роботи зі спеціальними прискорювачами AWS для машинного навчання

Хоча всі проведені тут експерименти використовують стандартні моделі з домену обробки природної мови (NLP), AWS Inferentia та AWS Trainium перевершують багато інших складних архітектур моделей, включаючи LLM та найскладніші генеративний ШІ архітектури, яку будують користувачі (наприклад, GPT-3). Ці прискорювачі особливо добре справляються з моделями з понад 10 мільярдами параметрів або моделями комп’ютерного зору, такими як стабільна дифузія (див. Рекомендації щодо відповідності архітектури моделі для більш детальної інформації). Дійсно, багато наших клієнтів уже використовують Inferentia та Trainium для різноманітних Варіанти використання ML.

Щоб виконувати робочі навантаження наскрізного глибокого навчання на примірниках на основі AWS Inferentia та AWS Trainium, ви можете використовувати AWS нейрон. Neuron — це комплексний набір для розробки програмного забезпечення (SDK), який включає компілятор глибокого навчання, середовище виконання та інструменти, вбудовані в найпопулярніші фреймворки ML, такі як TensorFlow і PyTorch. Ви можете використовувати Neuron SDK, щоб легко перенести свої існуючі робочі навантаження глибокого навчання ML TensorFlow або PyTorch на Inferentia та Trainium і почати створювати нові моделі, використовуючи ті самі добре відомі фреймворки ML. Для спрощення налаштування скористайтеся одним із наших Amazon Machine Images (AMI) для глибокого навчання, які постачаються з багатьма необхідними пакетами та залежностями. Ще простіше: ви можете використовувати Amazon SageMaker Studio, яка нативно підтримує TensorFlow і PyTorch на Inferentia і Trainium (див. aws-samples GitHub repo для прикладу).

Останнє зауваження: незважаючи на те, що Inferentia та Trainium створені спеціально для робочих навантажень із глибоким навчанням, багато менш складних алгоритмів машинного навчання можуть добре працювати на екземплярах на основі ЦП (наприклад, XGBoost і LightGBM і навіть деякі CNN). У цих випадках міграція до AWS Graviton3 може значно зменшити вплив на навколишнє середовище ваших робочих навантажень МЛ. Екземпляри на базі AWS Graviton споживають до 60% менше енергії за тієї самої продуктивності, ніж порівняльні прискорені екземпляри EC2.

Висновок

Існує поширена хибна думка, що виконання робочих навантажень ML у стабільний та енергоефективний спосіб означає жертви продуктивністю або вартістю. Завдяки спеціально розробленим прискорювачам AWS для машинного навчання інженерам ML не потрібно йти на компроміс. Натомість вони можуть виконувати робочі навантаження глибокого навчання на вузькоспеціалізованому апаратному забезпеченні глибокого навчання, такому як AWS Inferentia та AWS Trainium, яке значно перевершує порівняні прискорені типи екземплярів EC2, забезпечуючи нижчу вартість, вищу продуктивність і кращу енергоефективність — до 90% — все одночасно. Щоб почати виконувати свої робочі навантаження ML на Inferentia та Trainium, перегляньте Документація AWS Neuron або розкрутіть один із зразки зошитів. Ви також можете переглянути розмову AWS re:Invent 2022 Екологічність і силікон AWS (SUS206), яка охоплює багато тем, які обговорюються в цій публікації.


Про авторів

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Карстен Шроер є архітектором рішень в AWS. Він підтримує клієнтів у використанні даних і технологій для забезпечення стійкості їхньої ІТ-інфраструктури та створення керованих даними рішень, які забезпечують стабільну роботу у відповідних вертикалях. Карстен приєднався до AWS після отримання аспірантури з прикладного машинного навчання та управління операціями. Він справді захоплюється технологічними рішеннями суспільних проблем і любить глибоко занурюватися в методи та архітектури додатків, які лежать в основі цих рішень.

Зменште енергоспоживання робочих навантажень машинного навчання до 90% за допомогою спеціально розроблених прискорювачів AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Кямран Хан є старшим менеджером із технічних продуктів у AWS Annapurna Labs. Він тісно співпрацює з клієнтами AI/ML, щоб сформувати дорожню карту для спеціально розроблених кремнієвих інновацій AWS, які надходять від Amazon Annapurna Labs. Його особливу увагу приділено мікросхемам прискореного глибокого навчання, зокрема AWS Trainium і AWS Inferentia. Камран має 18-річний досвід роботи в напівпровідниковій промисловості. Kamran має понад десятирічний досвід допомоги розробникам у досягненні цілей ML.

Часова мітка:

Більше від AWS Машинне навчання