Навігація у високій вартості обчислень AI

Навігація у високій вартості обчислень AI

Навігація високої вартості AI Compute PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
Джерело: Midjourney

Бум генеративного ШІ пов’язаний з обчисленнями. Він має унікальну властивість: додавання більшої кількості обчислювальних ресурсів безпосередньо призводить до кращого продукту. Зазвичай інвестиції в НДДКР безпосередньо пов’язані з тим, наскільки цінним був продукт, і цей зв’язок помітно сублінійний. Але наразі це не так зі штучним інтелектом, і, як наслідок, переважаючим фактором, що рухає індустрією сьогодні, є просто вартість навчання та висновків. 

Хоча ми не знаємо справжніх цифр, ми чули з авторитетних джерел, що пропозиція обчислювальної техніки настільки обмежена, що попит перевищує її в 10 разів (!). Тому ми вважаємо справедливим сказати, що прямо зараз, доступ до обчислювальних ресурсів — за найнижчої загальної вартості — став визначальним чинником успіху компаній зі штучним інтелектом.

Насправді ми бачили, як багато компаній витрачають більше 80% свого загального капіталу на обчислювальні ресурси!

У цьому дописі ми намагаємося розбити фактори витрат для компанії ШІ. Абсолютні цифри, звичайно, змінюватимуться з часом, але ми не бачимо негайного полегшення від того, що компанії зі штучним інтелектом обмежені доступом до обчислювальних ресурсів. Тож, сподіваюся, це корисна основа для осмислення ландшафту. 

Чому моделі штучного інтелекту такі дорогі з точки зору обчислень?

Існує велика різноманітність генеративних моделей штучного інтелекту, а вартість висновків і навчання залежить від розміру та типу моделі. На щастя, найпопулярнішими моделями сьогодні є переважно трансформаторні архітектури, які включають популярні моделі великих мов (LLM), такі як GPT-3, GPT-J або BERT. Тоді як точна кількість операцій для виведення та навчання трансформаторів залежить від моделі (див цей папір), існує досить точне емпіричне правило, яке залежить лише від кількості параметрів (тобто вагових коефіцієнтів нейронних мереж) моделі та кількості вхідних і вихідних маркерів. 

Токени – це, по суті, короткі послідовності з кількох символів. Вони відповідають словам або частинам слів. Найкращий спосіб отримати інтуїтивне уявлення про токени — спробувати токенізацію за допомогою загальнодоступних онлайн-токенізерів (наприклад, OpenAI). Для GPT-3 середня довжина токена складається з 4 символів

Основне правило для трансформаторів полягає в тому, що прямий перехід (тобто висновок) для моделі з p параметри для вхідної та вихідної послідовності довжини n лексеми кожен, займає приблизно 2*н*п операції з плаваючою комою (ФЛОПС)¹. Навчання на цю ж модель займає приблизно 6*стор FLOPS на токен (тобто додатковий зворотний прохід вимагає ще чотирьох операцій²).). Ви можете приблизно визначити загальну вартість навчання, помноживши її на кількість жетонів у даних навчання.

Вимоги до пам'яті для трансформаторів також залежать від розміру моделі. Для висновку нам знадобиться p параметри моделі для розміщення в пам’яті. Для навчання (тобто зворотного поширення) нам потрібно зберігати додаткові проміжні значення кожного параметра між прямим і зворотним проходом. Якщо припустити, що ми використовуємо 32-розрядні числа з плаваючою комою, це додаткові 8 байтів на параметр. Для навчання моделі зі 175 мільярдами параметрів нам знадобиться зберігати понад терабайт даних у пам’яті — це перевищує будь-який існуючий сьогодні графічний процесор і вимагає від нас розділити модель між картами. Вимоги до пам’яті для логічного висновку та навчання можна оптимізувати за допомогою значень з плаваючою комою меншої довжини, причому 16-бітний стане звичайним, а 8-бітний очікується в найближчому майбутньому.

Навігація високої вартості AI Compute PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У таблиці вище наведено розміри та обчислену вартість для кількох популярних моделей. GPT-3 має приблизно 175 мільярдів параметрів, що для введення та виведення 1,024 токенів призводить до обчислювальної вартості приблизно 350 трильйонів операцій з плаваючою комою (тобто терафлопс або TFLOPS). Навчання такої моделі, як GPT-3, вимагає приблизно 3.14*10^23 операцій із плаваючою комою. Інші моделі, такі як LLaMA від Meta, мають ще вище вимоги до обчислень. Навчання такої моделі є одним із найбільш інтенсивних обчислювальних завдань, які досі виконувало людство. 

Підводячи підсумок: інфраструктура штучного інтелекту є дорогою, оскільки базові алгоритмічні проблеми надзвичайно складні з точки зору обчислень. Алгоритмічна складність сортування таблиці бази даних із мільйоном записів незначна порівняно зі складністю генерації одного слова за допомогою GPT-3. Це означає, що ви хочете вибрати найменшу модель, яка відповідає вашому варіанту використання. 

Хороша новина полягає в тому, що для трансформаторів ми можемо легко оцінити, скільки обчислень і пам’яті споживатиме модель певного розміру. Отже, вибір правильного обладнання стає наступним питанням. 

Час і вартість аргументів для GPU

Як обчислювальна складність перетворюється на час? Ядро процесора зазвичай може виконувати 1-2 інструкції за цикл, а тактова частота процесора була стабільною близько 3 ГГц протягом останніх 15 років через кінець Деннард Масштабування. Виконання однієї операції висновку GPT-3 без використання будь-якої паралельної архітектури займе близько 350 TFLOPS/(3 ГГц*1 FLOP) або 116,000 32 секунд, або XNUMX години. Це надзвичайно непрактично; замість цього нам потрібні спеціальні мікросхеми, які прискорюють це завдання.

На практиці всі моделі ШІ сьогодні працюють на картах, які використовують дуже велику кількість спеціалізованих ядер. Наприклад, графічний процесор NVIDIA A100 має 512 «тензорних ядер», які можуть виконувати множення матриці 4×4 (що еквівалентно 64 множенням і додаванням, або 128 FLOPS) за один цикл. Карти прискорювачів штучного інтелекту часто називають GPU (графічними процесорами), оскільки архітектура спочатку була розроблена для настільних ігор. У майбутньому ми очікуємо, що штучний інтелект стане окремим сімейством продуктів. 

A100 має номінальну продуктивність 312 TFLOPS що теоретично скоротило б висновок для GPT-3 приблизно до 1 секунди. Однак це надто спрощений розрахунок з кількох причин. По-перше, для більшості випадків використання вузьким місцем є не обчислювальна потужність графічного процесора, а здатність отримувати дані зі спеціалізованої графічної пам’яті до тензорних ядер. По-друге, 175 мільярдів ваг займуть 700 ГБ і не помістяться в графічну пам’ять будь-якого GPU. Необхідно використовувати такі методи, як розділення та розподіл ваги. І, по-третє, існує ряд оптимізацій (наприклад, використання коротших представлень із плаваючою комою, таких як FP16, FP8 або розріджених матриць), які використовуються для прискорення обчислень. Але в цілому наведена вище математика дає нам інтуїтивне уявлення про загальну вартість обчислень сучасних LLM.

Навчання трансформаторної моделі займає приблизно втричі більше часу на один токен, ніж виконання висновків. Однак, враховуючи, що навчальний набір даних приблизно в 300 мільйонів разів більший, ніж запит на висновок, навчання займає більше часу в 1 мільярд. На одному GPU навчання займе десятиліття; на практиці це робиться на великих обчислювальних кластерах у виділених центрах обробки даних або, ймовірніше, у хмарі. Навчання також важче розпаралелювати, ніж висновок, оскільки оновлені ваги повинні обмінюватися між вузлами. Пам'ять і пропускна здатність між графічними процесорами часто стають набагато важливішим фактором, причому звичайними є високошвидкісні з'єднання та виділені мережі. Для навчання дуже великих моделей основним завданням може бути створення відповідної мережі. Дивлячись у майбутнє, прискорювачі штучного інтелекту матимуть мережеві можливості на карті чи навіть на чіпі. 

Як ця обчислювальна складність перетворюється на вартість? Висновок GPT-3, який, як ми бачили вище, займає приблизно 1 секунду на A100, матиме вартість необробленого обчислення від $0.0002 до $0.0014 за 1,000 токенів (це можна порівняти з ціною OpenAI $0.002/1000 токенів). Користувач, який генерує 100 запитів на висновки на день, коштуватиме приблизно доларів на рік. Це дуже низька ціна, що робить більшість випадків використання текстового ШІ людьми фінансово життєздатними.

Навчання GPT-3, навпаки, набагато дорожчий. Знову ж таки обчислення лише вартості обчислень для 3.14*10^23 FLOPS за наведених вище ставок дає нам оцінку в 560,000 100 доларів США на картах AXNUMX для одиничний тренувальний пробіг. На практиці для навчання ми не отримаємо близько 100% ефективності GPU; однак ми також можемо використовувати оптимізацію, щоб скоротити час навчання. Інші оцінки вартості навчання GPT-3 варіюються від $500,000 до $ 4.6 мільйон залежно від апаратних припущень. Зауважте, що це вартість одного запуску, а не загальна вартість. Ймовірно, знадобиться кілька запусків, і хмарні провайдери захочуть мати довгострокові зобов’язання (докладніше про це нижче). Навчання топ-моделей залишається дорогим, але доступним для добре фінансованого стартапу.

Підводячи підсумок, сьогодні генеративний ШІ вимагає величезних інвестицій в інфраструктуру ШІ. Немає підстав вважати, що це зміниться найближчим часом. Навчання такої моделі, як GPT-3, є одним із найбільш інтенсивних обчислювальних завдань, які коли-небудь виконувало людство. І хоча графічні процесори стають швидшими, і ми знаходимо способи оптимізувати навчання, швидке розширення ШІ зводить нанівець обидва ці ефекти.

Міркування щодо інфраструктури ШІ

До цього моменту ми намагалися дати вам деяке уявлення про масштаб, потрібний для навчання та виведення моделей штучного інтелекту, а також про основні параметри, які ними керують. У цьому контексті ми хочемо надати деякі практичні вказівки щодо того, як вирішити, яку інфраструктуру ШІ використовувати.

Зовнішня проти внутрішньої інфраструктури

Давайте подивимося правді в очі: графічні процесори — це круто. Багато інженерів і засновників, які займаються інженерним мисленням, схильні створювати власне апаратне забезпечення штучного інтелекту не лише тому, що воно дає точний контроль над навчанням моделей, а й тому, що є щось цікаве у використанні великої кількості обчислювальної потужності (експонат А).

Однак реальність така багатьом стартапам — особливо компаніям, що займаються додатками — не потрібно створювати власну інфраструктуру ШІ у день 1. Натомість розміщені сервіси моделей, такі як OpenAI або Hugging Face (для мови) і Replicate (для генерації зображень), дозволяють засновникам швидко шукати продукт, який відповідає ринку, без необхідності керувати основною інфраструктурою чи моделями.

Ці послуги стали настільки хорошими, що багато компаній ніколи не закінчують їх. Розробники можуть досягти суттєвого контролю над продуктивністю моделі за допомогою оперативного проектування та абстракцій тонкого налаштування вищого порядку (тобто тонкого налаштування через виклики API). Ціни на ці послуги залежать від споживання, тому це також часто дешевше, ніж використання окремої інфраструктури. Ми бачили, як компанії, які займаються розробкою додатків, генерують понад 50 мільйонів доларів США ARR і вартістю понад 1 мільярд доларів, які надають послуги розміщеної моделі під капотом.

З іншого боку, деякі стартапи — особливо ті, хто навчає нові базові моделі або створюють вертикально інтегровані додатки ШІ, не можуть уникнути безпосереднього запуску власних моделей на графічних процесорах. Або тому, що модель фактично є продуктом, і команда шукає «відповідність моделі ринку», або тому, що для досягнення певних можливостей або зменшення граничних витрат у великому масштабі потрібен точний контроль над навчанням та/або висновками. У будь-якому випадку управління інфраструктурою може стати джерелом конкурентної переваги.

Побудова хмари проти центру обробки даних

У більшості випадків хмара є правильним місцем для вашої інфраструктури ШІ. Менші початкові витрати, можливість збільшення та зменшення масштабу, регіональна доступність і менше відволікання від створення власного центру обробки даних є переконливими для більшості стартапів і великих компаній.

Але з цього правила є кілька винятків:

  • Якщо ви працюєте в дуже великому масштабі, може стати економічніше запустити власний центр обробки даних. Точна ціна залежить від географічного розташування та налаштувань, але зазвичай вимагає витрат на інфраструктуру понад 50 мільйонів доларів на рік.
  • Вам потрібне дуже специфічне обладнання, яке ви не можете придбати у хмарного постачальника. Наприклад, типи GPU, які не є широко доступними, а також незвичайні вимоги до пам’яті, пам’яті чи мережі.
  • Ви не можете знайти хмару, прийнятну з геополітичних міркувань.

Якщо ви все-таки хочете побудувати власний центр обробки даних, для ваших власних налаштувань було проведено комплексний аналіз ціни та продуктивності графічних процесорів (наприклад, Аналіз Тіма Деттмера). Окрім вартості та продуктивності самої карти, вибір апаратного забезпечення також залежить від потужності, простору та охолодження. Наприклад, дві карти RTX 3080 Ti разом мають таку саму необроблену обчислювальну потужність, як і A100, але відповідне енергоспоживання становить 700 Вт проти 300 Вт. Різниця в потужності в 3,500 кВт-год за ринковою ставкою 0.10 дол./кВт-год протягом трирічного життєвого циклу збільшує вартість RTX3080 Ti майже вдвічі (приблизно 2 дол. США).

З огляду на це, ми очікуємо, що переважна більшість стартапів використовуватиме хмарні обчислення. 

Порівняння постачальників хмарних послуг 

Веб-сервіси Amazon (AWS), Microsoft Azure та Google Cloud Platform (GCP) пропонують екземпляри GPU, але нові постачальники також, здається, зосереджуються саме на робочих навантаженнях ШІ. Ось структура, яку ми бачили, як багато засновників використовують для вибору хмарного постачальника:

Ціна: У таблиці нижче наведено ціни на низку основних і менших спеціальних хмар станом на 7 квітня 2023 року. Ці дані є лише орієнтовними, оскільки екземпляри суттєво різняться з точки зору пропускної здатності мережі, витрат на вихід даних, додаткових витрат від ЦП і мережі, доступних знижки та інші фактори.

Навігація високої вартості AI Compute PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Обчислювальна потужність на певному обладнанні є товаром. Наївно ми очікували б досить однакових цін, але це не так. І хоча існують суттєві відмінності у функціях між хмарами, їх недостатньо, щоб пояснити, що ціни на NVIDIA A100 на вимогу різняться між постачальниками майже в 4 рази.

У верхній частині шкали цін великі публічні хмари стягують премію на основі репутації бренду, перевіреної надійності та необхідності керувати широким діапазоном робочих навантажень. Менші спеціалізовані постачальники штучного інтелекту пропонують нижчі ціни, або за допомогою спеціально створених центрів обробки даних (наприклад, Coreweave), або за допомогою арбітражу інших хмар (наприклад, Lambda Labs).

Практично кажучи, більшість великих покупців домовляються про ціни безпосередньо з постачальниками хмарних технологій, часто зобов’язуючись дотримуватися певних мінімальних витрат, а також мінімальних часових зобов’язань (ми бачили 1-3 роки). Різниця в ціні між хмарами дещо зменшується після переговорів, але ми бачимо, що рейтинг у таблиці вище залишається відносно стабільним. Важливо також відзначити, що невеликі компанії можуть отримати агресивні ціни від спеціальних хмар без великих витрат.

наявність: Найпотужніші графічні процесори (наприклад, Nvidia A100) постійно були дефіцитом протягом останніх 12 з гаком місяців. 

Було б логічно вважати, що три найкращі хмарні провайдери мають найкращу доступність, враховуючи їх високу купівельну спроможність і об’єднання ресурсів. Але, як не дивно, багато стартапів не виявили, що це правда. Великі хмари мають багато апаратного забезпечення, але також мають задовольнити значні потреби клієнтів (наприклад, Azure є основним хостом для ChatGPT) і постійно додають/здають в оренду потужності для задоволення попиту. Тим часом Nvidia взяла на себе зобов’язання зробити апаратне забезпечення широко доступним у всій галузі, включаючи виділення для нових спеціалізованих постачальників. (Вони роблять це як для чесності, так і для того, щоб зменшити свою залежність від кількох великих клієнтів, які також конкурують з ними.)

У результаті багато стартапів знаходять більше доступних чіпів, у тому числі передову Nvidia H100, у менших хмарних постачальників. Якщо ви бажаєте співпрацювати з новішою інфраструктурною компанією, можливо, ви зможете скоротити час очікування на обладнання та, можливо, заощадити гроші в процесі.

Модель доставки обчислень: Великі хмари сьогодні пропонують лише екземпляри з виділеними графічними процесорами, тому причина в тому, що віртуалізація GPU досі залишається невирішеною проблемою. Спеціалізовані хмари штучного інтелекту пропонують інші моделі, такі як контейнери або пакетні завдання, які можуть виконувати окремі завдання без витрат на запуск і демонтаж екземпляра. Якщо вам подобається ця модель, це може істотно знизити вартість.

Мережеві з'єднання: Для навчання, зокрема, пропускна здатність мережі є основним фактором у виборі провайдера. Для навчання певних великих моделей потрібні кластери з виділеними структурами між вузлами, наприклад NVLink. Для створення зображень плата за вихідний трафік також може бути основним фактором витрат.

Підтримка клієнтів: Великі хмарні постачальники обслуговують величезну кількість клієнтів із тисячами артикулів продуктів. Може бути важко привернути увагу служби підтримки або вирішити проблему, якщо ви не великий клієнт. З іншого боку, багато спеціалізованих хмар ШІ пропонують швидку та оперативну підтримку навіть для невеликих клієнтів. Частково це пояснюється тим, що вони працюють у меншому масштабі, а також тому, що їхні робочі навантаження більш однорідні, тому вони більше стимулюються зосереджуватися на функціях і помилках, характерних для ШІ.

Порівняння GPU 

За інших рівних умов топові графічні процесори працюватимуть найкраще майже на всіх робочих навантаженнях. Однак, як ви можете бачити в таблиці нижче, найкраще обладнання також є значно дорожчим. Вибір правильного типу графічного процесора для вашої конкретної програми може істотно знизити витрати та може змінити життєздатну та нежиттєздатну бізнес-модель.

Навігація високої вартості AI Compute PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Рішення про те, як далеко опуститися у списку, тобто визначення найбільш економічно ефективного вибору графічного процесора для вашої програми, є переважно технічним рішенням, яке виходить за рамки цієї статті. Але нижче ми поділимося деякими критеріями відбору, які ми бачили як найважливіші:

Навчання проти висновку: Як ми бачили в першому розділі вище, навчання моделі Transformer вимагає від нас зберігати 8 байт даних для навчання на додаток до ваг моделі. Це означає, що типовий споживчий графічний процесор високого класу з 12 ГБ пам’яті навряд чи можна використовувати для навчання моделі з 4 мільярдами параметрів. На практиці навчання великих моделей виконується на кластерах машин із переважно багатьма графічними процесорами на сервер, великою кількістю відеопам’яті та з’єднаннями з високою пропускною здатністю між серверами (тобто кластери, побудовані з використанням графічних процесорів топового центру обробки даних).

Зокрема, багато моделей будуть найбільш рентабельними на NVIDIA H100, але на сьогоднішній день її важко знайти, і зазвичай потрібно довгострокове зобов’язання більше ніж на рік. NVIDIA A100 виконує більшість моделей навчання сьогодні; його легше знайти, але для великих кластерів також може знадобитися довгострокове зобов’язання.

Вимоги до пам'яті: Великі LLM мають надто високу кількість параметрів, щоб поміститися в будь-яку картку. Їх потрібно розділити на кілька карток і вимагають налаштування, подібного до навчання. Іншими словами, вам, ймовірно, знадобляться H100 або A100 навіть для висновків LLM. Але менші моделі (наприклад, Stable Diffusion) потребують набагато менше VRAM. Хоча A100 все ще популярний, ми бачили, як стартапи використовують карти A10, A40, A4000, A5000 і A6000 або навіть RTX. 

Підтримка обладнання: Хоча переважна більшість робочих навантажень у компаніях, з якими ми говорили, працюють на NVIDIA, деякі почали експериментувати з іншими постачальниками. Найпоширенішим є Google TPU, але Gaudi 2 від Intel, схоже, також набуває популярності. Проблема з цими постачальниками полягає в тому, що продуктивність вашої моделі часто сильно залежить від наявності програмної оптимізації для цих мікросхем. Ймовірно, вам доведеться зробити PoC, щоб зрозуміти продуктивність.

Вимоги до затримки: Загалом робочі навантаження з меншою затримкою (наприклад, пакетна обробка даних або програми, які не вимагають інтерактивних відповідей інтерфейсу користувача) можуть використовувати менш потужні графічні процесори. Це може зменшити витрати на обчислення в 3-4 рази (наприклад, порівняння A100s з A10s на AWS). З іншого боку, додаткам, орієнтованим на користувачів, часто потрібні картки найвищого класу, щоб забезпечити привабливу взаємодію з користувачем у режимі реального часу. Оптимізація моделей часто необхідна, щоб привести витрати до керованого діапазону.

колючий: Компанії, які займаються створенням штучного інтелекту, часто спостерігають різке зростання попиту, оскільки ця технологія є такою новою та захоплюючою. Незвичайним є те, що обсяги запитів збільшуються в 10 разів на день, залежно від випуску нового продукту, або постійно зростають на 50% на тиждень. Упоратися з цими стрибками часто легше на графічних процесорах нижчого класу, оскільки на вимогу, швидше за все, доступно більше обчислювальних вузлів. Також часто має сенс обслуговувати цей тип трафіку за допомогою дешевших ресурсів — за рахунок продуктивності — якщо він надходить від менш залучених або менш утримуючих користувачів.

Моделі оптимізації та планування

Оптимізація програмного забезпечення може значно вплинути на час роботи моделей — і 10-кратний приріст не є рідкістю. Однак вам потрібно буде визначити, які методи будуть найбільш ефективними для вашої конкретної моделі та системи.

Деякі техніки працюють із досить широким діапазоном моделей. Використання коротших представлень із плаваючою комою (наприклад, FP16 або FP8 порівняно з оригінальним FP32) або квантування (INT8, INT4, INT2) досягає прискорення, яке часто є лінійним із зменшенням бітів. Іноді це вимагає модифікації моделі, але все більше доступних технологій автоматизують роботу зі змішаною або меншою точністю. Відсікання нейронних мереж зменшує кількість ваг, ігноруючи ваги з низькими значеннями. Разом із ефективним множенням розріджених матриць це може досягти значного прискорення сучасних графічних процесорів. Інший набір методів оптимізації вирішує вузьке місце пропускної здатності пам’яті (наприклад, вагові коефіцієнти потокової моделі).

Інші оптимізації дуже залежать від моделі. Наприклад, Stable Diffusion досяг значного прогресу в обсязі VRAM, необхідному для висновків. Ще один клас оптимізацій залежить від апаратного забезпечення. TensorML від NVIDIA містить низку оптимізацій, але працюватиме лише на апаратному забезпеченні NVIDIA. І останнє, але не менш важливе: планування завдань штучного інтелекту може створити значні обмеження продуктивності або покращення. Розподіл моделей між графічним процесором таким чином, щоб мінімізувати зміну ваг, вибір найкращого графічного процесора для завдання, якщо доступно кілька, і мінімізація часу простою шляхом попереднього пакетування робочих навантажень є поширеними методами.

Зрештою, оптимізація моделі все ще є чорною магією, і більшість стартапів, з якими ми спілкуємося, співпрацюють із третіми сторонами, щоб допомогти з деякими з цих аспектів програмного забезпечення. Часто це не традиційні постачальники MLops, а компанії, які спеціалізуються на оптимізації для конкретних генеративних моделей (наприклад, OctoML або SegMind).

Як змінюватиметься вартість інфраструктури ШІ?

Протягом останніх кількох років ми спостерігали експоненціальне зростання обох параметри моделі та Обчислювальна потужність GPU. Незрозуміло, чи збережеться ця тенденція.

Сьогодні широко визнано, що існує залежність між оптимальною кількістю параметрів і розміром набору навчальних даних (див. Deepmind шиншила працювати над цим більше). Найкращі магістратури сьогодні навчаються на Загальне сканування (набір із 4.5 мільярдів веб-сторінок, або близько 10% усіх існуючих веб-сторінок). Навчальний корпус також включає Вікіпедію та колекцію книг, хоча обидві набагато менші (загальна кількість існуючих книг оцінюється в лише близько 100 млн). Були запропоновані й інші ідеї, як-от транскрибування відео чи аудіовмісту, але жодна з них не наближається за розміром. Незрозуміло, чи зможемо ми отримати несинтетичний навчальний набір даних, який у 10 разів перевищує той, який уже використовувався.

Продуктивність GPU продовжуватиме зростати, але також повільніше. Закон Мура залишається недоторканим, що дозволяє використовувати більше транзисторів і ядер, але потужність і введення/виведення стають обмежуючими факторами. Крім того, було зібрано багато низькорослих плодів для оптимізації. 

Однак це не означає, що ми не очікуємо зростання попиту на обчислювальну потужність. Навіть якщо зростання моделі та навчального набору сповільниться, зростання індустрії штучного інтелекту та збільшення кількості розробників штучного інтелекту сприятимуть попиту на більше та швидші графічні процесори. Велика частина потужності графічного процесора використовується розробниками для тестування на етапі розробки моделі, і цей попит лінійно масштабується залежно від кількості персоналу. Немає жодних ознак того, що дефіцит GPU, який ми маємо сьогодні, зменшиться найближчим часом.

Чи створить незмінна висока вартість інфраструктури штучного інтелекту рів, який унеможливить новим учасникам наздогнати добре фінансованих лідерів? Ми ще не знаємо відповіді на це питання. Вартість навчання LLM сьогодні може виглядати як рів, але моделі з відкритим кодом, такі як Alpaca або Stable Diffusion, показали, що ці ринки ще на ранніх етапах і можуть швидко змінитися. З часом структура витрат на новий стек програмного забезпечення ШІ (див. наш попередній пост) може почати виглядати більше як традиційна індустрія програмного забезпечення. 

Зрештою, це було б добре: історія показала, що це призводить до живих екосистем із швидкими інноваціями та багатьма можливостями для засновників підприємців.

Дякую Мойн Надім і Шангда Сю за їхній внесок і керівництво під час написання.


¹ Інтуїція полягає в тому, що для будь-якого параметра (тобто ваги) у нейронній мережі операція виведення (тобто передача вперед) повинна виконувати дві операції з плаваючою комою для кожного параметра. По-перше, він множить значення вхідного вузла нейронної мережі на параметр. По-друге, він додає результат підсумовування до вихідного вузла нейронної мережі. Параметри в кодувальнику використовуються один раз на вхідний маркер, а параметри в декодері використовуються один раз на вихідний маркер. Якщо ми припустимо, що модель має p параметри, вхід і вихід мають довжину n лексеми, загальна кількість операцій з плаваючою комою n * p. Існує багато інших операцій (наприклад, нормалізація, кодування/декодування вбудовування), які відбуваються в моделі, але час, потрібний для їх виконання, порівняно малий. 

² Спочатку для навчання потрібен прохід вперед через трансформатор, як описано вище, після чого слід прохід назад, який вимагає чотирьох додаткових операцій для кожного параметра для обчислення градієнта та регулювання ваги. Зауважте, що обчислення градієнта вимагає збереження обчислених значень вузла з прямого проходу. Для GPT-3, Мовні моделі - це малозабезпечені учні обговорює вартість навчання.

* * *

Погляди, висловлені тут, є поглядами окремих співробітників AH Capital Management, LLC («a16z»), які цитуються, і не є поглядами a16z або його філій. Певна інформація, що міститься тут, була отримана зі сторонніх джерел, зокрема від портфельних компаній фондів, якими керує a16z. Хоча отримано з джерел, які вважаються надійними, a16z не перевіряв таку інформацію незалежно та не робить жодних заяв щодо тривалої точності інформації чи її відповідності певній ситуації. Крім того, цей вміст може містити рекламу третіх сторін; a16z не переглядав такі оголошення та не схвалює будь-який рекламний вміст, що міститься в них.

Цей вміст надається лише в інформаційних цілях, і на нього не можна покладатися як на юридичну, ділову, інвестиційну чи податкову консультацію. Ви повинні проконсультуватися з власними радниками щодо цих питань. Посилання на будь-які цінні папери чи цифрові активи наведено лише з метою ілюстрації та не є інвестиційною рекомендацією чи пропозицією надати інвестиційні консультаційні послуги. Крім того, цей вміст не призначений для будь-яких інвесторів чи потенційних інвесторів і не призначений для використання ними, і за жодних обставин на нього не можна покладатися при прийнятті рішення інвестувати в будь-який фонд, яким керує a16z. (Пропозиція інвестувати у фонд a16z буде зроблена лише на підставі меморандуму про приватне розміщення, угоди про підписку та іншої відповідної документації будь-якого такого фонду, і її слід читати повністю.) Будь-які інвестиційні чи портфельні компанії, згадані, згадані або описані не є репрезентативними для всіх інвестицій у транспортні засоби, якими керує a16z, і не може бути гарантії, що інвестиції будуть прибутковими або що інші інвестиції, здійснені в майбутньому, матимуть подібні характеристики чи результати. Список інвестицій, здійснених фондами під управлінням Andreessen Horowitz (за винятком інвестицій, щодо яких емітент не надав дозволу a16z на оприлюднення, а також неоголошених інвестицій у публічні цифрові активи) доступний за адресою https://a16z.com/investments /.

Наведені в ньому діаграми та графіки призначені виключно для інформаційних цілей, і на них не слід покладатися під час прийняття інвестиційних рішень. Минулі результати не вказують на майбутні результати. Зміст відповідає лише вказаній даті. Будь-які прогнози, оцінки, прогнози, цілі, перспективи та/або думки, висловлені в цих матеріалах, можуть бути змінені без попередження та можуть відрізнятися або суперечити думкам, висловленим іншими. Додаткову важливу інформацію можна знайти на сторінці https://a16z.com/disclosures.

Часова мітка:

Більше від Андреессен Горовиц