Для середньостатистичного магазину штучного інтелекту рідкісні моделі та дешева пам’ять виграють PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Для звичайного магазину штучного інтелекту виграють рідкісні моделі та дешева пам’ять

Якими б переконливими не були провідні великомасштабні мовні моделі, факт залишається фактом, що лише найбільші компанії мають ресурси для фактичного розгортання та навчання їх у значних масштабах.

Підприємствам, які прагнуть використовувати штучний інтелект для отримання конкурентної переваги, краще підійде дешевша, скорочена альтернатива, особливо якщо її можна налаштувати для певних галузей чи сфер.

Ось де нова група стартапів штучного інтелекту, які сподіваються зайняти нішу: створюючи рідкісні, адаптовані моделі, які, можливо, не такі потужні, як GPT-3, достатньо гарні для випадків корпоративного використання та працюють на апаратному забезпеченні, яке відмовляється від дорогої пам’яті з високою пропускною здатністю (HBM) для звичайної DDR.

Німецький AI-стартап Aleph Alpha є одним із таких прикладів. Заснована в 2019 році компанія з Гейдельберга, Німеччина Світиться Модель природної мови може похвалитися багатьма такими ж функціями, що приваблюють заголовки, як GPT-3 OpenAI: копірайтинг, класифікація, узагальнення та переклад, щоб назвати декілька.

Модельний стартап об’єднався з Graphcore для дослідження та розробки розріджених мовних моделей на британській мові апаратне забезпечення виробника мікросхем.

«ІП від Graphcore надають можливість оцінити передові технологічні підходи, такі як умовна розрідженість», — сказав генеральний директор Aleph Alpha Йонас Андруліус у заяву. «Ці архітектури, безсумнівно, зіграють роль у майбутніх дослідженнях Aleph Alpha».

Graphcore робить велику ставку на розрідженість

Умовно розріджені моделі — іноді їх називають сумішшю експертів або маршрутизованих моделей — обробляють дані лише за застосовними параметрами, що може значно зменшити обчислювальні ресурси, необхідні для їх запуску.

Наприклад, якщо мовну модель навчили всіма мовами в Інтернеті, а потім поставили запитання російською, не було б сенсу запускати ці дані через всю модель, лише параметри, пов’язані з російською мовою, пояснив технічний директор Graphcore Саймон Ноулз в інтерв’ю з Реєстр.

«Це абсолютно очевидно. Ось як працює ваш мозок, і так має працювати штучний інтелект», — сказав він. «Я говорив це багато разів, але якщо штучний інтелект може робити багато речей, йому не потрібно мати доступ до всіх своїх знань, щоб зробити одну справу».

Ноулз, чия компанія створює прискорювачі, адаптовані для таких моделей, не дивно, що вважає, що за ними майбутнє ШІ. «Я був би здивований, якби до наступного року хтось створив щільні мовні моделі», — додав він.

HBM-2 дорогий? Натомість кешуйте на DDR

Розріджені мовні моделі не позбавлені проблем. Одна з найактуальніших, на думку Ноулза, пов’язана з пам’яттю. HBM, який використовується в графічних процесорах високого класу для досягнення необхідної пропускної здатності та ємності, необхідних для цих моделей, дорогий і підключається до ще дорожчого прискорювача.

Це не проблема для моделей зі щільною мовою, де вам можуть знадобитися всі обчислення та пам’ять, але це створює проблему для розріджених моделей, які віддають перевагу пам’яті, а не обчисленню, пояснив він.

Технологію Interconnect, як-от NVIDIA NVLink, можна використовувати для об’єднання пам’яті в декілька графічних процесорів, але якщо модель не потребує всіх цих обчислень, графічні процесори можуть простоювати. «Це дуже дорогий спосіб купити пам'ять», — сказав Ноулз.

Прискорювачі Graphcore намагаються обійти цю проблему, запозичивши таку ж стару техніку, як і самі обчислення: кешування. Кожен IPU оснащений відносно великою кеш-пам’яттю SRAM — 1 ГБ — щоб задовольнити вимоги до пропускної здатності цих моделей, тоді як необроблена ємність досягається за допомогою великих пулів недорогої пам’яті DDR4.

«Чим більше у вас SRAM, тим менша пропускна здатність DRAM вам потрібна, і саме це дозволяє нам не використовувати HBM», — сказав Ноулз.

Завдяки відокремленню пам’яті від прискорювача компаніям набагато дешевше — вартість кількох стандартних модулів DDR — для підтримки великих моделей ШІ.

Окрім підтримки дешевшої пам’яті, Ноулз стверджує, що IPU компанії також мають архітектурну перевагу перед GPU, принаймні, коли мова йде про розріджені моделі.

Замість того, щоб працювати на невеликій кількості великих матричних множників, як це можна знайти в тензорному процесорі, чіпи Graphcore мають велику кількість менших матричних матричних блоків, які можуть звертатися до пам’яті незалежно.

Це забезпечує більшу деталізацію для розріджених моделей, де «вам потрібна свобода для отримання відповідних підмножин, і чим менший блок, який ви зобов’язані отримати, тим більше свободи ви маєте», — пояснив він.

Вирок ще не винесений

У сукупності Ноулз стверджує, що цей підхід дозволяє його IPU навчати великі моделі AI/ML із сотнями мільярдів або навіть трильйонів параметрів за значно менших витрат порівняно з GPU.

Однак ринок корпоративного штучного інтелекту все ще перебуває в зародковому стані, і Graphcore стикається з жорсткою конкуренцією в цьому просторі з боку більших, більш визнаних конкурентів.

Отже, хоча розробка надрозріджених, скорочених мовних моделей для штучного інтелекту навряд чи припиниться найближчим часом, ще невідомо, чи будуть це IPU від Graphcore чи чийсь інший прискорювач, який у кінцевому підсумку забезпечуватиме корпоративні робочі навантаження ШІ. ®

Часова мітка:

Більше від Реєстр