С искусственным интеллектом вам нужно видеть более широкую картину аппаратного и программного обеспечения

Переиздано Платоном

Читают: 0

Рекламная функция Прошло полтора десятилетия с тех пор, как исследователи поразили мир технологий, продемонстрировав, что графические процессоры могут использоваться для значительного ускорения ключевых операций ИИ.

Это осознание продолжает захватывать воображение предприятий. IDC сообщает, что, когда речь заходит об инфраструктуре, вычисления с ускорением на GPU и масштабирование, подобные HPC, являются одними из главных соображений для технических лидеров и архитекторов, стремящихся создать свою инфраструктуру ИИ.

Но для всех организаций, которые успешно применили ИИ для решения реальных проблем, многие другие с трудом выходят за рамки экспериментальной или пилотной стадии. Исследование IDC 2021 г. обнаружили, что менее трети респондентов перевели свои проекты ИИ в производство, и только треть из них достигли «зрелой стадии производства».

Упомянутые препятствия включают проблемы с обработкой и подготовкой данных и усилением инфраструктуры для поддержки ИИ в масштабе предприятия. По словам IDC, предприятиям необходимо инвестировать в «специально созданную инфраструктуру нужного размера».

В чем здесь проблема с ИИ?

Так что же не так с ИИ у этих организаций? Одним из факторов может быть то, что технические лидеры и специалисты по ИИ не в состоянии комплексно взглянуть на более широкий конвейер ИИ, уделяя слишком много внимания графическим процессорам по сравнению с другими вычислительными движками, особенно с почтенным ЦП.

Потому что, в конечном счете, это не вопрос поддержки процессоров, графических процессоров и ASIC. Скорее, речь идет о поиске оптимального способа построения конвейера ИИ, который поможет вам перейти от идей, данных и построения модели к развертыванию и выводу. А это означает, что необходимо оценить соответствующие сильные стороны различных архитектур процессоров, чтобы вы могли применить правильный вычислительный механизм в нужное время.

Как объясняет старший директор Intel по стратегии и реализации искусственного интеллекта в центрах обработки данных Шардул Брамбхатт, «ЦП использовался для микросервисов и традиционных вычислительных экземпляров в облаке. А графические процессоры использовались для параллельных вычислений, таких как потоковая передача мультимедиа, игры и рабочие нагрузки ИИ».

Так как гиперскейлеры и другие облачные игроки обратили свое внимание на ИИ, стало ясно, что они используют одни и те же сильные стороны для разных задач.

Возможности графических процессоров в области параллельных вычислений делают их очень подходящими, например, для обучения алгоритмов искусственного интеллекта. Между тем, ЦП имеют преимущество, когда речь идет о низком пакетном выводе данных в реальном времени с малой задержкой и использовании этих алгоритмов для анализа данных в реальном времени и предоставления результатов и прогнозов.

Опять же, есть оговорки, объясняет Брамбхатт: «Есть места, где вы хотите сделать больше пакетного вывода. И этот пакетный вывод также выполняется с помощью графических процессоров или ASIC».

Глядя вниз по трубопроводу

Но конвейер ИИ выходит за рамки обучения и логических выводов. На левой стороне конвейера данные должны быть предварительно обработаны и разработаны алгоритмы. Универсальный процессор играет здесь важную роль.

На самом деле, по данным Intel, на графические процессоры приходится относительно небольшая доля общей активности процессора в конвейере искусственного интеллекта, а рабочие нагрузки «этапа данных» на базе ЦП составляют две трети в целом (вы можете прочитать Краткий обзор решения — Оптимизация логических выводов с помощью технологии ЦП Intel Вот).

И Брамбхатт напоминает нам, что у архитектуры ЦП есть и другие преимущества, в том числе программируемость.

«Поскольку процессоры используются так широко, уже существует существующая экосистема разработчиков и доступных приложений, а также инструменты, обеспечивающие простоту использования и программируемость для вычислений общего назначения», — говорит он.

«Во-вторых, процессоры обеспечивают более быстрый доступ к большему объему памяти. И, наконец, в-третьих, это более неструктурированные вычисления по сравнению с графическими процессорами, [которые] являются более параллельными вычислениями. По этим причинам ЦП работают как средства перемещения данных, которые питают графические процессоры, тем самым помогая с моделями рекомендательной системы, а также с развивающимися рабочими нагрузками, такими как графовые нейронные сети».

Открытый план развития ИИ

Итак, как мы должны рассматривать роли процессоров и графических процессоров соответственно при планировании конвейера разработки ИИ, будь то локально, в облаке или между ними?

Графические процессоры произвели революцию в разработке ИИ, поскольку они предложили метод ускорения, который разгружает операции с ЦП. Но из этого не следует, что это самый разумный вариант для данной работы.

Как объясняет архитектор платформы Intel Шарат Рагхава, «приложения ИИ имеют векторизованные вычисления. Векторные вычисления можно распараллелить. Чтобы эффективно выполнять рабочие нагрузки ИИ, можно использовать возможности процессоров и графических процессоров, учитывая размер векторных вычислений, задержку разгрузки, возможность распараллеливания и многие другие факторы». Но продолжает он, для «меньшей» задачи «стоимость» разгрузки будет чрезмерной, и может не иметь смысла запускать ее на GPU или ускорителе.

ЦП также могут выиграть от более тесной интеграции с другими системными компонентами, что позволяет им быстрее выполнять работу ИИ. Получение максимальной отдачи от развертывания ИИ включает в себя больше, чем просто запуск самих моделей — искомое понимание зависит от эффективных операций предварительной обработки, логического вывода и постобработки. Предварительная обработка требует, чтобы данные были подготовлены в соответствии с входными ожиданиями обученной модели, прежде чем они будут переданы для создания вывода. Полезная информация затем извлекается из результатов вывода на этапе постобработки.

Если мы думаем, например, о системе обнаружения вторжений в центр обработки данных (IDS), важно действовать на выходе модели, чтобы своевременно защитить и предотвратить любой ущерб от кибератаки. И, как правило, этапы предварительной и последующей обработки более эффективны, когда они выполняются на центральных процессорах хост-системы, поскольку они более тесно интегрированы с остальной архитектурной экосистемой.

Повышение производительности по стартовым заказам

Итак, означает ли это полный отказ от преимуществ GPU-ускорения? Не обязательно. Intel уже несколько лет встраивает ускорение ИИ в свои масштабируемые процессоры Xeon. Ассортимент уже включает Deep Learning Boost для высокопроизводительного логического вывода на моделях глубокого обучения, в то время как Intel Advanced Vector Extensions 512 (AVX 512) и Vector Neural Network Extensions (VNNI) повышают производительность логического вывода INT8. Но DL Boost также использует формат мозга с плавающей запятой (BF16) для повышения производительности при тренировочных нагрузках, не требующих высокого уровня точности.

Будущие процессоры Intel Xeon Scalable четвертого поколения добавят расширенное умножение матриц или AMX. Это даст еще 8-кратный прирост по сравнению с расширениями AVX-512 VNNI x86, реализованными в более ранних процессорах, согласно расчетам Intel, и позволит масштабируемым процессорам Intel Xeon 4-го поколения «справляться с учебными нагрузками и алгоритмами глубокого обучения, как это делает графический процессор». Но те же ускорители можно применять и к общим вычислительным ресурсам ЦП для рабочих нагрузок, связанных с искусственным интеллектом и не связанных с ним.

Это не означает, что Intel ожидает, что конвейеры ИИ будут x86 от начала до конца. Когда имеет смысл полностью разгрузить учебные рабочие нагрузки, которые выиграют от распараллеливания, Intel предлагает свой обучающий процессор Habana Gaudi AI Training Processor. Сравнительные тесты показывают, что последние используются в инстансах Amazon EC2 DL1, которые могут обеспечить до 40% лучшее соотношение цены и производительности, чем сопоставимые инстансы на базе графических процессоров Nvidia, также размещенные в облаке.

В то же время серия Intel Data Center GPU Flex ориентирована на рабочие нагрузки и операции, которые выигрывают от распараллеливания, например, логического вывода ИИ, с различными реализациями, ориентированными на «более легкие» и более сложные модели ИИ. Еще один графический процессор Intel® Data Center под кодовым названием Ponte Vecchio (PVC) вскоре начнет работу на суперкомпьютере Aurora в Аргоннской национальной лаборатории.

Можем ли мы пройти в конец?

Таким образом, кремний Intel потенциально может поддерживать весь конвейер искусственного интеллекта, сводя к минимуму необходимость ненужной разгрузки данных между различными вычислительными механизмами. Процессоры компании — будь то GPU или CPU — также поддерживают общую модель программного обеспечения, основанную на инструментах и платформах с открытым исходным кодом с оптимизацией Intel через программу OneAPI.

Еще одним преимуществом Брамбхатт называет опыт Intel в создании программной экосистемы x86, основанной на сообществе и открытом исходном коде. «Философия, которой придерживается Intel, заключается в следующем: пусть экосистема управляет внедрением». И нам нужно убедиться, что мы честны и открыты для экосистемы, и мы возвращаем любой наш секретный соус обратно в экосистему».

«Мы используем общий программный стек, чтобы в основном убедиться, что разработчикам не нужно беспокоиться о базовой дифференциации IP между CPU и GPU для ИИ».

Такое сочетание общего стека программного обеспечения и ориентации на использование правильного вычислительного механизма для правильной задачи еще более важно для предприятия. Предприятия полагаются на ИИ, чтобы помочь им решить некоторые из их самых насущных проблем, независимо от того, находится ли он в облаке или на месте. Но смешанные рабочие нагрузки требуют полнофункционального программного обеспечения, а также обслуживания и управления системным стеком для запуска кода, не включенного в ядро, находящееся на ускорителе.

Таким образом, когда дело доходит до ответа на вопрос «как мы можем довести ИИ до масштабов предприятия», ответ может зависеть от того, чтобы взглянуть на картину в целом и убедиться, что вы используете полный набор аппаратного и программного обеспечения, имеющееся в вашем распоряжении.

При поддержке Intel.

Отметка времени: 9 ноября 20229 ноября 2022

Отметка времени: Июнь 28, 2023

OpenAI открывает двери в DALL-E после того, как лошадь убежала в Midjourney и т. д.

Исходный кластер:

Регистр

Исходный узел: 1703189

Отметка времени: сентябрь 28, 2022

ИИ упомянул 175 раз во время звонка Microsoft о прибылях и убытках за четвертый квартал

Исходный кластер:

Регистр

Исходный узел: 1866588

Отметка времени: Июль 26, 2023

Поскольку OpenAI GPT Store неизбежен, разработчики беспокоятся о подражателях

Исходный кластер:

Регистр

Исходный узел: 1935364

Отметка времени: 9 января, 2024

С ИИ вам нужно видеть более широкую картину аппаратного и программного обеспечения.

Переиздано Платоном

Больше от Регистр

DARPA ищет несколько хороших программистов ИИ, чтобы помочь Америке найти свои собственные редкие минералы

Подробности об обновлениях искусственного интеллекта Google в облачной инфраструктуре

Nvidia переманивает босса беспилотных автомобилей из китайской Baidu

OpenAI открывает двери в DALL-E после того, как лошадь убежала в Midjourney и т. д.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись