Как Amazon Music использует SageMaker с NVIDIA для оптимизации производительности и стоимости обучения машинного обучения и вывода

Переиздано Платоном

Читают: 0

В динамичном мире потокового вещания Amazon Музыка, каждый поиск песни, подкаста или плейлиста несет в себе историю, настроение или поток эмоций, ожидающих раскрытия. Эти поиски служат воротами к новым открытиям, заветному опыту и незабываемым воспоминаниям. Панель поиска предназначена не только для поиска песни; речь идет о миллионах активных пользователей, начинающих свое личное путешествие в богатый и разнообразный мир, который может предложить Amazon Music.

Для обеспечения превосходного качества обслуживания клиентов, позволяющего мгновенно находить музыку, которую ищут пользователи, требуется умная и отзывчивая платформа. Amazon Music использует для этого возможности искусственного интеллекта. Однако оптимизировать качество обслуживания клиентов при одновременном управлении затратами на обучение и выводе моделей искусственного интеллекта, которые обеспечивают возможности панели поиска, такие как проверка орфографии в реальном времени и векторный поиск, сложно в периоды пиковой нагрузки.

Создатель мудреца Амазонки предоставляет комплексный набор сервисов, которые позволяют Amazon Music создавать, обучать и развертывать в облаке AWS с минимальными усилиями. Взяв на себя недифференцированную тяжелую работу, SageMaker позволяет вам сосредоточиться на работе над моделями машинного обучения (ML) и не беспокоиться о таких вещах, как инфраструктура. В рамках модели общей ответственности SageMaker обеспечивает надежность, производительность и масштабируемость предоставляемых услуг, а вы следите за тем, чтобы применение моделей машинного обучения максимально эффективно использовало возможности, предоставляемые SageMaker.

В этом посте мы расскажем, как Amazon Music оптимизировала производительность и затраты с помощью SageMaker, сервера вывода NVIDIA Triton и TensorRT. Мы углубимся в демонстрацию того, как работает эта, казалось бы, простая, но сложная панель поиска, обеспечивающая непрерывное путешествие во вселенную Amazon Music с практически нулевыми неприятными задержками из-за опечаток и релевантными результатами поиска в реальном времени.

Amazon SageMaker и NVIDIA: обеспечение быстрого и точного векторного поиска и проверки орфографии

Amazon Music предлагает обширную библиотеку, насчитывающую более 100 миллионов песен и миллионы эпизодов подкастов. Однако найти нужную песню или подкаст может быть непросто, особенно если вы не знаете точного названия, исполнителя или названия альбома или если искомый запрос очень широк, например «новостные подкасты».

Amazon Music применила двойной подход для улучшения процесса поиска и извлечения информации. Первым шагом является внедрение векторного поиска (также известного как поиск на основе внедрения), метода машинного обучения, который может помочь пользователям находить наиболее релевантный контент, который они ищут, используя семантику контента. Второй шаг включает в себя введение модели коррекции орфографии на основе Transformer в стек поиска. Это может быть особенно полезно при поиске музыки, поскольку пользователи не всегда могут знать точное написание названия песни или имени исполнителя. Исправление орфографии может помочь пользователям найти нужную музыку, даже если они допустили орфографическую ошибку в своем поисковом запросе.

Внедрение моделей Transformer в конвейер поиска и извлечения (при генерации встраивания запроса, необходимого для векторного поиска, и генеративной модели Seq2Seq Transformer в коррекции орфографии) может привести к значительному увеличению общей задержки, что отрицательно скажется на качестве обслуживания клиентов. Поэтому для нас стало главным приоритетом оптимизировать задержку вывода в реальном времени для моделей векторного поиска и исправления орфографии.

Amazon Music и NVIDIA объединились, чтобы обеспечить наилучшее качество обслуживания клиентов при использовании панели поиска, используя SageMaker для реализации как быстрой и точной проверки орфографии, так и предложений семантического поиска в реальном времени с использованием методов векторного поиска. Решение включает в себя использование хостинга SageMaker на базе экземпляров G5, использующих графические процессоры NVIDIA A10G с тензорными ядрами, поддерживаемый SageMaker серверный контейнер NVIDIA Triton Inference и NVIDIA ТензорРТ формат модели. Уменьшив задержку вывода модели проверки орфографии до 25 миллисекунд при пиковом трафике, а также сократив задержку генерации поискового запроса в среднем на 63 % и стоимость на 73 % по сравнению с выводом на основе ЦП, Amazon Music повысила производительность панели поиска.

Кроме того, при обучении модели искусственного интеллекта для получения точных результатов компания Amazon Music добилась колоссального 12-кратного ускорения времени обучения для своей модели преобразователя корректора заклинаний BART, сэкономив время и деньги за счет оптимизации использования графического процессора.

Amazon Music заключила партнерское соглашение с NVIDIA, чтобы уделить приоритетное внимание поиску клиентов и создать панель поиска с хорошо оптимизированными функциями проверки орфографии и векторного поиска. В следующих разделах мы подробнее расскажем о том, как были организованы эти оптимизации.

Оптимизация обучения с помощью графических процессоров NVIDIA Tensor Core

Получить доступ к графическому процессору NVIDIA Tensor Core для обучения больших языковых моделей недостаточно, чтобы раскрыть его истинный потенциал. Существуют ключевые шаги по оптимизации, которые необходимо выполнить во время обучения, чтобы максимально эффективно использовать графический процессор. Однако недостаточное использование графического процессора, несомненно, приведет к неэффективному использованию ресурсов, увеличению продолжительности обучения и увеличению эксплуатационных затрат.

На начальных этапах обучения корректор заклинаний БАРТ (барт-база) модели трансформера на экземпляре SageMaker ml.p3.24xlarge (8 графических процессоров NVIDIA V100 с тензорными ядрами), загрузка графического процессора Amazon Music составила около 35%. Чтобы максимизировать преимущества обучения с ускорением на графическом процессоре NVIDIA, AWS и архитекторы решений NVIDIA поддержали Amazon Music в определении областей для оптимизации, особенно в отношении размера пакета и параметров точности. Эти два важнейших параметра влияют на эффективность, скорость и точность обучения моделей глубокого обучения.

В результате оптимизации было получено новое улучшенное использование графического процессора V100, стабильное на уровне около 89 %, что резко сократило время обучения Amazon Music с 3 дней до 5–6 часов. Переключив размер пакета с 32 на 256 и используя методы оптимизации, такие как запуск автоматическое обучение смешанной точности вместо того, чтобы использовать только точность FP32, Amazon Music смогла сэкономить время и деньги.

На следующей диаграмме показано увеличение использования графического процессора на 54 % после оптимизации.

На следующем рисунке показано ускорение времени обучения.

Такое увеличение размера пакета позволило графическому процессору NVIDIA обрабатывать значительно больше данных одновременно на нескольких тензорных ядрах, что привело к ускорению времени обучения. Однако важно поддерживать тонкий баланс с памятью, поскольку для больших размеров пакетов требуется больше памяти. Как увеличение размера пакета, так и использование смешанной точности могут иметь решающее значение для раскрытия мощи графических процессоров NVIDIA Tensor Core.

После того как модель была обучена конвергенции, пришло время оптимизировать ее для развертывания логических выводов в строке поиска Amazon Music.

Исправление орфографии: вывод модели BART

С помощью экземпляров SageMaker G5 и NVIDIA Triton Inference Server (программное обеспечение для вывода с открытым исходным кодом), а также NVIDIA TensorRT, SDK для высокопроизводительного вывода при глубоком обучении, который включает в себя оптимизатор вывода и среду выполнения, Amazon Music ограничивает свою проверку орфографии BART. (барт-база) моделирует задержку вывода сервера всего до 25 миллисекунд при пиковом трафике. Сюда входят накладные расходы, такие как балансировка нагрузки, предварительная обработка, вывод модели и время постобработки.

Сервер NVIDIA Triton Inference Server предоставляет два разных типа бэкэндов: один для размещения моделей на графическом процессоре и бэкэнд Python, куда вы можете добавить свой собственный код для использования на этапах предварительной и постобработки. Следующий рисунок иллюстрирует Схема модельного ансамбля.

Amazon Music создала свой BART конвейер вывода путем выполнения шагов предварительной обработки (токенизация текста) и постобработки (токены в текст) на ЦП, тогда как этап выполнения модели выполняется Графические процессоры NVIDIA A10G с тензорными ядрами. Серверная часть Python находится в середине этапов предварительной и постобработки и отвечает за связь с моделями BART, преобразованными с помощью TensorRT, а также с сетями кодера/декодера. ТензорРТ повышает производительность вывода за счет точной калибровки, объединения слоев и тензоров, автонастройки ядра, динамической тензорной памяти, многопоточного выполнения и объединения времени.

На следующем рисунке показан высокоуровневый проект ключевых модулей, составляющих конвейер вывода модели BART корректора орфографии.

Векторный поиск: встраивание запроса, генерация предложения, вывод модели BERT

На следующей диаграмме показано улучшение задержки на 60 % (при p90 800–900 TPS) при использовании платформы NVIDIA AI Inference Platform по сравнению с базовым показателем на базе ЦП.

На следующей диаграмме показано улучшение затрат на 70 % при использовании платформы NVIDIA AI Inference по сравнению с базовым вариантом на базе ЦП.

На следующем рисунке показан SDK для высокопроизводительного вывода глубокого обучения. Он включает в себя оптимизатор вывода с глубоким обучением и среду выполнения, обеспечивающую низкую задержку и высокую пропускную способность для приложений вывода.

Чтобы добиться этих результатов, Amazon Music экспериментировала с несколькими различными параметрами развертывания Triton, используя Анализатор моделей Triton, инструмент, который помогает найти лучшую конфигурацию модели NVIDIA Triton для эффективного вывода. Для оптимизации вывода моделей Triton предлагает такие функции, как динамическая пакетная обработка и одновременное выполнение моделей, а также поддержка других возможностей гибкости. Динамическая пакетная обработка собирает запросы на вывод, плавно группируя их в когорты, чтобы максимизировать пропускную способность, обеспечивая при этом ответы в реальном времени для пользователей Amazon Music. Возможность одновременного выполнения модели еще больше повышает производительность вывода за счет размещения нескольких копий модели на одном графическом процессоре. Наконец, используя Анализатор моделей TritonAmazon Music удалось тщательно настроить параметры динамического пакетного анализа и моделирования параллельного вывода, чтобы найти оптимальные настройки, которые максимизируют производительность вывода с использованием моделируемого трафика.

Заключение

Оптимизация конфигураций с помощью Triton Inference Server и TensorRT в SageMaker позволила Amazon Music добиться выдающихся результатов как для конвейеров обучения, так и для конвейеров вывода. Платформа SageMaker — это комплексная открытая платформа для производственного искусственного интеллекта, обеспечивающая быструю окупаемость и универсальность для поддержки всех основных сценариев использования искусственного интеллекта как в аппаратном, так и в программном обеспечении. Оптимизируя использование графического процессора V100 для обучения и переключаясь с процессоров на экземпляры G5 с использованием графических процессоров NVIDIA A10G с тензорными ядрами, а также используя оптимизированное программное обеспечение NVIDIA, такое как Triton Inference Server и TensorRT, такие компании, как Amazon Music, могут сэкономить время и деньги, одновременно повышая производительность в обоих случаях. обучение и выводы, что напрямую приводит к улучшению качества обслуживания клиентов и снижению эксплуатационных расходов.

SageMaker берет на себя недифференцированную тяжелую работу по обучению и хостингу машинного обучения, позволяя Amazon Music предоставлять надежные и масштабируемые операции машинного обучения как на аппаратном, так и на программном обеспечении.

Мы рекомендуем вам проверять, оптимизированы ли ваши рабочие нагрузки с помощью SageMaker, всегда оценивая выбранное вами аппаратное и программное обеспечение, чтобы определить, есть ли способы добиться большей производительности с меньшими затратами.

Чтобы узнать больше об искусственном интеллекте NVIDIA в AWS, см. следующее:

Об авторах

Как Amazon Music использует SageMaker с NVIDIA для оптимизации обучения машинного обучения, производительности и затрат | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Сиддхарт Шарма — руководитель отдела технологий машинного обучения в команде науки и моделирования в Amazon Music. Он специализируется на задачах моделирования, связанных с поиском, извлечением, ранжированием и НЛП. Сиддхарт имеет богатый опыт работы над крупномасштабными проблемами машинного обучения, чувствительными к задержкам, например, таргетинг рекламы, мультимодальный поиск, понимание поисковых запросов и т. д. До работы в Amazon Music Сиддхарт работал в таких компаниях, как Meta, Walmart Labs, Rakuten. по проблемам машинного обучения, ориентированным на электронную коммерцию. Сиддхарт начал свою карьеру, работая со стартапами в области рекламных технологий.

Как Amazon Music использует SageMaker с NVIDIA для оптимизации обучения машинного обучения, производительности и затрат | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Тарун Шарма — менеджер по разработке программного обеспечения, отвечающий за релевантность поиска музыки на Amazon. Его команда ученых и инженеров машинного обучения отвечает за предоставление контекстуально релевантных и персонализированных результатов поиска клиентам Amazon Music.

Как Amazon Music использует SageMaker с NVIDIA для оптимизации обучения машинного обучения, производительности и затрат | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Джеймс Парк работает архитектором решений в Amazon Web Services. Он работает с Amazon.com над проектированием, созданием и развертыванием технологических решений на AWS и проявляет особый интерес к искусственному интеллекту и машинному обучению. В свободное время ему нравится знакомиться с новыми культурами, получать новый опыт и быть в курсе последних технологических тенденций. Вы можете найти его на LinkedIn.

Кшитиз Гупта является архитектором решений в NVIDIA. Ему нравится обучать клиентов облачных вычислений технологиям искусственного интеллекта на графических процессорах, которые NVIDIA может предложить, и помогать им в ускорении их приложений машинного и глубокого обучения. Вне работы он любит бегать, ходить в походы и наблюдать за дикой природой.

Цзяхонг Лю является архитектором решений в команде поставщиков облачных услуг в NVIDIA. Он помогает клиентам внедрить решения для машинного обучения и искусственного интеллекта, которые используют ускоренные вычисления NVIDIA для решения их задач обучения и логических выводов. В свободное время он увлекается оригами, проектами «сделай сам» и играет в баскетбол.

Как Amazon Music использует SageMaker с NVIDIA для оптимизации обучения машинного обучения, производительности и затрат | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Тугрул Конук — старший архитектор решений в NVIDIA, специализирующийся на крупномасштабном обучении, мультимодальном глубоком обучении и высокопроизводительных научных вычислениях. До работы в NVIDIA он работал в энергетической отрасли, занимаясь разработкой алгоритмов компьютерного моделирования. В рамках своей докторской диссертации он работал над глубоким обучением на основе физики для масштабного численного моделирования. В свободное время он любит читать, играть на гитаре и фортепиано.

Как Amazon Music использует SageMaker с NVIDIA для оптимизации обучения машинного обучения, производительности и затрат | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Рохил Бхаргава — менеджер по маркетингу продуктов в NVIDIA, занимающийся развертыванием фреймворков приложений и SDK NVIDIA на конкретных платформах CSP.

Элиут Триана Исаза является менеджером по связям с разработчиками в NVIDIA, который помогает AI MLOps, DevOps, ученым и техническим экспертам AWS компании Amazon осваивать вычислительный стек NVIDIA для ускорения и оптимизации моделей Generative AI Foundation, включая курирование данных, обучение графических процессоров, вывод моделей и производственное развертывание на экземплярах графических процессоров AWS. . Кроме того, Элиут — страстный велосипедист, лыжник, теннисист и игрок в покер.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/

Отметка времени: 21 ноября 2023

Отметка времени: 1 мая 2024

Переиздано Платоном

Включение гибридных рабочих процессов машинного обучения в Amazon EKS и Amazon SageMaker с помощью Kubeflow в один клик при развертывании AWS

Еженедельные прогнозы теперь могут начинаться в воскресенье с помощью Amazon Forecast

Перенос моделей машинного обучения Amazon SageMaker Autopilot из экспериментальных в рабочие с помощью Amazon SageMaker Pipelines

Включите поиск Amazon Kendra для отсканированного текстового документа или документа на основе изображения

Как расширить функциональность AWS Trainium с помощью пользовательских операторов

Как Medidata использовала асинхронный логический вывод Amazon SageMaker для ускорения прогнозирования логического логического вывода до 30 раз быстрее

Обеспечьте разумное принятие решений с помощью Amazon SageMaker Canvas и Amazon QuickSight.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись