Это гостевой пост, написанный в соавторстве с Тамиром Рубинским и Авиадом Араниасом из Nielsen Sports..
Нильсен Спортс формирует мировые средства массовой информации и контент как мирового лидера в области анализа аудитории, данных и аналитики. Благодаря нашему пониманию людей и их поведения на всех каналах и платформах, мы даем нашим клиентам независимый и действенный интеллект, чтобы они могли подключаться и взаимодействовать со своей аудиторией — сейчас и в будущем.
Наша миссия в Nielsen Sports — предоставить нашим клиентам — брендам и правообладателям — возможность измерить окупаемость инвестиций (ROI) и эффективность рекламной кампании спортивного спонсорства по всем каналам, включая телевидение, Интернет, социальные сети и даже газеты, а также обеспечить точную таргетинговую деятельность на местном, национальном и международном уровнях.
В этом посте мы описываем, как компания Nielsen Sports модернизировала систему, в которой используются тысячи различных моделей машинного обучения (ML), с помощью Создатель мудреца Амазонки многомодельные конечные точки (MME) и сократили эксплуатационные и финансовые затраты на 75%.
Проблемы с сегментацией видео на канале
Наша технология основана на искусственном интеллекте (ИИ) и, в частности, компьютерном зрении (CV), что позволяет нам отслеживать известность бренда и точно определять его местоположение. Например, мы определяем, находится ли бренд на баннере или на рубашке. Кроме того, мы определяем расположение бренда на товаре, например, верхний угол вывески или рукав. На следующем рисунке показан пример нашей системы тегов.
Чтобы понять наши проблемы с масштабированием и затратами, давайте посмотрим на некоторые репрезентативные цифры. Каждый месяц мы определяем более 120 миллионов показов брендов по разным каналам, и система должна поддерживать идентификацию более 100,000 6 брендов и вариаций различных брендов. Мы создали одну из крупнейших в мире баз данных о впечатлениях от брендов, содержащую более XNUMX миллиардов точек данных.
Наш процесс оценки средств массовой информации включает в себя несколько этапов, как показано на следующем рисунке:
- Во-первых, мы записываем тысячи каналов по всему миру, используя международную систему записи.
- Мы транслируем контент в сочетании с расписанием трансляций (Electronic Programming Guide) на следующий этап, который представляет собой сегментацию и разделение самих игровых трансляций и другого контента или рекламы.
- Мы осуществляем мониторинг СМИ, добавляя в каждый сегмент дополнительные метаданные, такие как результаты лиг, соответствующие команды и игроки.
- Мы проводим анализ видимости брендов, а затем объединяем информацию об аудитории для расчета стоимости кампании.
- Информация доставляется клиенту с помощью информационной панели или аналитических отчетов. Аналитику предоставляется прямой доступ к необработанным данным или через наше хранилище данных.
Поскольку мы работаем в масштабе более тысячи каналов и десятков тысяч часов видео в год, нам необходима масштабируемая система автоматизации процесса анализа. Наше решение автоматически сегментирует трансляцию и умеет изолировать нужные видеоклипы от остального контента.
Мы делаем это, используя разработанные нами специальные алгоритмы и модели для анализа конкретных характеристик каналов.
В общей сложности мы запускаем в производство тысячи различных моделей для поддержки этой миссии, которая является дорогостоящей, сопряжена с операционными накладными расходами, подвержена ошибкам и медленна. На запуск в производство моделей с новой архитектурой ушли месяцы.
Именно здесь мы хотели внедрить инновации и перестроить нашу систему.
Экономичное масштабирование моделей CV с использованием MME SageMaker.
Нашу устаревшую систему сегментации видео было сложно тестировать, изменять и поддерживать. Некоторые из проблем включают работу со старой структурой машинного обучения, взаимозависимости между компонентами и трудный для оптимизации рабочий процесс. Это связано с тем, что для конвейера мы использовали RabbitMQ, который представлял собой решение с сохранением состояния. Чтобы отладить один компонент, например извлечение функций, нам пришлось протестировать весь конвейер.
Следующая диаграмма иллюстрирует предыдущую архитектуру.
В рамках нашего анализа мы выявили узкие места производительности, такие как запуск одной модели на машине, что показало низкую загрузку графического процессора на уровне 30–40%. Мы также обнаружили неэффективную работу конвейеров и алгоритмы планирования для моделей.
Поэтому мы решили создать новую мультитенантную архитектуру на основе SageMaker, которая будет реализовывать улучшения по оптимизации производительности, поддерживать динамические размеры пакетов и одновременно запускать несколько моделей.
Каждый запуск рабочего процесса нацелен на группу видео. Каждое видео длится от 30 до 90 минут, и каждой группе нужно запустить более пяти моделей.
Давайте рассмотрим пример: видео может длиться 60 минут и состоять из 3,600 изображений, и на первом этапе каждое изображение должно быть выведено с помощью трех разных моделей машинного обучения. С помощью MME SageMaker мы можем запускать пакеты из 12 изображений параллельно, и весь пакет выполняется менее чем за 2 секунды. В обычный день у нас есть более 20 групп видео, а в насыщенный выходной день у нас может быть более 100 групп видео.
На следующей диаграмме показана наша новая упрощенная архитектура с использованием SageMaker MME.
Итоги
Благодаря новой архитектуре мы достигли многих желаемых результатов и некоторых невидимых преимуществ по сравнению со старой архитектурой:
- Лучшее время работы – Увеличив размер пакета (12 видео одновременно) и одновременно запустив несколько моделей (пять моделей параллельно), мы сократили общее время работы конвейера на 33 %, с 1 часа до 40 минут.
- Улучшенная инфраструктура – С помощью SageMaker мы обновили существующую инфраструктуру и теперь используем новые экземпляры AWS с новыми графическими процессорами, такими как g5.xlarge. Одним из самых больших преимуществ этого изменения является немедленное повышение производительности за счет использования оптимизации TorchScript и CUDA.
- Оптимизированное использование инфраструктуры – Имея одну конечную точку, на которой может размещаться несколько моделей, мы можем сократить как количество конечных точек, так и количество компьютеров, которые нам необходимо обслуживать, а также увеличить использование одной машины и ее графического процессора. Для конкретной задачи с пятью видеороликами мы теперь используем только пять машин экземпляров g5, что дает нам 75 % экономической выгоды по сравнению с предыдущим решением. Для типичной рабочей нагрузки в течение дня мы используем одну конечную точку с одной машиной g5.xlarge с загрузкой графического процессора более 80 %. Для сравнения, предыдущее решение имело загрузку менее 40%.
- Повышенная маневренность и производительность – Использование SageMaker позволило нам тратить меньше времени на миграцию моделей и больше времени на улучшение наших основных алгоритмов и моделей. Это повысило производительность наших инженерных команд и команд по обработке данных. Теперь мы можем исследовать и развернуть новую модель машинного обучения менее чем за 7 дней вместо более чем 1 месяца, как раньше. Это улучшение скорости и планирования на 75%.
- Лучшее качество и уверенность – Благодаря возможностям A/B-тестирования SageMaker мы можем постепенно развертывать наши модели и иметь возможность безопасно откатить их назад. Более быстрый жизненный цикл производства также повысил точность и результаты наших моделей машинного обучения.
На следующем рисунке показано использование нашего графического процессора с предыдущей архитектурой (30–загрузка графического процессора 40%).
На следующем рисунке показано использование графического процессора с новой упрощенной архитектурой (загрузка графического процессора 90%).
Заключение
В этом посте мы рассказали, как компания Nielsen Sports модернизировала систему, на которой работают тысячи различных моделей, с помощью MME SageMaker, и снизила их эксплуатационные и финансовые затраты на 75%.
Для дальнейшего чтения обратитесь к следующему:
Об авторах
Эйтан Села — специалист по генеративному искусственному интеллекту и машинному обучению, специалист по архитектуре решений в Amazon Web Services. Он работает с клиентами AWS, предоставляя рекомендации и техническую помощь, помогая им создавать и использовать решения генеративного искусственного интеллекта и машинного обучения на AWS. В свободное время Эйтан любит бегать трусцой и читать последние статьи о машинном обучении.
Гэл Голдман — старший инженер-программист и старший архитектор корпоративных решений в AWS со страстью к передовым решениям. Он специализируется и разработал множество сервисов и решений распределенного машинного обучения. Гэл также помогает клиентам AWS ускорить и решить проблемы проектирования и генеративного искусственного интеллекта.
Таль Панчек — старший менеджер по развитию бизнеса в области искусственного интеллекта и машинного обучения в Amazon Web Services. Как специалист по BD, он отвечает за рост внедрения, использования и доходов от сервисов AWS. Он собирает информацию о потребностях клиентов и отрасли и сотрудничает с командами продуктов AWS для внедрения инноваций, разработки и доставки решений AWS.
Тамир Рубинский возглавляет отдел глобальных исследований и разработок в Nielsen Sports, привнося обширный опыт в создании инновационных продуктов и управлении высокопроизводительными командами. Его работа изменила оценку спонсорства спортивных СМИ с помощью инновационных решений на базе искусственного интеллекта.
Авиад Араниас — руководитель группы MLOps и архитектор Nielsen Sports Analysis, который специализируется на создании сложных конвейеров для анализа видео спортивных событий по многочисленным каналам. Он преуспевает в создании и развертывании моделей глубокого обучения для эффективной обработки крупномасштабных данных. В свободное время он любит печь вкусную неаполитанскую пиццу.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/nielsen-sports-sees-75-cost-reduction-in-video-analysis-with-amazon-sagemaker-multi-model-endpoints/
- :имеет
- :является
- :куда
- 000
- 1
- 100
- 12
- 120
- 150
- 20
- 40
- 60
- 600
- 7
- a
- способность
- в состоянии
- ускорять
- доступ
- точность
- точный
- точно
- достигнутый
- через
- действенные
- Добавить
- дополнение
- дополнительный
- Принятие
- Преимущества
- Реклама
- AI
- Поддержка
- алгоритмы
- Все
- разрешено
- позволяет
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon Web Services
- an
- анализ
- аналитик
- аналитика
- анализ
- и
- архитектура
- МЫ
- около
- статьи
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- Искусственный интеллект и машинное обучение
- AS
- Помощь
- At
- аудитория
- автоматически
- автоматизация
- AWS
- назад
- баннер
- основанный
- BD
- BE
- , так как:
- поведения
- польза
- Преимущества
- между
- Крупнейшая
- миллиард
- изоферменты печени
- узкие
- марка
- брендов
- Приведение
- вещания
- трансляций
- строить
- Строительство
- построенный
- бизнес
- развитие бизнеса
- by
- вычислять
- Кампания
- CAN
- возможности
- проблемы
- изменение
- Канал
- каналы
- характеристика
- клиентов
- клипсы
- сочетание
- объединять
- сравнение
- зАВЕРШАЕТ
- комплекс
- компонент
- компоненты
- компьютер
- Компьютерное зрение
- доверие
- Свяжитесь
- Состоящий из
- содержание
- Основные
- Corner
- Цена
- снижение расходов
- дорогостоящий
- крафт
- клиент
- Клиенты
- передовой
- приборная панель
- данным
- точки данных
- наука о данных
- базы данных
- день
- Дней
- решенный
- снизилась
- преданный
- глубоко
- глубокое обучение
- доставить
- поставляется
- развертывание
- развертывание
- описывать
- желанный
- развивать
- развитый
- Развитие
- диаграмма
- различный
- трудный
- направлять
- Прямой доступ
- открытый
- распределенный
- do
- в течение
- динамический
- каждый
- эффективность
- эффективно
- Электронный
- расширение прав и возможностей
- Конечная точка
- заниматься
- инженер
- Проект и
- Предприятие
- оценка
- Даже
- События
- Каждая
- исследовать
- пример
- существующий
- опыт
- Экспозиция
- добыча
- быстрее
- Особенность
- фигура
- финансовый
- First
- 5
- фокусируется
- после
- Что касается
- Рамки
- от
- полный
- далее
- будущее
- GAL
- игра
- генеративный
- Генеративный ИИ
- получить
- данный
- дает
- Глобальный
- Голдман
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Графические процессоры
- постепенный
- группы
- Группы
- Рост
- GUEST
- Guest Post
- руководство
- инструкция
- было
- обрабатывать
- Есть
- имеющий
- he
- помощь
- высокопроизводительный
- его
- кашель
- час
- ЧАСЫ
- Как
- How To
- HTTPS
- Идентификация
- идентифицированный
- определения
- if
- иллюстрирует
- изображение
- изображений
- немедленная
- осуществлять
- улучшение
- улучшение
- улучшение
- in
- включают
- включает в себя
- В том числе
- Увеличение
- расширились
- повышение
- независимые
- промышленность
- неэффективное
- Прогнозные
- информация
- Инфраструктура
- обновлять
- инновационный
- размышления
- вместо
- Интеллекта
- Мультиязычность
- в
- инвестиций
- IT
- ЕГО
- JPG
- знает
- крупномасштабный
- крупнейших
- последний
- лидер
- Лиды
- Лига
- изучение
- Наследие
- Меньше
- уровни
- Жизненный цикл
- локальным
- расположение
- Длинное
- посмотреть
- Низкий
- машина
- обучение с помощью машины
- Продукция
- поддерживать
- менеджер
- управления
- многих
- проводить измерение
- Медиа
- Метаданные
- мигрирующий
- миллиона
- Минут
- Наша миссия
- ML
- млн операций в секунду
- модель
- Модели
- Мониторинг
- Месяц
- месяцев
- БОЛЕЕ
- с разными
- должен
- национальный
- Необходимость
- потребности
- Новые
- более новый
- Газеты
- следующий
- сейчас
- номер
- номера
- многочисленный
- of
- Старый
- on
- ONE
- онлайн
- только
- работать
- оперативный
- оптимизация
- оптимизации
- or
- Другое
- наши
- Результаты
- за
- общий
- Преодолеть
- накладные расходы
- упакованный
- Параллельные
- часть
- партнер
- страсть
- Люди
- Выполнять
- производительность
- трубопровод
- планирование
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игроки
- пунктов
- После
- предыдущий
- предварительно
- процесс
- Продукт
- Производство
- производительность
- Продукция
- Программирование
- обеспечивать
- R & D
- Сырье
- Reading
- запись
- запись
- уменьшить
- Цена снижена
- снижение
- относиться
- регулярный
- соответствующие
- Отчеты
- представитель
- исследованиям
- ответственный
- ОТДЫХ
- Итоги
- возвращают
- доходы
- правые
- ROI
- Катить
- Run
- Бег
- работает
- время выполнения
- безопасно
- sagemaker
- масштабируемые
- Шкала
- масштабирование
- график
- планирование
- Наука
- множество
- секунды
- видит
- сегмент
- сегментация
- сегментами
- старший
- Услуги
- несколько
- формы
- общие
- показал
- Шоу
- подпись
- упрощенный
- одновременно
- одинарной
- Размеры
- медленной
- So
- Соцсети
- социальные сети
- Software
- Инженер-программист
- Решение
- Решения
- некоторые
- специалист
- специализируется
- конкретный
- конкретно
- тратить
- спонсорство
- Спорт
- Спорт
- Этап
- Шаги
- поток
- такие
- поддержка
- система
- направлены
- направлена против
- Сложность задачи
- команда
- команды
- Технический
- Технологии
- десятки
- тестXNUMX
- Тестирование
- чем
- который
- Ассоциация
- Будущее
- мир
- их
- Их
- сами
- тогда
- они
- этой
- тысяча
- тысячи
- три
- Через
- время
- в
- приняли
- топ
- Всего
- трек
- преобразован
- tv
- типичный
- под
- понимать
- понимание
- повышен
- us
- Применение
- использование
- через
- Оценка
- изменения
- Огромная
- Скорость
- Видео
- Видео
- видимость
- видение
- стремятся
- законопроект
- Путь..
- we
- Web
- веб-сервисы
- уик-энд
- были
- который
- КТО
- Работа
- рабочий
- работает
- работает
- Мир
- мире
- бы
- год
- зефирнет