Этот пост написан в соавторстве с Яном Полом Ассендорпом, Томасом Литцовым, Кристофером Машем, Александром Мейнертом, доктором Ларсом Пальцером, Яном Шиллемансом из SIGNAL IDUNA.
В SIGNAL IDUNA, крупной немецкой страховой компании, мы в настоящее время изобретаем себя заново с нашей программой преобразования VISION2023, чтобы стать еще более ориентированными на клиента. Два аспекта являются центральными в этой трансформации: реорганизация значительной части рабочей силы в кросс-функциональные и гибкие команды и превращение компании, действительно управляемой данными. Здесь девиз «Вы создаете это, вы это запускаете» является важным требованием для межфункциональной команды, которая создает продукт данных или машинного обучения (ML). Это накладывает жесткие ограничения на то, сколько работы команда может потратить на производство и запуск продукта.
Этот пост показывает, как SIGNAL IDUNA решает эту проблему и использует Облако AWS чтобы позволить межфункциональным командам создавать и внедрять свои собственные продукты машинного обучения. С этой целью мы сначала представим организационную структуру agile-команд, которая устанавливает основные требования к облачной инфраструктуре, используемой для разработки и запуска продукта. Далее мы покажем, как три центральные группы в SIGNAL IDUNA позволяют межфункциональным группам создавать продукты данных в облаке AWS с минимальной помощью, предоставляя подходящий рабочий процесс и инфраструктурные решения, которые можно легко использовать и адаптировать. Наконец, мы рассмотрим наш подход и сравним его с более классическим подходом, в котором разработка и эксплуатация более строго разделены.
Agile@SI — основа организационных изменений
С начала 2021 года SIGNAL IDUNA начала претворять в жизнь свою стратегию Agile@SI и внедрять гибкие методы разработки клиентоориентированных решений во всей компании [1]. Предыдущие задачи и цели теперь выполняются кросс-функциональными командами, называемыми эскадроны. Эти команды используют гибкие методы (например, фреймворк Scrum), принимают собственные решения и создают продукты, ориентированные на клиента. Как правило, команды располагаются в бизнес-подразделениях, таких как маркетинг, и многие из них уделяют большое внимание созданию продуктов, основанных на данных и машинном обучении. Например, типичными вариантами использования в страховании являются прогнозирование оттока клиентов и рекомендации по продуктам.
Из-за сложности машинного обучения создание решения машинного обучения одной командой является сложной задачей и, следовательно, требует сотрудничества разных команд.
В SIGNAL IDUNA есть три основных команды, которые поддерживают создание решений машинного обучения. В окружении этих трех команд находится команда, отвечающая за разработку и долгосрочную эксплуатацию решения ML. Этот подход следует модели общей ответственности AWS [2].
На изображении выше все отряды представлены в обзоре.
Облачная поддержка
Базовая облачная инфраструктура для всей организации предоставляется подразделением Cloud Enablement. Их задача — дать командам возможность самостоятельно создавать продукты на основе облачных технологий. Это сокращает время вывода на рынок новых продуктов, таких как машинное обучение, и следует принципу «Вы создаете это, вы это запускаете».
Офис данных/озеро данных
Перемещение данных в облако, а также поиск нужного набора данных поддерживается подразделением Data Office/Data Lake. Они создают каталог данных, который можно использовать для поиска и выбора необходимых наборов данных. Их цель — установить прозрачность данных и управление. Кроме того, они несут ответственность за создание и эксплуатацию озера данных, которое помогает командам получать доступ к соответствующим данным и обрабатывать их.
Платформа аналитики данных
Наша команда Data Analytics Platform (DAP) — это команда SIGNAL IDUNA, ориентированная на облачные технологии и машинное обучение, которая обладает знаниями в области машинного обучения, обработки данных, а также науки о данных. Мы помогаем внутренним командам использовать общедоступное облако для машинного обучения, предоставляя компоненты инфраструктуры и знания. Наши продукты и услуги подробно представлены в следующем разделе.
Предоставление кросс-функциональным командам возможности создавать решения машинного обучения
Чтобы межфункциональные группы в SIGNAL IDUNA могли создавать решения машинного обучения, нам нужен быстрый и универсальный способ предоставления многоразовой облачной инфраструктуры, а также эффективный рабочий процесс для адаптации команд, использующих облачные возможности.
С этой целью мы создали стандартизированный процесс адаптации и поддержки и предоставили шаблоны модульной инфраструктуры как инфраструктуру как код (IaC). Эти шаблоны содержат компоненты инфраструктуры, разработанные для распространенных вариантов использования машинного обучения, которые можно легко адаптировать к требованиям конкретного варианта использования.
Рабочий процесс создания решений машинного обучения
В создании и эксплуатации решений машинного обучения задействованы три основные технические роли: специалист по данным, инженер машинного обучения и инженер данных. Каждая роль является частью кросс-функционального отряда и имеет разные обязанности. Специалист по обработке и анализу данных обладает необходимыми знаниями в области функциональных, а также технических требований варианта использования. Инженер машинного обучения специализируется на создании автоматизированных решений машинного обучения и развертывании моделей. А инженер данных следит за тем, чтобы данные поступали из локальной среды и из облака.
Процесс предоставления платформы выглядит следующим образом:
Инфраструктура конкретного варианта использования определяется в IaC, а ее версии хранятся в центральном репозитории проекта. Сюда также входят конвейеры для обучения и развертывания моделей, а также другие артефакты кода, связанные с наукой о данных. Специалисты по данным, инженеры по машинному обучению и инженеры по данным имеют доступ к репозиторию проекта и могут автономно настраивать и обновлять весь код инфраструктуры. Это позволяет команде быстро изменять инфраструктуру, если это необходимо. Однако инженер ML всегда может помочь в разработке и обновлении инфраструктуры или моделей ML.
Повторно используемые и модульные компоненты инфраструктуры
Иерархические и модульные ресурсы IaC реализованы в Terraform и включают инфраструктуру для общей науки о данных и сценариев использования ETL. Это позволяет нам повторно использовать код инфраструктуры и применять необходимые политики безопасности и соответствия, например использование Сервис управления ключами AWS (KMS) шифрование данных, а также инкапсуляция инфраструктуры в Виртуальное частное облако Amazon (VPC) среды без прямого доступа в Интернет.
Иерархическая структура IaC выглядит следующим образом:
- Модули инкапсулировать базовые сервисы AWS с необходимой конфигурацией для обеспечения безопасности и управления доступом. Это включает в себя передовые конфигурации, такие как предотвращение публичного доступа к Amazon Simple Storage Service (S3) ведра или принудительное шифрование для всех хранимых файлов.
- В некоторых случаях вам нужны различные сервисы для автоматизации процессов, например, для развертывания моделей машинного обучения на разных этапах. Поэтому мы определили Решения как связка разных модулей в совместной конфигурации для разных типов задач.
- Кроме того, мы предлагаем полный светокопий которые объединяют решения в различных средах для удовлетворения многих потенциальных потребностей проекта. В нашем плане MLOps мы определяем развертываемую инфраструктуру для обучения, подготовки и мониторинга моделей машинного обучения, которые интегрируются и распределяются в учетных записях AWS. Мы обсудим дополнительные детали в следующем разделе.
Версии этих продуктов хранятся в центральном репозитории командой DAP. Это позволяет нам постоянно улучшать нашу IaC и учитывать новые функции AWS, такие как Создатель мудреца Амазонки Модельный реестр. Каждый отряд может ссылаться на эти ресурсы, настраивать их по мере необходимости и, наконец, развертывать их в своих собственных учетных записях AWS.
Млопс-архитектура
Мы предоставляем готовую к использованию схему с конкретными решениями, охватывающими весь процесс MLOps. Схема содержит инфраструктуру, распределенную по четырем учетным записям AWS, для создания и развертывания моделей машинного обучения. Это позволяет нам изолировать ресурсы и рабочие процессы для различных этапов процесса MLOps. На следующем рисунке показана архитектура с несколькими учетными записями, и мы описываем, как ответственность за определенные этапы процесса распределяется между различными техническими ролями.
Ассоциация моделирование аккаунт включает услуги по разработке моделей машинного обучения. Во-первых, инженер данных использует процесс ETL для предоставления релевантных данных из озера данных SIGNAL IDUNA, централизованного шлюза для управляемых данными рабочих процессов в облаке AWS. Впоследствии набор данных может использоваться специалистом по данным для обучения и оценки кандидатов в модели. После того, как инженер по машинному обучению готов к обширным экспериментам, он интегрируется в конвейер автоматизированного обучения. Мы используем Amazon SageMaker Pipelines для автоматизации обучения, настройки гиперпараметров и оценки моделей в масштабе. Это также включает в себя происхождение моделей и стандартизированный механизм утверждения моделей, которые должны быть подготовлены для развертывания в рабочей среде. Автоматизированные модульные тесты и анализ кода обеспечивают качество и надежность кода на каждом этапе конвейера, например, предварительная обработка данных, обучение модели и оценка. После оценки и утверждения модели мы используем Amazon SageMaker ModelPackages в качестве интерфейса для обученной модели и соответствующих метаданных.
Ассоциация инструменты аккаунт содержит автоматизированные конвейеры CI/CD с различными этапами тестирования и развертывания обученных моделей. На этапе тестирования модели внедряются в обслуживание-непродукт учетная запись. Хотя качество модели оценивается в конвейере обучения до подготовки модели к производству, здесь мы запускаем тесты производительности и интеграции в изолированной среде тестирования. После прохождения этапа тестирования модели размещаются в сервировочный продукт необходимо интегрировать в производственные рабочие процессы.
Разделение этапов рабочего процесса MLOps на разные учетные записи AWS позволяет нам изолировать разработку и тестирование от производства. Поэтому мы можем применять строгую политику доступа и безопасности. Кроме того, адаптированные роли IAM гарантируют, что определенные службы могут получить доступ только к данным и другим службам, необходимым для их области, в соответствии с принцип наименьших привилегий. Услуги в обслуживающих средах могут быть дополнительно доступны для внешних бизнес-процессов. Например, бизнес-процесс может запросить конечную точку в среде serve-prod для предсказания модели.
Преимущества нашего подхода
Этот процесс имеет много преимуществ по сравнению со строгим разделением разработки и эксплуатации как для моделей машинного обучения, так и для необходимой инфраструктуры:
- Isolation: Каждая команда получает собственный набор учетных записей AWS, которые полностью изолированы от сред других команд. Это позволяет легко управлять правами доступа и сохранять конфиденциальность данных для тех, кто имеет право с ними работать.
- Включение облака: Члены команды с небольшим опытом работы в облачной среде DevOps (например, многие специалисты по обработке и анализу данных) могут легко наблюдать за всем процессом проектирования и управления инфраструктурой, поскольку (почти) ничто не скрыто от них за центральной службой. Это способствует лучшему пониманию инфраструктуры, что, в свою очередь, может помочь им более эффективно создавать продукты для обработки и анализа данных.
- Владение продуктом: использование предварительно сконфигурированных инфраструктурных решений и управляемых сервисов позволяет свести к минимуму барьер для управления продуктом машинного обучения в производственной среде. Таким образом, специалист по данным может легко стать владельцем модели, запущенной в производство. Это сводит к минимуму хорошо известный риск того, что модель не будет запущена в производство после разработки.
- Инновации: поскольку инженеры по машинному обучению привлекаются задолго до того, как модель будет готова к запуску в производство, они могут создавать инфраструктурные решения, подходящие для новых вариантов использования, в то время как специалисты по данным разрабатывают модель машинного обучения.
- Приспособляемость: поскольку решения IaC, разработанные DAP, находятся в свободном доступе, любая команда может легко адаптировать их в соответствии с конкретными потребностями своего варианта использования.
- Открытый исходный код: все новые инфраструктурные решения можно легко сделать доступными через центральный репозиторий кода DAP для использования другими командами. Со временем это создаст богатую базу кода с компонентами инфраструктуры, адаптированными к различным вариантам использования.
Обзор
В этом посте мы показали, как межфункциональные группы в SIGNAL IDUNA получают возможность создавать и запускать продукты машинного обучения на AWS. Центральное место в нашем подходе занимает использование выделенного набора учетных записей AWS для каждой команды в сочетании с индивидуальными планами и решениями IaC. Эти два компонента позволяют межфункциональной команде создавать и управлять производственной инфраструктурой качества. В свою очередь, они могут в полной мере владеть своими продуктами машинного обучения.
Обратитесь к Конвейеры построения моделей Amazon SageMaker – Amazon SageMaker чтобы узнать больше.
Дополнительная информация о ML на AWS на нашей официальной странице.
Рекомендации
[1] https://www.handelsblatt.com/finanzen/versicherungsbranche-vorbild-spotify-signal-iduna-wird-von-einer-handwerker-versicherung-zum-agilen-konzern/27381902.html
[2] https://blog.crisp.se/wp-content/uploads/2012/11/SpotifyScaling.pdf
[3] https://aws.amazon.com/compliance/shared-responsibility-model/
Об авторах
Ян Пол Ассендорп — инженер машинного обучения, специализирующийся на науке о данных. Он создает модели машинного обучения и автоматизирует обучение моделей и развертывание в производственных средах.
Томас Литцов является скрам-мастером платформы аналитики данных отряда.
Кристофер Маш является владельцем продукта платформы аналитики данных отряда со знаниями в области обработки данных, науки о данных и проектирования машинного обучения.
Александр Мейнерт входит в команду Data Analytics Platform и работает инженером по машинному обучению. Начал со статистики, вырос на проектах по науке о данных, увлекся методами и архитектурой машинного обучения.
Доктор Ларс Пальцер является специалистом по данным и частью команды Data Analytics Platform. После помощи в создании компонентов архитектуры MLOps теперь он использует их для создания продуктов машинного обучения.
Ян Шиллеманс инженер машинного обучения с опытом работы в области разработки программного обеспечения. Он фокусируется на применении лучших практик разработки программного обеспечения в средах машинного обучения (MLOPs).
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/how-signal-iduna-operationalizes-machine-learning-projects-on-aws/
- "
- 100
- 2021
- доступ
- Учетная запись
- через
- Действие
- Преимущества
- проворный
- Все
- Несмотря на то, что
- Amazon
- анализ
- аналитика
- Применение
- подхода
- архитектура
- Автоматизированный
- доступен
- AWS
- не являетесь
- ЛУЧШЕЕ
- лучшие практики
- строить
- Строительство
- Пакет
- бизнес
- возможности
- случаев
- вызов
- облако
- облачная инфраструктура
- код
- сотрудничество
- сочетание
- Общий
- Компания
- сравненный
- Соответствие закону
- Конфигурация
- содержит
- Создающий
- данным
- Анализ данных
- наука о данных
- ученый данных
- преданный
- развертывание
- развертывание
- развертывание
- проектирование
- подробность
- развивать
- развитый
- развивающийся
- Развитие
- различный
- обсуждать
- распределенный
- домен
- легко
- шифрование
- Конечная точка
- инженер
- Проект и
- Инженеры
- Окружающая среда
- существенный
- установить
- пример
- опыт
- БЫСТРО
- Особенности
- фигура
- в заключение
- First
- Фокус
- внимание
- после
- найденный
- Год основания
- Рамки
- полный
- Цели
- управление
- помощь
- помогает
- здесь
- Как
- HTTPS
- изображение
- в XNUMX году
- важную
- улучшать
- включают
- информация
- Инфраструктура
- страхование
- интегрированный
- интеграции.
- Интерфейс
- Интернет
- вовлеченный
- IT
- Основные
- знания
- большой
- УЧИТЬСЯ
- изучение
- мало
- Длинное
- машина
- обучение с помощью машины
- управление
- управления
- рынок
- Маркетинг
- Совпадение
- Участники
- Мета
- ML
- модель
- Модели
- модульный
- Мониторинг
- Новые функции
- новые продукты
- предлагают
- Официальный представитель в Грузии
- Вводный
- операционный
- организация
- Другие контрактные услуги
- владелец
- производительность
- Платформа
- сборах
- политика
- прогноз
- Predictions
- предотвращение
- частная
- процесс
- Процессы
- Продукт
- Производство
- Продукция
- FitPartner™
- Проект
- проектов
- обеспечивать
- что такое варган?
- Открытое облако
- хранилище
- обязательный
- Требования
- Полезные ресурсы
- ответственный
- обзоре
- Снижение
- Run
- Шкала
- Наука
- Ученый
- Ученые
- Поиск
- безопасность
- обслуживание
- Услуги
- выступающей
- набор
- общие
- просто
- Software
- разработка программного обеспечения
- Решения
- специализируется
- тратить
- Этап
- Начало
- и политические лидеры
- статистика
- диск
- Стратегия
- сильный
- впоследствии
- поддержка
- Поддержанный
- окруженный
- задачи
- команда
- Технический
- технологии
- тестXNUMX
- Тестирование
- тестов
- время
- Обучение
- трансформация
- Прозрачность
- Обновление ПО
- us
- использование
- использовать
- Виртуальный
- Смотреть
- КТО
- в
- без
- Работа
- Трудовые ресурсы
- работает