Это гостевой пост от Масштабируемый капитал, ведущего финтех-гиганта в Европе, предлагающего управление цифровым капиталом и брокерскую платформу с фиксированной торговой ставкой.
Целью Scalable Capital, как быстрорастущей компании, является не только создание инновационной, надежной и надежной инфраструктуры, но и предоставление наилучшего опыта нашим клиентам, особенно когда дело касается клиентского обслуживания.
Scalable ежедневно получает сотни запросов по электронной почте от наших клиентов. Благодаря внедрению современной модели обработки естественного языка (NLP) процесс ответа стал гораздо более эффективным, а время ожидания для клиентов значительно сократилось. Модель машинного обучения (ML) классифицирует новые входящие запросы клиентов по мере их поступления и перенаправляет их в заранее определенные очереди, что позволяет нашим специализированным агентам по работе с клиентами сосредоточиться на содержании электронных писем в соответствии со своими навыками и предоставлять соответствующие ответы.
В этом посте мы демонстрируем технические преимущества использования трансформаторов Hugging Face, развернутых с помощью Создатель мудреца Амазонки, такие как обучение и эксперименты в масштабе, а также повышение производительности и экономической эффективности.
Постановка задачи
Scalable Capital — одна из самых быстрорастущих компаний FinTech в Европе. С целью демократизации инвестиций компания предоставляет своим клиентам легкий доступ к финансовым рынкам. Клиенты Scalable могут активно участвовать в рынке через брокерскую торговую платформу компании или использовать Scalable Wealth Management для интеллектуального и автоматизированного инвестирования. В 2021 году клиентская база Scalable Capital увеличилась в десять раз — с десятков тысяч до сотен тысяч.
Чтобы предоставить нашим клиентам первоклассный (и последовательный) пользовательский опыт по всем продуктам и обслуживанию клиентов, компания искала автоматизированные решения, позволяющие повысить эффективность масштабируемого решения, сохраняя при этом операционное превосходство. Специалисты Scalable Capital по обработке данных и обслуживанию клиентов выявили, что одним из крупнейших узких мест в обслуживании наших клиентов являются ответы на запросы по электронной почте. В частности, узким местом стал этап классификации, на котором сотрудникам приходилось ежедневно читать и помечать тексты запросов. После того как электронные письма были перенаправлены в соответствующие очереди, соответствующие специалисты быстро подключились к делу и разрешили ситуацию.
Чтобы упростить этот процесс классификации, команда специалистов по обработке и анализу данных Scalable создала и развернула многозадачную модель НЛП, используя современную архитектуру преобразователя, основанную на предварительно обученных дистиллят-основание в немецком корпусе модель опубликована Hugging Face. дистиллят-основание в немецком корпусе использует дистилляция знаний метод для предварительного обучения меньшей модели представления языка общего назначения, чем исходная базовая модель BERT. Дистиллированная версия обеспечивает производительность, сравнимую с исходной версией, но при этом меньше и быстрее. Чтобы упростить процесс жизненного цикла машинного обучения, мы решили использовать SageMaker для создания, развертывания, обслуживания и мониторинга наших моделей. В следующем разделе мы представляем архитектуру нашего проекта.
Обзор решения
Инфраструктура машинного обучения Scalable Capital состоит из двух учетных записей AWS: одна используется в качестве среды для этапа разработки, а другая — для этапа производства.
На следующей диаграмме показан рабочий процесс нашего проекта классификатора электронной почты, но его также можно обобщить и на другие проекты по науке о данных.
Рабочий процесс состоит из следующих компонентов:
- Модельные эксперименты – Ученые, работающие с данными, используют Студия Amazon SageMaker выполнить первые шаги в жизненном цикле науки о данных: исследовательский анализ данных (EDA), очистку и подготовку данных, а также создание прототипов моделей. Когда исследовательский этап завершен, мы обращаемся к VSCode, размещенному на блокноте SageMaker, в качестве нашего инструмента удаленной разработки для модульности и создания нашей базы кода. Чтобы исследовать различные типы моделей и конфигураций моделей и в то же время отслеживать наши эксперименты, мы используем SageMaker Training и SageMaker Experiments.
- Сборка модели – После того, как мы определимся с моделью для нашего производственного варианта использования, в данном случае многозадачного дистиллят-основание в немецком корпусе модели, точно настроенной на основе предварительно обученной модели из Hugging Face, мы фиксируем и отправляем наш код в ветку разработки Github. Событие слияния Github запускает наш конвейер Jenkins CI, который, в свою очередь, запускает задание SageMaker Pipelines с тестовыми данными. Это действует как проверка, позволяющая убедиться, что коды работают должным образом. Конечная точка тестирования развертывается в целях тестирования.
- Развертывание модели – Убедившись, что все работает как положено, ученые, работающие с данными, объединяют ветку разработки с основной веткой. Это событие слияния теперь запускает задание SageMaker Pipelines, использующее производственные данные в целях обучения. После этого артефакты модели создаются и сохраняются в выходных данных. Простой сервис хранения Amazon (Amazon S3), и новая версия модели регистрируется в реестре моделей SageMaker. Специалисты по данным изучают производительность новой модели, а затем утверждают, соответствует ли она ожиданиям. Событие утверждения модели фиксируется Amazon EventBridge, который затем развертывает модель на конечной точке SageMaker в производственной среде.
- млн операций в секунду – Поскольку конечная точка SageMaker является частной и недоступна для служб за пределами VPC, AWS Lambda функции и Шлюз API Amazon публичная конечная точка необходима для связи с CRM. Всякий раз, когда новые электронные письма поступают в папку «Входящие» CRM, CRM вызывает общедоступную конечную точку шлюза API, которая, в свою очередь, запускает функцию Lambda для вызова частной конечной точки SageMaker. Затем функция передает классификацию обратно в CRM через общедоступную конечную точку шлюза API. Чтобы отслеживать производительность нашей развернутой модели, мы реализуем цикл обратной связи между CRM и специалистами по обработке данных, чтобы отслеживать показатели прогнозирования модели. Ежемесячно CRM обновляет исторические данные, используемые для экспериментов и обучения моделей. Мы используем Amazon Managed Workflows для Apache Airflow (Amazon MWAA) в качестве планировщика нашей ежемесячной переподготовки.
В следующих разделах мы более подробно разберем этапы подготовки данных, экспериментирования с моделью и ее развертывания.
Подготовка данных
Scalable Capital использует инструмент CRM для управления и хранения данных электронной почты. Соответствующее содержимое электронной почты состоит из темы, тела и банков-хранителей. Каждому электронному письму можно присвоить три метки: из какой сферы деятельности получено электронное письмо, какая очередь подходит и конкретная тема электронного письма.
Прежде чем приступить к обучению любых моделей НЛП, мы обеспечиваем чистоту входных данных и присвоение меток в соответствии с ожиданиями.
Чтобы получить чистое содержимое запроса от масштабируемых клиентов, мы удаляем из необработанных данных электронной почты дополнительный текст и символы, такие как подписи электронных писем, оттиски, кавычки предыдущих сообщений в цепочках электронных писем, символы CSS и т. д. В противном случае производительность наших будущих обученных моделей может снизиться.
Ярлыки для электронных писем со временем меняются по мере того, как команды масштабируемой службы поддержки клиентов добавляют новые, а также уточняют или удаляют существующие в соответствии с потребностями бизнеса. Чтобы убедиться в актуальности меток обучающих данных, а также ожидаемых классификаций для прогнозирования, группа по обработке данных работает в тесном сотрудничестве с командой обслуживания клиентов, чтобы гарантировать правильность меток.
Модельные эксперименты
Мы начинаем наш эксперимент с легкодоступных предварительно обученных дистиллят-основание в немецком корпусе модель опубликована Hugging Face. Поскольку предварительно обученная модель представляет собой модель языкового представления общего назначения, мы можем адаптировать архитектуру для выполнения конкретных последующих задач, таких как классификация и ответы на вопросы, путем прикрепления соответствующих голов к нейронной сети. В нашем случае следующая задача, которая нас интересует, — это классификация последовательностей. Без изменения существующая архитектура, мы решили настроить три отдельные предварительно обученные модели для каждой из необходимых категорий. С Контейнеры глубокого обучения SageMaker Hugging Face (DLC), запуск и управление экспериментами НЛП упрощаются с помощью контейнеров Hugging Face и API экспериментов SageMaker.
Ниже приведен фрагмент кода train.py
:
Следующий код представляет собой оценщик Hugging Face:
Для проверки точно настроенных моделей мы используем F1-оценка из-за несбалансированного характера нашего набора данных электронной почты, но также и для расчета других показателей, таких как точность, точность и отзыв. Чтобы API SageMaker Experiments мог зарегистрировать метрики задания обучения, нам необходимо сначала зарегистрировать метрики в локальной консоли задания обучения, которые собираются Amazon CloudWatch. Затем мы определяем правильный формат регулярных выражений для записи журналов CloudWatch. Определения метрик включают имя метрик и проверку регулярных выражений для извлечения метрик из задания обучения:
В рамках итерации обучения модели классификатора мы используем матрицу путаницы и отчет о классификации для оценки результата. На следующем рисунке показана матрица путаницы для прогнозирования направления бизнеса.
На следующем снимке экрана показан пример отчета о классификации для прогнозирования направления бизнеса.
В следующей итерации нашего эксперимента мы воспользуемся преимуществом многозадачное обучение улучшить нашу модель. Многозадачное обучение — это форма обучения, при которой модель учится решать несколько задач одновременно, поскольку общая информация между задачами может повысить эффективность обучения. Присоединив еще две классификационные головки к исходной архитектуре дистиллята, мы можем выполнить многозадачную точную настройку, которая обеспечивает приемлемые показатели для нашей команды обслуживания клиентов.
Развертывание модели
В нашем случае классификатор электронной почты должен быть развернут в конечной точке, куда наш конвейер CRM может отправлять пакет несекретных электронных писем и получать обратно прогнозы. Поскольку у нас есть другая логика, такая как очистка входных данных и многозадачное прогнозирование, в дополнение к выводу модели Hugging Face, нам нужно написать собственный сценарий вывода, который соответствует Стандарт SageMaker.
Ниже приведен фрагмент кода inference.py
:
Когда все готово, мы используем SageMaker Pipelines для управления нашим обучающим конвейером и подключаем его к нашей инфраструктуре для завершения настройки MLOps.
Чтобы отслеживать производительность развернутой модели, мы создаем цикл обратной связи, позволяющий CRM сообщать нам о статусе секретных электронных писем при закрытии дел. На основании этой информации мы вносим корректировки для улучшения развернутой модели.
Заключение
В этом посте мы рассказали, как SageMaker помогает команде по науке о данных в Scalable эффективно управлять жизненным циклом проекта по науке о данных, а именно проекта классификатора электронной почты. Жизненный цикл начинается с начальной фазы анализа и исследования данных с помощью SageMaker Studio; переходит к экспериментированию и развертыванию моделей с помощью обучения, вывода и дополнений Hugging Face для SageMaker; и дополняется конвейером обучения с помощью SageMaker Pipelines, интегрированным с другими сервисами AWS. Благодаря этой инфраструктуре мы можем более эффективно выполнять итерации и развертывать новые модели и, следовательно, улучшать существующие процессы в Scalable, а также опыт наших клиентов.
Чтобы узнать больше об Hugging Face и SageMaker, обратитесь к следующим ресурсам:
Об авторах
Доктор Сандра Шмид — руководитель отдела аналитики данных в Scalable GmbH. Вместе со своими командами она отвечает за подходы, основанные на данных, и варианты использования в компании. Ее основная задача — найти наилучшее сочетание моделей машинного обучения и науки о данных, а также бизнес-целей, чтобы получить от данных как можно больше бизнес-ценности и эффективности.
Хай Данг Специалист по данным в Scalable GmbH. В его обязанности входит анализ данных, создание и внедрение моделей машинного обучения, а также разработка и обслуживание инфраструктуры для команды по обработке данных. В свободное время он любит читать, ходить в походы, скалолазать и быть в курсе последних разработок в области машинного обучения.
Миа Чанг — специалист по архитектуре решений машинного обучения для Amazon Web Services. Она работает с клиентами в регионе EMEA и делится лучшими практиками выполнения рабочих нагрузок AI/ML в облаке, имея опыт работы в области прикладной математики, информатики и AI/ML. Она фокусируется на рабочих нагрузках, специфичных для НЛП, и делится своим опытом докладчика на конференциях и автора книги. В свободное время она занимается йогой, настольными играми и варкой кофе.
Мориц Гертлер является менеджером по работе с клиентами в сегменте цифрового бизнеса в AWS. Он фокусируется на клиентах в сфере FinTech и поддерживает их в ускорении инноваций с помощью безопасной и масштабируемой облачной инфраструктуры.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Автомобили / электромобили, Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- ЧартПрайм. Улучшите свою торговую игру с ChartPrime. Доступ здесь.
- Смещения блоков. Модернизация права собственности на экологические компенсации. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/accelerate-client-success-management-through-email-classification-with-hugging-face-on-amazon-sagemaker/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 100
- 13
- 15%
- 17
- 2021
- 26%
- 32
- 500
- 7
- a
- в состоянии
- О нас
- выше
- ускорять
- ускоряющий
- Принять
- доступ
- вмещать
- По
- Учетная запись
- Учетные записи
- точность
- Достигает
- через
- активно
- акты
- приспосабливать
- Добавить
- дополнение
- корректировки
- принять
- плюс
- После
- потом
- агенты
- AI / ML
- цель
- позволяет
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon Web Services
- среди
- an
- анализ
- аналитика
- и
- любой
- апаш
- API
- прикладной
- подходы
- соответствующий
- утверждение
- утвердить
- архитектура
- МЫ
- Аргументы
- AS
- назначенный
- At
- прикреплять
- автор
- Автоматизированный
- доступен
- AWS
- назад
- фон
- Банки
- Использование темпера с изогнутым основанием
- основанный
- основа
- BE
- , так как:
- было
- не являетесь
- Преимущества
- ЛУЧШЕЕ
- лучшие практики
- между
- доска
- Настольные игры
- тело
- книга
- Филиал
- Ломать
- брокерский
- строить
- Строительство
- построенный
- бизнес
- бизнес
- но
- by
- CAN
- столица
- капитала
- захватить
- захваченный
- нести
- случаев
- случаев
- категории
- цепи
- классификация
- классифицированный
- Уборка
- клиент
- клиентов
- Восхождение
- Закрыть
- закрыто
- облако
- облачная инфраструктура
- код
- кодовая база
- Коды
- Кофе
- сотрудничество
- сочетание
- выходит
- совершать
- общаться
- Компания
- Компании
- сравнимый
- полный
- зАВЕРШАЕТ
- компоненты
- Вычисление
- компьютер
- Информатика
- Конференция
- замешательство
- последовательный
- состоит
- Консоли
- Контейнеры
- содержание
- содержание
- исправить
- CRM
- CSS
- попечитель
- изготовленный на заказ
- клиент
- Клиенты
- ежедневно
- данным
- анализ данных
- Анализ данных
- Подготовка данных
- наука о данных
- ученый данных
- управляемых данными
- Время
- решать
- решенный
- преданный
- глубоко
- глубокое обучение
- По умолчанию
- определять
- определенный
- Определения
- демократизировать
- демонстрировать
- развертывание
- развернуть
- развертывание
- развертывание
- развертывает
- Проект
- подробность
- развивать
- развивающийся
- Развитие
- события
- различный
- Интернет
- управление цифровым капиталом
- вниз
- два
- каждый
- легко
- Эффективность
- эффективно
- еще
- Писем
- в регионе EMEA
- сотрудников
- включить
- Конечная точка
- занятый
- обеспечивать
- Окружающая среда
- эпоха
- особенно
- Европе
- оценивать
- оценка
- События
- многое
- развивается
- исследовать
- пример
- Превосходство
- исполнительный
- существующий
- ожидание
- ожидания
- ожидаемый
- опыт
- опытные
- Впечатления
- эксперимент
- Эксперименты
- исследование
- Исследовательский анализ данных
- Больше
- дополнительно
- f1
- Face
- содействовал
- облегчает
- Фэшн
- быстрее
- быстрый
- быстрорастущим
- Обратная связь
- фигура
- финансовый
- обнаружение
- FinTech
- fintechs
- Во-первых,
- первые шаги
- плоский
- Фокус
- фокусируется
- после
- Что касается
- форма
- формат
- Бесплатно
- от
- функция
- будущее
- Gain
- Игры
- шлюз
- общее назначение
- порождать
- получить
- GitHub
- ГмбХ
- Цели
- Рост
- GUEST
- Guest Post
- было
- Есть
- he
- главы
- ее
- его
- исторический
- состоялся
- Как
- HTML
- HTTP
- HTTPS
- Сотни
- идентифицированный
- if
- осуществлять
- Осуществляющий
- улучшать
- in
- включают
- Входящий
- Увеличение
- расширились
- информация
- Инфраструктура
- начальный
- Инновации
- инновационный
- вход
- Запросы
- запрос
- интегрированный
- Умный
- заинтересованный
- в
- вводить
- Грин- карта инвестору
- инвестиций
- Запускает
- IT
- итерация
- ЕГО
- работа
- JSON
- Сохранить
- Основные
- этикетка
- Этикетки
- язык
- крупнейших
- последний
- ведущий
- УЧИТЬСЯ
- изучение
- Жизненный цикл
- линия
- загрузка
- локальным
- журнал
- Войти
- искать
- от
- машина
- обучение с помощью машины
- сделанный
- Сохранение
- сделать
- Создание
- управлять
- управляемого
- управление
- управления
- рынок
- Области применения:
- математика
- матрица
- идти
- событие слияния
- Сообщения
- метод
- метрический
- Метрика
- может быть
- ML
- млн операций в секунду
- модель
- Модели
- Модерн
- монитор
- ежемесячно
- БОЛЕЕ
- движется
- много
- с разными
- имя
- а именно
- родной
- натуральный
- Обработка естественного языка
- природа
- Необходимость
- потребности
- сеть
- нервный
- нейронной сети
- Новые
- следующий
- НЛП
- ноутбук
- сейчас
- номер
- of
- Предложения
- on
- ONE
- те,
- только
- оперативный
- or
- заказ
- оригинал
- Другое
- в противном случае
- наши
- внешний
- выходной
- внешнюю
- за
- часть
- участвовать
- Выполнять
- производительность
- фаза
- взял
- трубопровод
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- возможное
- После
- практиками
- Точность
- прогноз
- Predictions
- подготовка
- предыдущий
- первичный
- частная
- процесс
- Процессы
- обработка
- Произведенный
- Производство
- производительность
- Продукция
- Проект
- проектов
- правильный
- прототип
- обеспечивать
- приводит
- что такое варган?
- опубликованный
- целей
- Push
- вопрос
- быстро
- кавычки
- повышение
- Обменный курс
- Сырье
- достиг
- Читать
- Reading
- готовый
- разумный
- получает
- учет
- Цена снижена
- относиться
- совершенствовать
- регулярное выражение
- зарегистрироваться
- реестра
- соответствующие
- складская
- удаленные
- удаление
- отчету
- представление
- запросить
- Запросы
- обязательный
- решен
- Полезные ресурсы
- те
- ответ
- ответ
- ответы
- ответственности
- ответственный
- результат
- возвращают
- надежный
- Рок
- Бег
- sagemaker
- Конвейеры SageMaker
- то же
- масштабируемые
- Шкала
- Наука
- Ученый
- Ученые
- скрипт
- Раздел
- разделах
- безопасный
- сегмент
- Отправить
- отдельный
- Последовательность
- служить
- обслуживание
- Услуги
- установка
- формы
- общие
- Акции
- она
- Шоу
- Подписи
- просто
- одновременно
- навыки
- меньше
- отрывок
- So
- Решение
- Решения
- РЕШАТЬ
- скоро
- Space
- Динамик
- специалист
- специалисты
- конкретный
- конкретно
- Этап
- Начало
- Начало
- начинается
- современное состояние
- Статус:
- пребывание
- Шаг
- Шаги
- диск
- хранить
- хранение
- упорядочить
- студия
- предмет
- успех
- такие
- Поддержка
- Убедитесь
- взять
- Сложность задачи
- задачи
- команда
- команды
- Технический
- десятки
- тестXNUMX
- Тестирование
- текст
- чем
- Спасибо
- который
- Ассоциация
- их
- Их
- тогда
- Там.
- следовательно
- они
- этой
- тысячи
- три
- Через
- время
- в
- вместе
- инструментом
- тема
- факел
- трек
- Торговля
- Торговая платформа
- Train
- специалистов
- Обучение
- трансформатор
- трансформеры
- чрезвычайно
- ОЧЕРЕДЬ
- два
- напишите
- Типы
- Updates
- us
- использование
- прецедент
- используемый
- Информация о пользователе
- Пользовательский опыт
- использования
- через
- VALIDATE
- Проверка
- ценностное
- версия
- Ожидание
- законопроект
- we
- Богатство
- управление активами
- Web
- веб-сервисы
- ЧТО Ж
- были
- когда
- когда бы ни
- , которые
- в то время как
- в
- без
- рабочий
- Рабочие процессы
- работает
- записывать
- Йога
- зефирнет