Разработка передовых систем машинного обучения в Trumid с использованием библиотеки Deep Graph для внедрения знаний и анализа данных PlatoBlockchain. Вертикальный поиск. Ай.

Разработка передовых систем машинного обучения в Trumid с помощью библиотеки Deep Graph для внедрения знаний

Это гостевой пост, написанный в соавторстве с Мутися Ндунда из Trumid.

Как и во многих отраслях, рынок корпоративных облигаций не поддается универсальному подходу. Он огромен, ликвидность фрагментирована, а институциональные клиенты требуют решений, адаптированных к их конкретным потребностям. Достижения в области искусственного интеллекта и машинного обучения (МО) можно использовать для улучшения качества обслуживания клиентов, повышения эффективности и точности рабочих процессов и повышения производительности за счет поддержки различных аспектов торгового процесса.

Трумид — компания, занимающаяся финансовыми технологиями, создающая сеть торговли кредитами завтрашнего дня — рыночную площадку для эффективной торговли, распространения информации и исполнения обязательств между участниками рынка корпоративных облигаций. Trumid оптимизирует процесс кредитной торговли, сочетая передовой дизайн продукта и технологические принципы с глубоким знанием рынка. Результатом является интегрированное торговое решение, предоставляющее полную экосистему протоколов и инструментов исполнения на одной интуитивно понятной платформе.

Рынок торговли облигациями традиционно включает в себя процессы сопоставления покупателей и продавцов в автономном режиме, которым помогают технологии, основанные на правилах. Компания Trumid выступила с инициативой изменить этот опыт. Через его электронную торговую платформу трейдеры могут получить доступ к тысячам облигаций для покупки или продажи, сообществу заинтересованных пользователей, с которыми можно взаимодействовать, а также к различным торговым протоколам и решениям для исполнения. С расширяющейся сетью пользователей команда Trumid по стратегии искусственного интеллекта и данных стала партнером Лаборатория решений AWS для машинного обучения. Цель состояла в том, чтобы разработать системы машинного обучения, которые могли бы обеспечить более персонализированный торговый опыт, моделируя интерес и предпочтения пользователей к облигациям, доступным на Trumid.

Эти модели машинного обучения можно использовать для ускорения получения сведений и действий путем персонализации способа отображения информации для каждого пользователя, чтобы обеспечить приоритетность и доступность наиболее актуальной и действенной информации, которая может быть интересна трейдеру.

Чтобы решить эту проблему, Trumid и Лаборатория решений машинного обучения разработали сквозную подготовку данных, обучение модели и процесс вывода на основе модели глубокой нейронной сети, построенной с использованием библиотеки Deep Graph для внедрения знаний (ДГЛ-КЭ). Комплексное решение с Создатель мудреца Амазонки также был развернут.

Преимущества графового машинного обучения

Реальные данные сложны и взаимосвязаны и часто содержат сетевые структуры. Примеры включают молекулы в природе, социальные сети, Интернет, дороги и финансовые торговые платформы.

Графики обеспечивают естественный способ моделирования этой сложности, извлекая важную и богатую информацию, встроенную в отношения между сущностями.

Традиционные алгоритмы машинного обучения требуют, чтобы данные были организованы в виде таблиц или последовательностей. Обычно это работает хорошо, но некоторые домены более естественно и эффективно представлены графами (например, сеть объектов, связанных друг с другом, как показано далее в этом посте). Вместо преобразования этих наборов данных графа в таблицы или последовательности вы можете использовать алгоритмы машинного обучения графов как для представления, так и для изучения данных, представленных в виде графа, включая информацию о составляющих узлах, ребрах и других функциях.

Учитывая, что торговля облигациями по своей сути представляет собой сеть взаимодействий между покупателями и продавцами с использованием различных типов облигаций, эффективное решение должно использовать сетевые эффекты сообществ трейдеров, участвующих в рынке. Давайте посмотрим, как мы использовали эффекты торговой сети и реализовали это видение здесь.

Решения

Торговля облигациями характеризуется несколькими факторами, в том числе размером сделки, сроком, эмитентом, ставкой, величиной купона, предложением покупки/продажи и типом используемого торгового протокола. В дополнение к заказам и сделкам Trumid также фиксирует «индикаторы заинтересованности» (IOI). Исторические данные о взаимодействиях отражают торговое поведение и рыночные условия, меняющиеся с течением времени. Мы использовали эти данные для построения графика взаимодействий между трейдерами, облигациями и эмитентами с временными метками, а также использовали ML-график для прогнозирования будущих взаимодействий.

Рекомендательное решение состояло из четырех основных шагов:

  • Подготовка торговых данных в виде набора графических данных
  • Обучение модели внедрения графа знаний
  • Прогнозирование новых сделок
  • Упаковка решения в виде масштабируемого рабочего процесса

В следующих разделах мы обсудим каждый шаг более подробно.

Подготовка торговых данных в виде набора графических данных

Есть много способов представить торговые данные в виде графика. Один из вариантов — исчерпывающее представление данных с помощью узлов, ребер и свойств: трейдеры — как узлы со свойствами (такими как работодатель или срок пребывания в должности), облигации — как узлы со свойствами (эмитент, непогашенная сумма, срок погашения, ставка, стоимость купона) и сделки. как ребра со свойствами (дата, тип, размер). Другой вариант — упростить данные и использовать только узлы и отношения (отношения представляют собой типизированные ребра, такие как обмен или выпуск). Этот последний подход работал лучше в нашем случае, и мы использовали график, представленный на следующем рисунке.

График взаимоотношений между трейдерами, облигациями и эмитентами облигаций

Кроме того, мы удалили некоторые ребра, считавшиеся устаревшими: если трейдер взаимодействовал с более чем 100 различными облигациями, мы сохраняли только последние 100 облигаций.

Наконец, мы сохранили набор данных графа в виде списка ребер в TSV Формат:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Обучение модели внедрения графа знаний

Для графов, состоящих только из узлов и отношений (часто называемых графами знаний), команда DGL разработала структуру внедрения графов знаний. ДГЛ-КЭ. KE означает встраивание знаний, идея которого состоит в том, чтобы представлять узлы и отношения (знания) с помощью координат (встраивания) и оптимизировать (обучать) координаты, чтобы исходную структуру графа можно было восстановить по координатам. В списке доступных моделей встраивания мы выбрали TransE (трансляционные вложения). TransE обучает вложения с целью приближения к следующему равенству:

Внедрение исходного узла + внедрение отношения = внедрение целевого узла (1)

Мы обучили модель, вызвав dglke_train команда. Результатом обучения является папка модели, содержащая обученные встраивания.

Дополнительные сведения о TransE см. Преобразование вложений для моделирования мультиреляционных данных.

Прогнозирование новых сделок

Для предсказания новых сделок трейдера с нашей моделью мы использовали равенство (1): добавляем вложение трейдера к вложению trade-recent и искали облигации, наиболее близкие к полученному вложению.

Мы сделали это в два этапа:

  1. Подсчитайте баллы для всех возможных недавних торговых отношений с dglke_predict.
  2. Подсчитайте 100 лучших результатов для каждого трейдера.

Подробные инструкции по использованию DGL-KE см. Масштабирование встраивания графов знаний для обучения с помощью библиотеки Deep Graph Library и Документация DGL-KE.

Упаковка решения в виде масштабируемого рабочего процесса

Мы использовали ноутбуки SageMaker для разработки и отладки нашего кода. Для производства мы хотели вызвать модель как простой вызов API. Мы обнаружили, что нам не нужно разделять подготовку данных, обучение модели и прогнозирование, и было удобно упаковать весь конвейер в один скрипт и использовать обработку SageMaker. Обработка SageMaker позволяет удаленно запускать сценарий на выбранном типе экземпляра и образе Docker, не беспокоясь о распределении ресурсов и передаче данных. Для нас это было просто и экономично, потому что экземпляр GPU используется и оплачивается только в течение 15 минут, необходимых для запуска скрипта.

Подробные инструкции по использованию обработки SageMaker см. Amazon SageMaker Processing - полностью управляемая обработка данных и оценка модели и Обработка.

Итоги

Наша модель пользовательского графика работала очень хорошо по сравнению с другими методами: производительность повысилась на 80%, а результаты стали более стабильными для всех типов трейдеров. Мы измеряли производительность по среднему отзыву (процент фактических сделок, предсказанный рекомендателем, усредненный по всем трейдерам). По другим стандартным показателям улучшение колебалось в пределах 50–130 %.

Эта производительность позволила нам лучше сопоставить трейдеров и облигации, указав на улучшенный опыт трейдера в рамках модели, а машинное обучение сделало большой шаг вперед по сравнению с жестко запрограммированными правилами, которые может быть трудно масштабировать.

Заключение

Trumid сосредоточен на предоставлении инновационных продуктов и повышении эффективности рабочего процесса для своего сообщества пользователей. Создание завтрашней сети торговли кредитами требует постоянного сотрудничества с коллегами и отраслевыми экспертами, такими как лаборатория AWS ML Solutions Lab, призванная помочь вам быстрее внедрять инновации.

Для получения дополнительной информации см. Следующие ресурсы:


Об авторах

Разработка передовых систем машинного обучения в Trumid с использованием библиотеки Deep Graph для внедрения знаний и анализа данных PlatoBlockchain. Вертикальный поиск. Ай.Марк ван Аудхойсден является старшим специалистом по данным в команде Amazon ML Solutions Lab в Amazon Web Services. Он работает с клиентами AWS над решением бизнес-задач с помощью искусственного интеллекта и машинного обучения. Вне работы вы можете найти его на пляже, играющим с детьми, занимающимся серфингом или кайтсерфингом.

Разработка передовых систем машинного обучения в Trumid с использованием библиотеки Deep Graph для внедрения знаний и анализа данных PlatoBlockchain. Вертикальный поиск. Ай.Мутися Ндунда является руководителем отдела стратегии данных и искусственного интеллекта в Trumid. Он является опытным финансовым специалистом с более чем 20-летним опытом работы на рынках капитала, трейдинге и финансовых технологиях. Мутися обладает сильным количественным и аналитическим опытом и более чем десятилетним опытом работы в области искусственного интеллекта, машинного обучения и анализа больших данных. До прихода в Trumid он был генеральным директором Alpha Vertex, финансовой технологической компании, предлагающей аналитические решения на основе собственных алгоритмов искусственного интеллекта для финансовых учреждений. Мутися имеет степень бакалавра электротехники Корнельского университета и степень магистра финансового инжиниринга Корнельского университета.

Разработка передовых систем машинного обучения в Trumid с использованием библиотеки Deep Graph для внедрения знаний и анализа данных PlatoBlockchain. Вертикальный поиск. Ай.Исаак Привитера является старшим специалистом по данным в лаборатории решений для машинного обучения Amazon, где он разрабатывает индивидуальные решения для машинного обучения и глубокого обучения для решения бизнес-задач клиентов. Он работает в основном в области компьютерного зрения, уделяя особое внимание предоставлению клиентам AWS распределенного обучения и активного обучения.

Отметка времени:

Больше от Машинное обучение AWS