지식 임베딩을 위한 딥 그래프 라이브러리를 사용하여 Trumid에서 고급 기계 학습 시스템 개발

플라톤에 의해 재발행

팔로워 : 0

Trumid의 Mutisya Ndunda와 공동으로 작성한 게스트 게시물입니다.

많은 산업과 마찬가지로 회사채 시장은 획일적인 접근 방식에 적합하지 않습니다. 그것은 방대하고 유동성은 파편화되어 있으며 기관 고객은 특정 요구에 맞는 솔루션을 요구합니다. AI 및 머신 러닝(ML)의 발전은 거래 프로세스의 여러 측면을 지원하여 고객 경험을 개선하고 운영 워크플로의 효율성과 정확성을 높이며 성능을 향상시키는 데 사용할 수 있습니다.

트루 미드 회사채 시장 참여자 간의 효율적인 거래, 정보 보급 및 실행을 위한 시장인 미래의 신용 거래 네트워크를 구축하는 금융 기술 회사입니다. Trumid는 첨단 제품 설계 및 기술 원칙과 깊은 시장 전문 지식을 결합하여 신용 거래 경험을 최적화하고 있습니다. 그 결과 하나의 직관적인 플랫폼 내에서 프로토콜 및 실행 도구의 전체 에코시스템을 제공하는 통합 거래 솔루션입니다.

채권 거래 시장은 전통적으로 규칙 기반 기술의 도움을 받는 오프라인 구매자/판매자 매칭 프로세스를 수반했습니다. Trumid는 이러한 경험을 변화시키기 위한 이니셔티브에 착수했습니다. 전자 거래 플랫폼을 통해 거래자는 수천 개의 채권에 액세스하여 매매할 수 있으며 참여하는 사용자 커뮤니티와 상호 작용할 수 있으며 다양한 거래 프로토콜 및 실행 솔루션을 사용할 수 있습니다. 사용자 네트워크가 확장됨에 따라 Trumid의 AI 및 데이터 전략 팀은 AWS 기계 학습 솔루션 랩. 목표는 Trumid에서 사용 가능한 채권에 대한 사용자의 관심과 선호도를 모델링하여 보다 개인화된 거래 경험을 제공할 수 있는 ML 시스템을 개발하는 것이었습니다.

이러한 ML 모델을 사용하면 정보가 각 사용자에게 표시되는 방식을 개인화하여 거래자가 관심을 가질 수 있는 가장 관련성 있고 실행 가능한 정보의 우선 순위를 지정하고 액세스할 수 있도록 함으로써 통찰력 및 조치 시간을 단축할 수 있습니다.

이 문제를 해결하기 위해 Trumid와 ML Solutions Lab은 지식 임베딩을 위한 심층 그래프 라이브러리(Deep Graph Library for Knowledge Embedding)(DGL-KE). 다음과 같은 엔드 투 엔드 솔루션 아마존 세이지 메이커 배치되기도 했다.

그래프 머신 러닝의 이점

실제 데이터는 복잡하고 상호 연결되어 있으며 종종 네트워크 구조를 포함합니다. 예로는 자연의 분자, 소셜 네트워크, 인터넷, 도로 및 금융 거래 플랫폼이 있습니다.

그래프는 엔터티 간의 관계에 포함된 중요하고 풍부한 정보를 추출하여 이러한 복잡성을 모델링하는 자연스러운 방법을 제공합니다.

기존 ML 알고리즘에서는 데이터를 테이블 또는 시퀀스로 구성해야 합니다. 이것은 일반적으로 잘 작동하지만 일부 도메인은 그래프로 더 자연스럽고 효과적으로 표현됩니다(예: 이 게시물의 뒷부분에서 설명하는 것처럼 서로 관련된 객체 네트워크). 이러한 그래프 데이터 세트를 테이블이나 시퀀스로 강제 변환하는 대신 그래프 ML 알고리즘을 사용하여 구성 노드, 모서리 및 기타 기능에 대한 정보를 포함하여 그래프 형식으로 표시된 데이터를 표현하고 학습할 수 있습니다.

채권 거래는 본질적으로 다양한 유형의 채권 상품을 포함하는 구매자와 판매자 간의 상호 작용 네트워크로 대표된다는 점을 고려하면 시장에 참여하는 거래자 커뮤니티의 네트워크 효과를 활용하는 효과적인 솔루션이 필요합니다. 여기에서 거래 네트워크 효과를 어떻게 활용하고 이 비전을 구현했는지 살펴보겠습니다.

해법

채권 거래는 거래 규모, 기간, 발행자, 요율, 쿠폰 가치, 입찰/매도 제안 및 관련된 거래 프로토콜 유형을 포함한 여러 요인으로 특징지어집니다. 주문 및 거래 외에도 Trumid는 "관심 표시"(IOI)도 포착합니다. 과거 상호 작용 데이터는 시간이 지남에 따라 진화하는 거래 행동과 시장 조건을 구현합니다. 우리는 이 데이터를 사용하여 거래자, 채권 및 발행자 간의 타임스탬프 상호 작용 그래프를 작성하고 그래프 ML을 사용하여 미래 상호 작용을 예측했습니다.

추천 솔루션은 XNUMX가지 주요 단계로 구성되어 있습니다.

거래 데이터를 그래프 데이터셋으로 준비
지식 그래프 임베딩 모델 학습
새로운 거래 예측
확장 가능한 워크플로로 솔루션 패키징

다음 섹션에서는 각 단계에 대해 더 자세히 설명합니다.

거래 데이터를 그래프 데이터셋으로 준비

거래 데이터를 그래프로 나타내는 방법에는 여러 가지가 있습니다. 한 가지 옵션은 데이터를 노드, 에지 및 속성으로 철저하게 표현하는 것입니다. 거래자는 속성이 있는 노드(예: 고용주 또는 임기), 채권은 속성(발행자, 미결제 금액, 만기, 요율, 쿠폰 가치)이 있는 노드, 거래 속성(날짜, 유형, 크기)이 있는 가장자리로. 또 다른 옵션은 데이터를 단순화하고 노드와 관계만 사용하는 것입니다(관계는 거래 또는 발행자와 같은 유형이 지정된 가장자리). 이 후자의 접근 방식이 우리의 경우 더 잘 작동했으며 다음 그림에 표시된 그래프를 사용했습니다.

거래자, 채권 및 채권 발행자 간의 관계 그래프

또한 사용되지 않는 것으로 간주되는 일부 가장자리를 제거했습니다. 거래자가 100개 이상의 다른 채권과 상호 작용하는 경우 마지막 100개 채권만 유지했습니다.

마지막으로 그래프 데이터셋을 에지 목록으로 저장했습니다. TSV 형식 :

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

지식 그래프 임베딩 모델 학습

노드와 관계만으로 구성된 그래프(지식 그래프라고도 함)의 경우 DGL 팀은 지식 그래프 임베딩 프레임워크를 개발했습니다. DGL-KE. KE는 지식 임베딩의 약자로 노드와 관계(지식)를 좌표(임베딩)로 표현하고 좌표를 최적화(트레이닝)하여 좌표에서 원래 그래프 구조를 복구할 수 있도록 하는 개념입니다. 사용 가능한 임베딩 모델 목록에서 TransE(번역 임베딩)를 선택했습니다. TransE는 다음과 같은 동등성을 근사화하기 위해 임베딩을 훈련합니다.

소스 노드 임베딩 + 관계 임베딩 = 대상 노드 임베딩 (1)

우리는 다음을 호출하여 모델을 훈련했습니다. dglke_train 명령. 훈련의 출력은 훈련된 임베딩이 포함된 모델 폴더입니다.

TransE에 대한 자세한 내용은 다중 관계형 데이터 모델링을 위한 임베딩 번역.

새로운 거래 예측

우리 모델을 사용하여 거래자의 새로운 거래를 예측하기 위해 등식(1)을 사용했습니다. 거래자 삽입을 거래 최근 삽입에 추가하고 결과 삽입에 가장 가까운 채권을 찾았습니다.

두 단계로 이 작업을 수행했습니다.

가능한 모든 거래-최근 관계에 대한 점수를 계산합니다. dglke_predict.
각 거래자에 대한 상위 100개의 최고 점수를 계산합니다.

DGL-KE 사용법에 대한 자세한 내용은 다음을 참조하십시오. Deep Graph Library를 사용하여 대규모 지식 그래프 임베딩 학습 및 DGL-KE 문서.

확장 가능한 워크플로로 솔루션 패키징

SageMaker 노트북을 사용하여 코드를 개발하고 디버그했습니다. 프로덕션을 위해 우리는 모델을 간단한 API 호출로 호출하고 싶었습니다. 데이터 준비, 모델 훈련, 예측을 분리할 필요가 없고 전체 파이프라인을 단일 스크립트로 패키징하고 SageMaker 처리를 사용하는 것이 편리하다는 것을 알았습니다. SageMaker 처리를 사용하면 리소스 할당 및 데이터 전송에 대해 걱정할 필요 없이 선택한 인스턴스 유형 및 Docker 이미지에서 원격으로 스크립트를 실행할 수 있습니다. GPU 인스턴스는 스크립트를 실행하는 데 필요한 15분 동안만 사용하고 비용을 지불하기 때문에 간단하고 비용 효율적이었습니다.

SageMaker 처리를 사용하는 방법에 대한 자세한 지침은 다음을 참조하십시오. Amazon SageMaker 처리 – 완전 관리 형 데이터 처리 및 모델 평가 및 처리.

결과

우리의 사용자 정의 그래프 모델은 다른 방법에 비해 매우 우수한 성능을 보였습니다. 성능이 80% 향상되었으며 모든 거래자 유형에서 더 안정적인 결과를 얻었습니다. 평균 회상(추천자가 예측한 실제 거래의 비율, 모든 거래자의 평균)으로 성과를 측정했습니다. 다른 표준 측정항목의 경우 개선 범위가 50–130%였습니다.

이 성능을 통해 우리는 거래자와 채권을 더 잘 일치시킬 수 있었고, 이는 확장하기 어려울 수 있는 하드 코딩된 규칙에서 큰 발전을 제공하는 머신 러닝을 통해 모델 내에서 향상된 거래자 경험을 나타냅니다.

결론

Trumid는 사용자 커뮤니티에 혁신적인 제품과 워크플로 효율성을 제공하는 데 중점을 두고 있습니다. 미래의 신용 거래 네트워크를 구축하려면 더 빠른 혁신을 지원하도록 설계된 AWS ML Solutions Lab과 같은 업계 전문가 및 동료와의 지속적인 협업이 필요합니다.

자세한 내용은 다음 리소스를 참조하십시오.

저자 소개

마크 반 오드헤우스덴 Amazon Web Services의 Amazon ML 솔루션 랩 팀의 선임 데이터 과학자입니다. 그는 AWS 고객과 협력하여 인공 지능 및 기계 학습으로 비즈니스 문제를 해결합니다. 직장 밖에서는 해변에서, 아이들과 놀고, 서핑을 하거나 카이트서핑을 하는 그를 볼 수 있습니다.

무티샤 은둔다 Trumid의 데이터 전략 및 AI 책임자입니다. 그는 자본 시장, 거래 및 금융 기술 분야에서 20년 이상의 광범위한 기관 경험을 가진 노련한 금융 전문가입니다. Mutisya는 인공 지능, 기계 학습 및 빅 데이터 분석 분야에서 XNUMX년 이상의 경험을 가진 강력한 양적 및 분석적 배경을 가지고 있습니다. Trumid 이전에는 금융 기관에 독점 AI 알고리즘으로 구동되는 분석 솔루션을 제공하는 금융 기술 회사인 Alpha Vertex의 CEO였습니다. Mutisya는 Cornell University에서 전기 공학 학사 학위를, Cornell University에서 금융 공학 석사 학위를 받았습니다.

PlatoBlockchain 데이터 인텔리전스를 포함하는 지식을 위한 딥 그래프 라이브러리를 사용하여 Trumid에서 고급 기계 학습 시스템을 개발합니다. 수직 검색. 일체 포함. 이삭 프리비 테라 Amazon Machine Learning Solutions Lab의 선임 데이터 과학자로 고객의 비즈니스 문제를 해결하기 위한 맞춤형 기계 학습 및 딥 러닝 솔루션을 개발하고 있습니다. 그는 주로 컴퓨터 비전 분야에서 일하며 AWS 고객에게 분산 교육 및 능동적 학습을 지원하는 데 중점을 두고 있습니다.

타임 스탬프 : 2022 년 7 월 25 일2022 년 7 월 25 일

타임 스탬프 : 17년 2023월 XNUMX일

지식 임베딩을 위한 딥 그래프 라이브러리를 사용하여 Trumid에서 고급 기계 학습 시스템 개발

플라톤에 의해 재발행

그래프 머신 러닝의 이점

해법

거래 데이터를 그래프 데이터셋으로 준비

지식 그래프 임베딩 모델 학습

새로운 거래 예측

확장 가능한 워크플로로 솔루션 패키징

결과

결론

저자 소개

더보기 AWS 기계 학습

Patsnap이 짧은 지연 시간과 비용으로 Amazon SageMaker에서 GPT-2 추론을 사용한 방법 | 아마존 웹 서비스

Amazon SageMaker Edge Manager 및 AWS IoT Greengrass를 사용한 엣지에서의 MLOps

Amazon CodeWhisperer에 대한 엔터프라이즈 관리 제어, 간단한 가입 및 확장된 프로그래밍 언어 지원

Amazon Kendra용 Exchange 커넥터를 사용하여 Microsoft Exchange 콘텐츠 인덱싱

IMDb 지식 그래프를 사용한 강력한 추천 및 검색 - 3부

기본 수명 주기 구성으로 Amazon SageMaker Studio에서 Amazon SageMaker Data Wrangler 사용

Amazon Polly를 사용하여 웹 페이지 읽기 및 콘텐츠 강조 표시

Amazon Personalize 및 Amazon OpenSearch Service 통합을 통해 검색 결과를 개인화하세요 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정