Phát triển các hệ thống máy học tiên tiến tại Trumid với Thư viện đồ thị sâu để nhúng kiến ​​thức Thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Phát triển hệ thống học máy nâng cao tại Trumid với Thư viện đồ thị sâu để nhúng kiến ​​thức

Đây là bài đăng của khách được đồng viết với Mutisya Ndunda từ Trumid.

Giống như nhiều ngành khác, thị trường trái phiếu doanh nghiệp không tự cho mình một cách tiếp cận phù hợp với mọi quy mô. Nó rộng lớn, tính thanh khoản bị phân mảnh và các khách hàng tổ chức yêu cầu các giải pháp phù hợp với nhu cầu cụ thể của họ. Những tiến bộ trong AI và học máy (ML) có thể được sử dụng để cải thiện trải nghiệm khách hàng, tăng hiệu quả và độ chính xác của quy trình hoạt động và nâng cao hiệu suất bằng cách hỗ trợ nhiều khía cạnh của quy trình giao dịch.

trumid là một công ty công nghệ tài chính đang xây dựng mạng lưới giao dịch tín dụng của ngày mai — một thị trường để giao dịch, phổ biến thông tin và thực thi hiệu quả giữa những người tham gia thị trường trái phiếu doanh nghiệp. Trumid đang tối ưu hóa trải nghiệm giao dịch tín dụng bằng cách kết hợp các nguyên tắc công nghệ và thiết kế sản phẩm tiên tiến nhất với kiến ​​thức chuyên môn sâu về thị trường. Kết quả là một giải pháp giao dịch tích hợp cung cấp một hệ sinh thái đầy đủ các giao thức và công cụ thực thi trong một nền tảng trực quan.

Thị trường giao dịch trái phiếu có truyền thống bao gồm các quy trình đối sánh người mua / người bán ngoại tuyến được hỗ trợ bởi công nghệ dựa trên quy tắc. Trumid đã bắt tay vào một sáng kiến ​​để chuyển đổi trải nghiệm này. Thông qua nền tảng giao dịch điện tử của nó, các nhà giao dịch có thể truy cập hàng nghìn trái phiếu để mua hoặc bán, một cộng đồng người dùng gắn bó để tương tác và nhiều loại giao thức giao dịch và giải pháp thực hiện. Với mạng lưới người dùng ngày càng mở rộng, nhóm Chiến lược dữ liệu và AI của Trumid đã hợp tác với Phòng thí nghiệm Giải pháp Máy học AWS. Mục tiêu là phát triển các hệ thống ML có thể mang lại trải nghiệm giao dịch được cá nhân hóa hơn bằng cách mô hình hóa mối quan tâm và sở thích của người dùng đối với trái phiếu có sẵn trên Trumid.

Các mô hình ML này có thể được sử dụng để tăng tốc thời gian tìm hiểu thông tin chi tiết và hành động bằng cách cá nhân hóa cách thông tin được hiển thị cho mỗi người dùng để đảm bảo rằng thông tin có liên quan và có thể hành động mà nhà giao dịch có thể quan tâm được ưu tiên và có thể truy cập được.

Để giải quyết thách thức này, Trumid và Phòng thí nghiệm giải pháp ML đã phát triển quy trình chuẩn bị dữ liệu đầu cuối, đào tạo mô hình và suy luận dựa trên mô hình mạng nơ ron sâu được xây dựng bằng cách sử dụng Thư viện đồ thị sâu để nhúng tri thức (DGL-KẾ). Một giải pháp end-to-end với Amazon SageMaker cũng đã được triển khai.

Lợi ích của máy học đồ thị

Dữ liệu trong thế giới thực rất phức tạp và được kết nối với nhau, và thường chứa các cấu trúc mạng. Ví dụ bao gồm các phân tử trong tự nhiên, mạng xã hội, internet, con đường và nền tảng giao dịch tài chính.

Đồ thị cung cấp một cách tự nhiên để mô hình hóa sự phức tạp này bằng cách trích xuất thông tin quan trọng và phong phú được nhúng trong các mối quan hệ giữa các thực thể.

Các thuật toán ML truyền thống yêu cầu dữ liệu được tổ chức dưới dạng bảng hoặc chuỗi. Điều này thường hoạt động tốt, nhưng một số miền được biểu diễn tự nhiên và hiệu quả hơn bằng đồ thị (chẳng hạn như mạng lưới các đối tượng liên quan đến nhau, như được minh họa sau trong bài đăng này). Thay vì ép buộc các tập dữ liệu biểu đồ này thành các bảng hoặc chuỗi, bạn có thể sử dụng các thuật toán ML biểu đồ để vừa biểu diễn vừa học hỏi từ dữ liệu như được trình bày dưới dạng biểu đồ của nó, bao gồm thông tin về các nút cấu thành, các cạnh và các tính năng khác.

Xét rằng giao dịch trái phiếu vốn được thể hiện như một mạng lưới tương tác giữa người mua và người bán liên quan đến nhiều loại công cụ trái phiếu khác nhau, một giải pháp hiệu quả cần phải khai thác hiệu ứng mạng lưới của cộng đồng các nhà giao dịch tham gia vào thị trường. Hãy xem cách chúng tôi tận dụng hiệu ứng của mạng lưới giao dịch và thực hiện tầm nhìn này ở đây.

Dung dịch

Giao dịch trái phiếu được đặc trưng bởi một số yếu tố, bao gồm quy mô giao dịch, thời hạn, công ty phát hành, tỷ giá, giá trị phiếu giảm giá, giá chào mua / yêu cầu và loại giao thức giao dịch liên quan. Ngoài các đơn đặt hàng và giao dịch, Trumid cũng nắm bắt “các dấu hiệu quan tâm” (IOIs). Dữ liệu tương tác lịch sử thể hiện hành vi giao dịch và các điều kiện thị trường phát triển theo thời gian. Chúng tôi đã sử dụng dữ liệu này để xây dựng biểu đồ tương tác được đánh dấu thời gian giữa các nhà giao dịch, trái phiếu và nhà phát hành, đồng thời sử dụng biểu đồ ML để dự đoán các tương tác trong tương lai.

Giải pháp đề xuất bao gồm bốn bước chính:

  • Chuẩn bị dữ liệu giao dịch dưới dạng tập dữ liệu biểu đồ
  • Đào tạo mô hình nhúng biểu đồ tri thức
  • Dự đoán giao dịch mới
  • Đóng gói giải pháp như một quy trình làm việc có thể mở rộng

Trong các phần sau, chúng ta sẽ thảo luận chi tiết hơn về từng bước.

Chuẩn bị dữ liệu giao dịch dưới dạng tập dữ liệu biểu đồ

Có nhiều cách để biểu diễn dữ liệu giao dịch dưới dạng đồ thị. Một tùy chọn là biểu diễn dữ liệu một cách đầy đủ với các nút, cạnh và thuộc tính: nhà giao dịch với tư cách là các nút có thuộc tính (chẳng hạn như chủ sở hữu hoặc quyền hưởng dụng), trái phiếu dưới dạng nút có thuộc tính (nhà phát hành, số tiền chưa thanh toán, kỳ hạn, tỷ lệ, giá trị phiếu giảm giá) và giao dịch như các cạnh có thuộc tính (ngày, kiểu, kích thước). Một lựa chọn khác là đơn giản hóa dữ liệu và chỉ sử dụng các nút và quan hệ (quan hệ là các cạnh được nhập như giao dịch hoặc phát hành). Cách tiếp cận thứ hai này hoạt động tốt hơn trong trường hợp của chúng tôi và chúng tôi đã sử dụng biểu đồ được trình bày trong hình sau.

Biểu đồ quan hệ giữa thương nhân, trái phiếu và công ty phát hành trái phiếu

Ngoài ra, chúng tôi đã loại bỏ một số khía cạnh được coi là lỗi thời: nếu một nhà giao dịch tương tác với hơn 100 trái phiếu khác nhau, chúng tôi chỉ giữ lại 100 trái phiếu cuối cùng.

Cuối cùng, chúng tôi đã lưu tập dữ liệu biểu đồ dưới dạng danh sách các cạnh trong TSV định dạng:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Đào tạo mô hình nhúng biểu đồ tri thức

Đối với đồ thị chỉ bao gồm các nút và quan hệ (thường được gọi là đồ thị tri thức), nhóm DGL đã phát triển khung nhúng đồ thị tri thức DGL-KẾ. KE là viết tắt của nhúng tri thức, ý tưởng là biểu diễn các nút và quan hệ (kiến thức) bằng tọa độ (nhúng) và tối ưu hóa (huấn luyện) các tọa độ để có thể khôi phục cấu trúc đồ thị ban đầu từ tọa độ. Trong danh sách các mô hình nhúng có sẵn, chúng tôi đã chọn TransE (nhúng tịnh tiến). TransE đào tạo nhúng với mục tiêu xấp xỉ bằng sau:

Nhúng nút nguồn + nhúng mối quan hệ = nhúng nút đích (1)

Chúng tôi đã đào tạo mô hình bằng cách gọi dglke_train yêu cầu. Đầu ra của khóa đào tạo là một thư mục mô hình chứa các tệp nhúng được đào tạo.

Để biết thêm chi tiết về TransE, hãy tham khảo Dịch các nhúng để lập mô hình dữ liệu đa quan hệ.

Dự đoán giao dịch mới

Để dự đoán các giao dịch mới từ một nhà giao dịch với mô hình của chúng tôi, chúng tôi đã sử dụng đẳng thức (1): thêm nhà giao dịch nhúng vào lần nhúng giao dịch gần đây và tìm kiếm các trái phiếu gần nhất với lần nhúng kết quả.

Chúng tôi đã thực hiện việc này theo hai bước:

  1. Tính toán điểm số cho tất cả các mối quan hệ thương mại gần đây có thể có với dglke_predict.
  2. Tính toán 100 điểm cao nhất hàng đầu cho mỗi nhà giao dịch.

Để biết hướng dẫn chi tiết về cách sử dụng DGL-KE, hãy tham khảo Đào tạo nhúng đồ thị kiến ​​thức trên quy mô lớn với Thư viện đồ thị sâuTài liệu DGL-KE.

Đóng gói giải pháp như một quy trình làm việc có thể mở rộng

Chúng tôi đã sử dụng sổ ghi chép SageMaker để phát triển và gỡ lỗi mã của chúng tôi. Để sản xuất, chúng tôi muốn gọi mô hình dưới dạng một lệnh gọi API đơn giản. Chúng tôi nhận thấy rằng chúng tôi không cần phải tách biệt việc chuẩn bị dữ liệu, đào tạo mô hình và dự đoán, và thật tiện lợi khi đóng gói toàn bộ đường dẫn dưới dạng một tập lệnh duy nhất và sử dụng xử lý SageMaker. Xử lý SageMaker cho phép bạn chạy một tập lệnh từ xa trên một loại phiên bản đã chọn và hình ảnh Docker mà không phải lo lắng về việc phân bổ tài nguyên và truyền dữ liệu. Điều này rất đơn giản và tiết kiệm chi phí đối với chúng tôi, vì phiên bản GPU chỉ được sử dụng và trả tiền trong 15 phút cần thiết để tập lệnh chạy.

Để biết hướng dẫn chi tiết về cách sử dụng chế biến SageMaker, hãy xem Xử lý Amazon SageMaker - Xử lý dữ liệu được quản lý hoàn toàn và Đánh giá mô hìnhChế biến.

Kết quả

Mô hình đồ thị tùy chỉnh của chúng tôi hoạt động rất tốt so với các phương pháp khác: hiệu suất được cải thiện 80%, với kết quả ổn định hơn trên tất cả các loại nhà giao dịch. Chúng tôi đo lường hiệu suất bằng cách thu hồi trung bình (tỷ lệ phần trăm giao dịch thực tế được người đề xuất dự đoán, tính trung bình trên tất cả các nhà giao dịch). Với các chỉ số tiêu chuẩn khác, mức cải thiện dao động từ 50–130%.

Hiệu suất này cho phép chúng tôi đối sánh tốt hơn với các nhà giao dịch và trái phiếu, cho thấy trải nghiệm nhà giao dịch được nâng cao trong mô hình, với việc học máy mang lại một bước tiến lớn so với các quy tắc được mã hóa cứng, vốn có thể khó mở rộng quy mô.

Kết luận

Trumid tập trung vào việc cung cấp các sản phẩm sáng tạo và hiệu quả quy trình làm việc cho cộng đồng người dùng của họ. Việc xây dựng mạng lưới giao dịch tín dụng của ngày mai đòi hỏi sự cộng tác liên tục với các đồng nghiệp và chuyên gia trong ngành như Phòng thí nghiệm Giải pháp AWS ML, được thiết kế để giúp bạn đổi mới nhanh hơn.

Để biết thêm thông tin, hãy xem các tài nguyên sau:


Giới thiệu về tác giả

Phát triển các hệ thống máy học tiên tiến tại Trumid với Thư viện đồ thị sâu để nhúng kiến ​​thức Thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Marc van Oudheusden là Nhà khoa học dữ liệu cao cấp của nhóm Amazon ML Solutions Lab tại Amazon Web Services. Anh ấy làm việc với các khách hàng của AWS để giải quyết các vấn đề kinh doanh bằng trí tuệ nhân tạo và máy học. Ngoài giờ làm việc, bạn có thể bắt gặp anh ấy ở bãi biển, chơi với con, lướt sóng hoặc lướt ván diều.

Phát triển các hệ thống máy học tiên tiến tại Trumid với Thư viện đồ thị sâu để nhúng kiến ​​thức Thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Mutisya Ndunda là Trưởng bộ phận Chiến lược Dữ liệu và AI tại Trumid. Ông là một chuyên gia tài chính dày dạn với hơn 20 năm kinh nghiệm tổ chức rộng rãi trong thị trường vốn, giao dịch và công nghệ tài chính. Mutisya có nền tảng phân tích và định lượng vững chắc với hơn một thập kỷ kinh nghiệm trong lĩnh vực trí tuệ nhân tạo, máy học và phân tích dữ liệu lớn. Trước Trumid, ông là Giám đốc điều hành của Alpha Vertex, một công ty công nghệ tài chính cung cấp các giải pháp phân tích được hỗ trợ bởi các thuật toán AI độc quyền cho các tổ chức tài chính. Mutisya có bằng cử nhân về Kỹ thuật điện tại Đại học Cornell và bằng thạc sĩ về Kỹ thuật tài chính của Đại học Cornell.

Phát triển các hệ thống máy học tiên tiến tại Trumid với Thư viện đồ thị sâu để nhúng kiến ​​thức Thông minh dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Isaac Privitera là Nhà khoa học dữ liệu cao cấp tại Phòng thí nghiệm Giải pháp Học máy của Amazon, nơi ông phát triển các giải pháp học máy và học sâu dành riêng để giải quyết các vấn đề kinh doanh của khách hàng. Anh ấy làm việc chủ yếu trong không gian thị giác máy tính, tập trung vào việc tạo điều kiện cho khách hàng AWS được đào tạo phân tán và học tập tích cực.

Dấu thời gian:

Thêm từ Học máy AWS