Opracowywanie zaawansowanych systemów uczenia maszynowego w firmie Trumid za pomocą biblioteki Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Opracowywanie zaawansowanych systemów uczenia maszynowego w firmie Trumid za pomocą biblioteki Deep Graph Library do osadzania wiedzy

To gościnny post napisany wspólnie z Mutisyą Ndundą z Trumidu.

Podobnie jak wiele branż, rynek obligacji korporacyjnych nie nadaje się do podejścia uniwersalnego. Jest ogromny, płynność jest rozdrobniona, a klienci instytucjonalni wymagają rozwiązań dostosowanych do ich specyficznych potrzeb. Postępy w sztucznej inteligencji i uczeniu maszynowym (ML) można wykorzystać do poprawy obsługi klienta, zwiększenia wydajności i dokładności przepływów pracy oraz zwiększenia wydajności poprzez wspieranie wielu aspektów procesu handlowego.

Trumida to firma zajmująca się technologiami finansowymi, która buduje przyszłą sieć obrotu kredytami — rynek do efektywnego handlu, rozpowszechniania informacji i realizacji transakcji między uczestnikami rynku obligacji korporacyjnych. Trumid optymalizuje doświadczenie handlu kredytami, łącząc najnowocześniejsze zasady projektowania produktów i technologii z głęboką wiedzą rynkową. Rezultatem jest zintegrowane rozwiązanie transakcyjne zapewniające pełny ekosystem protokołów i narzędzi wykonawczych w ramach jednej intuicyjnej platformy.

Rynek obrotu obligacjami tradycyjnie obejmował procesy dopasowywania kupującego i sprzedającego w trybie offline, wspomagane technologią opartą na regułach. Trumid podjął inicjatywę przekształcenia tego doświadczenia. Za pośrednictwem elektronicznej platformy transakcyjnej inwestorzy mogą uzyskać dostęp do tysięcy obligacji do kupna lub sprzedaży, społeczności zaangażowanych użytkowników do interakcji oraz różnorodnych protokołów transakcyjnych i rozwiązań egzekucyjnych. Dzięki rozwijającej się sieci użytkowników zespół AI i strategii danych Trumid nawiązał współpracę z Laboratorium rozwiązań uczenia maszynowego AWS. Celem było opracowanie systemów ML, które mogłyby zapewnić bardziej spersonalizowane doświadczenie handlowe poprzez modelowanie zainteresowania i preferencji użytkowników dla obligacji dostępnych na Trumid.

Te modele ML można wykorzystać do przyspieszenia czasu do wglądu i działania poprzez personalizację sposobu wyświetlania informacji każdemu użytkownikowi, aby zapewnić, że najbardziej odpowiednie i przydatne informacje, na których może zależeć trader, mają priorytet i są dostępne.

Aby rozwiązać to wyzwanie, Trumid i ML Solutions Lab opracowali kompleksowe przygotowanie danych, uczenie modeli i proces wnioskowania w oparciu o głęboki model sieci neuronowej zbudowany przy użyciu biblioteki Deep Graph Library for Knowledge Embedding (DGL-KE). Kompleksowe rozwiązanie z Amazon Sage Maker został również wdrożony.

Korzyści z uczenia maszynowego wykresów

Dane ze świata rzeczywistego są złożone i wzajemnie powiązane, a często zawierają struktury sieciowe. Przykłady obejmują molekuły w naturze, sieci społecznościowe, internet, drogi i platformy handlu finansowego.

Wykresy zapewniają naturalny sposób modelowania tej złożoności poprzez wyodrębnienie ważnych i bogatych informacji, które są osadzone w relacjach między jednostkami.

Tradycyjne algorytmy ML wymagają, aby dane były zorganizowane w postaci tabel lub sekwencji. To generalnie działa dobrze, ale niektóre domeny są bardziej naturalnie i efektywnie reprezentowane przez wykresy (takie jak sieć powiązanych ze sobą obiektów, jak zilustrowano w dalszej części tego postu). Zamiast zmuszać te zestawy danych wykresu do tabel lub sekwencji, można użyć algorytmów grafowej ML do reprezentowania i uczenia się na podstawie danych przedstawionych w formie wykresu, w tym informacji o węzłach składowych, krawędziach i innych funkcjach.

Biorąc pod uwagę, że obrót obligacjami jest z natury reprezentowany jako sieć interakcji między kupującymi i sprzedającymi obejmującymi różne rodzaje instrumentów obligacyjnych, skuteczne rozwiązanie musi wykorzystać efekty sieciowe społeczności handlowców uczestniczących w rynku. Spójrzmy, jak wykorzystaliśmy efekty sieci handlowej i wdrożyliśmy tę wizję tutaj.

Rozwiązanie

Handel obligacjami charakteryzuje się kilkoma czynnikami, w tym wielkością transakcji, terminem, emitentem, stawką, wartościami kuponów, ofertą kupna/sprzedaży i rodzajem protokołu handlowego. Oprócz zleceń i transakcji Trumid rejestruje również „wskazania zainteresowania” (IOI). Dane historyczne dotyczące interakcji odzwierciedlają zachowania handlowe i zmieniające się w czasie warunki rynkowe. Wykorzystaliśmy te dane do zbudowania wykresu interakcji oznaczonych znacznikiem czasu między handlowcami, obligacjami i emitentami, a także wykorzystaliśmy wykres ML do przewidywania przyszłych interakcji.

Rozwiązanie rekomendacji składało się z czterech głównych kroków:

  • Przygotowywanie danych handlowych jako zbioru danych wykresu
  • Trening modelu osadzania wykresu wiedzy
  • Przewidywanie nowych transakcji
  • Pakowanie rozwiązania jako skalowalnego przepływu pracy

W kolejnych sekcjach szczegółowo omówimy każdy krok.

Przygotowywanie danych handlowych jako zbioru danych wykresu

Istnieje wiele sposobów przedstawiania danych handlowych w postaci wykresu. Jedną z opcji jest wyczerpujące przedstawienie danych za pomocą węzłów, krawędzi i właściwości: handlowcy jako węzły z właściwościami (takimi jak pracodawca lub dzierżawa), obligacje jako węzły z właściwościami (emitent, kwota pozostająca do spłaty, termin zapadalności, stopa, wartość kuponu) i transakcje jako krawędzie z właściwościami (data, typ, rozmiar). Inną opcją jest uproszczenie danych i użycie tylko węzłów i relacji (relacje to typowane krawędzie, takie jak traded lub issued-by). To drugie podejście zadziałało lepiej w naszym przypadku i użyliśmy wykresu przedstawionego na poniższym rysunku.

Wykres relacji pomiędzy traderami, obligacjami i emitentami obligacji

Dodatkowo usunęliśmy niektóre krawędzie uważane za przestarzałe: jeśli trader wszedł w interakcję z ponad 100 różnymi obligacjami, zachowaliśmy tylko ostatnie 100 obligacji.

Na koniec zapisaliśmy zbiór danych wykresu jako listę krawędzi w TSV format:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Trening modelu osadzania wykresu wiedzy

W przypadku grafów składających się tylko z węzłów i relacji (często nazywanych grafami wiedzy) zespół DGL opracował platformę osadzania grafów wiedzy DGL-KE. KE oznacza osadzanie wiedzy, ideą jest reprezentowanie węzłów i relacji (wiedzy) przez współrzędne (osadzenia) i optymalizacja (uczenie) współrzędnych, tak aby można było odzyskać oryginalną strukturę wykresu ze współrzędnych. Z listy dostępnych modeli osadzania wybraliśmy TransE (osadzanie translacyjne). TransE trenuje osadzania w celu przybliżenia następującej równości:

Osadzanie węzła źródłowego + osadzanie relacji = osadzanie węzła docelowego (1)

Wyszkoliliśmy model, wywołując dglke_train Komenda. Dane wyjściowe szkolenia to folder modelu zawierający przeszkolone osadzania.

Aby uzyskać więcej informacji na temat TransE, zobacz Tłumaczenie osadzeń do modelowania danych wielorelacyjnych.

Przewidywanie nowych transakcji

Aby przewidzieć nowe transakcje od tradera za pomocą naszego modelu, użyliśmy równości (1): dodaj osadzanie tradera do osadzania niedawnego i szukaliśmy obligacji najbliżej wynikowego osadzania.

Zrobiliśmy to w dwóch krokach:

  1. Oblicz wyniki dla wszystkich możliwych ostatnich relacji handlowych z dglke_predict.
  2. Oblicz 100 najlepszych wyników dla każdego przedsiębiorcy.

Aby uzyskać szczegółowe instrukcje dotyczące korzystania z DGL-KE, zobacz Osadzanie wykresów wiedzy szkoleniowej na dużą skalę dzięki bibliotece Deep Graph i Dokumentacja DGL-KE.

Pakowanie rozwiązania jako skalowalnego przepływu pracy

Użyliśmy notatników SageMaker do opracowania i debugowania naszego kodu. W przypadku produkcji chcieliśmy wywołać model jako proste wywołanie API. Odkryliśmy, że nie musimy oddzielać przygotowania danych, trenowania modelu i przewidywania, i wygodnie było spakować cały potok jako pojedynczy skrypt i użyć przetwarzania SageMaker. Przetwarzanie SageMaker pozwala na zdalne uruchomienie skryptu na wybranym typie instancji i obrazie Dockera bez martwienia się o alokację zasobów i transfer danych. Było to dla nas proste i opłacalne, ponieważ instancja GPU jest używana i opłacana tylko w ciągu 15 minut potrzebnych do uruchomienia skryptu.

Aby uzyskać szczegółowe instrukcje dotyczące korzystania z przetwarzania SageMaker, zobacz Przetwarzanie Amazon SageMaker - w pełni zarządzane przetwarzanie danych i ocena modelu i Przetwarzanie.

Efekt

Nasz niestandardowy model wykresu działał bardzo dobrze w porównaniu z innymi metodami: wydajność poprawiona o 80%, z bardziej stabilnymi wynikami dla wszystkich typów traderów. Zmierzyliśmy wydajność za pomocą średniej pamięci (procent rzeczywistych transakcji przewidywanych przez rekomendującego, uśredniony dla wszystkich traderów). W przypadku innych standardowych wskaźników poprawa wynosiła od 50 do 130%.

Ta wydajność umożliwiła nam lepsze dopasowanie traderów i obligacji, co wskazuje na lepsze wrażenia traderów w ramach modelu, z uczeniem maszynowym stanowiącym duży krok naprzód w stosunku do zakodowanych na sztywno reguł, które mogą być trudne do skalowania.

Wnioski

Trumid koncentruje się na dostarczaniu społeczności użytkowników innowacyjnych produktów i usprawnień przepływu pracy. Budowa przyszłej sieci handlu kredytami wymaga ciągłej współpracy ze współpracownikami i ekspertami branżowymi, takimi jak laboratorium AWS ML Solutions Lab, które ma pomóc w szybszym wprowadzaniu innowacji.

Więcej informacji można znaleźć w następujących zasobach:


O autorach

Opracowywanie zaawansowanych systemów uczenia maszynowego w firmie Trumid za pomocą biblioteki Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Marca van Oudheusdena jest starszym analitykiem danych w zespole Amazon ML Solutions Lab w Amazon Web Services. Współpracuje z klientami AWS przy rozwiązywaniu problemów biznesowych za pomocą sztucznej inteligencji i uczenia maszynowego. Poza pracą można go spotkać na plaży, bawiącego się z dziećmi, surfującego czy kitesurfingowego.

Opracowywanie zaawansowanych systemów uczenia maszynowego w firmie Trumid za pomocą biblioteki Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Mutisya Ndunda jest szefem strategii danych i sztucznej inteligencji w Trumid. Jest doświadczonym specjalistą finansowym z ponad 20-letnim doświadczeniem instytucjonalnym w zakresie rynków kapitałowych, handlu i technologii finansowych. Mutisya ma silne zaplecze ilościowe i analityczne z ponad dziesięcioletnim doświadczeniem w dziedzinie sztucznej inteligencji, uczenia maszynowego i analityki big data. Przed Trumidem był prezesem Alpha Vertex, firmy zajmującej się technologiami finansowymi, oferującej instytucjom finansowym rozwiązania analityczne oparte na autorskich algorytmach sztucznej inteligencji. Mutisya posiada tytuł licencjata elektrotechniki na Cornell University oraz tytuł magistra inżynierii finansowej na Cornell University.

Opracowywanie zaawansowanych systemów uczenia maszynowego w firmie Trumid za pomocą biblioteki Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Izaak Privitera jest starszym analitykiem danych w laboratorium Amazon Machine Learning Solutions Lab, gdzie opracowuje dostosowane do potrzeb rozwiązania w zakresie uczenia maszynowego i głębokiego uczenia w celu rozwiązywania problemów biznesowych klientów. Pracuje przede wszystkim w przestrzeni komputerowej wizji, skupiając się na umożliwieniu klientom AWS rozproszonych szkoleń i aktywnej nauki.

Znak czasu:

Więcej z Uczenie maszynowe AWS