Sviluppo di sistemi avanzati di machine learning presso Trumid con la libreria Deep Graph per l'incorporamento della conoscenza

Ripubblicato da Platone

Seguaci: 0

Questo è un guest post scritto insieme a Mutisya Ndunda di Trumid.

Come molti settori, il mercato delle obbligazioni societarie non si presta a un approccio universale. È vasta, la liquidità è frammentata e i clienti istituzionali richiedono soluzioni su misura per le loro esigenze specifiche. I progressi nell'IA e nell'apprendimento automatico (ML) possono essere impiegati per migliorare l'esperienza del cliente, aumentare l'efficienza e l'accuratezza dei flussi di lavoro operativi e migliorare le prestazioni supportando molteplici aspetti del processo di trading.

Trumid è una società di tecnologia finanziaria che costruisce la rete di scambio di crediti di domani, un mercato per il trading efficiente, la diffusione delle informazioni e l'esecuzione tra i partecipanti al mercato delle obbligazioni societarie. Trumid sta ottimizzando l'esperienza di trading di crediti combinando un design di prodotto all'avanguardia e principi tecnologici con una profonda esperienza di mercato. Il risultato è una soluzione di trading integrata che offre un ecosistema completo di protocolli e strumenti di esecuzione all'interno di un'unica piattaforma intuitiva.

Il mercato del trading obbligazionario ha tradizionalmente coinvolto processi di abbinamento acquirente/venditore offline aiutati da una tecnologia basata su regole. Trumid ha intrapreso un'iniziativa per trasformare questa esperienza. Attraverso la sua piattaforma di trading elettronico, i trader possono accedere a migliaia di obbligazioni da acquistare o vendere, una comunità di utenti coinvolti con cui interagire e una varietà di protocolli di trading e soluzioni di esecuzione. Con una rete in espansione di utenti, il team AI e Data Strategy di Trumid ha collaborato con il Laboratorio di soluzioni di apprendimento automatico AWS. L'obiettivo era sviluppare sistemi ML in grado di offrire un'esperienza di trading più personalizzata modellando l'interesse e le preferenze degli utenti per le obbligazioni disponibili su Trumid.

Questi modelli ML possono essere utilizzati per accelerare i tempi di analisi e azione personalizzando il modo in cui le informazioni vengono visualizzate a ciascun utente per garantire che le informazioni più pertinenti e perseguibili che potrebbero interessare a un trader abbiano la priorità e siano accessibili.

Per risolvere questa sfida, Trumid e ML Solutions Lab hanno sviluppato un processo end-to-end di preparazione dei dati, training del modello e inferenza basato su un modello di rete neurale profonda costruito utilizzando la Deep Graph Library for Knowledge Embedding (DGL-KE). Una soluzione end-to-end con Amazon Sage Maker è stato anche schierato.

Vantaggi dell'apprendimento automatico dei grafi

I dati del mondo reale sono complessi e interconnessi e spesso contengono strutture di rete. Gli esempi includono molecole in natura, social network, Internet, strade e piattaforme di trading finanziario.

I grafici forniscono un modo naturale per modellare questa complessità estraendo informazioni importanti e ricche che sono incorporate nelle relazioni tra le entità.

Gli algoritmi ML tradizionali richiedono che i dati siano organizzati come tabelle o sequenze. Questo generalmente funziona bene, ma alcuni domini sono rappresentati in modo più naturale ed efficace da grafici (come una rete di oggetti correlati tra loro, come illustrato più avanti in questo post). Invece di forzare questi set di dati del grafico in tabelle o sequenze, puoi utilizzare algoritmi di ML del grafico sia per rappresentare che per imparare dai dati presentati nella forma del grafico, comprese le informazioni sui nodi costituenti, gli spigoli e altre caratteristiche.

Considerando che il trading obbligazionario è intrinsecamente rappresentato come una rete di interazioni tra acquirenti e venditori che coinvolgono vari tipi di strumenti obbligazionari, una soluzione efficace deve sfruttare gli effetti di rete delle comunità di trader che partecipano al mercato. Diamo un'occhiata a come abbiamo sfruttato gli effetti della rete commerciale e implementato questa visione qui.

Soluzione

Il trading di obbligazioni è caratterizzato da diversi fattori, tra cui dimensione dell'operazione, durata, emittente, tasso, valori delle cedole, offerta bid/ask e tipo di protocollo di trading coinvolto. Oltre a ordini e scambi, Trumid acquisisce anche "indicazioni di interesse" (IOI). I dati storici di interazione incarnano il comportamento di trading e le condizioni di mercato che si evolvono nel tempo. Abbiamo utilizzato questi dati per costruire un grafico delle interazioni con timestamp tra trader, obbligazioni ed emittenti e abbiamo utilizzato il grafico ML per prevedere le interazioni future.

La soluzione di raccomandazione comprendeva quattro fasi principali:

Preparazione dei dati di trading come set di dati grafico
Formazione di un modello di incorporamento di grafi della conoscenza
Prevedere nuove operazioni
Imballaggio della soluzione come flusso di lavoro scalabile

Nelle sezioni seguenti, discuteremo ogni passaggio in modo più dettagliato.

Preparazione dei dati di trading come set di dati grafico

Esistono molti modi per rappresentare i dati di trading sotto forma di grafico. Un'opzione è rappresentare i dati in modo esaustivo con nodi, margini e proprietà: trader come nodi con proprietà (come datore di lavoro o proprietà), obbligazioni come nodi con proprietà (emittente, importo in essere, scadenza, tasso, valore della cedola) e operazioni come bordi con proprietà (data, tipo, dimensione). Un'altra opzione è semplificare i dati e utilizzare solo nodi e relazioni (le relazioni sono bordi tipizzati come scambiati o emessi da). Quest'ultimo approccio ha funzionato meglio nel nostro caso e abbiamo utilizzato il grafico rappresentato nella figura seguente.

Grafico delle relazioni tra trader, obbligazioni ed emittenti obbligazionari

Inoltre, abbiamo rimosso alcuni dei margini considerati obsoleti: se un trader interagiva con più di 100 obbligazioni diverse, mantenevamo solo le ultime 100 obbligazioni.

Infine, abbiamo salvato il set di dati del grafico come elenco di archi in TSV formato:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Formazione di un modello di incorporamento di grafi della conoscenza

Per i grafi composti solo da nodi e relazioni (spesso chiamati grafi della conoscenza), il team DGL ha sviluppato il framework di incorporamento dei grafi della conoscenza DGL-KE. KE sta per knowledge embedding, l'idea è di rappresentare nodi e relazioni (conoscenza) per coordinate (embedding) e ottimizzare (train) le coordinate in modo che la struttura del grafico originale possa essere recuperata dalle coordinate. Nell'elenco dei modelli di incorporamento disponibili, abbiamo selezionato TransE (incorporamenti traslazionali). TransE allena gli embedding con l'obiettivo di approssimare la seguente uguaglianza:

Incorporamento del nodo di origine + Incorporamento della relazione = Incorporamento del nodo di destinazione (1)

Abbiamo addestrato il modello invocando il dglke_train comando. L'output del training è una cartella del modello contenente gli incorporamenti addestrati.

Per maggiori dettagli su TransE, fare riferimento a Traduzione di incorporamenti per la modellazione di dati multirelazionali.

Prevedere nuove operazioni

Per prevedere le nuove operazioni di un trader con il nostro modello, abbiamo utilizzato l'uguaglianza (1): aggiungi l'incorporamento del trader all'incorporamento recente dell'operazione e abbiamo cercato le obbligazioni più vicine all'incorporamento risultante.

Lo abbiamo fatto in due passaggi:

Calcola i punteggi per tutte le possibili relazioni commerciali recenti con dglke_predict.
Calcola i primi 100 punteggi più alti per ogni trader.

Per istruzioni dettagliate su come utilizzare il DGL-KE, fare riferimento a Formazione sugli incantesimi dei grafici delle conoscenze su larga scala con la Deep Graph Library ed Documentazione DGL-KE.

Imballaggio della soluzione come flusso di lavoro scalabile

Abbiamo utilizzato i notebook SageMaker per sviluppare ed eseguire il debug del nostro codice. Per la produzione, abbiamo voluto invocare il modello come una semplice chiamata API. Abbiamo scoperto che non era necessario separare la preparazione dei dati, l'addestramento del modello e la previsione ed era conveniente creare un pacchetto dell'intera pipeline come un unico script e utilizzare l'elaborazione SageMaker. L'elaborazione di SageMaker consente di eseguire uno script in remoto su un tipo di istanza e un'immagine Docker scelti senza doversi preoccupare dell'allocazione delle risorse e del trasferimento dei dati. Questo è stato semplice ed economico per noi, perché l'istanza GPU viene utilizzata e pagata solo durante i 15 minuti necessari per l'esecuzione dello script.

Per istruzioni dettagliate su come utilizzare l'elaborazione SageMaker, vedere Elaborazione Amazon SageMaker: elaborazione dati completamente gestita e valutazione del modello ed Processando.

Risultati

Il nostro modello grafico personalizzato si è comportato molto bene rispetto ad altri metodi: prestazioni migliorate dell'80%, con risultati più stabili su tutti i tipi di trader. Abbiamo misurato le prestazioni in base al richiamo medio (percentuale di operazioni effettive previste dal suggeritore, mediata su tutti i trader). Con altre metriche standard, il miglioramento variava dal 50 al 130%.

Questa performance ci ha permesso di abbinare meglio trader e obbligazioni, indicando una migliore esperienza di trading all'interno del modello, con l'apprendimento automatico che offre un grande passo avanti rispetto alle regole hard-coded, che possono essere difficili da scalare.

Conclusione

Trumid si concentra sulla fornitura di prodotti innovativi ed efficienza del flusso di lavoro alla propria comunità di utenti. Costruire la rete di scambio di crediti di domani richiede una collaborazione continua con colleghi ed esperti del settore come l'AWS ML Solutions Lab, progettato per aiutarti a innovare più velocemente.

Per ulteriori informazioni, vedere le seguenti risorse:

Circa gli autori

Marc van Oudheusden è un Senior Data Scientist con il team Amazon ML Solutions Lab di Amazon Web Services. Collabora con i clienti AWS per risolvere i problemi aziendali con l'intelligenza artificiale e l'apprendimento automatico. Al di fuori del lavoro potresti trovarlo in spiaggia, giocare con i suoi figli, fare surf o kitesurf.

Mutisya Ndunda è il responsabile della strategia dei dati e dell'intelligenza artificiale di Trumid. È un professionista finanziario esperto con oltre 20 anni di vasta esperienza istituzionale nei mercati dei capitali, nel trading e nella tecnologia finanziaria. Mutisya ha un forte background quantitativo e analitico con oltre un decennio di esperienza nell'intelligenza artificiale, nell'apprendimento automatico e nell'analisi dei big data. Prima di Trumid, è stato CEO di Alpha Vertex, una società di tecnologia finanziaria che offre soluzioni analitiche basate su algoritmi di intelligenza artificiale proprietari per le istituzioni finanziarie. Mutisya ha conseguito una laurea in Ingegneria Elettrica presso la Cornell University e un master in Ingegneria Finanziaria presso la Cornell University.

Sviluppo di sistemi avanzati di machine learning presso Trumid con la Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Isacco Privitera è Senior Data Scientist presso Amazon Machine Learning Solutions Lab, dove sviluppa soluzioni personalizzate di machine learning e deep learning per affrontare i problemi aziendali dei clienti. Lavora principalmente nello spazio della visione artificiale, concentrandosi sull'offerta ai clienti AWS di formazione distribuita e apprendimento attivo.