Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Libraryn, AWS-palveluiden ja Amazon SageMakerin avulla

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Libraryn, AWS-palveluiden ja Amazon SageMakerin avulla

Tämän viestin ovat kirjoittaneet Marios Skevofylakas, Jason Ramchandani ja Haykaz Aramyan Refinitivistä, An LSEG Business.

Rahoituspalveluntarjoajien on usein tunnistettava asiaankuuluvat uutiset, analysoitava ne, poimittava oivalluksia ja ryhdyttävä toimiin reaaliajassa, kuten käydä kauppaa tietyillä instrumenteilla (kuten hyödykkeillä, osakkeilla, rahastoilla) lisätietojen tai uutisen kontekstin perusteella. Yksi tällainen lisätieto (jota käytämme esimerkkinä tässä viestissä) on uutisen tunne.

Refinitiv Data (RD) -kirjastot tarjoavat kattavan joukon rajapintoja Refinitiv Data Cataloguen yhtenäiseen käyttöön. Kirjasto tarjoaa useita abstraktiokerroksia, jotka tarjoavat erilaisia ​​tyylejä ja ohjelmointitekniikoita, jotka sopivat kaikille kehittäjille, alhaisesta viiveestä, reaaliaikaisesta pääsystä Refinitiv-tietojen eräantamiseen.

Tässä viestissä esittelemme prototyypin AWS-arkkitehtuurin, joka syöttää uutissyötteemme RD-kirjastojen avulla ja parantaa niitä koneoppimismallien (ML) ennusteilla käyttämällä Amazon Sage Maker, täysin hallittu ML-palvelu AWS:ltä.

Pyrimme suunnittelemaan modulaarisen arkkitehtuurin, jota voitaisiin käyttää erilaisissa käyttötapauksissa, kuten tunneanalyysissä, nimettyjen entiteettien tunnistamisessa ja muissa, riippumatta tehostamiseen käytetystä ML-mallista, päätimme keskittyä reaaliaikaiseen tilaan. Syynä tähän päätökseen on se, että reaaliaikaiset käyttötapaukset ovat yleensä monimutkaisempia ja että samaa arkkitehtuuria voidaan käyttää myös eräpäätelmien tekemiseen minimaalisilla säädöillä. Käyttötapauksessamme otamme käyttöön arkkitehtuurin, joka syöttää reaaliaikaisen uutissyötteemme, laskee jokaisen uutisotsikon mielipiteen ML:n avulla ja palvelee uudelleen tekoälyn parannetun syötteen julkaisija/tilaaja-arkkitehtuurin kautta.

Lisäksi esitelläksemme kattavan ja uudelleenkäytettävän tavan tuottaa ML-malleja ottamalla käyttöön MLOps-käytäntöjä, otamme käyttöön käsitteen infrastruktuuri koodina (IaC) prototyypin koko MLOps-elinkaarin ajan. Käyttämällä Terraformia ja yhden aloituspisteen konfiguroitavaa skriptiä pystymme instantoimaan koko infrastruktuurin tuotantotilassa AWS:llä muutamassa minuutissa.

Tässä ratkaisussa emme käsittele yksittäisten mallien kehittämisen, koulutuksen ja käyttöönoton MLOps-näkökulmaa. Jos olet kiinnostunut oppimaan lisää tästä, katso MLOps-säätiön etenemissuunnitelma yrityksille Amazon SageMakerin kanssa, joka selittää yksityiskohtaisesti mallin rakentamisen, koulutuksen ja käyttöönoton puitteet parhaiden käytäntöjen mukaisesti.

Ratkaisun yleiskatsaus

Tässä prototyypissä noudatamme täysin automatisoitua provisiointimenetelmää IaC:n mukaisesti parhaat käytännöt. IaC on prosessi, jossa resursseja valmistetaan ohjelmallisesti käyttämällä automaattisia komentosarjoja interaktiivisten määritystyökalujen sijaan. Resurssit voivat olla sekä laitteistoja että tarvittavia ohjelmistoja. Meidän tapauksessamme käytämme Terraformia toteuttaaksemme yhden konfiguroitavan aloituspisteen, joka voi automaattisesti pyörittää koko tarvitsemamme infrastruktuurin, mukaan lukien turvallisuus- ja pääsykäytännöt sekä automaattisen valvonnan. Tällä yhdellä sisääntulopisteellä, joka käynnistää kokoelman Terraform-skriptejä, yksi palvelua tai resurssikokonaisuutta kohden, voimme täysin automatisoida arkkitehtuurin kaikkien komponenttien tai osien elinkaaren, jolloin voimme toteuttaa rakeisen ohjauksen sekä DevOpsissa että MLOps-puolella. Kun Terraform on asennettu oikein ja integroitu AWS:ään, voimme toistaa useimmat AWS-palvelun kojelaudoilla suoritettavat toiminnot.

Seuraava kaavio kuvaa ratkaisuarkkitehtuuriamme.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Arkkitehtuuri koostuu kolmesta vaiheesta: nieleminen, rikastaminen ja julkaisu. Ensimmäisessä vaiheessa reaaliaikaiset syötteet syötetään Amazonin elastinen laskentapilvi (Amazon EC2) -esiintymä, joka on luotu Refinitiv Data Library -yhteensopivan AMI:n kautta. Ilmentymä myös muodostaa yhteyden tietovirtaan kautta Amazon Kinesis -tietovirrat, joka laukaisee AWS Lambda toiminto.

Toisessa vaiheessa Lambda-toiminto, joka laukeaa Kinesis Data Streamsista, muodostaa yhteyden SageMakeriin ja lähettää uutisotsikot siihen. FinBERT päätepiste, joka palauttaa uutisen lasketun tunnelman. Tämä laskettu mielipide on reaaliaikaisten tietojen rikastus, jonka Lambda-funktio sitten kääri uutisen ja tallentaa sen Amazon DynamoDB pöytä.

Arkkitehtuurin kolmannessa vaiheessa DynamoDB-virta laukaisee Lambda-toiminnon uusissa nimikkeiden lisäyksissä, joka on integroitu Amazon MQ -palvelin käynnissä RabbitMQ, joka palvelee uudelleen tekoälyn parannettua streamia.

Päätös tästä kolmivaiheisesta suunnittelusta sen sijaan, että ensimmäinen Lambda-kerros kommunikoi suoraan Amazon MQ -palvelimen kanssa tai toteuttaisi enemmän toimintoja EC2-instanssissa, tehtiin mahdollistamaan monimutkaisempien, vähemmän kytkettyjen AI-suunnitteluarkkitehtuurien tutkiminen tulevaisuudessa.

Prototyypin rakentaminen ja käyttöönotto

Esittelemme tämän prototyypin kolmen yksityiskohtaisen suunnitelman sarjana. Jokaisesta suunnitelmasta ja jokaisesta käytetystä palvelusta löydät yleiskatsaukset ja asiaankuuluvat tiedot sen teknisistä toteutuksista sekä Terraform-komentosarjat, joiden avulla voit automaattisesti käynnistää, määrittää ja integroida palvelun muuhun rakenteeseen. Jokaisen suunnitelman lopusta löydät ohjeet kuinka varmistaa, että kaikki toimii odotetulla tavalla jokaiseen vaiheeseen asti. Piirustukset ovat seuraavat:

Tämän prototyypin toteutuksen aloittamiseksi suosittelemme luomaan sille omistetun uuden Python-ympäristön ja asentamaan tarvittavat paketit ja työkalut erillään muista mahdollisista ympäristöistä. Voit tehdä tämän luomalla ja aktivoimalla uuden ympäristön Anacondassa seuraavilla komennoilla:

conda create —name rd_news_aws_terraform python=3.7
conda activate rd_news_aws_terraform

Olemme nyt valmiita asentamaan AWS-komentoriviliitäntä (AWS CLI) -työkalusarja, jonka avulla voimme rakentaa kaikki tarvittavat ohjelmalliset vuorovaikutukset AWS-palveluissa ja niiden välillä:

pip install awscli

Nyt kun AWS CLI on asennettu, meidän on asennettava Terraform. HashiCorp tarjoaa Terraformille binaarisen asennusohjelman, jonka voit tehdä download ja asenna.

Kun olet asentanut molemmat työkalut, varmista, että ne toimivat oikein seuraavilla komennoilla:

terraform -help
AWS – version

Olet nyt valmis seuraamaan yksityiskohtaisia ​​suunnitelmia toteutuksen jokaisessa kolmessa vaiheessa.

Tämä suunnitelma edustaa arkkitehtuurin alkuvaiheita, joiden avulla voimme niellä reaaliaikaisia ​​uutissyötteitä. Se koostuu seuraavista komponenteista:

  • Amazon EC2 valmistelee ilmentymääsi RD-uutisten käsittelyä varten – Tässä osiossa määritetään EC2-ilmentymä siten, että se mahdollistaa yhteyden muodostamisen RD Libraries API:hen ja reaaliaikaiseen streamiin. Näytämme myös, kuinka luodun ilmentymän kuva tallennetaan sen uudelleenkäytettävyyden ja skaalautuvuuden varmistamiseksi.
  • Reaaliaikainen uutisten kerääminen Amazon EC2:sta – Yksityiskohtainen toteutus määrityksistä, joita tarvitaan, jotta Amazon EC2 voi yhdistää RD-kirjastot sekä komentosarjat sisäänoton aloittamiseksi.
  • Amazon EC2:n luominen ja käynnistäminen AMI:stä – Käynnistä uusi ilmentymä siirtämällä samalla sisäänottotiedostot äskettäin luotuun ilmentymään, kaikki automaattisesti Terraformin avulla.
  • Kinesis-tietovirran luominen – Tämä osio tarjoaa yleiskatsauksen Kinesis-tietovirroista ja streamin määrittämisestä AWS:ssä.
  • Tietojen yhdistäminen ja työntäminen Kinesikseen – Kun sisäänottokoodi toimii, meidän on yhdistettävä se ja lähetettävä tiedot Kinesis-streamiin.
  • Prototyyppiä testattu tähän mennessä - Käytämme amazonin pilvikello ja komentorivityökalut varmistaaksemme, että prototyyppi toimii tähän asti ja että voimme jatkaa seuraavaan suunnitelmaan. Syöttyjen tietojen lokin pitäisi näyttää seuraavalta kuvakaappaukselta.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Tässä toisessa suunnitelmassa keskitymme arkkitehtuurin pääosaan: Lambda-toimintoon, joka imee ja analysoi uutisvirran, liittää siihen tekoälyn päätelmän ja tallentaa sen myöhempää käyttöä varten. Se sisältää seuraavat komponentit:

  • Lambda – Määritä Terraform Lambda -kokoonpano, jonka avulla se voi muodostaa yhteyden SageMaker-päätepisteeseen.
  • Amazon S3 – Lambdan käyttöönottoa varten meidän on ladattava sopiva koodi osoitteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ja anna Lambda-toiminnon imeä se ympäristöönsä. Tässä osiossa kuvataan, kuinka voimme käyttää Terraformia sen saavuttamiseen.
  • Lambda-toiminnon toteuttaminen: Vaihe 1, Kinesis-tapahtuman käsittely – Tässä osiossa lähdetään rakentamaan Lambda-toimintoa. Tässä rakennamme vain Kinesis-tietovirran vastauskäsittelijän osan.
  • SageMaker – Tässä prototyypissä käytämme valmiiksi koulutettua Hugging Face -mallia, jonka tallennamme SageMaker-päätepisteeseen. Tässä esittelemme, kuinka tämä voidaan saavuttaa käyttämällä Terraform-skriptejä ja kuinka sopivat integraatiot tapahtuvat, jotta SageMaker-päätepisteet ja Lambda-toiminnot toimivat yhdessä.
    • Tässä vaiheessa voit sen sijaan käyttää mitä tahansa muuta mallia, jonka olet kehittänyt ja ottanut käyttöön SageMaker-päätepisteen takana. Tällainen malli voisi tarjota erilaisen parannuksen alkuperäiseen uutisdataan tarpeidesi perusteella. Valinnaisesti tämä voidaan ekstrapoloida useisiin malleihin useita parannuksia varten, jos sellaisia ​​on olemassa. Muun arkkitehtuurin ansiosta kaikki tällaiset mallit rikastuttavat tietolähteitäsi reaaliajassa.
  • Lambda-funktion rakentaminen: Vaihe 2, SageMaker-päätepisteen kutsuminen – Tässä osiossa rakennamme alkuperäisen Lambda-toimintomme lisäämällä SageMaker-lohkon saadaksemme tunteita parantavan uutisotsikon käyttämällä SageMaker-päätepistettä.
  • DynamoDB – Lopuksi, kun AI-päätelmä on Lambda-funktion muistissa, se niputtaa kohteen uudelleen ja lähettää sen DynamoDB-taulukkoon tallennettavaksi. Täällä keskustelemme sekä sopivasta Python-koodista, joka tarvitaan tämän saavuttamiseen, että tarvittavista Terraform-skripteistä, jotka mahdollistavat nämä vuorovaikutukset.
  • Lambda-funktion rakentaminen: Vaihe 3, Parannettujen tietojen työntäminen DynamoDB:hen – Tässä jatkamme Lambda-funktion rakentamista lisäämällä viimeisen osan, joka luo merkinnän Dynamo-taulukkoon.
  • Prototyyppiä testattu tähän mennessä – Voimme navigoida DynamoDB-taulukkoon DynamoDB-konsolissa varmistaaksemme, että parannukset näkyvät taulukossa.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Tämä kolmas suunnitelma viimeistelee tämän prototyypin. Se keskittyy äskettäin luodun, tekoälyllä parannetun datan uudelleenjakamiseen RabbitMQ-palvelimelle Amazon MQ:ssa, jolloin kuluttajat voivat muodostaa yhteyden ja hakea parannettuja uutisia reaaliajassa. Se sisältää seuraavat komponentit:

  • DynamoDB-virrat – Kun parannettu uutinen on DynamoDB:ssä, määritämme tapahtuman, joka käynnistyy, joka voidaan sitten kaapata sopivasta Lambda-toiminnosta.
  • Lambdan tuottajan kirjoittaminen – Tämä Lambda-toiminto tallentaa tapahtuman ja toimii RabbitMQ-virran tuottajana. Tämä uusi toiminto esittelee Lambda-tasojen käsitteen, koska se käyttää Python-kirjastoja toteuttamaan tuottajatoimintoja.
  • Amazon MQ ja RabbitMQ kuluttajat – Prototyypin viimeinen vaihe on RabbitMQ-palvelun käyttöönotto ja esimerkkikuluttajan käyttöönotto, joka muodostaa yhteyden viestivirtaan ja vastaanottaa tekoälyllä tehostetut uutiset.
  • Prototyypin viimeinen testi – Käytämme päästä päähän -prosessia varmistaaksemme, että prototyyppi toimii täysin, syöttämisestä uuden tekoälyllä parannetun streamin uudelleenkäyttöön ja kulutukseen.

Tässä vaiheessa voit vahvistaa, että kaikki on toiminut siirtymällä RabbitMQ-koontinäyttöön seuraavan kuvakaappauksen mukaisesti.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Lopullisesta suunnitelmasta löydät myös yksityiskohtaisen testivektorin varmistaaksesi, että koko arkkitehtuuri toimii suunnitellusti.

Yhteenveto

Tässä viestissä jaoimme ratkaisun, joka käyttää ML:ää pilvessä AWS-palvelujen, kuten SageMaker (ML), Lambda (palvelimeton) ja Kinesis Data Streams (suoratoisto) kanssa Refinitiv Data Librariesin tarjoamien uutistietojen rikastamiseksi. Ratkaisu lisää reaaliajassa mielipidepisteitä uutisiin ja skaalaa infrastruktuurin koodin avulla.

Tämän modulaarisen arkkitehtuurin etuna on, että voit käyttää sitä uudelleen oman mallisi kanssa muun tyyppisten tietojen lisäysten suorittamiseen palvelimettomalla, skaalautuvalla ja kustannustehokkaalla tavalla, jota voidaan soveltaa Refinitiv Data Libraryn päälle. Tämä voi lisätä arvoa kaupankäynnin/sijoittamisen/riskienhallinnan työnkulkuihin.

Jos sinulla on kommentteja tai kysymyksiä, jätä ne kommenttiosioon.

Asiaan liittyvät tiedot


 Tietoja Tekijät

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Marios Skevofylakas tulee finanssipalvelu-, investointipankki- ja konsultointiteknologiataustalta. Hän on koulutukseltaan tekniikan tohtori. Tekoäly ja M.Sc. Machine Visionissa. Koko uransa aikana hän on osallistunut lukuisiin monitieteisiin AI- ja DLT-projekteihin. Tällä hetkellä hän toimii kehittäjänä Refinitivillä, LSEG-liiketoiminnalla, joka keskittyy tekoäly- ja kvanttisovelluksia rahoituspalveluissa.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Jason Ramchandani on työskennellyt Refinitivissä, LSEG-liiketoiminnassa, 8 vuotta johtavana kehittäjäasianajajana auttaen rakentamaan heidän kehittäjäyhteisöään. Aiemmin hän on työskennellyt rahoitusmarkkinoilla yli 15 vuoden ajan ja hänellä on laaja tausta osake-/osakesidonnaisessa toimipisteessä Okasan Securitiesissa, Sakura Financessa ja Jefferies LLC:ssä. Hänen alma mater on UCL.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Haykaz Aramjan tulee talous- ja teknologiataustasta. Hän on koulutukseltaan Ph.D. rahoituksessa ja diplomi-insinööri. Talous, teknologia ja politiikka. 10 vuoden ammatillisen kokemuksen kautta Haykaz työskenteli useissa monitieteisissä projekteissa, joihin osallistuivat eläke-, riskipääomarahastot ja teknologia-startupit. Tällä hetkellä hän on Refinitivin, An LSEG Businessin, kehittäjäasianajaja, joka keskittyy tekoälysovelluksiin rahoituspalveluissa.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Georgios Schinas on AI/ML:n vanhempi asiantuntijaratkaisuarkkitehti EMEA-alueella. Hänen kotipaikkansa on Lontoossa ja hän tekee läheistä yhteistyötä Iso-Britannian ja Irlannin asiakkaiden kanssa. Georgios auttaa asiakkaita suunnittelemaan ja ottamaan käyttöön koneoppimissovelluksia AWS:n tuotannossa, ja he ovat erityisen kiinnostuneita MLOps-käytännöistä ja mahdollistavat asiakkaiden koneoppimisen mittakaavassa. Vapaa-ajallaan hän nauttii matkustamisesta, ruoanlaitosta ja viettämisestä ystävien ja perheen kanssa.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Muthuvelan Swaminathan on Enterprise Solutions -arkkitehti New Yorkista. Hän työskentelee yritysasiakkaiden kanssa tarjoten arkkitehtonista ohjausta kestävien, kustannustehokkaiden ja innovatiivisten ratkaisujen rakentamisessa, jotka vastaavat heidän liiketoiminnan tarpeisiinsa ja auttavat heitä toteuttamaan mittakaavassa AWS-tuotteita ja -palveluita.

Reaaliaikaisten uutisvirtojen rikastaminen Refinitiv Data Librarylla, AWS-palveluilla ja Amazon SageMaker PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.Mayur Udernani johtaa AWS AI & ML -liiketoimintaa kaupallisten yritysten kanssa Isossa-Britanniassa ja Irlannissa. Roolissaan Mayur viettää suurimman osan ajastaan ​​asiakkaiden ja kumppaneiden kanssa auttaakseen luomaan vaikuttavia ratkaisuja, jotka ratkaisevat asiakkaan kiireellisimmät tarpeet, tai laajemmalle toimialalle hyödyntäen AWS-pilvi-, tekoäly- ja ML-palveluita. Mayur asuu Lontoon alueella. Hän on suorittanut MBA-tutkinnon Indian Institute of Managementista ja tietokonetekniikan kandidaatintutkinnon Mumbain yliopistosta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen