Reaalajas uudistevoogude rikastamine Refinitivi andmekogu, AWS-i teenuste ja Amazon SageMakeriga

Reaalajas uudistevoogude rikastamine Refinitivi andmekogu, AWS-i teenuste ja Amazon SageMakeriga

Selle postituse kaasautorid on Marios Skevofylakas, Jason Ramchandani ja Haykaz Aramyan ettevõttest Refinitiv, An LSEG Business.

Finantsteenuste pakkujad peavad sageli tuvastama asjakohased uudised, analüüsima neid, hankima teadmisi ja võtma reaalajas toiminguid, näiteks kauplema konkreetsete instrumentidega (nt kaubad, aktsiad, fondid), tuginedes täiendavale teabele või uudise kontekstile. Üks selline lisateave (mida me siin postituses näitena kasutame) on uudiste sentiment.

Refinitiv Data (RD) raamatukogud pakuvad laiaulatuslikku liideste komplekti ühtseks juurdepääsuks Refinitivi andmekataloogile. Teek pakub mitut abstraktsioonikihti, pakkudes erinevaid stiile ja programmeerimistehnikaid, mis sobivad kõigile arendajatele, alates madala latentsusega reaalajas juurdepääsust kuni Refinitivi andmete partii sissevõtmiseni.

Selles postituses tutvustame AWS-i arhitektuuri prototüüpi, mis neelab meie uudistevooge RD raamatukogude abil ja täiustab neid masinõppe (ML) mudeli ennustustega, kasutades Amazon SageMaker, AWS-i täielikult hallatav ML-teenus.

Püüdes kujundada modulaarset arhitektuuri, mida saaks kasutada mitmesugustel kasutusjuhtudel, nagu sentimentanalüüs, nimega olemi tuvastamine ja palju muud, olenemata täiustamiseks kasutatavast ML-mudelist, otsustasime keskenduda reaalajas olevale ruumile. Selle otsuse põhjuseks on see, et reaalajas kasutatavad kasutusjuhud on üldiselt keerukamad ja sama arhitektuuri saab minimaalsete kohandustega kasutada ka partii järelduste tegemiseks. Meie kasutusjuhtumil rakendame arhitektuuri, mis neelab meie reaalajas uudistevoo, arvutab ML-i abil iga uudise pealkirja kohta sentimenti ja teenindab uuesti AI täiustatud voogu avaldaja/tellija arhitektuuri kaudu.

Lisaks tutvustame kõikehõlmavat ja korduvkasutatavat viisi ML-mudelite tootmiseks MLOps-tavade kasutuselevõtu kaudu, tutvustame infrastruktuuri kui koodi (IaC) kontseptsiooni kogu prototüübi MLOps-i elutsükli jooksul. Terraformi ja ühe sisestuspunktiga konfigureeritava skripti abil suudame kogu infrastruktuuri tootmisrežiimis luua AWS-is vaid mõne minutiga.

Selles lahenduses ei käsitle me üksikute mudelite arendamise, koolituse ja juurutamise MLOps-aspekti. Kui soovite selle kohta rohkem teada saada, vaadake MLOpsi sihtasutuse tegevuskava Amazon SageMakeriga ettevõtetele, mis selgitab üksikasjalikult mudeli loomise, koolituse ja parimate tavade kasutuselevõtu raamistikku.

Lahenduse ülevaade

Selles prototüübis järgime täielikult automatiseeritud varustamise metoodikat kooskõlas IaC-ga parimaid tavasid. IaC on ressursside programmiline varustamise protsess, kasutades automaatseid skripte, mitte kasutades interaktiivseid konfiguratsioonitööriistu. Ressurss võib olla nii riistvara kui ka vajalik tarkvara. Meie puhul kasutame Terraformi ühe konfigureeritava sisestuspunkti juurutamiseks, mis suudab automaatselt keerutada kogu meile vajaliku infrastruktuuri, sealhulgas turva- ja juurdepääsupoliitikad ning automaatse jälgimise. Selle ainsa sisenemispunktiga, mis käivitab Terraformi skriptide kogumi (üks iga teenuse või ressursiüksuse kohta), saame täielikult automatiseerida arhitektuuri komponentide või osade elutsükli, võimaldades meil rakendada üksikasjalikku juhtimist nii DevOpsis kui ka MLOps pool. Pärast seda, kui Terraform on õigesti installitud ja AWS-iga integreeritud, saame kopeerida enamikku toiminguid, mida saab teha AWS-i teenuse armatuurlaudadel.

Järgmine diagramm illustreerib meie lahenduse arhitektuuri.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Arhitektuur koosneb kolmest etapist: allaneelamine, rikastamine ja avaldamine. Esimeses etapis neelatakse reaalajas kanalid sisse Amazon Elastic Compute Cloud (Amazon EC2) eksemplar, mis on loodud Refinitiv Data Library-valmis AMI kaudu. Eksemplar loob ühenduse ka andmevooga läbi Amazon Kinesise andmevood, mis käivitab an AWS Lambda funktsiooni.

Teises etapis loob Lambda funktsioon, mis käivitatakse Kinesise andmevoogudest, ühenduse SageMakeriga ja saadab sellele uudiste pealkirjad. FinBERT lõpp-punkt, mis tagastab uudise arvutatud meeleolu. See arvutatud sentiment on reaalajas andmete rikastamine, mille Lambda funktsioon seejärel uudise mähib ja salvestab Amazon DynamoDB tabelis.

Arhitektuuri kolmandas etapis käivitab DynamoDB voog uutel üksuste lisadel Lambda funktsiooni, mis on integreeritud Amazon MQ server töötab RabbitMQ, mis teenindab uuesti AI täiustatud voogu.

Otsus selle kolmeastmelise insenertehnilise disaini, mitte esimese Lambda kihi kohta, mis suhtleb otse Amazon MQ serveriga või rakendab EC2 eksemplaris rohkem funktsioone, tehti selleks, et võimaldada tulevikus uurida keerukamaid, vähem seotud AI disainiarhitektuure.

Prototüübi ehitamine ja juurutamine

Esitleme seda prototüüpi kolmest üksikasjalikust joonisest koosneva seeriana. Igast kavandist ja iga kasutatud teenuse kohta leiate ülevaated ja asjakohast teavet selle tehniliste rakenduste ning Terraformi skriptide kohta, mis võimaldavad teil teenust automaatselt käivitada, konfigureerida ja ülejäänud struktuuriga integreerida. Iga kavandi lõpust leiate juhised selle kohta, kuidas veenduda, et kõik toimib iga etapini ootuspäraselt. Kavandid on järgmised:

Selle prototüübi juurutamise alustamiseks soovitame luua sellele pühendatud uus Pythoni keskkond ning installida vajalikud paketid ja tööriistad teistest keskkondadest eraldi. Selleks looge ja aktiveerige Anaconda uus keskkond, kasutades järgmisi käske:

conda create —name rd_news_aws_terraform python=3.7
conda activate rd_news_aws_terraform

Oleme nüüd installimiseks valmis AWS-i käsurea liides (AWS CLI) tööriistakomplekt, mis võimaldab meil luua kõik vajalikud programmilised interaktsioonid AWS-i teenustes ja nende vahel:

pip install awscli

Nüüd, kui AWS CLI on installitud, peame installima Terraformi. HashiCorp pakub Terraformile binaarinstallerit, mida saate teha lae alla Ja installige.

Pärast mõlema tööriista installimist veenduge, et need töötavad korralikult, kasutades järgmisi käske:

terraform -help
AWS – version

Nüüd olete valmis järgima üksikasjalikke jooniseid rakendamise iga kolme etapi kohta.

See plaan esindab arhitektuuri algetappe, mis võimaldavad meil reaalajas uudistevooge neelata. See koosneb järgmistest komponentidest:

  • Amazon EC2 valmistab teie eksemplari ette RD Newsi allaneelamiseks – Selles jaotises seadistatakse EC2 eksemplar nii, et see võimaldab ühenduse luua RD Libraries API ja reaalajas vooga. Samuti näitame, kuidas salvestada loodud eksemplari pilti, et tagada selle korduvkasutatavus ja skaleeritavus.
  • Reaalajas uudiste allaneelamine Amazon EC2-st – Nende konfiguratsioonide üksikasjalik juurutamine, mis on vajalikud selleks, et Amazon EC2 saaks ühendada RD-teegid ja skriptid allaneelamise alustamiseks.
  • Amazon EC2 loomine ja käivitamine AMI-st – Käivitage uus eksemplar, edastades samaaegselt sisestusfailid vastloodud eksemplarile, kasutades kõike automaatselt Terraformi.
  • Kinesise andmevoo loomine – See jaotis annab ülevaate Kinesise andmevoogudest ja sellest, kuidas AWS-is voogu seadistada.
  • Andmete ühendamine ja edastamine Kinesisesse – Kui sisestuskood töötab, peame selle ühendama ja andmed Kinesise voogu saatma.
  • Seni prototüübi katsetamine - Me kasutame Amazon CloudWatch ja käsurea tööriistu, et kontrollida, kas prototüüp töötab seniajani ja et saame jätkata järgmise kavandiga. Sisestatud andmete logi peaks välja nägema nagu järgmine ekraanipilt.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Selles teises plaanis keskendume arhitektuuri põhiosale: Lambda-funktsioonile, mis neelab ja analüüsib uudistevoogu, lisab sellele tehisintellekti järelduse ja salvestab selle edasiseks kasutamiseks. See sisaldab järgmisi komponente:

  • Lambda – Määrake Terraform Lambda konfiguratsioon, mis võimaldab sellel ühenduda SageMakeri lõpp-punktiga.
  • Amazon S3 – Lambda rakendamiseks peame vastava koodi üles laadima Amazoni lihtne salvestusteenus (Amazon S3) ja lubage lambda funktsioonil see oma keskkonda alla neelata. Selles jaotises kirjeldatakse, kuidas saame Terraformi selle saavutamiseks kasutada.
  • Lambda funktsiooni rakendamine: 1. samm, Kinesise sündmuse käsitlemine – Selles jaotises alustame lambda funktsiooni loomist. Siin koostame ainult Kinesise andmevoo vastuse töötleja osa.
  • SageMaker – Selles prototüübis kasutame eelkoolitatud Hugging Face mudelit, mille salvestame SageMakeri lõpp-punkti. Siin tutvustame, kuidas seda saab saavutada Terraformi skriptide abil ja kuidas toimuvad sobivad integratsioonid, mis võimaldavad SageMakeri lõpp-punktidel ja Lambda funktsioonidel koos töötada.
    • Siinkohal saate selle asemel kasutada mis tahes muud mudelit, mille olete välja töötanud ja SageMakeri lõpp-punkti taga juurutanud. Selline mudel võib teie vajadustest lähtuvalt pakkuda esialgsetele uudiste andmetele teistsuguse täiuse. Valikuliselt saab selle ekstrapoleerida mitmele mudelile mitme täiustuse jaoks, kui sellised on olemas. Tänu ülejäänud arhitektuurile rikastavad sellised mudelid teie andmeallikaid reaalajas.
  • Lambda funktsiooni loomine: 2. samm, SageMakeri lõpp-punkti kutsumine – Selles jaotises koostame oma algse Lambda funktsiooni, lisades SageMakeri ploki, et saada SageMakeri lõpp-punkti abil meeleolu parandatud uudiste pealkiri.
  • DynamoDB – Lõpuks, kui tehisintellekti järeldus on Lambda funktsiooni mälus, koondab see üksuse uuesti ja saadab selle salvestamiseks DynamoDB tabelisse. Siin käsitleme nii sobivat Pythoni koodi, mis on selle saavutamiseks vajalik, kui ka vajalikke Terraformi skripte, mis neid interaktsioone võimaldavad.
  • Lambda funktsiooni loomine: 3. samm, täiustatud andmete edastamine DynamoDB-sse – Siin jätkame oma Lambda funktsiooni ülesehitamist, lisades viimase osa, mis loob kande Dünamo tabelisse.
  • Seni prototüübi katsetamine – Saame navigeerida DynamoDB konsoolis tabelile DynamoDB, et kontrollida, kas meie täiustused on tabelis kuvatud.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

See kolmas plaan viib selle prototüübi lõpule. See keskendub äsja loodud tehisintellektiga täiustatud andmeüksuse ümberjagamisele Amazon MQ-s asuvasse RabbitMQ serverisse, võimaldades tarbijatel täiustatud uudiseid reaalajas ühendada ja hankida. See sisaldab järgmisi komponente:

  • DynamoDB vood – Kui täiustatud uudis on DynamoDB-s, seadistame käivitatava sündmuse, mille saab seejärel sobivast Lambda funktsioonist jäädvustada.
  • Lambda tootja kirjutamine – See Lambda funktsioon jäädvustab sündmuse ja toimib RabbitMQ voo tootjana. See uus funktsioon tutvustab Lambda kihtide kontseptsiooni, kuna see kasutab tootjafunktsioonide rakendamiseks Pythoni teeke.
  • Amazon MQ ja RabbitMQ tarbijad – Prototüübi viimane samm on RabbitMQ teenuse seadistamine ja näidistarbija juurutamine, mis loob ühenduse sõnumivooga ja võtab vastu tehisintellektiga täiustatud uudiseid.
  • Prototüübi viimane katsetus – Me kasutame täielikku protsessi, et kontrollida, kas prototüüp töötab täielikult, alates allaneelamisest kuni uue tehisintellektiga täiustatud voo taasesitamiseni ja tarbimiseni.

Selles etapis saate kontrollida, kas kõik töötab, navigeerides RabbitMQ armatuurlauale, nagu on näidatud järgmisel ekraanipildil.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.

Lõplikust plaanist leiate ka üksikasjaliku testvektori, et veenduda, et kogu arhitektuur käitub plaanipäraselt.

Järeldus

Selles postituses jagasime lahendust, mis kasutab ML-i pilves koos AWS-teenustega, nagu SageMaker (ML), Lambda (serverita) ja Kinesis Data Streams (voogesitus), et rikastada Refinitiv Data Libraries pakutavaid uudiste voogesituse andmeid. Lahendus lisab uudistele sentiment skoori reaalajas ja skaleerib infrastruktuuri koodi kasutades.

Selle moodularhitektuuri eeliseks on see, et saate seda oma mudeliga uuesti kasutada, et teostada muud tüüpi andmete täiendamist serverita, skaleeritaval ja kulutõhusal viisil, mida saab rakendada Refinitivi andmeteegi peal. See võib lisada väärtust kauplemise/investeeringute/riskijuhtimise töövoogudele.

Kui teil on kommentaare või küsimusi, jätke need kommentaaride jaotisesse.

Seotud teave


 Autoritest

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Marios Skevofylakas on pärit finantsteenuste, investeerimispanganduse ja konsultatsioonitehnoloogia taustast. Tal on inseneriteaduste doktorikraad. tehisintellekti erialal ja M.Sc. masinanägemises. Kogu oma karjääri jooksul on ta osalenud paljudes multidistsiplinaarsetes AI ja DLT projektides. Praegu on ta LSEG-ettevõtte Refinitiv arendaja advokaat, keskendudes tehisintellekti ja kvantirakendustele finantsteenuste valdkonnas.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Jason Ramchandani on töötanud LSEG-ettevõttes Refinitiv 8 aastat juhtiva arendaja advokaadina, aidates üles ehitada nende arendajate kogukonda. Varem on ta töötanud finantsturgudel üle 15 aasta, omades suurt tausta ettevõtetes Okasan Securities, Sakura Finance ja Jefferies LLC aktsiate/aktsiatega seotud valdkonnas. Tema alma mater on UCL.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Haykaz Aramjan pärineb rahanduse ja tehnoloogia taustast. Tal on Ph.D. rahanduses ja M.Sc. rahanduses, tehnoloogias ja poliitikas. 10-aastase töökogemuse kaudu töötas Haykaz mitme multidistsiplinaarse projekti kallal, mis hõlmasid pensioni-, riskikapitalifonde ja tehnoloogiaidufirmasid. Praegu on ta Refinitivi, An LSEG Businessi, arendaja advokaat, keskendudes tehisintellekti rakendustele finantsteenustes.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Georgios Schinas on AI/ML vanemspetsialisti lahenduste arhitekt EMEA piirkonnas. Ta asub Londonis ja teeb tihedat koostööd klientidega Ühendkuningriigis ja Iirimaal. Georgios aitab klientidel kavandada ja juurutada masinõpperakendusi tootmises AWS-is, tundes erilist huvi MLOps-i tavade vastu ja võimaldades klientidel teostada masinõpet ulatuslikult. Vabal ajal meeldib talle reisida, süüa teha ning sõprade ja perega aega veeta.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Muthuvelan Swaminathan on New Yorgis asuv Enterprise Solutions Architect. Ta teeb koostööd äriklientidega, pakkudes arhitektuurilisi juhiseid vastupidavate, kulutõhusate ja uuenduslike lahenduste loomiseks, mis vastavad nende ärivajadustele ja aitavad neil AWS-i tooteid ja teenuseid kasutades mastaapselt teostada.

Reaalajas uudistevoogude rikastamine Refinitiv Data Library, AWS-i teenuste ja Amazon SageMaker PlatoBlockchain Data Intelligence'iga. Vertikaalne otsing. Ai.Mayur Udernani juhib AWS AI ja ML äritegevust Ühendkuningriigi ja Iirimaa kommertsettevõtetega. Oma rollis veedab Mayur suurema osa ajast koos klientide ja partneritega, et aidata luua mõjusaid lahendusi, mis lahendavad kliendi kõige pakilisemad vajadused, või laiemale tööstusele, kasutades AWS-i pilve-, AI- ja ML-teenuseid. Mayur elab Londoni piirkonnas. Tal on MBA kraad India Juhtimisinstituudist ja bakalaureusekraad arvutitehnikas Mumbai ülikoolist.

Ajatempel:

Veel alates AWS-i masinõpe