To je objava gostov od Priložljiv kapital, vodilno podjetje FinTech v Evropi, ki ponuja digitalno upravljanje premoženja in posredniško platformo s pavšalno stopnjo trgovanja.
Kot hitro rastoče podjetje cilji Scalable Capitala niso le zgraditi inovativno, robustno in zanesljivo infrastrukturo, temveč tudi zagotoviti najboljše izkušnje za naše stranke, zlasti ko gre za storitve za stranke.
Scalable dnevno prejme na stotine e-poštnih vprašanj naših strank. Z uvedbo sodobnega modela obdelave naravnega jezika (NLP) se je odzivni proces oblikoval veliko bolj učinkovito, čakalne dobe za stranke pa so se izjemno skrajšale. Model strojnega učenja (ML) razvrsti nove dohodne zahteve strank takoj, ko prispejo, in jih preusmeri v vnaprej določene čakalne vrste, kar našim namenskim agentom za uspeh strank omogoča, da se osredotočijo na vsebino e-poštnih sporočil glede na svoje sposobnosti in zagotovijo ustrezne odgovore.
V tem prispevku prikazujemo tehnične prednosti uporabe transformatorjev Hugging Face, nameščenih s Amazon SageMaker, kot sta usposabljanje in eksperimentiranje v velikem obsegu, ter povečana produktivnost in stroškovna učinkovitost.
Izjava o težavi
Scalable Capital je ena najhitreje rastočih finančnih tehnologij v Evropi. Z namenom demokratizacije naložb podjetje svojim strankam omogoča enostaven dostop do finančnih trgov. Stranke podjetja Scalable lahko aktivno sodelujejo na trgu prek posredniške trgovalne platforme podjetja ali pa uporabljajo Scalable Wealth Management za vlaganje na inteligenten in avtomatiziran način. Leta 2021 je Scalable Capital doživel desetkratno povečanje svoje baze strank, z deset tisoč na sto tisoče.
Da bi našim strankam zagotovili vrhunsko (in dosledno) uporabniško izkušnjo v izdelkih in storitvah za stranke, je podjetje iskalo avtomatizirane rešitve za ustvarjanje učinkovitosti za razširljivo rešitev ob ohranjanju operativne odličnosti. Ekipe za podatkovno znanost in storitve za stranke podjetja Scalable Capital so ugotovile, da je eno največjih ozkih grl pri servisiranju naših strank odgovarjanje na povpraševanja po elektronski pošti. Natančneje, ozko grlo je bil korak razvrščanja, v katerem so morali zaposleni vsakodnevno brati in označevati besedila zahtev. Ko so bila e-poštna sporočila preusmerjena v ustrezne čakalne vrste, so zadevni strokovnjaki hitro sodelovali in rešili primere.
Da bi poenostavili ta postopek razvrščanja, je skupina za podatkovno znanost pri Scalable zgradila in uvedla večopravilni model NLP z uporabo najsodobnejše transformatorske arhitekture, ki temelji na predhodno usposobljenih destilbert-base-nemški zaboj model, ki ga je izdal Hugging Face. destilbert-base-nemški zaboj uporablja destilacija znanja metodo za predhodno usposabljanje manjšega splošnega modela jezikovne predstavitve kot prvotni osnovni model BERT. Destilirana različica dosega primerljivo zmogljivost kot originalna različica, hkrati pa je manjša in hitrejša. Da bi olajšali naš proces življenjskega cikla ML, smo se odločili sprejeti SageMaker za gradnjo, uvajanje, streženje in spremljanje naših modelov. V naslednjem razdelku predstavljamo zasnovo naše projektne arhitekture.
Pregled rešitev
Infrastrukturo ML podjetja Scalable Capital sestavljata dva računa AWS: eden kot okolje za razvojno fazo in drugi za proizvodno fazo.
Naslednji diagram prikazuje potek dela za naš projekt klasifikatorja e-pošte, lahko pa ga posplošimo tudi na druge projekte podatkovne znanosti.
Potek dela je sestavljen iz naslednjih komponent:
- Eksperimentiranje modela – Znanstveniki uporabljajo podatke Amazon SageMaker Studio izvesti prve korake v življenjskem ciklu podatkovne znanosti: raziskovalna analiza podatkov (EDA), čiščenje in priprava podatkov ter izdelava prototipnih modelov. Ko je raziskovalna faza končana, se obrnemo na VSCode, ki ga gosti prenosni računalnik SageMaker, kot naše oddaljeno razvojno orodje za modularizacijo in produkcijo naše kodne baze. Za raziskovanje različnih vrst modelov in konfiguracij modelov ter hkrati za spremljanje naših eksperimentov uporabljamo SageMaker Training in SageMaker Experiments.
- Zgradba modela – Ko se odločimo za model za naš proizvodni primer uporabe, v tem primeru večopravilnost destilbert-base-nemški zaboj model, natančno nastavljen iz predhodno usposobljenega modela iz Hugging Face, svojo kodo predamo in potisnemo v razvojno vejo Github. Dogodek spajanja Github sproži naš cevovod Jenkins CI, ki nato zažene opravilo SageMaker Pipelines s testnimi podatki. To deluje kot preizkus, da se prepričate, ali se kode izvajajo po pričakovanjih. Testna končna točka je nameščena za namene testiranja.
- Uvajanje modela – Ko se prepričajo, da vse teče po pričakovanjih, podatkovni znanstveniki združijo vejo za razvoj v primarno vejo. Ta dogodek spajanja zdaj sproži opravilo SageMaker Pipelines z uporabo produkcijskih podatkov za namene usposabljanja. Nato se izdelajo artefakti modela in shranijo v izhod Preprosta storitev shranjevanja Amazon (Amazon S3) in nova različica modela je zabeležena v registru modelov SageMaker. Podatkovni znanstveniki preučijo delovanje novega modela in potrdijo, ali je v skladu s pričakovanji. Dogodek odobritve modela zajame Amazon EventBridge, ki nato razmesti model na končno točko SageMaker v produkcijskem okolju.
- MLOps – Ker je končna točka SageMaker zasebna in je ni mogoče doseči s storitvami zunaj VPC, an AWS Lambda funkcijo in Amazon API Gateway javne končne točke so potrebne za komunikacijo s CRM. Kadarkoli nova e-poštna sporočila prispejo v mapo »Prejeto« CRM, CRM prikliče javno končno točko API Gateway, ta pa sproži funkcijo Lambda, da prikliče zasebno končno točko SageMaker. Funkcija nato posreduje klasifikacijo nazaj v CRM prek javne končne točke API Gateway. Za spremljanje uspešnosti našega razporejenega modela izvajamo povratno zanko med CRM in podatkovnimi znanstveniki, da spremljamo metrike napovedi iz modela. CRM mesečno posodablja zgodovinske podatke, ki se uporabljajo za eksperimentiranje in usposabljanje modelov. Uporabljamo Delovni tokovi, ki jih upravlja Amazon za Apache Airflow (Amazon MWAA) kot načrtovalec za našo mesečno prekvalifikacijo.
V naslednjih razdelkih podrobneje razčlenimo pripravo podatkov, eksperimentiranje modela in korake uvajanja modela.
Priprava podatkov
Scalable Capital uporablja orodje CRM za upravljanje in shranjevanje e-poštnih podatkov. Ustrezna vsebina elektronske pošte je sestavljena iz zadeve, telesa in skrbniških bank. Vsakemu e-poštnemu sporočilu lahko dodelite tri oznake: iz katere poslovne dejavnosti je e-poštno sporočilo, katera čakalna vrsta je primerna in posebna tema e-poštnega sporočila.
Preden začnemo učiti kateri koli model NLP, zagotovimo, da so vhodni podatki čisti in da so oznake dodeljene v skladu s pričakovanji.
Za pridobivanje čiste vsebine poizvedb iz razširljivih odjemalcev odstranimo iz neobdelanih e-poštnih podatkov ter dodatno besedilo in simbole, kot so e-poštni podpisi, odtisi, citati prejšnjih sporočil v e-poštnih verigah, simboli CSS itd. V nasprotnem primeru bi lahko naši bodoči usposobljeni modeli imeli poslabšano delovanje.
Oznake za e-poštna sporočila se sčasoma razvijajo, saj ekipe za storitve Scalable clients dodajajo nove in izboljšujejo ali odstranjujejo obstoječe, da ustrezajo poslovnim potrebam. Da bi zagotovili, da so oznake za podatke za usposabljanje in pričakovane klasifikacije za napovedovanje posodobljene, skupina za podatkovno znanost tesno sodeluje z ekipo za pomoč strankam, da zagotovi pravilnost oznak.
Eksperimentiranje modela
Naš poskus začnemo s takoj dostopnim vnaprej usposobljenim destilbert-base-nemški zaboj model, ki ga je izdal Hugging Face. Ker je predhodno usposobljeni model splošni model jezikovne predstavitve, lahko prilagodimo arhitekturo za izvajanje specifičnih nalog na nižji stopnji, kot je razvrščanje in odgovarjanje na vprašanja, tako da na nevronsko mrežo pritrdimo ustrezne glave. V našem primeru uporabe je nadaljnja naloga, ki nas zanima, klasifikacija zaporedja. Brez spreminjanja obstoječo arhitekturo, se odločimo za natančno nastavitev treh ločenih vnaprej usposobljenih modelov za vsako od naših zahtevanih kategorij. z Posode za globoko učenje Hugging Face SageMaker (DLC-ji), sta zagon in upravljanje eksperimentov NLP poenostavljena z vsebniki Hugging Face in API-jem SageMaker Experiments.
Sledi delček kode train.py
:
Naslednja koda je ocenjevalec Hugging Face:
Za potrditev natančno nastavljenih modelov uporabljamo F1-ocena zaradi neuravnotežene narave našega nabora podatkov o e-pošti, temveč tudi za izračun drugih meritev, kot so točnost, natančnost in priklic. Da lahko API SageMaker Experiments registrira metrike opravila usposabljanja, moramo najprej zabeležiti meritve v lokalno konzolo opravila usposabljanja, ki jih prevzame amazoncloudwatch. Nato definiramo pravilno obliko regularnega izraza za zajem dnevnikov CloudWatch. Definicije metrike vključujejo ime metrike in validacijo regularnega izraza za pridobivanje metrike iz opravila usposabljanja:
Kot del iteracije usposabljanja za model klasifikatorja uporabljamo matriko zmede in poročilo o klasifikaciji za ovrednotenje rezultata. Naslednja slika prikazuje matriko zmede za napovedovanje vrste poslovanja.
Naslednji posnetek zaslona prikazuje primer poročila o klasifikaciji za napovedovanje vrste poslovanja.
Kot naslednjo ponovitev našega poskusa bomo izkoristili večopravilno učenje izboljšati naš model. Učenje z več nalogami je oblika usposabljanja, pri kateri se model nauči reševati več nalog hkrati, ker lahko skupne informacije med nalogami izboljšajo učno učinkovitost. S pritrditvijo dveh dodatnih klasifikacijskih glav na prvotno arhitekturo distilberta lahko izvedemo večopravilno natančno nastavitev, ki doseže razumne meritve za našo skupino za pomoč strankam.
Uvajanje modela
V našem primeru uporabe je treba klasifikator e-pošte razmestiti na končno točko, kamor lahko naš cevovod CRM pošlje serijo nerazvrščenih e-poštnih sporočil in dobi nazaj predvidevanja. Ker imamo poleg sklepanja modela Hugging Face še druge logike, kot je čiščenje vhodnih podatkov in večopravilna predvidevanja, moramo napisati skript sklepanja po meri, ki se drži Standard SageMaker.
Sledi delček kode inference.py
:
Ko je vse pripravljeno, uporabimo SageMaker Pipelines za upravljanje našega cevovoda za usposabljanje in ga priključimo na našo infrastrukturo, da dokončamo nastavitev MLOps.
Za spremljanje delovanja razporejenega modela zgradimo povratno zanko, ki omogoča sistemu CRM, da nam posreduje status tajnih e-poštnih sporočil, ko so primeri zaključeni. Na podlagi teh informacij izvajamo prilagoditve za izboljšanje uvedenega modela.
zaključek
V tej objavi smo delili, kako SageMaker ekipi podatkovne znanosti pri Scalable omogoča učinkovito upravljanje življenjskega cikla podatkovnega znanstvenega projekta, namreč projekta klasifikatorja e-pošte. Življenjski cikel se začne z začetno fazo analize podatkov in raziskovanja s SageMaker Studio; nadaljuje s preizkušanjem in uvajanjem modelov z usposabljanjem SageMaker, sklepanjem in DLC-ji Hugging Face; in dopolnjuje s cevovodom za usposabljanje s cevovodi SageMaker, integriranimi z drugimi storitvami AWS. Zahvaljujoč tej infrastrukturi lahko učinkoviteje ponavljamo in uvajamo nove modele ter tako lahko izboljšamo obstoječe procese znotraj Scalable in tudi izkušnje naših strank.
Če želite izvedeti več o Hugging Face in SageMaker, si oglejte naslednje vire:
O avtorjih
Sandra Šmid dr je vodja podatkovne analitike pri Scalable GmbH. V podjetju je skupaj s svojimi ekipami odgovorna za podatkovno usmerjene pristope in primere uporabe. Njen ključni poudarek je iskanje najboljše kombinacije strojnega učenja in modelov znanosti o podatkih ter poslovnih ciljev, da bi iz podatkov pridobili čim več poslovne vrednosti in učinkovitosti.
Huy Dang Podatkovni znanstvenik pri Scalable GmbH. Njegove odgovornosti vključujejo analitiko podatkov, gradnjo in uvajanje modelov strojnega učenja ter razvoj in vzdrževanje infrastrukture za skupino podatkovne znanosti. V prostem času uživa v branju, pohodništvu, plezanju in je na tekočem z najnovejšim razvojem strojnega učenja.
Mia Chang je specialist za rešitve ML za Amazon Web Services. Dela s strankami v EMEA in deli najboljše prakse za izvajanje delovnih obremenitev AI/ML v oblaku s svojim znanjem iz uporabne matematike, računalništva in AI/ML. Osredotoča se na delovne obremenitve, specifične za NLP, in deli svoje izkušnje kot predavateljica na konferencah in avtorica knjig. V prostem času se ukvarja z jogo, družabnimi igrami in kuhanjem kave.
Moritz Guertler je vodja računa v segmentu digitalnih domačih podjetij pri AWS. Osredotoča se na stranke v prostoru FinTech in jih podpira pri pospeševanju inovacij prek varne in razširljive infrastrukture v oblaku.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- ChartPrime. Izboljšajte svojo igro trgovanja s ChartPrime. Dostopite tukaj.
- BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/accelerate-client-success-management-through-email-classification-with-hugging-face-on-amazon-sagemaker/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 100
- 13
- 15%
- 17
- 2021
- 26%
- 32
- 500
- 7
- a
- Sposobna
- O meni
- nad
- pospeši
- pospeševanje
- Sprejmi
- dostop
- prilagoditi
- Po
- Račun
- računi
- natančnost
- Dosega
- čez
- aktivno
- aktov
- prilagodijo
- dodajte
- Poleg tega
- Popravki
- sprejme
- Prednost
- po
- potem
- agenti
- AI / ML
- Cilj
- omogoča
- Prav tako
- Amazon
- Amazon SageMaker
- Amazon Web Services
- med
- an
- Analiza
- analitika
- in
- kaj
- Apache
- API
- uporabna
- pristopi
- primerno
- odobritev
- odobri
- Arhitektura
- SE
- Argumenti
- AS
- dodeljena
- At
- pripisujejo
- Avtor
- Avtomatizirano
- Na voljo
- AWS
- nazaj
- ozadje
- Banke
- baza
- temeljijo
- Osnova
- BE
- ker
- bilo
- počutje
- Prednosti
- BEST
- najboljše prakse
- med
- svet
- Namizne igre
- telo
- Knjiga
- Branch
- Break
- posredništvo
- izgradnjo
- Building
- zgrajena
- poslovni
- podjetja
- vendar
- by
- CAN
- Kapital
- Kapitalske
- zajemanje
- Zajeto
- opravlja
- primeru
- primeri
- kategorije
- verige
- Razvrstitev
- razvrščeni
- čiščenje
- stranke
- stranke
- Plezanje
- Zapri
- zaprto
- Cloud
- oblačna infrastruktura
- Koda
- baza kod
- Kode
- Kava
- sodelovanje
- kombinacija
- prihaja
- Zavezati
- komunicirajo
- podjetje
- Podjetja
- primerljiva
- dokončanje
- Zaključi
- deli
- Izračunajte
- računalnik
- Računalništvo
- Konferenca
- zmeda
- dosledno
- vsebuje
- Konzole
- Zabojniki
- vsebina
- Vsebina
- popravi
- CRM
- CSS
- skrbnik
- po meri
- stranka
- Stranke, ki so
- vsak dan
- datum
- Analiza podatkov
- Podatkovna analiza
- Priprava podatkov
- znanost o podatkih
- podatkovni znanstvenik
- Podatkov usmerjenih
- Datum
- odloča
- odločil
- namenjen
- globoko
- globoko učenje
- privzeto
- opredeliti
- opredeljen
- definicije
- demokratizirati
- izkazati
- razporedi
- razporejeni
- uvajanja
- uvajanje
- razpolaga
- Oblikovanje
- Podatki
- Razvoj
- razvoju
- Razvoj
- razvoju
- drugačen
- digitalni
- digitalno upravljanje premoženja
- navzdol
- 2
- vsak
- lahka
- učinkovitosti
- učinkovito
- ostalo
- E-naslov
- e-pošta
- EMEA
- Zaposleni
- omogočajo
- Končna točka
- , ki se ukvarjajo
- zagotovitev
- okolje
- epoha
- zlasti
- Evropa
- oceniti
- Ocena
- Event
- vse
- razvijajo
- preučiti
- Primer
- Odličnost
- izvršni
- obstoječih
- pričakovanja
- pričakovanja
- Pričakuje
- izkušnje
- izkušen
- Doživetja
- poskus
- Poskusi
- raziskovanje
- Raziskovalne analize podatkov
- raziskuje
- dodatna
- f1
- Obraz
- olajšati
- olajša
- Moda
- hitreje
- Najhitreje
- Najhitreje rastoči
- povratne informacije
- Slika
- finančna
- iskanje
- FINTECH
- fintechs
- prva
- prvi koraki
- stanovanje
- Osredotočite
- Osredotoča
- po
- za
- obrazec
- format
- brezplačno
- iz
- funkcija
- Prihodnost
- Gain
- Games
- Prehod
- glavni namen
- ustvarjajo
- dobili
- GitHub
- GmBH
- Cilji
- Pridelovanje
- Gost
- Gost Prispevek
- imel
- Imajo
- he
- Glava
- glave
- jo
- njegov
- zgodovinski
- gostila
- Kako
- HTML
- http
- HTTPS
- Stotine
- identificirati
- if
- izvajati
- izvajanja
- izboljšanje
- in
- vključujejo
- Dohodni
- Povečajte
- povečal
- Podatki
- Infrastruktura
- začetna
- Inovacije
- inovativne
- vhod
- Poizvedbe
- povpraševanje
- integrirana
- Inteligentna
- zainteresirani
- v
- uvesti
- Invest
- naložbe
- prikliče
- IT
- ponovitev
- ITS
- Job
- json
- Imejte
- Ključne
- label
- Oznake
- jezik
- Največji
- Zadnji
- vodi
- UČITE
- učenje
- življenski krog
- vrstica
- obremenitev
- lokalna
- prijavi
- prijavljen
- si
- off
- stroj
- strojno učenje
- je
- vzdrževanje
- Znamka
- Izdelava
- upravljanje
- upravlja
- upravljanje
- upravljanje
- Tržna
- Prisotnost
- matematika
- Matrix
- Spoji
- združi dogodek
- sporočil
- Metoda
- meritev
- Meritve
- morda
- ML
- MLOps
- Model
- modeli
- sodobna
- monitor
- mesečno
- več
- premika
- veliko
- več
- Ime
- in sicer
- materni
- naravna
- Obdelava Natural Language
- Narava
- Nimate
- potrebe
- mreža
- Živčne
- nevronska mreža
- Novo
- Naslednja
- nlp
- prenosnik
- zdaj
- Številka
- of
- Ponudbe
- on
- ONE
- tiste
- samo
- operativno
- or
- Da
- izvirno
- Ostalo
- drugače
- naši
- ven
- izhod
- zunaj
- več
- del
- sodelovanje
- Izvedite
- performance
- faza
- izbrali
- plinovod
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- mogoče
- Prispevek
- vaje
- Precision
- napoved
- Napovedi
- Priprava
- prejšnja
- primarni
- zasebna
- Postopek
- Procesi
- obravnavati
- Proizvedeno
- proizvodnja
- produktivnost
- Izdelki
- Projekt
- projekti
- pravilno
- Prototip
- zagotavljajo
- zagotavlja
- javnega
- objavljeno
- namene
- Push
- vprašanje
- hitro
- kotacije
- dvigniti
- Oceniti
- Surovi
- dosegel
- Preberi
- reading
- pripravljen
- razumno
- prejme
- evidence
- Zmanjšana
- glejte
- izboljšati
- regularni izraz
- Registracija
- registra
- pomembno
- zanesljiv
- daljinsko
- odstrani
- poročilo
- zastopanje
- zahteva
- zahteva
- obvezna
- rešiti
- viri
- tisti,
- odziva
- Odgovor
- odgovorov
- odgovornosti
- odgovorna
- povzroči
- vrnitev
- robusten
- skala
- tek
- sagemaker
- SageMaker cevovodi
- Enako
- razširljive
- Lestvica
- Znanost
- Znanstvenik
- Znanstveniki
- script
- Oddelek
- oddelki
- zavarovanje
- Segment
- pošljite
- ločena
- Zaporedje
- služijo
- Storitev
- Storitve
- nastavitev
- shaped
- deli
- Delnice
- je
- Razstave
- Podpisi
- Enostavno
- hkrati
- spretnosti
- manj
- delček
- So
- Rešitev
- rešitve
- SOLVE
- Kmalu
- Vesolje
- Zvočniki
- specialist
- strokovnjaki
- specifična
- posebej
- Stage
- Začetek
- Začetek
- začne
- state-of-the-art
- Status
- ostati
- Korak
- Koraki
- shranjevanje
- shranjeni
- shranjevanje
- racionalizirati
- studio
- predmet
- uspeh
- taka
- Podpira
- Preverite
- Bodite
- Naloga
- Naloge
- skupina
- Skupine
- tehnični
- deset
- Test
- Testiranje
- besedilo
- kot
- Hvala
- da
- O
- njihove
- Njih
- POTEM
- Tukaj.
- zato
- jih
- ta
- tisoče
- 3
- skozi
- čas
- do
- skupaj
- orodje
- temo
- baklo
- sledenje
- Trgovanje
- Trgovalna platforma
- Vlak
- usposobljeni
- usposabljanje
- transformator
- transformatorji
- izjemno
- OBRAT
- dva
- tip
- Vrste
- posodobitve
- us
- uporaba
- primeru uporabe
- Rabljeni
- uporabnik
- Uporabniška izkušnja
- uporablja
- uporabo
- POTRDI
- potrjevanje
- vrednost
- različica
- Čakam
- je
- we
- Wealth
- upravljanje premoženja
- web
- spletne storitve
- Dobro
- so bili
- kdaj
- kadar koli
- ki
- medtem
- z
- v
- brez
- potek dela
- delovnih tokov
- deluje
- pisati
- Joga
- zefirnet