ML-mudelite loomine ja treenimine, kasutades AWS-i andmevõrguarhitektuuri: 1. osa

Taasavaldanud Platon

järgijaid: 0

Erinevate tööstusharude organisatsioonid kasutavad tehisintellekti (AI) ja masinõpet (ML), et lahendada oma tööstusele spetsiifilisi äriprobleeme. Näiteks finantsteenuste sektoris saate AI ja ML abil lahendada probleeme, mis on seotud pettuste tuvastamise, krediidiriski prognoosimise, otseturunduse ja paljude muude probleemidega.

Suured ettevõtted loovad mõnikord tippkeskuse (CoE), et tulla toime erinevate ärivaldkondade vajadustega uuendusliku analüütika ja ML-projektidega.

Kvaliteetsete ja tulemuslike ML-mudelite mastaabis loomiseks peavad nad tegema järgmist.

Pakkuge lihtsat võimalust oma analüütika ja ML CoE jaoks asjakohastele andmetele juurde pääseda
Looge vastutus üksikute alade andmepakkujatele, et jagada kureeritud andmevarasid, mis on leitavad, arusaadavad, koostalitlusvõimelised ja usaldusväärsed

See võib lühendada ML-i kasutusjuhtude katsest tootmiseks teisendamiseks kuluvat pikka tsükliaega ja luua kogu organisatsioonis äriväärtust.

Andmevõrgu arhitektuur püüab neid tehnilisi ja organisatsioonilisi väljakutseid lahendada, juurutades detsentraliseeritud sotsiaal-tehnilise lähenemisviisi andmete jagamiseks, juurdepääsuks ja haldamiseks keerukates ja suuremahulistes keskkondades – nii organisatsioonide sees kui ka nende vahel. Andmevõrgu kujundusmuster loob vastutustundliku andmejagamismudeli, mis ühtib organisatsiooni kasvuga, et saavutada lõppeesmärk suurendada andmemeeskondadesse, protsessidesse ja tehnoloogiasse tehtud äriinvesteeringute tasuvust.

Selles kaheosalises seerias anname juhiseid selle kohta, kuidas organisatsioonid saavad luua kaasaegse andmearhitektuuri, kasutades AWS-i andmevõrgu kujundusmustrit, ning võimaldada analüüsil ja ML CoE-l koostada ja koolitada ML-mudeleid, mis sisaldavad andmeid mitmes skaalas. Selle sarja konteksti ja kasutusjuhtumi määramiseks kasutame finantsteenuste organisatsiooni näidet.

Selles esimeses postituses näitame mitme AWS-i andmetootja ja tarbijakontoga andmevõrgu arhitektuuri seadistamise protseduure. Seejärel keskendume ühele andmetootele, mis kuulub finantsorganisatsioonis ühele valdkonnale, ja sellele, kuidas seda andmevõrgu keskkonda jagada, et teised valdkonnad saaksid seda andmetoodet tarbida ja kasutada. See on peamiselt suunatud andmehalduri isikule, kes vastutab andmetootjate ja tarbijate vahelise andmete jagamise protsessi sujuvamaks muutmise ja standardimise ning andmehaldusreeglite järgimise eest.

Teises postituses näitame ühte näidet selle kohta, kuidas analüütik ja ML CoE saavad andmetoodet riskiennustuse kasutusjuhtumi jaoks tarbida. See on peamiselt suunatud andmeteadlasele, kes vastutab nii kogu organisatsiooni hõlmavate kui ka kolmandate osapoolte andmevarade kasutamise eest, et luua ja koolitada ML-mudeleid, mis koguvad finantsteenuste klientide kogemuste parandamiseks äriteadmisi.

Andmevõrgu ülevaade

Andmevõrgu mustri asutaja Zhamak Dehghani oma raamatus Andmevõrk, mis pakub andmepõhist väärtust mastaabismääratles andmevõrgu eesmärgi saavutamiseks neli põhimõtet:

Domeeni hajutatud omand – Organisatsiooniline nihe andmeplatvormi tehnoloogiaid haldavate spetsialistide andmete tsentraliseeritud omandiõiguselt detsentraliseeritud andmete omandimudelile, nihutades andmete omandiõiguse ja vastutuse tagasi nendesse valdkondadesse, kus andmeid toodetakse (allikapõhised domeenid) või tarbitakse ( tarbimisega seotud domeenid).
Andmed kui toode – suurendada kureeritud, kvaliteetsete, koostalitlusvõimeliste ja turvaliste andmevarade jagamise vastutust. Seetõttu vastutavad erinevate alade andmetootjad selle eest, et andmed oleksid tarbitavas vormis kohe allika juures.
Iseteeninduse analüüs – Analüütika ja ML-i andmekasutajate kasutuskogemuse täiustamine, et nad saaksid oma eelistatud tööriistadega andmetooteid avastada, neile juurde pääseda ja neid kasutada. Lisaks, et lihtsustada LoB andmepakkujate kogemust andmetoodete loomisel, juurutamisel ja hooldamisel retseptide ning korduvkasutatavate komponentide ja mallide kaudu.
Födereeritud arvutuslik juhtimine – koondada ja automatiseerida andmetele juurdepääsu haldamise ja kontrollimisega seotud otsuste tegemine, et see toimuks erinevate valdkondade andmeomanike tasemel, mis on endiselt kooskõlas laiema organisatsiooni õigus-, vastavus- ja turvapoliitikaga, mis lõpuks jõustatakse võrk.

AWS tutvustas oma nägemust AWS-i peale andmevõrgu loomisest erinevates postitustes:

Esiteks keskendusime organisatsioonilisele osale, mis on seotud hajutatud domeeni omandiõiguse ja andmete kui toote põhimõtetega. Autorid kirjeldasid nägemust mitmete LOB-ide ühildamisest kogu organisatsioonis andmetoodete strateegia suunas, mis pakub tarbimispõhistele domeenidele vajalike andmete leidmiseks ja hankimiseks tööriistu, tagades samal ajal vajaliku kontrolli nende andmete kasutamise üle, kehtestades vastutuse allikaga joondatud domeenid, et pakkuda andmetooteid kohe allikas kasutamiseks valmis. Lisateabe saamiseks vaadake Kuidas JPMorgan Chase ehitas andmevõrgu arhitektuuri, et luua olulist väärtust oma ettevõtte andmeplatvormi täiustamiseks.
Seejärel keskendusime tehnilisele osale, mis on seotud andmetoodete loomise, iseteenindusanalüütika ja ühendatud arvutusjuhtimise põhimõtetega. Autorid kirjeldasid AWS-i põhiteenuseid, mis võimaldavad allikapõhiseid domeene luua ja jagada andmetooteid, laias valikus teenuseid, mis võimaldavad tarbijatele kohandatud domeenidel andmetooteid tarbida erineval viisil, lähtudes nende eelistatud tööriistadest ja kasutusjuhtudest. tegelevad ja lõpuks AWS-teenuste nimel, mis reguleerivad andmete jagamise protseduuri, jõustades andmetele juurdepääsu poliitikat. Lisateabe saamiseks vaadake Kujundage andmevõrgu arhitektuur, kasutades AWS Lake Formationit ja AWS Glue'i.
Näitasime ka lahendust andmete leidmise ja juurdepääsu kontrolli automatiseerimiseks tsentraliseeritud andmevõrgu kasutajaliidese kaudu. Lisateabe saamiseks vaadake Looge oma andmevõrgu jaoks andmete jagamise töövoog rakendusega AWS Lake Formation.

Finantsteenuste kasutamise juhtum

Tavaliselt on suurtel finantsteenuste organisatsioonidel mitu valdkonda, nagu tarbijapangandus, investeerimispangandus ja varahaldus, ning ka üks või mitu analüüsi- ja ML CoE meeskonda. Iga LoB pakub erinevaid teenuseid:

Tarbijapanganduse LoB pakub tarbijatele ja ettevõtetele mitmesuguseid teenuseid, sealhulgas krediiti ja hüpoteeke, sularahahaldust, makselahendusi, hoiuse- ja investeerimistooteid ning palju muud
Kommerts- või investeerimispanganduse LoB pakub klientidele, sealhulgas väikeettevõtetele, keskmise suurusega ettevõtetele ja suurettevõtetele terviklikke finantslahendusi, nagu laenud, pankrotirisk ja hulgimaksed.
Varahalduse LoB pakub pensionitooteid ja investeerimisteenuseid kõigis varaklassides

Iga LoB määratleb oma andmetooted, mida kureerivad inimesed, kes saavad andmetest aru ja sobivad kõige paremini määrama, kes on volitatud neid kasutama ja kuidas neid saab kasutada. Seevastu teised valdkonnad ja rakendusvaldkonnad, nagu analüütika ja ML CoE, on huvitatud kvalifitseeritud andmetoodete avastamisest ja tarbimisest, nende kombineerimisest, et luua teadmisi ja teha andmepõhiseid otsuseid.

Järgmisel joonisel on kujutatud mõningaid alasid ja näiteid andmetoodetest, mida nad saavad jagada. See näitab ka andmetoodete (nt analüütika ja ML CoE) tarbijaid, kes loovad ML-mudeleid, mida saab juurutada klientidele suunatud rakendustes, et veelgi parandada lõppkliendi kogemust.

Andmevõrgu sotsiaal-tehnilist kontseptsiooni järgides alustame sotsiaalsest aspektist organisatsiooniliste sammude kogumiga, näiteks järgmisega:

Domeeniekspertide kasutamine iga domeeni jaoks piiride määramiseks, nii et iga andmetoote saab kaardistada konkreetse domeeniga
Igast domeenist pakutavate andmetoodete omanike tuvastamine, nii et igal andmetootel on omaniku määratud strateegia
Juhtimispoliitika tuvastamine globaalsete ja kohalike või födereeritud stiimulite põhjal, nii et kui andmetarbijad pääsevad juurde konkreetsele andmetootele, saab tootega seotud juurdepääsupoliitikat automaatselt jõustada keskse andmehalduskihi kaudu.

Seejärel liigume tehnilise aspekti juurde, mis hõlmab järgmist eelmises diagrammis määratletud stsenaariumi.

Võimaldage tarbijapangandussektorit tööriistadega, et luua kasutusvalmis tarbijakrediidi profiiliandmete toode.
Lubage tarbijapanganduse osakonnal jagada andmetooteid keskse halduskihiga.
Manustage andmetele juurdepääsupoliitika globaalsed ja ühendatud määratlused, mida tuleks jõustada tarbijakrediidi profiili andmete tootele juurdepääsul keskse andmehalduse kaudu.
Lubage analüütikutel ja ML CoE-l keskse halduskihi kaudu andmetoode avastada ja sellele juurde pääseda.
Võimaldage analüütikat ja ML CoE tööriistu, et kasutada andmeprodukti krediidiriski prognoosimudeli koostamiseks ja koolitamiseks. Me ei käsitle selle seeria viimaseid etappe (6 ja 7 eelneval diagrammil). Kuid selleks, et näidata äriväärtust, mida selline ML-mudel võib täielikus stsenaariumis organisatsioonile tuua, illustreerime järgmist.
Seda mudelit saab hiljem kasutusele võtta tagasi klientidele suunatud süsteemides, näiteks tarbijapanganduse veebiportaalis või mobiilirakenduses.
Seda saab spetsiaalselt laenutaotluses kasutada krediidi- ja hüpoteeklaenutaotluste riskiprofiili hindamiseks.

Järgmisena kirjeldame iga komponendi tehnilisi vajadusi.

Sügav sukeldumine tehnilistesse vajadustesse

Andmetoodete kõigile kättesaadavaks tegemiseks peavad organisatsioonid muutma andmete jagamise organisatsiooni erinevate üksuste vahel lihtsaks, säilitades samal ajal nende üle sobiva kontrolli, ehk teisisõnu tasakaalustama paindlikkust õige juhtimisega.

Andmetarbija: Analytics ja ML CoE

Andmete tarbijad, nagu analüütika ja ML CoE andmeteadlased, peavad suutma teha järgmist.

Avastage ja pääsete juurde konkreetse kasutusjuhu jaoks asjakohastele andmekogumitele
Olge kindel, et andmestikud, millele nad soovivad juurde pääseda, on juba kureeritud, ajakohased ja neil on põhjalikud kirjeldused
Taotlege juurdepääsu nende ärijuhtumeid huvitavatele andmekogumitele
Kasutage oma eelistatud tööriistu selliste andmekogumite päringute tegemiseks ja töötlemiseks oma keskkonnas ML jaoks, ilma et oleks vaja andmeid algsest kaugasukohast kopeerida või muretseda kaugsaidil füüsiliselt salvestatud andmete töötlemisega seotud tehniliste või infrastruktuuri keerukuse pärast.
Saate teada andmeomanike tehtud andmete värskendustest

Andmete tootja: domeeni omand

Andmetootjad, näiteks finantsteenuste organisatsiooni erinevate alade domeenimeeskonnad, peavad registreerima ja jagama kureeritud andmekogumeid, mis sisaldavad järgmist.

Tehnilised ja operatiivsed metaandmed, nagu andmebaaside ja tabelite nimed ja suurused, veeruskeemid ja võtmed
Ettevõtte metaandmed, nagu andmete kirjeldus, klassifikatsioon ja tundlikkus
Jälgige metaandmeid, nagu skeemi areng allikast sihtvormini ja mis tahes vahevormid
Andmekvaliteedi metaandmed, nagu õigsuse ja täielikkuse suhtarvud ning andmete kallutatus
Juurdepääsupoliitikad ja protseduurid

Need on vajalikud selleks, et andmetarbijad saaksid andmeid avastada ja neile juurde pääseda, ilma et nad peaksid tuginema käsitsi protseduuridele või võtma ühendust andmetoote domeeniekspertidega, et saada rohkem teadmisi andmete tähenduse ja nende juurde pääsemise kohta.

Andmete haldamine: leitavus, juurdepääsetavus ja auditeeritavus

Organisatsioonid peavad tasakaalustama varem kirjeldatud paindlikkust andmeleketetega seotud riskide nõuetekohase maandamisega. Eriti reguleeritud tööstusharudes, nagu finantsteenused, on vaja säilitada tsentraalne andmehaldus, et tagada üldine andmetele juurdepääs ja auditi kontroll, vähendades samal ajal salvestusruumi, vältides samade andmete mitut koopiat erinevates kohtades.

Traditsioonilistes tsentraliseeritud andmejärve-arhitektuurides avaldavad andmetootjad sageli algandmeid ning annavad andmete kureerimise, andmekvaliteedi haldamise ja juurdepääsu kontrollimise vastutuse üle andme- ja infrastruktuuriinseneridele tsentraliseeritud andmeplatvormi meeskonnas. Need andmeplatvormi meeskonnad võivad aga eri andmedomeenidega vähem tuttavad olla ja siiski loodavad andmetootjate toele, et saaksid andmetele juurdepääsu õigesti kureerida ja hallata vastavalt igas andmedomeenis kehtestatud poliitikale. Seevastu andmetootjad ise on kõige paremas positsioonis kureeritud ja kvalifitseeritud andmevarade pakkumiseks ning on teadlikud domeenispetsiifilistest juurdepääsureeglitest, mida tuleb andmevaradele juurdepääsu ajal jõustada.

Lahenduse ülevaade

Järgnev diagramm näitab pakutud lahenduse kõrgetasemelist arhitektuuri.

Me käsitleme analüütika ja ML CoE andmetarbimist Amazonase Athena ja Amazon SageMaker in osa 2 sellest sarjast.

Selles postituses keskendume andmete sisestamise protsessile andmevõrku ja kirjeldame, kuidas üksik LoB, näiteks tarbijapanganduse domeeni andmemeeskond, saab kasutada AWS-i tööriistu, nagu AWS liim ja AWS Glue DataBrew valmistada ette, kureerida ja parandada oma andmetooteid ning seejärel registreerida need andmetooted kesksele andmehalduskontole AWS järve kihistu.

Tarbijapanganduse LoB (andmete tootja)

Andmevõrgu üks põhiprintsiipe on andmete kui toote kontseptsioon. On väga oluline, et tarbijapanganduse domeeni andmemeeskond töötaks ette andmetoodete valmistamisel, mis on andmetarbijatele kasutamiseks valmis. Seda saab teha, kasutades AWS-i ekstraktimise, teisendamise ja laadimise (ETL) tööriistu, nagu AWS Glue, et töödelda kogutud algandmeid. Amazoni lihtne salvestusteenus (Amazon S3) või teise võimalusena looge ühendus operatiivsete andmesalvedega, kus andmeid toodetakse. Võite ka kasutada DataBrew, mis on koodita visuaalne andmete ettevalmistamise tööriist, mis muudab andmete puhastamise ja normaliseerimise lihtsaks.

Näiteks tarbijakrediidi profiiliandmete toote ettevalmistamise ajal saab tarbijapanganduse domeeniandmete meeskond teha lihtsa kureerimise, et tõlkida saksa keelest inglise keelde avatud lähtekoodiga andmekogumist hangitud algandmete atribuutide nimed. Statlog Saksa krediidiandmed, mis koosneb 20 atribuudist ja 1,000 reast.

Andmete haldamine

AWS-i põhiteenus andmevõrgu haldamise võimaldamiseks on Lake Formation. Lake Formation pakub võimalust jõustada andmehaldust igas andmedomeenis ja domeenide vahel, et tagada andmete hõlpsasti leitav ja turvaline. See pakub koondatud turbemudelit, mida saab tsentraalselt hallata, kasutades parimaid tavasid andmete avastamise, turvalisuse ja vastavuse tagamiseks, võimaldades samas igas domeenis suurt paindlikkust.

Lake Formation pakub API-d, mis lihtsustab andmete sissevõtmist, salvestamist ja haldamist, koos reataseme turvalisusega teie andmete kaitsmiseks. See pakub ka selliseid funktsioone nagu üksikasjalik juurdepääsukontroll, juhitavad tabelid ja salvestusruumi optimeerimine.

Lisaks pakub Lake Formations a Andmete jagamise API mida saate andmete jagamiseks kasutada erinevate kontode vahel. See võimaldab analüütiku ja ML CoE tarbijal käitada Athena päringuid, mis esitavad päringuid ja ühendavad tabeleid mitmel kontol. Lisateabe saamiseks vaadake AWS Lake Formationi arendaja juhend.

AWS-i ressursside juurdepääsu haldur (AWS RAM) pakub turvalist viisi ressursside jagamiseks AWS-i identiteedi- ja juurdepääsuhaldur (IAM) rollid ja kasutajad AWS-i kontodel organisatsioonis või organisatsiooniüksustes (OU-des). AWS organisatsioonid.

Lake Formation koos AWS-i RAM-iga on üks viis andmete jagamiseks ja juurdepääsuks AWS-i kontode vahel. Me nimetame seda lähenemisviisi kui RAM-põhine juurdepääsukontroll. Selle lähenemisviisi kohta lisateabe saamiseks vaadake Looge oma andmevõrgu jaoks andmete jagamise töövoog rakendusega AWS Lake Formation.

Lake Formation pakub ka teist võimalust andmete jagamiseks ja juurdepääsu haldamiseks Lake Formation sildid. Me nimetame seda lähenemisviisi kui sildipõhine juurdepääsukontroll. Lisateabe saamiseks vaadake AWS Lake Formationi sildipõhise juurdepääsukontrolli abil looge mastaabis kaasaegne andmearhitektuur ja andmevõrgu muster.

Kogu selle postituse jooksul kasutame märgendipõhist juurdepääsukontrolli lähenemisviisi, kuna see lihtsustab poliitikate loomist väiksema arvu loogiliste siltide jaoks, mida tavaliselt leidub erinevates osades, selle asemel, et määrata infrastruktuuri tasemel nimeliste ressursside eeskirju.

Eeldused

Andmevõrgu arhitektuuri seadistamiseks vajate vähemalt kolme AWS-i kontot: tootjakontot, keskkontot ja tarbijakontot.

Juurutage andmevõrgu keskkond

Andmevõrgu keskkonna juurutamiseks saate kasutada järgmist GitHubi hoidla. See hoidla sisaldab kolme AWS CloudFormation mallid, mis juurutavad andmevõrgu keskkonda, mis hõlmab kõiki kontosid (tootja, kesk- ja tarbijakonto). Igal kontol saate käitada vastavat CloudFormationi malli.

Keskne konto

Keskkontol tehke järgmised toimingud.

Käivitage CloudFormationi virn:
Looge kaks IAM-i kasutajat:
1. DataMeshOwner
2. ProducerSteward
Grant DataMeshOwner Lake Formationi administraatorina.
Looge üks IAM-i roll:
1. LFRegisterLocationServiceRole
Looge kaks IAM-poliitikat:
1. ProducerStewardPolicy
2. S3DataLakePolicy
Looge andmebaasi krediitkaart ProducerSteward tootja kontol.
Jagage andmete asukoha luba tootjakontoga.

Tootja konto

Tootjakontol tehke järgmised toimingud.

Käivitage CloudFormationi virn:
Looge S3 ämber credit-card, mis hoiab lauda credit_card.
Lubage S3 ämbrijuurdepääs keskse konto Lake Formationi teenuserollile.
Looge AWS Glue roomik creditCrawler-<ProducerAccountID>.
Looge AWS Glue roomaja teenuse roll.
Andke S3 ämbri asukohale load credit-card-<ProducerAccountID>-<aws-region> AWS Glue roomaja rolli.
Looge tootja stjuuard IAM-i kasutaja.

Tarbijakonto

Tarbijakontol tehke järgmised toimingud.

Käivitage CloudFormationi virn:
Looge S3 ämber <AWS Account ID>-<aws-region>-athena-logs.
Looge Athena töörühm consumer-workgroup.
Looge IAM-i kasutaja ConsumerAdmin.

Lisage andmebaas ja tellige sellele tarbijakonto

Pärast mallide käivitamist saate läbi vaadata samm-sammult juhend lisada toode andmekataloogi ja lasta tarbijal see tellida. Juhend algab andmebaasi loomisega, kuhu tootja saab oma tooteid paigutada, ja seejärel selgitatakse, kuidas tarbija saab selle andmebaasi tellida ja andmetele juurde pääseda. Kõik see toimub kasutamise ajal LF-sildid, mis on sildipõhine juurdepääsukontroll Lake Formation jaoks.

Andmete toote registreerimine

Järgmine arhitektuur kirjeldab üksikasjalikke samme, kuidas andmetootjatena tegutsev tarbijapanganduse LoB-meeskond saab registreerida oma andmetooted kesksel andmehalduskontol (organisatsiooni andmevõrgu sisseehitatud andmetooted).

Andmetoote registreerimise üldised sammud on järgmised.

Looge andmetoote jaoks sihtandmebaas keskhalduskontol. Näiteks loob keskkonto CloudFormation mall juba sihtandmebaasi credit-card.
Jagage loodud sihtandmebaasi tootjakonto päritoluga.
Looge tootjakontol jagatud andmebaasi ressursi link. Järgmisel ekraanipildil näeme tootjakontol Lake Formationi konsoolil seda rl_credit-card on ressursi link credit-card andmebaas.
Täitke tabelid (tootjakontol kureeritud andmetega) ressursside linkide andmebaasis (rl_credit-card), kasutades tootjakontol AWS Glue roomajat.

Loodud tabel ilmub automaatselt keskhalduskontole. Järgmine ekraanipilt näitab keskkonto Lake Formationi tabeli näidet. Seda pärast ressursside linkide andmebaasi täitmiseks eelnevate toimingute tegemist rl_credit-card tootja kontol.

Järeldus

Selle seeria 1. osas arutasime finantsteenuste organisatsioonide eesmärke, et saavutada nende analüütika- ja ML-meeskondade paindlikkus ning lühendada andmetest ülevaateni kuluvat aega. Samuti keskendusime AWS-i andmevõrgu arhitektuuri loomisele, kus oleme tutvustanud hõlpsasti kasutatavaid, skaleeritavaid ja kulutõhusaid AWS-teenuseid, nagu AWS Glue, DataBrew ja Lake Formation. Andmeid tootvad meeskonnad saavad neid teenuseid kasutada kureeritud, kvaliteetsete, koostalitlusvõimeliste ja turvaliste andmetoodete loomiseks ja jagamiseks, mida erinevad andmetarbijad on valmis analüütilistel eesmärkidel kasutama.

In osa 2, keskendume analüütikale ja ML CoE meeskondadele, kes tarbivad tarbijapanganduse osapoolte jagatud andmetooteid, et luua krediidiriski prognoosimise mudel, kasutades AWS-i teenuseid, nagu Athena ja SageMaker.

Autoritest

Karim Hammouda on AWS-i analüüsilahenduste eriarhitekt, kelle kirg on andmete integreerimine, andmete analüüs ja BI. Ta teeb koostööd AWS-i klientidega, et kavandada ja luua analüüsilahendusi, mis aitavad kaasa nende ärikasvule. Vabal ajal meeldib talle vaadata teles dokumentaalfilme ja mängida koos pojaga videomänge.

Hasan Poonawala on AWS-i AI/ML-i spetsialistlahenduste vanemarhitekt. Hasan aitab klientidel kavandada ja juurutada masinõpperakendusi AWS-i tootmises. Tal on üle 12-aastane töökogemus andmeteadlase, masinõppe praktiku ja tarkvaraarendajana. Vabal ajal armastab Hasan loodust uurida ning sõprade ja perega aega veeta.

Benoit de Patoul on AWS-i AI/ML-i spetsialistilahenduste arhitekt. Ta aitab kliente, pakkudes juhiseid ja tehnilist abi, et luua AI/ML-iga seotud lahendusi AWS-i abil. Vabal ajal meeldib talle klaverit mängida ja sõpradega aega veeta.

Ajatempel: Juuli 29, 2022Juuli 30, 2022

Ajatempel: September 25, 2023

Ehitage ja treenige ML-mudeleid, kasutades AWS-i andmevõrgu arhitektuuri: 1. osa

Taasavaldanud Platon

Andmevõrgu ülevaade

Finantsteenuste kasutamise juhtum

Sügav sukeldumine tehnilistesse vajadustesse

Andmetarbija: Analytics ja ML CoE

Andmete tootja: domeeni omand

Andmete haldamine: leitavus, juurdepääsetavus ja auditeeritavus

Lahenduse ülevaade

Tarbijapanganduse LoB (andmete tootja)

Andmete haldamine

Eeldused

Juurutage andmevõrgu keskkond

Keskne konto

Tootja konto

Tarbijakonto

Lisage andmebaas ja tellige sellele tarbijakonto

Andmete toote registreerimine

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Kaitsekatte skeemide tuvastamine NFL-i järgmise põlvkonna statistikas

Looge Amazon Textractiga jälgitav, kohandatud, mitmes vormingus dokumentide sõelumiskonveier

Valmistage Amazon SageMaker Studios mastaapsed andmed ette, kasutades serverita AWS Glue interaktiivseid seansse

Looge Amazon Lookout for Metricsi abil lojaalsuspunktide anomaaliate detektor

Gradient muudab LLM-i võrdlusuuringu AWS Inferentia abil kulutõhusaks ja vaevatuks | Amazoni veebiteenused

Valmistage andmeid kiiremini ette PySparki ja Altairi koodilõikudega rakenduses Amazon SageMaker Data Wrangler

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto