Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Rakenna ja kouluta ML-malleja käyttämällä tietoverkkoarkkitehtuuria AWS:ssä: Osa 1

Organisaatiot eri toimialoilla käyttävät tekoälyä (AI) ja koneoppimista (ML) ratkaistakseen toimialaansa liittyviä liiketoimintahaasteita. Esimerkiksi finanssipalvelualalla voit käyttää tekoälyä ja ML:tä petosten havaitsemiseen, luottoriskien ennustamiseen, suoramarkkinointiin ja moniin muihin liittyviin haasteisiin.

Suuret yritykset perustavat toisinaan huippuyksikön (CoE) vastaamaan eri toimialojen tarpeisiin innovatiivisten analytiikan ja ML-hankkeiden avulla.

Laadukkaiden ja tehokkaiden ML-mallien luomiseksi mittakaavassa niiden on tehtävä seuraava:

  • Tarjoaa helpon tavan saada tarvittavat tiedot heidän analytiikkaansa ja ML CoE:hen
  • Luo vastuuta yksittäisten LoB-yksiköiden tiedontarjoajille jakaa kuratoituja tietoresursseja, jotka ovat löydettävissä, ymmärrettäviä, yhteentoimivia ja luotettavia

Tämä voi lyhentää pitkää sykliaikaa ML-käyttötapausten muuntamiseksi kokeilusta tuotantoon ja luoda liiketoiminta-arvoa koko organisaatiossa.

Data mesh -arkkitehtuuri pyrkii ratkaisemaan nämä tekniset ja organisatoriset haasteet ottamalla käyttöön hajautetun sosioteknisen lähestymistavan tietojen jakamiseen, käyttämiseen ja hallintaan monimutkaisissa ja laajamittaisissa ympäristöissä – organisaatioiden sisällä tai niiden välillä. Tietoverkon suunnittelumalli luo vastuullisen tiedonjakamismallin, joka on linjassa organisaation kasvun kanssa ja saavuttaa perimmäisen tavoitteen eli dataryhmien, prosessien ja teknologian liiketoiminnan investointien tuoton lisäämisen.

Tässä kaksiosaisessa sarjassa annamme ohjeita siitä, kuinka organisaatiot voivat rakentaa nykyaikaisen tietoarkkitehtuurin käyttämällä dataverkkosuunnittelumallia AWS:ssä ja mahdollistaa analytiikan ja ML CoE:n rakentaa ja kouluttaa ML-malleja, joissa on tietoja useiden lohkojen yli. Käytämme esimerkkiä rahoituspalveluorganisaatiosta määrittääksemme tämän sarjan kontekstin ja käyttötapauksen.

Tässä ensimmäisessä viestissä näytämme menettelyt tietoverkkoarkkitehtuurin määrittämiseksi useilla AWS-tietojen tuottaja- ja kuluttajatileillä. Sitten keskitymme yhteen tietotuotteeseen, jonka omistaa yksi talousorganisaation LoB, ja siihen, kuinka se voidaan jakaa dataverkkoympäristöön, jotta muut osapuolet voivat kuluttaa ja käyttää tätä datatuotetta. Tämä on suunnattu pääasiassa tietosuojavastaavalle, joka on vastuussa tiedon tuottajien ja kuluttajien välisen tiedonjakamisprosessin virtaviivaistamisesta ja standardoinnista sekä tiedonhallintasääntöjen noudattamisesta.

Toisessa viestissä näytämme yhden esimerkin siitä, kuinka analytics ja ML CoE voivat kuluttaa datatuotetta riskien ennusteen käyttötapaukseen. Tämä on suunnattu pääasiassa datatieteilijälle, joka on vastuussa sekä organisaation laajuisten että kolmansien osapuolien tietoresurssien hyödyntämisestä ML-mallien rakentamisessa ja kouluttamisessa, jotka poimivat liiketoiminnan oivalluksia ja parantavat rahoituspalveluasiakkaiden kokemusta.

Tietoverkon yleiskatsaus

Tietoverkkomallin perustaja Zhamak Dehghani kirjassaan Data Mesh tuottaa tietoihin perustuvaa arvoa mittakaavassamääritteli neljä periaatetta tietoverkon tavoitteen saavuttamiseksi:

  • Hajautettu verkkotunnuksen omistus – Tavoitteena on organisatorinen siirtyminen tietoalustatekniikoita hoitavien asiantuntijoiden keskitetystä tietojen omistajuudesta hajautettuun tiedonomistusmalliin, jolloin tietojen omistajuus ja vastuuvelvollisuus siirretään takaisin niille aloille, joissa dataa tuotetaan (lähdekohtaiset toimialueet) tai kulutetaan ( kulutuskohtaiset verkkotunnukset).
  • Data tuotteena – Edistetään vastuullisuutta kuratoitujen, korkealaatuisten, yhteentoimivien ja suojattujen tietoresurssien jakamisesta. Tästä syystä eri alojen tiedontuottajat ovat vastuussa tietojen tekemisestä kulutettavassa muodossa heti lähteellä.
  • Itsepalveluanalytiikka – Virtaviivaistaa analytiikan ja ML:n datakäyttäjien kokemusta, jotta he voivat löytää, käyttää ja käyttää tietotuotteita haluamillaan työkaluilla. Lisäksi tehostaa LoB-tietojen tarjoajien kokemusta datatuotteiden rakentamisesta, käyttöönotosta ja ylläpidosta reseptien ja uudelleenkäytettävien komponenttien ja mallien avulla.
  • Liittynyt laskennallinen hallinto – Liitä ja automatisoi tietojen käytön hallintaan ja valvontaan liittyvä päätöksenteko eri alojen tietojen omistajien tasolla, mikä on edelleen sopusoinnussa laajemman organisaation laki-, vaatimustenmukaisuus- ja turvallisuuspolitiikkojen kanssa, jotka viime kädessä pannaan täytäntöön verkko.

AWS esitteli visionsa tietoverkon rakentamisesta AWS:n päälle useissa viesteissä:

  • Ensin keskityimme hajautetun verkkotunnuksen omistajuuteen ja dataan tuoteperiaatteina liittyvään organisaatioosaan. Kirjoittajat kuvailivat näkemystä useiden LOBien kohdistamisesta organisaatiossa kohti tietotuotestrategiaa, joka tarjoaa kulutukseen kohdistetuille toimialueille työkalut tarvitsemansa tiedon löytämiseksi ja hankkimiseksi, samalla kun taataan tarvittava valvonta näiden tietojen käytössä ottamalla käyttöön tilivelvollisuus. lähdekohtaiset verkkotunnukset tarjotakseen tietotuotteita valmiina käytettäviksi heti lähteessä. Lisätietoja on kohdassa Kuinka JPMorgan Chase rakensi tietoverkkoarkkitehtuurin tuottamaan merkittävää arvoa yrityksen tietoalustan parantamiseksi.
  • Sitten keskityimme tekniseen osaan, joka liittyy tietotuotteiden rakentamiseen, itsepalveluanalytiikkaan ja yhdistettyihin laskennan hallintaperiaatteisiin. Kirjoittajat kuvasivat AWS-ydinpalveluita, jotka antavat lähdekohtaisille verkkotunnuksille mahdollisuuden rakentaa ja jakaa datatuotteita, laajan valikoiman palveluita, jotka voivat antaa kuluttajille kohdistetuille verkkotunnuksille mahdollisuuden kuluttaa datatuotteita eri tavoilla niiden haluamien työkalujen ja käyttötapausten perusteella. työskentelevät kohti ja lopuksi AWS-palveluita, jotka ohjaavat tietojen jakamismenettelyä pakottamalla tietojen käyttökäytäntöjä. Lisätietoja on kohdassa Suunnittele tietoverkkoarkkitehtuuri käyttämällä AWS Lake Formationia ja AWS Gluea.
  • Esitimme myös ratkaisun tietojen etsimisen ja käytön hallinnan automatisointiin keskitetyn dataverkkokäyttöliittymän avulla. Katso lisätietoja osoitteesta Luo tietojen jakamisen työnkulku AWS Lake Formationin avulla tietoverkkoasi varten.

Rahoituspalvelujen käyttötapaus

Tyypillisesti suurilla finanssipalveluorganisaatioilla on useita lohkoja, kuten kuluttajapankkitoiminta, investointipankkitoiminta ja omaisuudenhoito, sekä yksi tai useampi analytiikka- ja ML CoE -tiimi. Jokainen LoB tarjoaa erilaisia ​​palveluita:

  • Kuluttajapankki LoB tarjoaa erilaisia ​​palveluita kuluttajille ja yrityksille, mukaan lukien luotto- ja asuntolainat, kassanhallinta, maksuratkaisut, talletus- ja sijoitustuotteet ja paljon muuta
  • Liike- tai investointipankki LoB tarjoaa kattavia rahoitusratkaisuja, kuten luotonantoa, konkurssiriskiä ja tukkumaksuja asiakkaille, mukaan lukien pienet yritykset, keskisuuret yritykset ja suuryritykset.
  • Varainhoito LoB tarjoaa eläketuotteita ja sijoituspalveluita kaikille omaisuusluokille

Jokainen LoB määrittelee omat tietotuotteensa, joita kuratoivat ihmiset, jotka ymmärtävät tiedot ja jotka sopivat parhaiten määrittämään, kenellä on oikeus käyttää sitä ja miten sitä voidaan käyttää. Sitä vastoin muut LoB-alueet ja sovellusalueet, kuten analytiikka ja ML CoE, ovat kiinnostuneita pätevien tietotuotteiden löytämisestä ja käyttämisestä, niiden yhdistämisestä oivallusten luomiseksi ja tietopohjaisten päätösten tekemisestä.

Seuraavassa kuvassa on joitakin LoB-alueita ja esimerkkejä datatuotteista, joita ne voivat jakaa. Se näyttää myös tietotuotteiden, kuten analytiikan ja ML CoE:n, kuluttajat, jotka rakentavat ML-malleja, joita voidaan ottaa käyttöön asiakaskohtaisissa sovelluksissa parantaakseen entisestään loppuasiakkaan kokemusta.

Tietoverkon sosioteknisen konseptin mukaisesti aloitamme sosiaalisesta näkökulmasta joukolla organisaation vaiheita, kuten seuraavat:

  • Verkkoalueen asiantuntijoiden avulla määritetään rajat kullekin toimialueelle, jotta jokainen tietotuote voidaan yhdistää tiettyyn toimialueeseen
  • Omistajan tunnistaminen kustakin verkkotunnuksesta toimitetuille datatuotteille, joten jokaisella datatuotteella on omistajan määrittelemä strategia
  • Hallintopolitiikan tunnistaminen maailmanlaajuisista ja paikallisista tai liittoutuneista kannustimista, joten kun datan kuluttajat käyttävät tiettyä datatuotetta, tuotteeseen liittyvä käyttökäytäntö voidaan automaattisesti panna täytäntöön keskitetyn tiedonhallintakerroksen kautta.

Sitten siirrymme tekniseen näkökohtaan, joka sisältää seuraavan edellisessä kaaviossa määritellyn päästä päähän -skenaarion:

  1. Valtuuta kuluttajapankkien LoB työkaluilla käyttövalmiin kulutusluottoprofiilitietotuotteen rakentamiseen.
  2. Salli kuluttajapankkitoiminnan LoB:n jakaa datatuotteita keskushallintokerrokseen.
  3. Upota globaaleja ja liittoutuneita määritelmiä tietojen käyttökäytännöistä, joita tulee valvoa käytettäessä kulutusluottoprofiilitietotuotetta keskitetyn tiedonhallinnan kautta.
  4. Anna analytiikan ja ML CoE:n löytää tietotuote ja käyttää sitä keskitetyn hallintokerroksen kautta.
  5. Valtuuta analytiikka ja ML CoE työkaluilla datatuotteen hyödyntämiseen luottoriskin ennustemallin rakentamiseen ja kouluttamiseen. Emme kata tämän sarjan viimeisiä vaiheita (6 ja 7 edellisessä kaaviossa). Havainnollistamme kuitenkin seuraavanlaista liiketoiminta-arvoa, jonka tällainen ML-malli voi tuoda organisaatiolle päästä päähän -skenaariossa:
  6. Tämä malli voitaisiin myöhemmin ottaa käyttöön takaisin asiakaskohtaisiin järjestelmiin, kuten kuluttajapankkiportaaliin tai mobiilisovellukseen.
  7. Sitä voidaan käyttää erityisesti lainahakemuksessa luotto- ja asuntolainahakemusten riskiprofiilin arvioimiseen.

Seuraavaksi kuvailemme kunkin komponentin tekniset tarpeet.

Sukella syvälle teknisiin tarpeisiin

Jotta tietotuotteet olisivat kaikkien saatavilla, organisaatioiden on tehtävä tietojen jakamisesta helppoa organisaation eri yksiköiden välillä säilyttäen samalla asianmukainen valvonta tai toisin sanoen tasapainotettava ketteryys asianmukaisen hallinnon kanssa.

Datan kuluttaja: Analytics ja ML CoE

Tietojen kuluttajien, kuten analytiikan ja ML CoE:n datatieteilijöiden, on kyettävä tekemään seuraavat:

  • Löydä ja käytä tiettyä käyttötapausta koskevia relevantteja tietojoukkoja
  • Varmista, että tietojoukot, joita he haluavat käyttää, ovat jo kuratoituja, ajan tasalla ja niillä on selkeät kuvaukset
  • Pyydä pääsyä heidän liiketoimintatapauksiaan kiinnostaviin tietokokonaisuuksiin
  • Käytä heidän ensisijaisia ​​työkalujaan kysellä ja käsitellä tällaisia ​​tietojoukkoja ympäristössään ML:tä varten ilman tarvetta replikoida tietoja alkuperäisestä etäsijainnista tai huolehtia suunnittelun tai infrastruktuurin monimutkaisuudesta, joka liittyy etäpaikkaan fyysisesti tallennettujen tietojen käsittelyyn.
  • Saat ilmoituksen tiedon omistajien tekemistä tietopäivityksistä

Tietojen tuottaja: Verkkotunnuksen omistus

Tietojen tuottajien, kuten verkkotunnustiimien eri toimialoilla rahoituspalveluorganisaatiossa, on rekisteröitävä ja jaettava kuratoituja tietojoukkoja, jotka sisältävät seuraavat tiedot:

  • Tekniset ja toiminnalliset metatiedot, kuten tietokantojen ja taulukoiden nimet ja koot, sarakekaaviot ja avaimet
  • Liiketoiminnan metatiedot, kuten tietojen kuvaus, luokitus ja herkkyys
  • Metatietojen seuranta, kuten skeeman kehitys lähteestä kohdelomakkeeseen ja mahdolliset välimuodot
  • Tietojen laadun metatiedot, kuten oikeellisuus- ja täydellisyyssuhteet ja dataharha
  • Pääsykäytännöt ja -menettelyt

Näitä tarvitaan, jotta datan kuluttajat voivat löytää ja käyttää tietoja ilman manuaalisia toimenpiteitä tai ottaa yhteyttä datatuotteen toimialueen asiantuntijoihin saadakseen lisää tietoa tietojen merkityksestä ja siitä, miten niihin pääsee käsiksi.

Tietojen hallinta: Löydettävyys, saavutettavuus ja tarkastettavuus

Organisaatioiden on tasapainotettava aiemmin kuvattu ketteryys tietovuotoihin liittyvien riskien asianmukaisella vähentämisellä. Erityisesti säännellyillä toimialoilla, kuten rahoituspalveluissa, on tarpeen ylläpitää keskitettyä tietojen hallintaa, jotta voidaan tarjota yleinen tietojen käyttö ja tarkastusten valvonta ja samalla pienentää tallennustilaa välttämällä samojen tietojen useita kopioita eri paikoissa.

Perinteisissä keskitetyissä datajärvi-arkkitehtuureissa datan tuottajat julkaisevat usein raakadataa ja siirtävät vastuun tiedon kuroinnista, laadunhallinnasta ja pääsyn hallinnasta data- ja infrastruktuuriinsinööreille keskitetyssä tietoalustatiimissä. Nämä tietoalustaryhmät voivat kuitenkin olla vähemmän tuttuja eri tietoalueista ja silti luottaa tietojen tuottajien tukeen pystyäkseen kuroimaan ja hallitsemaan pääsyä dataan kunkin tietoalueen käytäntöjen mukaisesti. Sitä vastoin tiedontuottajat itse ovat parhaimmassa asemassa tarjoamaan kuratoituja, päteviä tietoresursseja, ja he ovat tietoisia verkkotunnuskohtaisista pääsykäytännöistä, joita on valvottava tietoresursseja käytettäessä.

Ratkaisun yleiskatsaus

Seuraava kaavio esittää ehdotetun ratkaisun korkean tason arkkitehtuuria.

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Käsittelemme analytiikan ja ML CoE:n tiedonkulutusta Amazon Athena ja Amazon Sage Maker in osa 2 tämän sarjan.

Tässä viestissä keskitymme tietojen liittämiseen tietoverkkoon ja kuvailemme, kuinka yksittäinen LoB, kuten kuluttajapankkitoimialueen datatiimi, voi käyttää AWS-työkaluja, kuten AWS-liima ja AWS Liima DataBrew valmistella, valvoa ja parantaa tietotuotteidensa laatua ja rekisteröidä sitten kyseiset tietotuotteet keskitetylle tiedonhallintatilille AWS-järvien muodostuminen.

Kuluttajapankkitoiminnan LoB (tietojen tuottaja)

Yksi tietoverkon perusperiaatteista on käsitys datasta tuotteena. On erittäin tärkeää, että kuluttajapankkitoimialueen datatiimi valmistelee datatuotteita, jotka ovat valmiita datan kuluttajien käyttöön. Tämä voidaan tehdä käyttämällä AWS-purku-, muunnos- ja lataustyökaluja, kuten AWS-liimaa, käsittelemään kerättyjä raakatietoja. Amazonin yksinkertainen tallennuspalvelu (Amazon S3), tai vaihtoehtoisesti muodosta yhteys operatiivisiin tietovarastoihin, joissa tiedot tuotetaan. Voit myös käyttää DataBrew, joka on kooditon visuaalinen tietojen valmistelutyökalu, jonka avulla on helppo puhdistaa ja normalisoida tietoja.

Esimerkiksi kuluttajaluottoprofiilitietotuotetta valmistellessaan kuluttajapankkitoimialueen datatiimi voi tehdä yksinkertaisen kuroinnin kääntääkseen avoimen lähdekoodin tietojoukosta haetun raakadatan attribuuttien nimet saksasta englanniksi. Statlog Saksan luottotiedot, joka koostuu 20 määritteestä ja 1,000 XNUMX rivistä.

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tietohallinto

AWS-ydinpalvelu dataverkon hallinnan mahdollistamiseksi on Lake Formation. Lake Formation tarjoaa mahdollisuuden pakottaa tietojen hallintaa kussakin tietoverkkotunnuksessa ja verkkotunnuksissa, jotta tiedot ovat helposti löydettävissä ja suojattuja. Se tarjoaa yhdistetyn suojausmallin, jota voidaan hallita keskitetysti. Se sisältää parhaita käytäntöjä tietojen etsimiseen, turvallisuuteen ja vaatimustenmukaisuuteen, samalla kun se mahdollistaa korkean ketteryyden kullakin toimialueella.

Lake Formation tarjoaa sovellusliittymän, joka yksinkertaistaa tietojen käsittelyä, tallentamista ja hallintaa, sekä rivitason suojauksen tietojesi suojaamiseksi. Se tarjoaa myös toimintoja, kuten rakeisen pääsynhallinnan, ohjatut taulukot ja tallennusoptimoinnin.

Lisäksi Lake Formations tarjoaa mm Data Sharing API joita voit käyttää tietojen jakamiseen eri tileillä. Tämän ansiosta analytiikka- ja ML CoE -kuluttaja voivat suorittaa Athena-kyselyitä, jotka tekevät kyselyitä ja yhdistävät taulukoita useiden tilien välillä. Lisätietoja on osoitteessa AWS Lake Formationin kehittäjäopas.

AWS Resource Access Manager (AWS RAM) tarjoaa turvallisen tavan jakaa resursseja kautta AWS Identity and Access Manager (IAM) roolit ja käyttäjät AWS-tileillä organisaatiossa tai organisaatioyksiköissä AWS-organisaatiot.

Lake Formation yhdessä AWS-RAM-muistin kanssa tarjoaa yhden tavan hallita tietojen jakamista ja pääsyä AWS-tilien välillä. Kutsumme tätä lähestymistapaa nimellä RAM-pohjainen kulunvalvonta. Lisätietoja tästä lähestymistavasta on kohdassa Luo tietojen jakamisen työnkulku AWS Lake Formationin avulla tietoverkkoasi varten.

Lake Formation tarjoaa myös toisen tavan hallita tietojen jakamista ja pääsyä käyttämällä Lake Formation -tunnisteet. Kutsumme tätä lähestymistapaa nimellä tunnistepohjainen pääsynhallinta. Katso lisätietoja osoitteesta Rakenna moderni tietoarkkitehtuuri ja tietoverkkokuvio mittakaavassa käyttämällä AWS Lake Formation -tunnistepohjaista pääsynhallintaa.

Käytämme tässä viestissä tunnistepohjaista pääsynhallintatapaa, koska se yksinkertaistaa käytäntöjen luomista pienemmälle määrälle loogisia tunnisteita, joita yleensä löytyy eri lohkoista, sen sijaan, että määrittäisimme käytäntöjä nimetyille resursseille infrastruktuuritasolla.

Edellytykset

Tietoverkkoarkkitehtuurin määrittämiseen tarvitaan vähintään kolme AWS-tiliä: tuottajatili, keskustili ja kuluttajatili.

Ota tietoverkkoympäristö käyttöön

Voit ottaa tietoverkkoympäristön käyttöön seuraavasti GitHub-arkisto. Tämä arkisto sisältää kolme AWS-pilven muodostuminen malleja, jotka ottavat käyttöön tietoverkkoympäristön, joka sisältää kaikki tilit (tuottaja-, keskus- ja kuluttajatilit). Jokaisella tilillä voit käyttää sitä vastaavaa CloudFormation-mallia.

Keskitetty tili

Suorita keskustilillä seuraavat vaiheet:

  1. Käynnistä CloudFormation-pino:
    Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  2. Luo kaksi IAM-käyttäjää:
    1. DataMeshOwner
    2. ProducerSteward
  3. Grant DataMeshOwner Lake Formationin järjestelmänvalvojana.
  4. Luo yksi IAM-rooli:
    1. LFRegisterLocationServiceRole
  5. Luo kaksi IAM-käytäntöä:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. Luo tietokannan luottokortti ProducerSteward tuottajan tilillä.
  7. Jaa tietojen sijainnin käyttöoikeus tuottajatilille.

Tuottajan tili

Suorita tuottajatilillä seuraavat vaiheet:

  1. Käynnistä CloudFormation-pino:
    Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  2. Luo S3-ämpäri credit-card, joka pitää pöydän credit_card.
  3. Salli S3-säilöpääsy keskustilin Lake Formation -palveluroolille.
  4. Luo AWS Glue -indeksointirobotti creditCrawler-<ProducerAccountID>.
  5. Luo AWS Glue -indeksointiroolipalvelurooli.
  6. Myönnä käyttöoikeudet S3-säilölle credit-card-<ProducerAccountID>-<aws-region> AWS Glue -indeksointirooliin.
  7. Luo tuottajaluottamusmies IAM-käyttäjä.

Kuluttajatili

Suorita kuluttajatilillä seuraavat vaiheet:

  1. Käynnistä CloudFormation-pino:
    Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  2. Luo S3-ämpäri <AWS Account ID>-<aws-region>-athena-logs.
  3. Luo Athena-työryhmä consumer-workgroup.
  4. Luo IAM -käyttäjä ConsumerAdmin.

Lisää tietokanta ja tilaa siihen kuluttajatili

Kun olet suorittanut mallit, voit käydä läpi askel-askeleelta opas lisätäksesi tuotteen tietoluetteloon ja saada kuluttajan tilaamaan se. Opas alkaa perustamalla tietokanta, johon tuottaja voi sijoittaa tuotteensa, ja sitten selittää, kuinka kuluttaja voi tilata tietokannan ja päästä käsiksi tietoihin. Kaikki tämä tapahtuu käytön aikana LF-tunnisteet, kumpi on tunnistepohjainen pääsynhallinta joukkueelle Lake Formation.

Tietojen tuotteen rekisteröinti

Seuraavassa arkkitehtuurissa kuvataan yksityiskohtaiset vaiheet, kuinka tiedontuottajina toimiva kuluttajapankkitoiminnan LoB-tiimi voi rekisteröidä tietotuotteensa keskitetylle tiedonhallintatilille (onboard data products to organisaation tietoverkkoon).

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yleiset vaiheet datatuotteen rekisteröimiseksi ovat seuraavat:

  1. Luo kohdetietokanta tietotuotteelle keskitettyyn hallinnointitiliin. Esimerkiksi keskustilin CloudFormation-malli luo jo kohdetietokannan credit-card.
  2. Jaa luotu kohdetietokanta tuottajatilin alkuperän kanssa.
  3. Luo tuottajatilille jaetun tietokannan resurssilinkki. Seuraavassa kuvakaappauksessa näemme Lake Formation -konsolissa tuottajatilin rl_credit-card on resurssilinkki credit-card tietokanta.
    Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  4. Täytä taulukot (tuottajatilillä kuratoiduilla tiedoilla) resurssilinkkitietokannan sisällä (rl_credit-card) käyttämällä AWS Glue -indeksointirobottia tuottajatilillä.
    Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Luotu taulukko tulee automaattisesti näkyviin keskushallinnon tilille. Seuraavassa kuvakaappauksessa on esimerkki keskustilin Lake Formationin taulukosta. Tämä tapahtuu sen jälkeen, kun olet suorittanut aikaisemmat vaiheet resurssilinkkitietokannan täyttämiseksi rl_credit-card tuottajan tilillä.

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto

Tämän sarjan osassa 1 keskustelimme rahoituspalveluorganisaatioiden tavoitteista lisätä analytiikka- ja ML-tiimien ketteryyttä ja lyhentää datasta oivalluksiin kuluvaa aikaa. Keskityimme myös tietoverkkoarkkitehtuurin rakentamiseen AWS:lle, jossa olemme ottaneet käyttöön helppokäyttöiset, skaalautuvat ja kustannustehokkaat AWS-palvelut, kuten AWS Glue, DataBrew ja Lake Formation. Tietoa tuottavat tiimit voivat käyttää näitä palveluja rakentaakseen ja jakaakseen kuratoituja, laadukkaita, yhteentoimivia ja turvallisia datatuotteita, jotka ovat valmiita eri tiedonkuluttajien käyttöön analyyttisiin tarkoituksiin.

In osa 2, keskitymme analytiikka- ja ML CoE -tiimeihin, jotka käyttävät kuluttajapankkitoiminnan jakamia datatuotteita luodakseen luottoriskin ennustemallin käyttämällä AWS-palveluita, kuten Athena ja SageMaker.


Tietoja kirjoittajista

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Karim Hammouda on AWS: n Analytics -ratkaisujen erikoisarkkitehti, jonka intohimo on tietojen integrointi, tietojen analysointi ja BI. Hän suunnittelee ja rakentaa AWS -asiakkaiden kanssa liiketoiminnan kasvua edistäviä analytiikkaratkaisuja. Vapaa -ajallaan hän tykkää katsella TV -dokumentteja ja pelata videopelejä poikansa kanssa.

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Hasan Poonawala on Senior AI/ML Specialist Solutions Architect AWS:ssä, Hasan auttaa asiakkaita suunnittelemaan ja ottamaan käyttöön koneoppimissovelluksia AWS:n tuotannossa. Hänellä on yli 12 vuoden työkokemus datatieteilijänä, koneoppimisen harjoittajana ja ohjelmistokehittäjänä. Vapaa-ajallaan Hasan rakastaa tutkia luontoa ja viettää aikaa ystävien ja perheen kanssa.

Rakenna ja kouluta ML-malleja käyttämällä dataverkkoarkkitehtuuria AWS:ssä: Osa 1 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Benoit de Patoul on AI/ML Specialist Solutions -arkkitehti AWS:ssä. Hän auttaa asiakkaita antamalla opastusta ja teknistä apua AI/ML-ratkaisujen rakentamisessa AWS:n avulla. Vapaa-ajallaan hän soittaa pianoa ja viettää aikaa ystävien kanssa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen