Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

ML modellek készítése és betanítása adatháló-architektúra segítségével az AWS-en: 1. rész

A különféle iparágakban működő szervezetek mesterséges intelligenciát (AI) és gépi tanulást (ML) használnak az iparágukra jellemző üzleti kihívások megoldására. Például a pénzügyi szolgáltatási ágazatban az AI és az ML segítségével megoldhatja a csalások felderítésével, a hitelkockázat-előrejelzéssel, a direkt marketinggel és sok mással kapcsolatos kihívásokat.

A nagyvállalatok időnként kiválósági központot (CoE) hoznak létre, hogy innovatív elemzésekkel és ML-projektekkel kielégítsék a különböző üzletágak (LoBs) igényeit.

Kiváló minőségű és nagy teljesítményű ML modellek létrehozásához a következőket kell tenniük:

  • Egyszerű módot biztosítanak a releváns adatok eléréséhez az analitikához és az ML CoE-hez
  • Hozzon létre elszámoltathatóságot az egyes LoB-k adatszolgáltatói számára, hogy megosszák a felderíthető, érthető, interoperábilis és megbízható, összegyűjtött adatvagyont.

Ez csökkentheti az ML használati esetek kísérletből termelésbe konvertálásához szükséges hosszú ciklusidőt, és üzleti értéket generál a szervezetben.

Az adatháló-architektúra arra törekszik, hogy megoldja ezeket a technikai és szervezeti kihívásokat azáltal, hogy egy decentralizált társadalmi-technikai megközelítést vezet be az adatok összetett és nagyméretű környezetekben történő megosztására, elérésére és kezelésére – szervezeteken belül vagy szervezetek között. Az adatháló tervezési mintája felelős adatmegosztási modellt hoz létre, amely illeszkedik a szervezeti növekedéshez, hogy elérje azt a végső célt, hogy növelje az adatcsoportokba, a folyamatba és a technológiába irányuló üzleti befektetések megtérülését.

Ebben a kétrészes sorozatban útmutatást adunk ahhoz, hogy a szervezetek hogyan építhetnek fel modern adatarchitektúrát az AWS adatháló-tervezési mintájával, és hogyan tehetnek lehetővé egy analitikai és ML CoE-t az ML modellek felépítéséhez és betanításához több ágon keresztüli adatokkal. A sorozat kontextusának és használati esetének meghatározásához egy pénzügyi szolgáltató szervezet példáját használjuk.

Ebben az első bejegyzésben bemutatjuk az adatháló-architektúra beállításának eljárásait több AWS-adattermelői és fogyasztói fiókkal. Ezután egy adattermékre összpontosítunk, amely a pénzügyi szervezeten belül egy LoB tulajdonában van, és arra, hogyan osztható meg egy adatháló-környezetben, hogy lehetővé tegye más LoB-k számára ezt az adatterméket. Ez elsősorban az adatkezelőt célozza meg, aki felelős az adatelőállítók és fogyasztók közötti adatmegosztás folyamatának racionalizálásáért és szabványosításáért, valamint az adatkezelési szabályok betartásáért.

A második bejegyzésben egy példát mutatunk be arra, hogy az analitika és az ML CoE hogyan tudja felhasználni az adatterméket egy kockázat-előrejelzési használati esethez. Ez elsősorban az adattudós személyt célozza meg, aki felelős mind a szervezeti, mind a harmadik féltől származó adatvagyon felhasználásáért olyan ML-modellek létrehozásához és betanításához, amelyek üzleti betekintést nyernek a pénzügyi szolgáltatások ügyfelei élményének javítása érdekében.

Adatháló áttekintése

Az adatháló minta alapítója, Zhamak Dehghani könyvében Data Mesh méretarányosan adatvezérelt értéket biztosítnégy alapelvet határozott meg az adatháló célja felé:

  • Megosztott domain tulajdonjog – Szervezeti elmozdulás az adatplatform-technológiákat üzemeltető szakemberek általi központosított adatok tulajdonlásáról a decentralizált adattulajdonlási modellre, visszaszorítva az adatok tulajdonjogát és elszámoltathatóságát azokhoz a területekhez, ahol az adatokat előállítják (forráshoz igazított tartományok) vagy felhasználják ( fogyasztáshoz igazított tartományok).
  • Az adat mint termék – A gondozott, jó minőségű, interoperábilis és biztonságos adatvagyon megosztásának elszámoltathatóságának előmozdítása. Ezért a különböző LoB-k adatelőállítói felelősek azért, hogy az adatokat közvetlenül a forrásnál fogyasztható formában készítsék el.
  • Önkiszolgáló elemzés – Az analitika és az ML adatfelhasználók tapasztalatának egyszerűsítése annak érdekében, hogy az általuk preferált eszközökkel felfedezhessék, hozzáférhessenek és felhasználhassák az adattermékeket. Ezen túlmenően a LoB adatszolgáltatók tapasztalatának egyszerűsítése az adattermékek felépítésében, telepítésében és karbantartásában receptek, valamint újrafelhasználható összetevők és sablonok segítségével.
  • Összevont számítási irányítás – Az adatokhoz való hozzáférés kezelésével és ellenőrzésével kapcsolatos döntéshozatal egyesítése és automatizálása a különböző ágak adattulajdonosainak szintjén történjen, ami továbbra is összhangban van a tágabb szervezet jogi, megfelelőségi és biztonsági politikájával, amelyet végső soron érvényre juttatnak. a háló.

Az AWS különféle bejegyzésekben mutatta be vízióját, hogy adathálót építsen az AWS tetejére:

  • Először az elosztott domain tulajdonjoggal és az adatokkal, mint termékelvekkel kapcsolatos szervezeti részre összpontosítottunk. A szerzők leírták azt az elképzelést, hogy a szervezeten belüli több LOB-ot egy olyan adattermék-stratégia felé kell igazítani, amely a fogyasztáshoz igazodó tartományok számára eszközöket biztosít a szükséges adatok megtalálásához és megszerzéséhez, miközben garantálja az adatok felhasználásának szükséges ellenőrzését azáltal, hogy bevezeti az elszámoltathatóságot. a forráshoz igazított tartományok, hogy közvetlenül a forrásnál használatra kész adattermékeket biztosítsanak. További információkért lásd: Hogyan épített fel a JPMorgan Chase egy adatháló-architektúrát, hogy jelentős értéket teremtsen vállalati adatplatformja fejlesztéséhez.
  • Ezután az adattermékek létrehozásához, az önkiszolgáló elemzésekhez és az egyesített számítási irányítási elvekhez kapcsolódó műszaki részre összpontosítottunk. A szerzők leírták azokat az alapvető AWS-szolgáltatásokat, amelyek lehetővé teszik a forráshoz igazított domainek adattermékek létrehozását és megosztását, a szolgáltatások széles skáláját, amelyek lehetővé teszik a fogyasztókhoz igazított domainek számára, hogy különböző módokon fogyaszthassanak adattermékeket a preferált eszközeik és használati eseteik alapján. azon dolgoznak, és végül az AWS-szolgáltatásokon, amelyek az adathozzáférési szabályzatok érvényesítésével szabályozzák az adatmegosztási eljárást. További információkért lásd: Tervezzen adatháló-architektúrát az AWS Lake Formation és az AWS Glue segítségével.
  • Megoldást is mutattunk az adatfelderítés és a hozzáférés-szabályozás automatizálására egy központi adathálós felhasználói felületen keresztül. További részletekért lásd: Készítsen adatmegosztási munkafolyamatot az AWS Lake Formation segítségével az adathálóhoz.

Pénzügyi szolgáltatások használatának esete

A nagy pénzügyi szolgáltató szervezetek általában több területtel rendelkeznek, például fogyasztói banki szolgáltatásokkal, befektetési banki szolgáltatásokkal és vagyonkezeléssel, valamint egy vagy több analitikai és ML CoE csapattal. Minden LoB különböző szolgáltatásokat nyújt:

  • A fogyasztói banki LoB számos szolgáltatást nyújt fogyasztóknak és vállalkozásoknak, beleértve a hitel- és jelzáloghiteleket, a készpénzkezelést, a fizetési megoldásokat, a betéti és befektetési termékeket stb.
  • A kereskedelmi vagy befektetési banki LoB átfogó pénzügyi megoldásokat kínál, például hitelezést, csődkockázatot és nagykereskedelmi kifizetéseket ügyfeleinek, beleértve a kisvállalkozásokat, a középvállalkozásokat és a nagyvállalatokat.
  • A vagyonkezelő LoB nyugdíjazási termékeket és befektetési szolgáltatásokat nyújt minden eszközosztályban

Minden LoB meghatározza a saját adattermékeit, amelyeket olyan személyek gyűjtenek össze, akik megértik az adatokat, és amelyek a legalkalmasabbak annak meghatározására, hogy ki jogosult az adatok használatára, és hogyan használhatók fel. Ezzel szemben más LoB-ok és alkalmazási tartományok, mint például az analitika és az ML CoE, érdeklődnek a minősített adattermékek felfedezésében és felhasználásában, a betekintést lehetővé tévő egyesítésekben és az adatközpontú döntések meghozatalában.

A következő ábra néhány LoB-t és példákat mutat be azokra az adattermékekre, amelyeket megoszthatnak. Megmutatja az olyan adattermékek fogyasztóit is, mint az analitika és az ML CoE, akik olyan ML-modelleket építenek, amelyek az ügyfelek számára elérhető alkalmazásokban telepíthetők, hogy tovább javítsák a végfelhasználói élményt.

Az adatháló szociotechnikai koncepcióját követve a társadalmi aspektussal kezdjük egy sor szervezési lépéssel, például az alábbiakkal:

  • Tartományszakértők felhasználása az egyes tartományok határainak meghatározásához, így minden adattermék leképezhető egy adott tartományhoz
  • Az egyes tartományokból biztosított adattermékek tulajdonosainak azonosítása, így minden adattermék rendelkezik a tulajdonos által meghatározott stratégiával
  • Az irányítási irányelvek azonosítása globális és helyi vagy szövetségi ösztönzőkből, így amikor az adatfogyasztók hozzáférnek egy adott adattermékhez, a termékhez kapcsolódó hozzáférési szabályzat automatikusan érvényesíthető egy központi adatirányítási rétegen keresztül.

Ezután áttérünk a technikai szempontra, amely a következő, az előző diagramban meghatározott végpontok közötti forgatókönyvet tartalmazza:

  1. Felhatalmazza a fogyasztói banki LoB-t olyan eszközökkel, amelyek segítségével egy használatra kész fogyasztói hitelprofil adatterméket készíthet.
  2. Engedélyezze a fogyasztói banki LoB számára, hogy adattermékeket ossza meg a központi irányítási réteggel.
  3. Ágyazza be az adathozzáférési szabályzatok globális és egyesített definícióit, amelyeket érvényesíteni kell a fogyasztói hitelprofil adattermékhez való hozzáférés során a központi adatkezelésen keresztül.
  4. Engedélyezze az analitika és az ML CoE számára, hogy felfedezze és hozzáférjen az adattermékhez a központi irányítási rétegen keresztül.
  5. Felhatalmazza az analitikát és az ML CoE-t olyan eszközökkel, amelyek segítségével az adatterméket hitelkockázat-előrejelzési modell felépítésére és betanítására használhatják fel. Ebben a sorozatban nem térünk ki az utolsó lépésekre (6. és 7. az előző diagramban). Azonban annak bemutatására, hogy egy ilyen ML-modell milyen üzleti értéket hozhat a szervezet számára egy végponttól végpontig terjedő forgatókönyvben, a következőket szemléltetjük:
  6. Ezt a modellt később vissza lehet telepíteni az ügyfelek felé irányuló rendszerekre, például fogyasztói banki internetes portálra vagy mobilalkalmazásra.
  7. Kifejezetten a hiteligénylésen belül használható a hitel- és jelzálogigények kockázati profiljának felmérésére.

Ezután leírjuk az egyes komponensek műszaki igényeit.

Mélyen belemerülni a technikai igényekbe

Ahhoz, hogy az adattermékeket mindenki számára elérhetővé tegyék, a szervezeteknek egyszerűvé kell tenniük az adatok megosztását a különböző entitások között a szervezeten belül, miközben megfelelő ellenőrzést kell tartaniuk felette, vagy más szóval egyensúlyba kell hozniuk az agilitást a megfelelő irányítással.

Adatfogyasztó: Analytics és ML CoE

Az adatfogyasztóknak, például az analitikai és az ML CoE adattudósainak képesnek kell lenniük a következőkre:

  • Fedezze fel és érje el a releváns adatkészleteket egy adott használati esethez
  • Biztos lehet benne, hogy a hozzáférni kívánt adatkészletek már össze vannak gyűjtve, naprakészek, és részletes leírásuk van
  • Kérjen hozzáférést az üzleti ügyeik szempontjából érdekes adatkészletekhez
  • Használja előnyben részesített eszközeit az ilyen adatkészletek lekérdezésére és feldolgozására a környezetükben az ML számára anélkül, hogy az eredeti távoli helyről kellene replikálnia az adatokat, vagy aggódnia kellene a távoli helyen fizikailag tárolt adatok feldolgozásával kapcsolatos mérnöki vagy infrastrukturális bonyolultság miatt.
  • Értesítést kap az adattulajdonosok által végzett adatfrissítésekről

Adatgyártó: Domain tulajdonjog

Az adatelőállítóknak, például a pénzügyi szolgáltatási szervezet különböző területeihez tartozó tartománycsapatoknak regisztrálniuk kell és meg kell osztaniuk a következőket tartalmazó kurált adatkészleteket:

  • Műszaki és működési metaadatok, például adatbázis- és táblanevek és -méretek, oszlopsémák és kulcsok
  • Üzleti metaadatok, például adatleírás, besorolás és érzékenység
  • A metaadatok nyomon követése, például a séma evolúciója a forrástól a célűrlapig és bármely köztes űrlap
  • Adatminőségi metaadatok, például helyességi és teljességi arányok, valamint az adatok torzítása
  • Hozzáférési szabályzatok és eljárások

Ezekre azért van szükség, hogy az adatfogyasztók felfedezhessék és hozzáférhessenek az adatokhoz anélkül, hogy manuális eljárásokra támaszkodnának, vagy fel kellene venniük a kapcsolatot az adattermék tartományi szakértőivel, hogy többet megtudjanak az adatok jelentéséről és a hozzáférés módjáról.

Adatkezelés: Felfedezhetőség, hozzáférhetőség és auditálhatóság

A szervezeteknek egyensúlyba kell hozniuk a korábban bemutatott agilitásokat az adatszivárgással kapcsolatos kockázatok megfelelő mérséklésével. Különösen az olyan szabályozott iparágakban, mint a pénzügyi szolgáltatások, fenn kell tartani a központi adatkezelést, hogy átfogó adathozzáférést és ellenőrzési ellenőrzést biztosítsanak, miközben csökkentik a tárolási területet azáltal, hogy elkerülik ugyanazon adatok többszöri másolatát a különböző helyeken.

A hagyományos központosított adattó-architektúrákban az adatelőállítók gyakran nyers adatokat tesznek közzé, és áthárítják az adatkezelés, az adatminőség-kezelés és a hozzáférés-szabályozás felelősségét az adat- és infrastruktúra-mérnökökre egy központi adatplatform-csapatban. Előfordulhat azonban, hogy ezek az adatplatform-csapatok kevésbé ismerik a különböző adattartományokat, és továbbra is az adatelőállítók támogatására támaszkodnak, hogy megfelelően kezeljék és szabályozzák az adatokhoz való hozzáférést az egyes adattartományokban érvényesített szabályzatok szerint. Ezzel szemben maguk az adatelőállítók vannak a legjobb helyzetben ahhoz, hogy gondozott, minősített adatvagyont biztosítsanak, és tisztában vannak azokkal a domain-specifikus hozzáférési szabályzatokkal, amelyeket be kell tartani az adatvagyonhoz való hozzáférés során.

Megoldás áttekintése

A következő diagram a javasolt megoldás magas szintű architektúráját mutatja be.

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Az analitika és az ML CoE adatfelhasználásával foglalkozunk Amazon Athéné és a Amazon SageMaker in rész 2 ennek a sorozatnak.

Ebben a bejegyzésben az adatok adathálóba való beépítési folyamatára összpontosítunk, és leírjuk, hogy egy egyéni LoB, például a fogyasztói banki domain adatcsapata hogyan használhatja az AWS-eszközöket, mint pl. AWS ragasztó és a AWS ragasztó DataBrew adattermékeik elkészítésére, gondozására és minőségének javítására, majd ezeket az adattermékeket a központi adatkezelési fiókba a következőn keresztül regisztrálják. AWS-tó formáció.

Consumer Banking LoB (adattermelő)

Az adatháló egyik alapelve az adat mint termék fogalma. Nagyon fontos, hogy a fogyasztói banki domain adatcsapata olyan adattermékek előkészítésén dolgozzon, amelyek készen állnak az adatfogyasztók általi használatra. Ez megtehető az AWS kivonat, átalakítás és betöltés (ETL) eszközök, például az AWS Glue használatával a Amazon egyszerű tárolási szolgáltatás (Amazon S3), vagy csatlakozzon azokhoz az üzemi adattárolókhoz, ahol az adatokat előállítják. Használhatod is DataBrew, amely egy kód nélküli vizuális adat-előkészítő eszköz, amely megkönnyíti az adatok tisztítását és normalizálását.

Például a fogyasztói hitelprofil adattermék előkészítése során a fogyasztói banki domain adatcsapata egyszerű kurátorral lefordíthatja németről angolra a nyílt forráskódú adatkészletből nyert nyers adatok attribútumneveit. Statlog német hiteladatok, amely 20 attribútumból és 1,000 sorból áll.

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Adatirányítás

Az adatháló-irányítást lehetővé tevő alapvető AWS-szolgáltatás a Lake Formation. A Lake Formation lehetőséget kínál az adatirányítás érvényesítésére az egyes adattartományokon belül és a tartományok között, így biztosítva az adatok könnyű felfedezését és biztonságát. Egyesített biztonsági modellt biztosít, amely központilag adminisztrálható, az adatfeltárás, a biztonság és a megfelelőség bevált gyakorlataival, miközben nagy agilitást tesz lehetővé az egyes tartományokon belül.

A Lake Formation egy API-t kínál az adatok feldolgozásának, tárolásának és kezelésének egyszerűsítésére, valamint sorszintű biztonságot nyújt az adatok védelmére. Olyan funkciókat is biztosít, mint például a részletes hozzáférés-vezérlés, a szabályozott táblák és a tárolás optimalizálása.

Ezen kívül Lake Formations kínál a Adatmegosztó API amelyeket adatok megosztására használhat különböző fiókok között. Ez lehetővé teszi az analitikai és ML CoE-felhasználó számára, hogy olyan Athena-lekérdezéseket futtasson, amelyek több fiókban lekérdezik és egyesítik a táblákat. További információkért tekintse meg a AWS Lake Formation fejlesztői útmutató.

AWS Resource Access Manager (AWS RAM) biztonságos módot biztosít az erőforrások megosztására ezen keresztül AWS Identity and Access Manager (IAM) szerepkörök és felhasználók AWS-fiókokban egy szervezeten vagy szervezeti egységein belül AWS szervezetek.

A Lake Formation az AWS RAM-mal együtt biztosítja az adatmegosztás és az AWS-fiókok közötti hozzáférés kezelésének egyik módját. Ezt a megközelítést nevezzük RAM alapú hozzáférés-vezérlés. Erről a megközelítésről további részletekért lásd: Készítsen adatmegosztási munkafolyamatot az AWS Lake Formation segítségével az adathálóhoz.

A Lake Formation egy másik módot is kínál az adatmegosztás és -hozzáférés kezelésére Lake Formation címkék. Ezt a megközelítést nevezzük címke alapú hozzáférés-szabályozás. További részletekért lásd: Modern adatarchitektúra és adatháló-minta létrehozása méretarányosan az AWS Lake Formation címke alapú hozzáférés-vezérléssel.

Ebben a bejegyzésben a címke-alapú hozzáférés-vezérlési megközelítést használjuk, mert leegyszerűsíti a házirendek létrehozását kisebb számú logikai címkén, amelyek általában megtalálhatók a különböző LoB-okban, ahelyett, hogy az infrastruktúra szintjén a megnevezett erőforrásokra vonatkozó házirendeket határoznánk meg.

Előfeltételek

Az adatháló-architektúra beállításához legalább három AWS-fiókra van szüksége: egy termelői fiókra, egy központi fiókra és egy fogyasztói fiókra.

Telepítse az adatháló-környezetet

Adatháló-környezet üzembe helyezéséhez a következőket használhatja GitHub tárház. Ez a tárhely hármat tartalmaz AWS felhőképződés sablonok, amelyek egy adatháló-környezetet telepítenek, amely tartalmazza az egyes fiókokat (termelői, központi és fogyasztói). Mindegyik fiókon belül futtathatja a megfelelő CloudFormation-sablont.

Központi számla

A központi fiókban hajtsa végre a következő lépéseket:

  1. Indítsa el a CloudFormation veremet:
    Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  2. Hozzon létre két IAM-felhasználót:
    1. DataMeshOwner
    2. ProducerSteward
  3. Grant DataMeshOwner mint a Lake Formation adminisztrátora.
  4. Hozzon létre egy IAM-szerepet:
    1. LFRegisterLocationServiceRole
  5. Hozzon létre két IAM-házirendet:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. Hozza létre az adatbázis hitelkártyáját ProducerSteward a termelői számlán.
  7. Ossza meg az adatok helyére vonatkozó engedélyt a termelői fiókkal.

Termelői fiók

A termelői fiókban hajtsa végre a következő lépéseket:

  1. Indítsa el a CloudFormation veremet:
    Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  2. Hozza létre az S3 vödröt credit-card, amely az asztalt tartja credit_card.
  3. Az S3 csoporthoz való hozzáférés engedélyezése a központi fiók Lake Formation szolgáltatási szerepköréhez.
  4. Hozza létre az AWS Glue bejárót creditCrawler-<ProducerAccountID>.
  5. Hozzon létre egy AWS Glue bejáró szolgáltatási szerepkört.
  6. Engedélyek megadása az S3 vödör helyére credit-card-<ProducerAccountID>-<aws-region> az AWS Glue bejáró szerepére.
  7. Hozzon létre egy producer steward IAM-felhasználót.

Fogyasztói számla

A fogyasztói fiókban hajtsa végre a következő lépéseket:

  1. Indítsa el a CloudFormation veremet:
    Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  2. Hozza létre az S3 vödröt <AWS Account ID>-<aws-region>-athena-logs.
  3. Hozza létre az Athena munkacsoportot consumer-workgroup.
  4. Hozza létre az IAM felhasználót ConsumerAdmin.

Adjon hozzá egy adatbázist, és iratkozzon fel rá a fogyasztói fiókra

A sablonok futtatása után végignézheti a Lépésről lépésre útmutató hogy felvegyen egy terméket az adatkatalógusba, és előfizesse rá a fogyasztót. Az útmutató egy adatbázis létrehozásával kezdődik, ahol a gyártó elhelyezheti termékeit, majd elmagyarázza, hogyan tud a fogyasztó feliratkozni az adatbázisra, és hogyan férhet hozzá az adatokhoz. Mindez használat közben történik LF-címkék, amely a címke alapú hozzáférés-szabályozás a Lake Formation számára.

Adatok termék regisztráció

Az alábbi architektúra részletesen leírja, hogy az adatelőállítóként működő fogyasztói banki LoB csapat hogyan regisztrálhatja adattermékeit a központi adatkezelési fiókban (a szervezeti adathálóba beépített adattermékek).

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Az adattermékek regisztrálásának általános lépései a következők:

  1. Hozzon létre egy céladatbázist az adattermékhez a központi irányítási fiókban. Például a központi fiókból származó CloudFormation sablon már létrehozza a céladatbázist credit-card.
  2. Ossza meg a létrehozott céladatbázist a gyártói fiók eredetével.
  3. Hozzon létre egy erőforrás-hivatkozást a megosztott adatbázishoz a termelői fiókban. A következő képernyőképen azt látjuk a Lake Formation konzolon a termelői fiókban rl_credit-card az erőforrás hivatkozása a credit-card adatbázisban.
    Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  4. Táblázatok feltöltése (a termelői fiókban gyűjtött adatokkal) az erőforráshivatkozási adatbázison belül (rl_credit-card) egy AWS Glue bejáró használatával a termelői fiókban.
    Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A létrehozott táblázat automatikusan megjelenik a központi irányítási fiókban. A következő képernyőképen egy példa látható a központi fiókban található Lake Formation táblázatára. Ez az erőforráshivatkozás-adatbázis feltöltéséhez szükséges korábbi lépések végrehajtása után történik rl_credit-card a termelői fiókban.

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Következtetés

A sorozat 1. részében megvitattuk a pénzügyi szolgáltató szervezetek azon céljait, hogy nagyobb agilitást érjenek el az analitikai és ML csapataik számára, és csökkentsék az adatoktól a betekintésig eltelt időt. Arra is összpontosítottunk, hogy az AWS-en egy adatháló-architektúrát építsünk fel, ahol olyan könnyen használható, méretezhető és költséghatékony AWS-szolgáltatásokat vezettünk be, mint az AWS Glue, a DataBrew és a Lake Formation. Az adattermelő csapatok ezeket a szolgáltatásokat használhatják kurált, kiváló minőségű, interoperábilis és biztonságos adattermékek létrehozására és megosztására, amelyek készen állnak a különböző adatfogyasztók által elemzési célokra.

In rész 2, az elemzőkre és az ML CoE csapatokra összpontosítunk, akik a fogyasztói banki LoB által megosztott adattermékeket használnak fel, hogy hitelkockázat-előrejelzési modellt építsenek fel olyan AWS-szolgáltatások segítségével, mint az Athena és a SageMaker.


A szerzőkről

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Karim Hammouda az AWS elemzési megoldások specialistája, szenvedélye az adatintegráció, az adatelemzés és a BI. Az AWS-ügyfelekkel együttműködve olyan elemzési megoldásokat tervez és épít ki, amelyek hozzájárulnak üzleti növekedésükhöz. Szabadidejében szeret tévéfilmeket nézni és videojátékokat játszani fiával.

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Hasan Poonawala az AWS vezető AI/ML-specialistája, a Hasan segít az ügyfeleknek gépi tanulási alkalmazások tervezésében és üzembe helyezésében az AWS-en. Több mint 12 éves szakmai tapasztalattal rendelkezik adattudósként, gépi tanulással foglalkozó szakemberként és szoftverfejlesztőként. Szabadidejében Hasan szereti felfedezni a természetet, és időt tölt barátaival és családjával.

Építsen és tanítson ML modelleket adatháló-architektúrával az AWS-en: 1. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Benoit de Patoul AI/ML Specialist Solutions Architect az AWS-nél. Segíti az ügyfeleket azáltal, hogy útmutatást és technikai segítséget nyújt az AI/ML-hez kapcsolódó megoldások AWS használatával történő kidolgozásához. Szabadidejében szeret zongorázni és barátaival tölteni az időt.

Időbélyeg:

Még több AWS gépi tanulás