Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Buduj i trenuj modele ML przy użyciu architektury siatki danych w AWS: część 1

Organizacje z różnych branż wykorzystują sztuczną inteligencję (AI) i uczenie maszynowe (ML) do rozwiązywania problemów biznesowych specyficznych dla ich branży. Na przykład w branży usług finansowych można wykorzystać sztuczną inteligencję i ML do rozwiązywania problemów związanych z wykrywaniem oszustw, przewidywaniem ryzyka kredytowego, marketingiem bezpośrednim i wieloma innymi.

Duże przedsiębiorstwa czasami tworzą centrum doskonałości (CoE), aby sprostać potrzebom różnych linii biznesowych (LoB) za pomocą innowacyjnych analiz i projektów ML.

Aby generować wysokiej jakości i wydajne modele ML na dużą skalę, muszą wykonać następujące czynności:

  • Zapewnij łatwy sposób dostępu do odpowiednich danych do ich analiz i ML CoE
  • Utwórz odpowiedzialność na dostawcach danych z poszczególnych LoB, aby udostępniać wyselekcjonowane zasoby danych, które są wykrywalne, zrozumiałe, interoperacyjne i godne zaufania

Może to skrócić długi czas cyklu konwersji przypadków użycia ML z eksperymentu do produkcji i wygenerować wartość biznesową w całej organizacji.

Architektura siatki danych stara się rozwiązać te techniczne i organizacyjne wyzwania, wprowadzając zdecentralizowane socjotechniczne podejście do udostępniania, uzyskiwania dostępu i zarządzania danymi w złożonych i wielkoskalowych środowiskach — w ramach organizacji lub między nimi. Wzorzec projektowania siatki danych tworzy odpowiedzialny model udostępniania danych, który jest dostosowany do rozwoju organizacji, aby osiągnąć ostateczny cel, jakim jest zwiększenie zwrotu z inwestycji biznesowych w zespoły danych, procesy i technologię.

W tej dwuczęściowej serii przedstawiamy wskazówki dotyczące tego, jak organizacje mogą budować nowoczesną architekturę danych przy użyciu wzorca projektowego siatki danych w AWS oraz umożliwić analitykom i ML CoE tworzenie i trenowanie modeli ML z danymi z wielu LoB. Posługujemy się przykładem organizacji świadczącej usługi finansowe, aby ustawić kontekst i przypadek użycia dla tej serii.

W tym pierwszym poście pokazujemy procedury konfigurowania architektury siatki danych z wieloma kontami producenta i konsumenta danych AWS. Następnie skupiamy się na jednym produkcie danych, którego właścicielem jest jeden LoB w organizacji finansowej, oraz na tym, jak można go udostępnić w środowisku siatki danych, aby umożliwić innym LoB korzystanie z tego produktu danych. Jest to skierowane głównie do osoby zarządzającej danymi, która jest odpowiedzialna za usprawnienie i standaryzację procesu udostępniania danych między wytwórcami danych a konsumentami oraz zapewnienie zgodności z zasadami zarządzania danymi.

W drugim poście pokazujemy jeden przykład, w jaki sposób analityka i ML CoE mogą wykorzystywać produkt danych w przypadku użycia prognozowania ryzyka. Jest to skierowane głównie do osoby naukowca danych, która jest odpowiedzialna za wykorzystanie zasobów danych zarówno w całej organizacji, jak i innych firm do tworzenia i trenowania modeli ML, które wydobywają informacje biznesowe w celu poprawy doświadczenia klientów usług finansowych.

Przegląd siatki danych

Założycielka wzoru siatki danych, Zhamak Dehghani w swojej książce Siatka danych dostarczająca wartość opartą na danych na dużą skalę, zdefiniowano cztery zasady dotyczące celu siatki danych:

  • Własność domeny rozproszonej – Aby przeprowadzić zmianę organizacyjną ze scentralizowanej własności danych przez specjalistów, którzy zarządzają technologiami platformy danych, do zdecentralizowanego modelu własności danych, przesuwając własność i odpowiedzialność za dane z powrotem do LoB, w których dane są wytwarzane (domeny dostosowane do źródła) lub konsumowane ( domenach dostosowanych do konsumpcji).
  • Dane jako produkt – Zwiększenie odpowiedzialności za udostępnianie wyselekcjonowanych, wysokiej jakości, interoperacyjnych i bezpiecznych zasobów danych. Dlatego producenci danych z różnych LoB są odpowiedzialni za tworzenie danych w formie użytkowej bezpośrednio u źródła.
  • Analityka samoobsługowa – Usprawnienie doświadczenia użytkowników danych w zakresie analityki i uczenia maszynowego, aby mogli odkrywać, uzyskiwać dostęp i korzystać z produktów danych za pomocą preferowanych narzędzi. Dodatkowo, aby usprawnić doświadczenie dostawców danych LoB w zakresie tworzenia, wdrażania i utrzymywania produktów danych za pomocą receptur oraz komponentów i szablonów wielokrotnego użytku.
  • Sfederowane zarządzanie obliczeniowe – Aby sfederować i zautomatyzować podejmowanie decyzji związanych z zarządzaniem i kontrolowaniem dostępu do danych na poziomie właścicieli danych z różnych LoB, co jest nadal zgodne z polityką prawną, zgodnością i bezpieczeństwem szerszej organizacji, które są ostatecznie egzekwowane przez siatka.

AWS przedstawił swoją wizję budowania siatki danych na szczycie AWS w różnych postach:

  • Najpierw skupiliśmy się na części organizacyjnej związanej z rozproszoną własnością domeny i danymi jako zasadami produktu. Autorzy opisali wizję ujednolicenia wielu LOB w całej organizacji w kierunku strategii produktu danych, która zapewnia domenom dostosowanym do konsumpcji narzędzia do wyszukiwania i pozyskiwania potrzebnych im danych, jednocześnie gwarantując niezbędną kontrolę nad wykorzystaniem tych danych poprzez wprowadzenie odpowiedzialności za domeny dopasowane do źródła, aby zapewnić produkty danych gotowe do użycia bezpośrednio u źródła. Aby uzyskać więcej informacji, zobacz Jak firma JPMorgan Chase zbudowała architekturę siatki danych, aby zapewnić znaczną wartość w celu ulepszenia platformy danych przedsiębiorstwa?.
  • Następnie skupiliśmy się na części technicznej związanej z tworzeniem produktów danych, analizą samoobsługową i zasadami federacyjnego nadzoru obliczeniowego. Autorzy opisali podstawowe usługi AWS, które umożliwiają domenom dostosowanym do źródła tworzenie i udostępnianie produktów danych, szeroką gamę usług, które mogą umożliwić domenom dostosowanym do konsumenta korzystanie z produktów danych na różne sposoby w oparciu o preferowane narzędzia i przypadki użycia, pracują nad, a wreszcie usługami AWS, które regulują procedurę udostępniania danych poprzez egzekwowanie zasad dostępu do danych. Aby uzyskać więcej informacji, zobacz Zaprojektuj architekturę siatki danych przy użyciu AWS Lake Formation i AWS Glue.
  • Pokazaliśmy również rozwiązanie do automatyzacji wykrywania danych i kontroli dostępu za pomocą scentralizowanego interfejsu użytkownika siatki danych. Aby uzyskać więcej informacji, zobacz Zbuduj przepływ pracy udostępniania danych za pomocą AWS Lake Formation dla swojej siatki danych.

Przypadek użycia usług finansowych

Zazwyczaj duże organizacje świadczące usługi finansowe mają wiele LoB, takich jak bankowość konsumencka, bankowość inwestycyjna i zarządzanie aktywami, a także jeden lub więcej zespołów analitycznych i ML CoE. Każdy LoB świadczy różne usługi:

  • Bankowość konsumencka LoB zapewnia konsumentom i przedsiębiorstwom różnorodne usługi, w tym kredyty i hipoteki, zarządzanie gotówką, rozwiązania płatnicze, produkty depozytowe i inwestycyjne oraz wiele innych
  • Bankowość komercyjna lub inwestycyjna LoB oferuje kompleksowe rozwiązania finansowe, takie jak udzielanie pożyczek, ryzyko upadłości i płatności hurtowe dla klientów, w tym małych firm, średnich firm i dużych korporacji
  • LoB zarządzania aktywami oferuje produkty emerytalne i usługi inwestycyjne we wszystkich klasach aktywów

Każdy LoB definiuje własne produkty danych, które są nadzorowane przez osoby, które rozumieją dane i najlepiej nadają się do określenia, kto jest upoważniony do ich używania i jak można z nich korzystać. Z kolei inne LoB i domeny aplikacji, takie jak analityka i ML CoE, są zainteresowane odkrywaniem i wykorzystywaniem kwalifikowanych produktów danych, łączeniem ich w celu generowania wglądu i podejmowania decyzji opartych na danych.

Na poniższej ilustracji przedstawiono niektóre LoB i przykłady produktów danych, które mogą udostępniać. Pokazuje również konsumentów produktów danych, takich jak analityka i ML CoE, którzy budują modele ML, które można wdrożyć w aplikacjach skierowanych do klientów, aby jeszcze bardziej poprawić jakość obsługi klienta końcowego.

Podążając za socjotechniczną koncepcją siatki danych, zaczynamy od aspektu społecznego z zestawem kroków organizacyjnych, takich jak:

  • Wykorzystanie ekspertów dziedzinowych do zdefiniowania granic dla każdej domeny, dzięki czemu każdy produkt danych może być zmapowany do określonej domeny
  • Identyfikowanie właścicieli produktów danych dostarczanych z każdej domeny, dzięki czemu każdy produkt danych ma strategię zdefiniowaną przez właściciela
  • Identyfikowanie zasad zarządzania na podstawie zachęt globalnych i lokalnych lub federacyjnych, więc gdy odbiorcy danych uzyskują dostęp do określonego produktu danych, polityka dostępu związana z produktem może być automatycznie egzekwowana za pośrednictwem centralnej warstwy zarządzania danymi

Następnie przechodzimy do aspektu technicznego, który obejmuje następujący scenariusz end-to-end zdefiniowany na poprzednim diagramie:

  1. Zapewnij LoB bankowości konsumenckiej narzędzia do zbudowania gotowego do użycia produktu z danymi dotyczącymi profilu kredytu konsumenckiego.
  2. Zezwól LoB bankowości konsumenckiej na udostępnianie produktów danych w centralnej warstwie zarządzania.
  3. Osadź globalne i sfederowane definicje zasad dostępu do danych, które powinny być egzekwowane podczas uzyskiwania dostępu do produktu danych profilu kredytu konsumenckiego za pośrednictwem centralnego zarządzania danymi.
  4. Pozwól analitykom i ML CoE wykrywać i uzyskiwać dostęp do produktu danych za pośrednictwem centralnej warstwy zarządzania.
  5. Zapewnij analitykom i ML CoE narzędzia do wykorzystywania produktu danych do budowania i trenowania modelu przewidywania ryzyka kredytowego. W tej serii nie omawiamy ostatnich kroków (6 i 7 na poprzednim schemacie). Aby jednak pokazać wartość biznesową, jaką taki model ML może wnieść do organizacji w scenariuszu end-to-end, zilustrujemy następujące elementy:
  6. Ten model można później wdrożyć z powrotem do systemów obsługi klienta, takich jak portal internetowy bankowości konsumenckiej lub aplikacja mobilna.
  7. Może być stosowany w szczególności we wniosku kredytowym do oceny profilu ryzyka wniosków kredytowych i hipotecznych.

Następnie opisujemy potrzeby techniczne każdego z komponentów.

Zanurz się głęboko w potrzeby techniczne

Aby produkty danych były dostępne dla wszystkich, organizacje muszą ułatwić udostępnianie danych między różnymi podmiotami w organizacji przy jednoczesnym zachowaniu nad nimi odpowiedniej kontroli, czyli innymi słowy, aby zrównoważyć elastyczność z odpowiednim zarządzaniem.

Odbiorca danych: Analytics i ML CoE

Odbiorcy danych, tacy jak analitycy danych z działu analityki i ML CoE, muszą być w stanie wykonać następujące czynności:

  • Odkryj i uzyskaj dostęp do odpowiednich zbiorów danych dla danego przypadku użycia
  • Miej pewność, że zbiory danych, do których chcą uzyskać dostęp, są już wyselekcjonowane, aktualne i mają solidne opisy
  • Poproś o dostęp do zbiorów danych interesujących ich przypadki biznesowe
  • Korzystaj z preferowanych przez nich narzędzi do wysyłania zapytań i przetwarzania takich zestawów danych w ich środowisku dla ML bez potrzeby replikowania danych z oryginalnej zdalnej lokalizacji lub martwienia się o złożoność inżynieryjną lub infrastrukturalną związaną z przetwarzaniem danych fizycznie przechowywanych w zdalnej lokalizacji
  • Otrzymuj powiadomienia o wszelkich aktualizacjach danych dokonanych przez właścicieli danych

Producent danych: Własność domeny

Producenci danych, tacy jak zespoły domen z różnych LoB w organizacji usług finansowych, muszą zarejestrować i udostępniać wyselekcjonowane zestawy danych, które zawierają następujące elementy:

  • Metadane techniczne i operacyjne, takie jak nazwy i rozmiary baz danych i tabel, schematy kolumn i klucze
  • Metadane biznesowe, takie jak opis danych, klasyfikacja i wrażliwość
  • Śledzenie metadanych, takich jak ewolucja schematu od formy źródłowej do formy docelowej oraz wszelkie formy pośrednie
  • Metadane dotyczące jakości danych, takie jak współczynniki poprawności i kompletności oraz stronniczość danych
  • Zasady i procedury dostępu

Są one potrzebne, aby umożliwić konsumentom danych odnajdywanie danych i uzyskiwanie do nich dostępu bez polegania na procedurach ręcznych lub konieczności kontaktowania się z ekspertami w dziedzinie produktu danych w celu uzyskania większej wiedzy na temat znaczenia danych i sposobu, w jaki można do nich uzyskać dostęp.

Zarządzanie danymi: wykrywalność, dostępność i możliwość kontroli

Organizacje muszą zrównoważyć przedstawione wcześniej sprawności z odpowiednim ograniczaniem ryzyka związanego z wyciekami danych. Szczególnie w branżach regulowanych, takich jak usługi finansowe, istnieje potrzeba utrzymania centralnego zarządzania danymi, aby zapewnić ogólny dostęp do danych i kontrolę audytu przy jednoczesnym zmniejszeniu ilości miejsca na przechowywanie danych poprzez unikanie wielokrotnych kopii tych samych danych w różnych lokalizacjach.

W tradycyjnych scentralizowanych architekturach jeziora danych producenci danych często publikują dane surowe i przekazują odpowiedzialność za przechowywanie danych, zarządzanie jakością danych i kontrolę dostępu na inżynierów danych i infrastruktury w ramach scentralizowanego zespołu ds. platformy danych. Jednak te zespoły zajmujące się platformami danych mogą być mniej zaznajomione z różnymi domenami danych i nadal polegać na wsparciu ze strony producentów danych, aby móc właściwie nadzorować i zarządzać dostępem do danych zgodnie z zasadami obowiązującymi w każdej domenie danych. Natomiast sami producenci danych są najlepiej przygotowani do dostarczania wyselekcjonowanych, kwalifikowanych zasobów danych i są świadomi zasad dostępu specyficznych dla domeny, które muszą być egzekwowane podczas uzyskiwania dostępu do zasobów danych.

Omówienie rozwiązania

Poniższy diagram przedstawia architekturę wysokopoziomową proponowanego rozwiązania.

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zajmujemy się zużyciem danych przez analityków i ML CoE za pomocą Amazonka Atena i Amazon Sage Maker in część 2 z tej serii.

W tym poście skupiamy się na procesie wprowadzania danych do siatki danych i opisujemy, w jaki sposób pojedynczy LoB, taki jak zespół danych domeny bankowości konsumenckiej, może korzystać z narzędzi AWS, takich jak Klej AWS i DataBrew kleju AWS przygotowywać, nadzorować i poprawiać jakość swoich produktów danych, a następnie zarejestrować te produkty danych na centralnym koncie zarządzania danymi za pośrednictwem Formacja AWS Lake.

LoB bankowości konsumenckiej (producent danych)

Jedną z podstawowych zasad siatki danych jest koncepcja danych jako produktu. Bardzo ważne jest, aby zespół danych domeny bankowości konsumenckiej pracował nad przygotowaniem produktów danych, które są gotowe do użycia przez konsumentów danych. Można to zrobić za pomocą narzędzi AWS do ekstrakcji, transformacji i ładowania (ETL), takich jak AWS Glue, do przetwarzania surowych danych zebranych na Usługa Amazon Simple Storage (Amazon S3) lub alternatywnie połącz się z operacyjnymi magazynami danych, w których są tworzone dane. Możesz także użyć DataBrew, czyli narzędzie do wizualnego przygotowywania danych bez użycia kodu, które ułatwia czyszczenie i normalizację danych.

Na przykład, przygotowując produkt danych profilu kredytu konsumenckiego, zespół ds. danych domeny bankowości konsumenckiej może wykonać prostą kurację, aby przetłumaczyć z niemieckiego na angielski nazwy atrybutów surowych danych pobranych ze zbioru danych o otwartym kodzie źródłowym Niemieckie dane kredytowe Statlog, który składa się z 20 atrybutów i 1,000 wierszy.

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zarządzanie danymi

Podstawową usługą AWS umożliwiającą zarządzanie siatką danych jest Lake Formation. Lake Formation oferuje możliwość wymuszania zarządzania danymi w każdej domenie danych i w różnych domenach, aby zapewnić, że dane są łatwo wykrywalne i bezpieczne. Zapewnia sfederowany model bezpieczeństwa, który można administrować centralnie, z najlepszymi praktykami w zakresie wykrywania danych, bezpieczeństwa i zgodności, jednocześnie zapewniając dużą elastyczność w każdej domenie.

Lake Formation oferuje interfejs API, który upraszcza sposób pozyskiwania, przechowywania i zarządzania danymi, a także zabezpieczenia na poziomie wiersza w celu ochrony danych. Zapewnia również funkcje, takie jak szczegółowa kontrola dostępu, tabele zarządzane i optymalizacja pamięci masowej.

Ponadto Lake Formations oferuje: Udostępnianie danych API którego możesz użyć do udostępniania danych na różnych kontach. Dzięki temu użytkownik analityki i usługi ML CoE może uruchamiać zapytania Athena, które wysyłają zapytania i łączą tabele na wielu kontach. Aby uzyskać więcej informacji, zapoznaj się z Przewodnik dla programistów AWS Lake Formation.

Menedżer dostępu do zasobów AWS (AWS RAM) zapewnia bezpieczny sposób udostępniania zasobów za pośrednictwem Menedżer tożsamości i dostępu AWS (IAM) role i użytkownicy na kontach AWS w ramach organizacji lub jednostek organizacyjnych (OU) w Organizacje AWS.

Lake Formation wraz z AWS RAM zapewnia jeden sposób zarządzania udostępnianiem danych i dostępem na kontach AWS. Takie podejście określamy jako Kontrola dostępu oparta na pamięci RAM. Aby uzyskać więcej informacji na temat tego podejścia, zobacz Zbuduj przepływ pracy udostępniania danych za pomocą AWS Lake Formation dla swojej siatki danych.

Lake Formation oferuje również inny sposób zarządzania udostępnianiem i dostępem do danych za pomocą Tagi formacji jeziora. Takie podejście określamy jako kontrola dostępu oparta na tagach. Aby uzyskać więcej informacji, zobacz Zbuduj nowoczesną architekturę danych i wzór siatki danych na dużą skalę, korzystając z kontroli dostępu opartej na tagach AWS Lake Formation.

W całym tym poście stosujemy podejście kontroli dostępu oparte na tagach, ponieważ upraszcza ono tworzenie zasad dotyczących mniejszej liczby tagów logicznych, które są często spotykane w różnych LoB, zamiast określania zasad dotyczących nazwanych zasobów na poziomie infrastruktury.

Wymagania wstępne

Aby skonfigurować architekturę siatki danych, potrzebujesz co najmniej trzech kont AWS: konta producenta, konta centralnego i konta konsumenta.

Wdróż środowisko siatki danych

Aby wdrożyć środowisko siatki danych, możesz użyć następujących Repozytorium GitHub. To repozytorium zawiera trzy Tworzenie chmury AWS szablony, które wdrażają środowisko siatki danych, które obejmuje każde z kont (producent, centrala i konsument). W ramach każdego konta możesz uruchomić odpowiadający mu szablon CloudFormation.

Konto centralne

Na koncie centralnym wykonaj następujące kroki:

  1. Uruchom stos CloudFormation:
    Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Utwórz dwóch użytkowników uprawnień:
    1. DataMeshOwner
    2. ProducerSteward
  3. Dotacja DataMeshOwner jako administrator Lake Formation.
  4. Utwórz jedną rolę uprawnień:
    1. LFRegisterLocationServiceRole
  5. Utwórz dwie zasady uprawnień:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. Utwórz bazę danych karty kredytowej dla ProducerSteward na koncie producenta.
  7. Udostępnij uprawnienia do lokalizacji danych kontu producenta.

Konto producenta

Na koncie producenta wykonaj następujące kroki:

  1. Uruchom stos CloudFormation:
    Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Utwórz wiadro S3 credit-card, który trzyma stół credit_card.
  3. Zezwalaj na dostęp do zasobnika S3 dla roli usługi Lake Formation konta centralnego.
  4. Utwórz robota indeksującego AWS Glue creditCrawler-<ProducerAccountID>.
  5. Utwórz rolę usługi robota indeksującego AWS Glue.
  6. Przyznaj uprawnienia do lokalizacji zasobnika S3 credit-card-<ProducerAccountID>-<aws-region> do roli robota indeksującego AWS Glue.
  7. Utwórz użytkownika IAM steward producenta.

Konto konsumenta

Na koncie klienta wykonaj następujące czynności:

  1. Uruchom stos CloudFormation:
    Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  2. Utwórz wiadro S3 <AWS Account ID>-<aws-region>-athena-logs.
  3. Utwórz grupę roboczą Athena consumer-workgroup.
  4. Utwórz użytkownika uprawnień ConsumerAdmin.

Dodaj bazę danych i zasubskrybuj do niej konto klienta

Po uruchomieniu szablonów możesz przejść przez krok-po-kroku dodanie produktu do katalogu danych i zasubskrybowanie go przez konsumenta. Przewodnik rozpoczyna się od utworzenia bazy danych, w której producent może umieszczać swoje produkty, a następnie wyjaśnia, w jaki sposób konsument może zapisać się do tej bazy danych i uzyskać dostęp do danych. Wszystko to odbywa się podczas używania Tagi LF, który jest kontrola dostępu oparta na tagach dla formacji jeziora.

Rejestracja produktu danych

Poniższa architektura opisuje szczegółowe kroki, w jaki zespół LoB bankowości konsumenckiej działając jako producenci danych może zarejestrować swoje produkty danych na centralnym koncie zarządzania danymi (wbudowane produkty danych w siatce danych organizacji).

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Ogólne kroki w celu zarejestrowania produktu danych są następujące:

  1. Utwórz docelową bazę danych dla produktu danych na koncie centralnego zarządzania. Na przykład szablon CloudFormation z konta centralnego już tworzy docelową bazę danych credit-card.
  2. Udostępnij utworzoną docelową bazę danych z pochodzeniem na koncie producenta.
  3. Utwórz łącze do zasobu udostępnionej bazy danych na koncie producenta. Na poniższym zrzucie ekranu widzimy w konsoli Lake Formation na koncie producenta, że rl_credit-card jest linkiem do zasobów credit-card Baza danych.
    Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Wypełnij tabele (z danymi wyselekcjonowanymi na koncie producenta) w bazie danych linków do zasobów (rl_credit-card) za pomocą robota indeksującego AWS Glue na koncie producenta.
    Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Utworzona tabela automatycznie pojawia się na koncie zarządzania centralnego. Poniższy zrzut ekranu przedstawia przykład tabeli w Lake Formation na koncie centralnym. Dzieje się tak po wykonaniu wcześniejszych kroków w celu zapełnienia bazy danych łączy zasobów rl_credit-card na koncie producenta.

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wnioski

W części 1 tej serii omówiliśmy cele organizacji świadczących usługi finansowe, aby osiągnąć większą elastyczność w swoich zespołach analitycznych i ML oraz skrócić czas potrzebny na przejście od danych do wglądu. Skupiliśmy się również na budowaniu architektury siatki danych w AWS, gdzie wprowadziliśmy łatwe w użyciu, skalowalne i ekonomiczne usługi AWS, takie jak AWS Glue, DataBrew i Lake Formation. Zespoły produkujące dane mogą korzystać z tych usług do tworzenia i udostępniania wyselekcjonowanych, wysokiej jakości, interoperacyjnych i bezpiecznych produktów danych, które są gotowe do użycia przez różnych odbiorców danych do celów analitycznych.

In część 2, koncentrujemy się na zespołach analitycznych i ML CoE, które wykorzystują produkty danych udostępniane przez LoB bankowości konsumenckiej, aby zbudować model przewidywania ryzyka kredytowego przy użyciu usług AWS, takich jak Athena i SageMaker.


O autorach

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Karima Hammoudy jest specjalistą ds. architekta rozwiązań analitycznych w AWS z pasją do integracji danych, analizy danych i BI. Współpracuje z klientami AWS, projektując i budując rozwiązania analityczne, które przyczyniają się do rozwoju ich biznesu. W wolnym czasie lubi oglądać telewizyjne filmy dokumentalne i grać z synem w gry wideo.

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Hasana Poonawala jest starszym architektem rozwiązań AI/ML w AWS, Hasan pomaga klientom projektować i wdrażać aplikacje do uczenia maszynowego w produkcji na AWS. Posiada ponad 12-letnie doświadczenie zawodowe jako data scientist, praktyk uczenia maszynowego i programista. W wolnym czasie Hasan uwielbia poznawać przyrodę i spędzać czas z przyjaciółmi i rodziną.

Buduj i trenuj modele ML przy użyciu architektury siatki danych na AWS: Część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Benoit de Patoul jest specjalistą ds. rozwiązań AI/ML w AWS. Pomaga klientom udzielając wskazówek i pomocy technicznej w budowaniu rozwiązań związanych z AI/ML z wykorzystaniem AWS. W wolnym czasie lubi grać na pianinie i spędzać czas z przyjaciółmi.

Znak czasu:

Więcej z Uczenie maszynowe AWS