Zarządzanie cyklem życia ML na dużą skalę, część 1: Ramy projektowania obciążeń ML przy użyciu Amazon SageMaker

Opublikowane ponownie przez Plato

Obserwuje: 0

Klienci każdej wielkości i każdej branży wprowadzają innowacje w AWS, wprowadzając uczenie maszynowe (ML) do swoich produktów i usług. Niedawne osiągnięcia w zakresie generatywnych modeli sztucznej inteligencji jeszcze bardziej przyspieszyły potrzebę wdrożenia uczenia maszynowego w różnych branżach. Jednak wdrażanie zabezpieczeń, prywatności danych i kontroli zarządzania to nadal kluczowe wyzwania stojące przed klientami podczas wdrażania obciążeń uczenia maszynowego na dużą skalę. Sprostanie tym wyzwaniom tworzy ramy i podstawy służące ograniczaniu ryzyka i odpowiedzialnemu korzystaniu z produktów opartych na uczeniu maszynowym. Chociaż generatywna sztuczna inteligencja może wymagać dodatkowych kontroli, takich jak usuwanie toksyczności i zapobieganie jailbreakom i halucynacjom, ma te same podstawowe elementy bezpieczeństwa i zarządzania, co tradycyjne ML.

Słyszymy od klientów, że potrzebują specjalistycznej wiedzy i inwestycji trwającej do 12 miesięcy, aby zbudować swój indywidualny projekt Amazon Sage Maker Wdrożenie platformy ML w celu zapewnienia skalowalnych, niezawodnych, bezpiecznych i regulowanych środowisk ML dla swoich linii biznesowych (LOB) lub zespołów ML. Jeśli brakuje Ci ram do zarządzania cyklem życia uczenia maszynowego na dużą skalę, możesz napotkać wyzwania, takie jak izolacja zasobów na poziomie zespołu, skalowanie zasobów eksperymentalnych, operacjonalizacja przepływów pracy ML, zarządzanie modelem skalowania oraz zarządzanie bezpieczeństwem i zgodnością obciążeń ML.

Zarządzanie cyklem życia uczenia maszynowego na dużą skalę to platforma ułatwiająca budowanie platformy uczenia maszynowego z wbudowanymi mechanizmami kontroli bezpieczeństwa i zarządzania w oparciu o najlepsze praktyki branżowe i standardy korporacyjne. Ramy te rozwiązują wyzwania, zapewniając normatywne wytyczne poprzez modułowe podejście ramowe rozszerzające Wieża kontroli AWS wielokontowe środowisko AWS i podejście omówione w poście Konfigurowanie bezpiecznych, dobrze zarządzanych środowisk uczenia maszynowego na platformie AWS.

Zawiera normatywne wytyczne dotyczące następujących funkcji platformy ML:

Podstawy wielu kont, bezpieczeństwa i sieci – Ta funkcja wykorzystuje AWS Control Tower i dobrze zaprojektowane zasady do konfigurowania i obsługi środowiska z wieloma kontami, bezpieczeństwa i usług sieciowych.
Podstawy danych i zarządzania – Ta funkcja wykorzystuje a architektura siatki danych do konfigurowania i obsługi jeziora danych, centralnego magazynu funkcji i podstaw zarządzania danymi w celu umożliwienia szczegółowego dostępu do danych.
Usługi współdzielenia i zarządzania platformą ML – Ta funkcja umożliwia konfigurowanie i obsługę typowych usług, takich jak CI/CD, Katalog usług AWS dla środowisk zaopatrzeniowych oraz centralny rejestr modeli do celów promocji i pochodzenia modeli.
Środowiska zespołów ML – Ta funkcja umożliwia konfigurowanie i działanie środowisk dla zespołów ML na potrzeby opracowywania modeli, testowania i wdrażania ich przypadków użycia w celu osadzania kontroli bezpieczeństwa i zarządzania.
Obserwowalność platformy ML – Ta funkcja pomaga w rozwiązywaniu problemów i identyfikowaniu pierwotnej przyczyny problemów w modelach ML poprzez centralizację logów i udostępnianie narzędzi do wizualizacji analizy logów. Zawiera także wskazówki dotyczące generowania raportów o kosztach i użyciu dla przypadków użycia ML.

Chociaż ta struktura może zapewnić korzyści wszystkim klientom, jest najbardziej korzystna dla dużych, dojrzałych, regulowanych lub globalnych przedsiębiorstw, które chcą skalować swoje strategie uczenia maszynowego w sposób kontrolowany, zgodny i skoordynowany w całej organizacji. Pomaga umożliwić przyjęcie uczenia maszynowego, jednocześnie ograniczając ryzyko. Ramy te są przydatne dla następujących klientów:

Duzi klienci korporacyjni, którzy mają wiele LOBów lub działów zainteresowanych wykorzystaniem ML. Ta struktura umożliwia różnym zespołom niezależne budowanie i wdrażanie modeli uczenia maszynowego, zapewniając jednocześnie centralne zarządzanie.
Klienci korporacyjni o umiarkowanej do wysokiej dojrzałości w ML. Wdrożyli już kilka początkowych modeli uczenia maszynowego i chcą skalować swoje wysiłki w zakresie uczenia maszynowego. Ta struktura może pomóc przyspieszyć wdrażanie uczenia maszynowego w całej organizacji. Firmy te dostrzegają również potrzebę zarządzania w celu zarządzania takimi kwestiami, jak kontrola dostępu, wykorzystanie danych, wydajność modeli i nieuczciwe uprzedzenia.
Spółki z branż regulowanych, takich jak usługi finansowe, opieka zdrowotna, chemia i sektor prywatny. Firmy te potrzebują silnego zarządzania i słyszalności wszelkich modeli uczenia maszynowego stosowanych w ich procesach biznesowych. Przyjęcie tych ram może pomóc w ułatwieniu przestrzegania przepisów, jednocześnie umożliwiając rozwój modelu lokalnego.
Organizacje globalne, które muszą zrównoważyć kontrolę scentralizowaną i lokalną. Stowarzyszone podejście tej struktury umożliwia zespołowi inżynierów platformy centralnej ustalenie pewnych zasad i standardów wysokiego poziomu, ale zapewnia także zespołom LOB elastyczność w dostosowywaniu się do lokalnych potrzeb.

W pierwszej części tej serii omówimy architekturę referencyjną służącą do konfigurowania platformy uczenia maszynowego. W późniejszym poście przedstawimy wytyczne dotyczące sposobu wdrażania różnych modułów architektury referencyjnej w Twojej organizacji.

Możliwości platformy ML pogrupowano w cztery kategorie, jak pokazano na poniższym rysunku. Możliwości te stanowią podstawę architektury referencyjnej omówionej w dalszej części tego wpisu:

Zbuduj fundamenty ML
Skaluj operacje ML
Obserwowalny ML
Bezpieczny ml

Omówienie rozwiązania

Ramy zarządzania cyklem życia uczenia maszynowego na dużą skalę umożliwiają organizacjom osadzanie kontroli bezpieczeństwa i zarządzania w całym cyklu życia uczenia maszynowego, co z kolei pomaga organizacjom zmniejszyć ryzyko i przyspieszyć wdrażanie uczenia maszynowego w swoich produktach i usługach. Struktura pomaga zoptymalizować konfigurację i zarządzanie bezpiecznymi, skalowalnymi i niezawodnymi środowiskami uczenia maszynowego, które można skalować w celu obsługi coraz większej liczby modeli i projektów. Framework udostępnia następujące funkcje:

Udostępnianie kont i infrastruktury przy użyciu zasobów infrastruktury zgodnych z zasadami organizacji
Samoobsługowe wdrażanie środowisk analizy danych i szablonów kompleksowych operacji ML (MLops) dla przypadków użycia ML
Izolacja zasobów na poziomie LOB lub zespołu w celu zapewnienia zgodności z bezpieczeństwem i prywatnością
Kontrolowany dostęp do danych klasy produkcyjnej na potrzeby eksperymentów i przepływów pracy gotowych do produkcji
Zarządzanie i nadzór nad repozytoriami kodu, potokami kodu, wdrożonymi modelami i funkcjami danych
Rejestr modeli i magazyn funkcji (komponenty lokalne i centralne) w celu poprawy zarządzania
Kontrole bezpieczeństwa i zarządzania na potrzeby kompleksowego procesu opracowywania i wdrażania modelu

W tej sekcji przedstawiamy przegląd normatywnych wskazówek, które pomogą Ci zbudować platformę ML na AWS z wbudowanymi kontrolami bezpieczeństwa i zarządzania.

Architekturę funkcjonalną związaną z platformą ML przedstawia poniższy diagram. Architektura odwzorowuje różne możliwości platformy ML na konta AWS.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Architektura funkcjonalna o różnych możliwościach jest realizowana z wykorzystaniem szeregu usług AWS, m.in Organizacje AWS, SageMaker, usługi AWS DevOps i jezioro danych. Architekturę referencyjną platformy ML z różnymi usługami AWS przedstawia poniższy diagram.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

W ramach tych ram uwzględniono wiele osób i usług w celu zarządzania cyklem życia uczenia maszynowego na dużą skalę. Zalecamy wykonanie następujących kroków w celu zorganizowania zespołów i usług:

Korzystając z AWS Control Tower i narzędzi do automatyzacji, administrator chmury konfiguruje podstawy wielu kont, takie jak Organizacje i Centrum tożsamości AWS IAM (następca AWS Single Sign-On) oraz usługi bezpieczeństwa i zarządzania, takie jak Usługa zarządzania kluczami AWS (AWS KMS) i Katalog usług. Ponadto administrator konfiguruje różne jednostki organizacyjne (OU) i konta początkowe w celu obsługi przepływów pracy w zakresie uczenia maszynowego i analiz.
Administratorzy Data Lake skonfigurowali Twoje jezioro danych i katalog danych oraz skonfigurowali centralny magazyn funkcji współpracujący z administratorem platformy ML.
Administrator platformy ML udostępnia usługi wspólne ML, takie jak Zatwierdzenie kodu AWS, AWS Code Pipeline, Rejestr elastycznego pojemnika Amazon (Amazon ECR), centralny rejestr modeli, Karty modeli SageMaker, Pulpit nawigacyjny modelu SageMakeri produkty z katalogu usług dla zespołów ML.
Lider zespołu ML łączy się za pośrednictwem IAM Identity Center, korzysta z produktów katalogu usług i udostępnia zasoby w środowisku programistycznym zespołu ML.
Analitycy danych z zespołów uczenia maszynowego z różnych jednostek biznesowych łączą się ze środowiskiem programistycznym swojego zespołu, aby zbudować potok modelu.
Analitycy danych wyszukują i pobierają funkcje z centralnego katalogu magazynu funkcji, budują modele w drodze eksperymentów i wybierają najlepszy model do promocji.
Analitycy danych tworzą i udostępniają nowe funkcje w centralnym katalogu magazynu funkcji w celu ich ponownego wykorzystania.
Inżynier ML wdraża potok modelu w środowisku testowym zespołu ML przy użyciu procesu CI/CD usług wspólnych.
Po weryfikacji interesariuszy model ML jest wdrażany w środowisku produkcyjnym zespołu.
Kontrole bezpieczeństwa i zarządzania są wbudowane w każdą warstwę tej architektury za pomocą usług takich jak Centrum bezpieczeństwa AWS, Amazon Guard Obowiązek, AmazonkaI więcej.
Kontrole bezpieczeństwa są zarządzane centralnie z poziomu konta narzędzi zabezpieczających za pomocą Security Hub.
Funkcje zarządzania platformą ML, takie jak karty SageMaker Model Card i SageMaker Model Dashboard, są zarządzane centralnie z poziomu konta usług zarządzania.
Amazon Cloud Watch i Chmura AWS logi z każdego konta członkowskiego są udostępniane centralnie z konta obserwowalności przy użyciu natywnych usług AWS.

Następnie zagłębiamy się w moduły architektury referencyjnej dla tego frameworka.

Moduły architektury referencyjnej

Architektura referencyjna składa się z ośmiu modułów, z których każdy ma za zadanie rozwiązać określony zestaw problemów. Łącznie moduły te dotyczą zarządzania w różnych wymiarach, takich jak infrastruktura, dane, model i koszty. Każdy moduł oferuje odrębny zestaw funkcji i współpracuje z innymi modułami, tworząc zintegrowaną, kompleksową platformę ML z wbudowanymi mechanizmami kontroli bezpieczeństwa i zarządzania. W tej sekcji przedstawiamy krótkie podsumowanie możliwości każdego modułu.

Fundacje wielokontowe

Ten moduł pomaga administratorom chmury w tworzeniu Strefa lądowania wieży kontrolnej AWS jako ramy podstawowe. Obejmuje to budowanie struktury obejmującej wiele kont, uwierzytelnianie i autoryzację za pośrednictwem IAM Identity Center, projekt sieci typu „hub-and-szprychy”, scentralizowane usługi rejestrowania oraz nowe konta członkowskie AWS ze standardowymi podstawami bezpieczeństwa i zarządzania.

Ponadto moduł ten zawiera wskazówki dotyczące najlepszych praktyk w zakresie struktur jednostek organizacyjnych i kont, które są odpowiednie do obsługi procesów uczenia maszynowego i analiz. Administratorzy chmury będą rozumieć cel wymaganych kont i jednostek organizacyjnych, sposób ich wdrażania oraz kluczowe usługi bezpieczeństwa i zgodności, których powinni używać do centralnego zarządzania obciążeniami związanymi z uczeniem się maszyn i analizą.

Omówiono także strukturę sprzedaży nowych kont, która wykorzystuje automatyzację do tworzenia baz danych dla nowych kont po ich udostępnieniu. Dzięki skonfigurowaniu zautomatyzowanego procesu udostępniania kont administratorzy chmury mogą zapewnić zespołom ML i analitykom konta, których potrzebują, aby szybciej wykonywać swoją pracę, nie rezygnując z solidnych podstaw zarządzania.

Fundamenty jeziora danych

Ten moduł pomaga administratorom Data Lake skonfigurować jezioro danych w celu pozyskiwania danych, zarządzania zbiorami danych i korzystania z nich Formacja AWS Lake model zarządzania umożliwiający zarządzanie szczegółowym dostępem do danych między kontami i użytkownikami przy użyciu scentralizowanego katalogu danych, zasad dostępu do danych i kontroli dostępu opartej na tagach. Możesz zacząć od jednego konta stanowiącego podstawę platformy danych w celu sprawdzenia koncepcji lub kilku małych obciążeń. W przypadku implementacji obciążenia produkcyjnego na średnią i dużą skalę zalecamy przyjęcie strategii wielu kont. W takim ustawieniu LOB mogą przyjąć rolę producentów i konsumentów danych korzystających z różnych kont AWS, a zarządzanie jeziorem danych jest obsługiwane z centralnego, współdzielonego konta AWS. Producent danych zbiera, przetwarza i przechowuje dane ze swojej domeny danych, a także monitoruje i zapewnia jakość swoich zasobów danych. Konsumenci danych korzystają z danych od producenta danych po udostępnieniu ich przez scentralizowany katalog przy użyciu usługi Lake Formation. Scentralizowany katalog przechowuje udostępniony katalog danych dla kont producentów danych i zarządza nim.

Usługi platformy ML

Ten moduł pomaga zespołowi inżynierów platformy ML skonfigurować usługi udostępnione, z których korzystają zespoły analityki danych na swoich kontach zespołów. Usługi obejmują katalog usług z produktami dla Domena SageMakera zastosowanie, Profil użytkownika domeny SageMaker wdrażanie, szablony modeli analizy danych do budowania i wdrażania modeli. Moduł ten zawiera funkcje scentralizowanego rejestru modeli, kart modeli, pulpitu nawigacyjnego modeli oraz potoków CI/CD używanych do organizowania i automatyzowania przepływów pracy związanych z opracowywaniem i wdrażaniem modeli.

Ponadto w tym module szczegółowo opisano sposób wdrażania kontroli i zarządzania wymaganych do umożliwienia samoobsługi opartej na osobach, umożliwiając zespołom zajmującym się analizą danych niezależne wdrażanie wymaganej infrastruktury chmurowej i szablonów ML.

Opracowywanie przypadków użycia ML

Moduł ten pomaga specjalistom LOB i badaczom danych uzyskać dostęp do domeny SageMaker ich zespołu w środowisku programistycznym i utworzyć instancję szablonu budowania modelu w celu opracowania ich modeli. W tym module badacze danych pracują nad instancją szablonu na koncie deweloperskim, aby wchodzić w interakcję z danymi dostępnymi w scentralizowanym jeziorze danych, ponownie wykorzystywać i udostępniać funkcje z centralnego magazynu funkcji, tworzyć i uruchamiać eksperymenty ML, budować i testować przepływy pracy ML, i zarejestruj swoje modele w rejestrze modeli kont deweloperów w swoich środowiskach programistycznych.

W szablonach zaimplementowano także takie funkcje, jak śledzenie eksperymentów, raporty wyjaśnialności modeli, monitorowanie danych i odchyleń modelu oraz rejestrowanie modeli, co pozwala na szybkie dostosowanie rozwiązań do modeli opracowanych przez analityków danych.

Operacje ML

Ten moduł pomaga inżynierom LOB i ML pracować nad instancjami deweloperskimi szablonu wdrażania modelu. Po zarejestrowaniu i zatwierdzeniu modelu kandydata konfigurują potoki CI/CD i uruchamiają przepływy pracy ML w środowisku testowym zespołu, które rejestruje model w centralnym rejestrze modeli działającym na koncie usług wspólnych platformy. Zatwierdzenie modelu w centralnym rejestrze modeli uruchamia potok CI/CD w celu wdrożenia modelu w środowisku produkcyjnym zespołu.

Scentralizowany magazyn funkcji

Gdy pierwsze modele zostaną wdrożone w środowisku produkcyjnym i wiele przypadków użycia zacznie współdzielić funkcje utworzone na podstawie tych samych danych, magazyn funkcji staje się niezbędny, aby zapewnić współpracę między przypadkami użycia i ograniczyć powielanie pracy. Moduł ten pomaga zespołowi inżynierów platformy ML skonfigurować scentralizowany magazyn funkcji w celu zapewnienia przechowywania i zarządzania funkcjami ML utworzonymi w przypadkach użycia ML, umożliwiając ponowne wykorzystanie funkcji w różnych projektach.

Rejestrowanie i obserwowalność

Moduł ten pomaga specjalistom LOB i praktykom ML uzyskać wgląd w stan obciążeń ML w środowiskach ML poprzez centralizację aktywności dzienników, takich jak CloudTrail, CloudWatch, dzienniki przepływu VPC i dzienniki obciążeń ML. Zespoły mogą filtrować, wysyłać zapytania i wizualizować dzienniki do analizy, co może również pomóc w zwiększeniu poziomu bezpieczeństwa.

Koszty i raportowanie

Moduł ten pomaga różnym zainteresowanym stronom (administratorowi chmury, administratorowi platformy, biuru biznesowemu w chmurze) generować raporty i pulpity nawigacyjne w celu rozbicia kosztów na poziomie użytkownika ML, zespołu ML i produktu ML oraz śledzić wykorzystanie, takie jak liczba użytkowników, typy instancji i punkty końcowe.

Klienci poprosili nas o wskazówki dotyczące liczby kont, które należy utworzyć i struktury tych kont. W następnej sekcji podajemy wskazówki dotyczące tej struktury konta jako odniesienie, które można modyfikować w celu dostosowania do własnych potrzeb zgodnie z wymaganiami dotyczącymi ładu korporacyjnego.

W tej sekcji omawiamy nasze zalecenia dotyczące organizacji struktury konta. Mamy wspólną bazową strukturę konta referencyjnego; zalecamy jednak, aby administratorzy systemów uczących się i danych ściśle współpracowali z administratorem chmury, aby dostosować tę strukturę konta na podstawie kontroli organizacji.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Zalecamy organizowanie kont według jednostek organizacyjnych ze względu na bezpieczeństwo, infrastrukturę, obciążenia i wdrożenia. Ponadto w obrębie każdej jednostki organizacyjnej organizuj według jednostek nieprodukcyjnych i produkcyjnych, ponieważ konta i obciążenia wdrożone w ich ramach mają inną kontrolę. Następnie krótko omówimy te jednostki organizacyjne.

Jednostka organizacyjna bezpieczeństwa

Kontami w tej jednostce organizacyjnej zarządza administrator chmury lub zespół ds. bezpieczeństwa organizacji w celu monitorowania, identyfikowania, ochrony, wykrywania i reagowania na zdarzenia związane z bezpieczeństwem.

Jednostka organizacyjna infrastruktury

Kontami w tej jednostce organizacyjnej zarządza administrator chmury lub zespół sieciowy organizacji w celu zarządzania udostępnionymi zasobami i sieciami infrastruktury na poziomie przedsiębiorstwa.

Zalecamy posiadanie następujących kont w ramach jednostki organizacyjnej infrastruktury:

Sieć – Skonfiguruj scentralizowaną infrastrukturę sieciową, taką jak Bramka tranzytowa AWS
Usługi wspólne – Skonfiguruj scentralizowane usługi AD i punkty końcowe VPC

Jednostka organizacyjna obciążeń

Kontami w tej jednostce organizacyjnej zarządzają administratorzy zespołu platformy organizacji. Jeśli potrzebujesz różnych kontroli zaimplementowanych dla każdego zespołu platformy, możesz w tym celu zagnieżdżać inne poziomy jednostki organizacyjnej, takie jak jednostka organizacyjna obciążeń ML, jednostka organizacyjna obciążeń danych itd.

Zalecamy następujące konta w ramach jednostki organizacyjnej obciążeń:

Konta deweloperskie, testowe i produkcyjne ML na poziomie zespołu – Skonfiguruj tę opcję w oparciu o wymagania dotyczące izolacji obciążenia
Konta jeziora danych – Podziel konta według domeny danych
Centralne konto do zarządzania danymi – Scentralizuj zasady dostępu do danych
Centralne konto w sklepie z funkcjami – Scentralizuj funkcje udostępniania między zespołami

Jednostka organizacyjna wdrożeń

Kontami w tej jednostce organizacyjnej zarządzają administratorzy zespołu platformy organizacji w celu wdrażania obciążeń i obserwowalności.

Zalecamy korzystanie z następujących kont w ramach jednostki organizacyjnej wdrożeń, ponieważ zespół platformy ML może skonfigurować różne zestawy kontroli na tym poziomie jednostki organizacyjnej w celu zarządzania wdrożeniami i zarządzania nimi:

Konta usług wspólnych ML dla testów i produktów – Hostuje platformę usług wspólnych CI/CD i rejestr modeli
Konta obserwowalności ML dla testów i prod – Hostuje dzienniki CloudWatch, dzienniki CloudTrail i inne dzienniki w razie potrzeby

Następnie pokrótce omawiamy mechanizmy kontrolne organizacji, które należy wziąć pod uwagę przy osadzaniu na kontach członkowskich w celu monitorowania zasobów infrastruktury.

Kontrole środowiska AWS

Kontrola to reguła wysokiego poziomu, która zapewnia ciągłe zarządzanie całym środowiskiem AWS. Wyraża się to prostym językiem. W tym kontekście używamy AWS Control Tower do wdrożenia następujących kontroli, które pomagają zarządzać zasobami i monitorować zgodność między grupami kont AWS:

Kontrole prewencyjne – Kontrola zapobiegawcza zapewnia, że Twoje konta zachowują zgodność, ponieważ uniemożliwia działania prowadzące do naruszenia zasad i są wdrażane przy użyciu Polityki kontroli usług (SCP). Na przykład możesz ustawić kontrolę zapobiegawczą, która gwarantuje, że CloudTrail nie zostanie usunięty ani zatrzymany na kontach lub regionach AWS.
Kontrole detektywistyczne – Kontrola detektywistyczna wykrywa niezgodność zasobów na Twoich kontach, np. naruszenia zasad, wyświetla alerty za pośrednictwem pulpitu nawigacyjnego i jest realizowana za pomocą Konfiguracja AWS zasady. Można na przykład utworzyć kontrolę detektywistyczną, która będzie wykrywać, czy włączono publiczny dostęp do odczytu Usługa Amazon Simple Storage Wiadra (Amazon S3) na wspólnym koncie archiwum logów.
Proaktywne kontrole – Proaktywna kontrola skanuje Twoje zasoby przed ich udostępnieniem i upewnia się, że zasoby są zgodne z tą kontrolą i są wdrażane przy użyciu Tworzenie chmury AWS haczyki. Zasoby, które nie są zgodne, nie zostaną udostępnione. Można na przykład ustawić proaktywną kontrolę sprawdzającą, czy dla instancji notatnika SageMaker nie jest dozwolony bezpośredni dostęp do Internetu.

Interakcje między usługami platformy ML, przypadkami użycia ML i operacjami ML

Różne osoby, takie jak kierownik działu analityki danych (główny analityk danych), analityk danych i inżynier ML, obsługują moduły 2–6, jak pokazano na poniższym diagramie, dla różnych etapów usług platformy ML, opracowywania przypadków użycia ML i operacji ML wraz z fundamentami jeziora danych i centralnym magazynem funkcji.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

W poniższej tabeli podsumowano czynności związane z przepływem operacji i etapy konfiguracji dla różnych osób. Gdy osoba zainicjuje działanie ML w ramach przepływu operacji, usługi będą działać zgodnie z opisem w etapach konfiguracji.

Persona	Aktywność przepływu operacji – liczba	Działanie przepływu operacji – opis	Krok przepływu konfiguracji – liczba	Krok konfiguracji – opis
Główny specjalista ds. analityki danych lub lider zespołu ML	1	Korzysta z katalogu usług na koncie usług platformy ML i wdraża następujące elementy: Infrastruktura ML Projekty SageMaker Rejestr modeli SageMaker	1-	Konfiguruje środowiska deweloperskie, testowe i produkcyjne dla obiektów LOB Konfiguruje SageMaker Studio na koncie usług platformy ML
	1		1-B	Konfiguruje SageMaker Studio z wymaganą konfiguracją
Dane Scientist	2	Prowadzi i śledzi eksperymenty ML w notatnikach SageMaker	2-	Wykorzystuje dane z formacji jeziora Zapisuje funkcje w centralnym magazynie funkcji
	3	Automatyzuje udane eksperymenty ML z projektami i potokami SageMaker	3-	Inicjuje potoki SageMaker (przetwarzanie wstępne, uczenie, ocena) na koncie dewelopera Inicjuje proces kompilacji CI/CD za pomocą CodePipeline na koncie dewelopera
	3		3-B	Po uruchomieniu potoków SageMaker zapisuje model w lokalnym rejestrze modeli (dev).
Główny analityk danych lub lider zespołu ML	4	Zatwierdza model w lokalnym rejestrze modeli (programistów).	4-	Metadane modelu i pakiet modelu zapisują się z lokalnego (programistycznego) rejestru modeli do centralnego rejestru modeli
	5	Zatwierdza model w centralnym rejestrze modeli	5-	Inicjuje proces wdrażania CI/CD w celu utworzenia punktów końcowych SageMaker w środowisku testowym
	5	Zatwierdza model w centralnym rejestrze modeli	5-B	Zapisuje informacje o modelu i metadane w module zarządzania ML (karta modelu, pulpit nawigacyjny modelu) na koncie usług platformy ML z konta lokalnego (programisty)
Inżynier ML	6	Testuje i monitoruje punkt końcowy SageMaker w środowisku testowym po CI/CD	.
	7	Zatwierdza wdrożenie punktów końcowych SageMaker w środowisku prod	7-	Inicjuje proces wdrażania CI/CD w celu utworzenia punktów końcowych SageMaker w środowisku prod
	8	Testuje i monitoruje punkt końcowy SageMaker w środowisku testowym po CI/CD	.

Persony i interakcje z różnymi modułami platformy ML

Każdy moduł jest przeznaczony dla określonych osób docelowych w określonych działach, które najczęściej korzystają z modułu, zapewniając im podstawowy dostęp. Dostęp wtórny jest wówczas dozwolony do innych oddziałów, które wymagają okazjonalnego użycia modułów. Moduły są dostosowywane do potrzeb poszczególnych stanowisk lub osób, aby zoptymalizować funkcjonalność.

Omawiamy następujące zespoły:

Inżynieria chmury centralnej – Ten zespół działa na poziomie chmury korporacyjnej we wszystkich obciążeniach i konfiguruje typowe usługi infrastruktury chmurowej, takie jak konfigurowanie sieci na poziomie przedsiębiorstwa, tożsamości, uprawnień i zarządzania kontami
Inżynieria platform danych – Ten zespół zarządza jeziorami danych przedsiębiorstwa, gromadzeniem danych, przechowywaniem danych i zarządzaniem danymi
Inżynieria platformy ML – Zespół ten działa na poziomie platformy ML we wszystkich LOB, aby świadczyć wspólne usługi w zakresie infrastruktury ML, takie jak udostępnianie infrastruktury ML, śledzenie eksperymentów, zarządzanie modelami, wdrażanie i obserwowalność

Poniższa tabela szczegółowo opisuje, które działy mają podstawowy i dodatkowy dostęp do każdego modułu, zgodnie z docelowymi osobami modułu.

Numer modułu	Moduły	Dostęp podstawowy	Dostęp wtórny	Docelowe osoby	Liczba kont
1	Fundacje wielokontowe	Inżynieria chmury centralnej	Indywidualne LOB	Administrator chmury Inżynierowie chmury	Mało
2	Fundamenty jeziora danych	Inżynieria chmury centralnej lub platformy danych	Indywidualne LOB	Administrator jeziora danych Inżynierowie danych	Wielokrotność
3	Usługi platformy ML	Inżynieria chmury centralnej lub platformy ML	Indywidualne LOB	Administrator platformy ML Lider zespołu ML inżynierowie ML Lider zarządzania ML	jeden
4	Opracowywanie przypadków użycia ML	Indywidualne LOB	Inżynieria chmury centralnej lub platformy ML	Badacze danych Inżynierowie danych Lider zespołu ML inżynierowie ML	Wielokrotność
5	Operacje ML	Chmura centralna lub inżynieria ML	Indywidualne LOB	Inżynierowie ML Zespół ML prowadzi Badacze danych	Wielokrotność
6	Scentralizowany magazyn funkcji	Chmura centralna lub inżynieria danych	Indywidualne LOB	Inżynier danych Badacze danych	jeden
7	Rejestrowanie i obserwowalność	Inżynieria chmury centralnej	Indywidualne LOB	Administrator chmury Audytorzy IT	jeden
8	Koszty i raportowanie	Indywidualne LOB	Inżynieria platformy centralnej	Kierownictwo LOB Menedżerowie ML	jeden

Wnioski

W tym poście przedstawiliśmy strukturę zarządzania cyklem życia uczenia maszynowego na dużą skalę, która pomaga wdrażać dobrze zaprojektowane obciążenia uczenia maszynowego z osadzeniem zabezpieczeń i kontroli zarządzania. Omówiliśmy, w jaki sposób ta struktura przyjmuje całościowe podejście do tworzenia platformy uczenia maszynowego, biorąc pod uwagę zarządzanie danymi, zarządzanie modelami i kontrole na poziomie przedsiębiorstwa. Zachęcamy do eksperymentowania ze frameworkiem i koncepcjami przedstawionymi w tym poście oraz dzielenia się swoimi opiniami.

O autorach

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Rama Vittal jest głównym architektem rozwiązań ML w AWS. Ma ponad 3-letnie doświadczenie w projektowaniu i budowaniu aplikacji rozproszonych, hybrydowych i chmurowych. Pasjonuje się tworzeniem bezpiecznych, skalowalnych, niezawodnych rozwiązań AI/ML i Big Data, aby pomóc klientom korporacyjnym w procesie wdrażania chmury i optymalizacji w celu poprawy wyników biznesowych. W wolnym czasie jeździ na motocyklu i spaceruje ze swoją trzyletnią owcą-doodle!

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sovik Kumar Nath jest architektem rozwiązań AI/ML w AWS. Ma bogate doświadczenie w projektowaniu kompleksowych rozwiązań do uczenia maszynowego i analityki biznesowej w finansach, operacjach, marketingu, opiece zdrowotnej, zarządzaniu łańcuchem dostaw i IoT. Sovik opublikował artykuły i posiada patent na monitorowanie modeli ML. Posiada podwójne stopnie magisterskie z University of South Florida, University of Fribourg w Szwajcarii oraz tytuł licencjata z Indian Institute of Technology w Kharagpur. Poza pracą Sovik lubi podróżować, pływać promem i oglądać filmy.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Maira Ladeira Tanke jest starszym specjalistą ds. danych w AWS. Jako lider techniczny pomaga klientom przyspieszyć osiągnięcie wartości biznesowej dzięki powstającym technologiom i innowacyjnym rozwiązaniom. Maira jest w AWS od stycznia 2020 roku. Wcześniej pracowała jako analityk danych w wielu branżach, koncentrując się na osiąganiu wartości biznesowej z danych. W wolnym czasie Maira lubi podróżować i spędzać czas z rodziną w ciepłych miejscach.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Ryana Lempki jest starszym architektem rozwiązań w Amazon Web Services, gdzie pomaga swoim klientom cofnąć się od celów biznesowych do opracowania rozwiązań na platformie AWS. Posiada głębokie doświadczenie w zakresie strategii biznesowej, zarządzania systemami IT i analityki danych. Ryan pragnie uczyć się przez całe życie i każdego dnia lubi rzucać sobie wyzwania, aby nauczyć się czegoś nowego.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sriharsz Adari jest starszym architektem rozwiązań w Amazon Web Services (AWS), gdzie pomaga klientom pracować wstecz od wyników biznesowych do opracowywania innowacyjnych rozwiązań w AWS. Przez lata pomagał wielu klientom w transformacji platform danych w różnych branżach. Jego główne obszary specjalizacji obejmują strategię technologiczną, analizę danych i naukę o danych. W wolnym czasie lubi uprawiać sport, oglądać programy telewizyjne i grać w Tablę.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

Znak czasu: 20 października 2023 r.

Znak czasu: Luty 7, 2023

Opublikowane ponownie przez Plato

Popraw jakość rozmówcy dzięki podpowiedziom w Amazon Lex

Przyspieszenie uzyskiwania wglądu dzięki zbiorom szeregów czasowych MongoDB i Amazon SageMaker Canvas | Usługi internetowe Amazona

Identyfikowanie schematów pokrycia obronnego w statystykach nowej generacji NFL

Zastosuj maskowanie wulgaryzmów w Amazon Translate

Ekonomiczne przygotowanie danych do uczenia maszynowego za pomocą SageMaker Data Wrangler

Amazon SageMaker Automatic Model Tuning obsługuje teraz trzy nowe kryteria ukończenia dla optymalizacji hiperparametrów

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto