Governing The ML Lifecycle At Scale, Part 1: A Framework For Architecting ML Workloads Using Amazon SageMaker

Republicat de Platon

Urmaritori: 0

Clienții de orice dimensiune și industrie inovează pe AWS prin infuzarea învățării automate (ML) în produsele și serviciile lor. Evoluțiile recente ale modelelor AI generative au accelerat și mai mult necesitatea adoptării ML în toate industriile. Cu toate acestea, implementarea controalelor de securitate, confidențialitate a datelor și guvernanță sunt încă provocări cheie cu care se confruntă clienții atunci când implementează sarcinile de lucru ML la scară. Abordarea acestor provocări construiește cadrul și bazele pentru atenuarea riscurilor și utilizarea responsabilă a produselor bazate pe ML. Deși AI generativă poate avea nevoie de controale suplimentare, cum ar fi eliminarea toxicității și prevenirea jailbreak-urilor și halucinațiilor, împărtășește aceleași componente fundamentale pentru securitate și guvernare ca ML tradițional.

Auzim de la clienți că au nevoie de cunoștințe specializate și investiții de până la 12 luni pentru a-și construi personalizarea Amazon SageMaker Implementarea platformei ML pentru a asigura medii ML scalabile, fiabile, sigure și guvernate pentru liniile lor de afaceri (LOB) sau echipele ML. Dacă nu aveți un cadru pentru guvernarea ciclului de viață ML la scară, este posibil să vă confruntați cu provocări precum izolarea resurselor la nivel de echipă, scalarea resurselor de experimentare, operaționalizarea fluxurilor de lucru ML, scalarea guvernanței modelului și gestionarea securității și conformității sarcinilor de lucru ML.

Guvernarea ciclului de viață ML la scară este un cadru care vă ajută să construiți o platformă ML cu controale de securitate și guvernanță încorporate bazate pe cele mai bune practici din industrie și pe standardele întreprinderii. Acest cadru abordează provocările oferind îndrumări prescriptive printr-o abordare cadru modulară care extinde un Turnul de control AWS mediul AWS cu mai multe conturi și abordarea discutată în postare Configurarea unor medii de învățare automată sigure și bine guvernate pe AWS.

Acesta oferă îndrumări prescriptive pentru următoarele funcții ale platformei ML:

Fundații cu mai multe conturi, securitate și rețele – Această funcție folosește AWS Control Tower și principii bine arhitecturate pentru configurarea și operarea unui mediu cu mai multe conturi, securitate și servicii de rețea.
Date și baze de guvernare – Această funcție folosește a arhitectura mesh de date pentru configurarea și operarea lacului de date, a depozitului central de caracteristici și a fundațiilor de guvernare a datelor pentru a permite accesul la date precis.
Platformă ML partajată și servicii de guvernare – Această funcție permite configurarea și operarea serviciilor comune, cum ar fi CI/CD, Catalog de servicii AWS pentru medii de furnizare și un registru central de model pentru promovarea și descendența modelului.
Medii de echipă ML – Această funcție permite configurarea și operarea mediilor pentru echipele ML pentru dezvoltarea modelelor, testarea și implementarea cazurilor de utilizare ale acestora pentru încorporarea controalelor de securitate și guvernanță.
Observabilitatea platformei ML – Această funcție ajută la depanarea și identificarea cauzei principale a problemelor în modelele ML prin centralizarea jurnalelor și furnizarea de instrumente pentru vizualizarea analizei jurnalelor. De asemenea, oferă îndrumări pentru generarea de rapoarte de cost și utilizare pentru cazurile de utilizare ML.

Deși acest cadru poate oferi beneficii tuturor clienților, este cel mai benefic pentru clienții întreprinderi mari, mature, reglementate sau globale care doresc să-și extindă strategiile de ML într-o abordare controlată, conformă și coordonată în întreaga organizație. Ajută la adoptarea ML, diminuând în același timp riscurile. Acest cadru este util pentru următorii clienți:

Clienți întreprinderi mari care au multe LOB sau departamente interesate să folosească ML. Acest cadru permite diferitelor echipe să construiască și să implementeze modele ML în mod independent, oferind în același timp guvernare centrală.
Clienți întreprinderi cu o maturitate moderată spre mare în ML. Ei au implementat deja câteva modele inițiale de ML și caută să-și extindă eforturile ML. Acest cadru poate ajuta la accelerarea adoptării ML în întreaga organizație. Aceste companii recunosc, de asemenea, nevoia de guvernare pentru a gestiona lucruri precum controlul accesului, utilizarea datelor, performanța modelului și părtinirea neloială.
Companii din industrii reglementate, cum ar fi serviciile financiare, asistența medicală, chimia și sectorul privat. Aceste companii au nevoie de guvernanță puternică și audibilitate pentru orice model ML utilizat în procesele lor de afaceri. Adoptarea acestui cadru poate ajuta la facilitarea conformității, permițând totodată dezvoltarea modelului local.
Organizații globale care trebuie să echilibreze controlul centralizat și cel local. Abordarea federată a acestui cadru permite echipei de inginerie a platformei centrale să stabilească niște politici și standarde la nivel înalt, dar oferă și echipelor LOB flexibilitate de a se adapta în funcție de nevoile locale.

În prima parte a acestei serii, parcurgem arhitectura de referință pentru configurarea platformei ML. Într-o postare ulterioară, vom oferi îndrumări prescriptive cu privire la modul de implementare a diferitelor module în arhitectura de referință în organizația dumneavoastră.

Capacitățile platformei ML sunt grupate în patru categorii, așa cum se arată în figura următoare. Aceste capabilități formează baza arhitecturii de referință discutate mai târziu în această postare:

Construiți fundații ML
Scala operațiunile ML
ML observabil
Secure ML

Prezentare generală a soluțiilor

Cadrul pentru guvernarea ciclului de viață ML la scară permite organizațiilor să încorporeze controale de securitate și guvernanță pe tot parcursul ciclului de viață ML, care, la rândul lor, ajută organizațiile să reducă riscurile și să accelereze introducerea ML în produsele și serviciile lor. Cadrul ajută la optimizarea configurației și guvernării mediilor ML securizate, scalabile și de încredere, care se pot scala pentru a susține un număr tot mai mare de modele și proiecte. Cadrul permite următoarele caracteristici:

Aprovizionarea contului și a infrastructurii cu resurse de infrastructură conforme cu politica organizației
Implementarea în sistem self-service a mediilor de știință a datelor și șabloane de operațiuni ML (MLOps) end-to-end pentru cazurile de utilizare ML
Izolarea resurselor la nivel de LOB sau la nivel de echipă pentru conformitatea cu securitatea și confidențialitatea
Acces guvernat la date de nivel de producție pentru experimente și fluxuri de lucru pregătite pentru producție
Management și guvernare pentru depozite de coduri, conducte de cod, modele implementate și caracteristici de date
Un model de registru și un magazin de caracteristici (componente locale și centrale) pentru îmbunătățirea guvernanței
Controale de securitate și guvernanță pentru procesul de dezvoltare și implementare a modelului de la capăt la capăt

În această secțiune, oferim o prezentare generală a îndrumărilor prescriptive pentru a vă ajuta să construiți această platformă ML pe AWS cu controale de securitate și guvernanță încorporate.

Arhitectura funcțională asociată cu platforma ML este prezentată în diagrama următoare. Arhitectura mapează diferitele capabilități ale platformei ML la conturile AWS.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Arhitectura funcțională cu diferite capacități este implementată folosind o serie de servicii AWS, inclusiv Organizații AWS, SageMaker, servicii AWS DevOps și un lac de date. Arhitectura de referință pentru platforma ML cu diverse servicii AWS este prezentată în diagrama următoare.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Acest cadru ia în considerare mai multe persoane și servicii pentru a guverna ciclul de viață ML la scară. Vă recomandăm următorii pași pentru a vă organiza echipele și serviciile:

Folosind AWS Control Tower și instrumentele de automatizare, administratorul dvs. cloud configurează fundațiile cu mai multe conturi, cum ar fi organizațiile și Centrul de identitate AWS IAM (succesorul AWS Single Sign-On) și servicii de securitate și guvernanță, cum ar fi AWS Service Management Service (AWS KMS) și Catalogul de servicii. În plus, administratorul configurează o varietate de unități organizaționale (OU) și conturi inițiale pentru a vă sprijini fluxurile de lucru ML și de analiză.
Administratorii lacului de date v-au configurat lacul de date și catalogul de date și au configurat magazinul central de caracteristici care lucrează cu administratorul platformei ML.
Administratorul platformei ML furnizează servicii partajate ML, cum ar fi AWS CodeCommit, AWS CodePipeline, Registrul Amazon de containere elastice (Amazon ECR), un model de registru central, Carduri de model SageMaker, Tabloul de bord model SageMakerși produse Catalog de servicii pentru echipele ML.
Șeful echipei ML se federalizează prin IAM Identity Center, utilizează produse Catalog de servicii și furnizează resurse în mediul de dezvoltare al echipei ML.
Oamenii de știință de date din echipele de ML din diferite unități de afaceri se federalizează în mediul de dezvoltare al echipei lor pentru a construi pipeline de modele.
Oamenii de știință de date caută și extrag caracteristici din catalogul central al magazinului de caracteristici, construiesc modele prin experimente și selectează cel mai bun model pentru promovare.
Oamenii de știință de date creează și partajează noi caracteristici în catalogul central al magazinului de caracteristici pentru reutilizare.
Un inginer ML implementează pipeline de model în mediul de testare al echipei ML utilizând un proces CI/CD cu servicii partajate.
După validarea părților interesate, modelul ML este implementat în mediul de producție al echipei.
Controalele de securitate și guvernanță sunt încorporate în fiecare nivel al acestei arhitecturi folosind servicii precum AWS Security Hub, Serviciul de gardă Amazon, Amazon Macie, Și mai mult.
Controalele de securitate sunt gestionate central din contul de instrumente de securitate folosind Security Hub.
Capacitățile de guvernare a platformei ML, cum ar fi SageMaker Model Cards și SageMaker Model Dashboard, sunt gestionate central din contul de servicii de guvernare.
Amazon CloudWatch și AWS CloudTrail jurnalele din fiecare cont de membru sunt accesibile central dintr-un cont de observabilitate folosind serviciile native AWS.

Apoi, ne aprofundăm în modulele arhitecturii de referință pentru acest cadru.

Module de arhitectură de referință

Arhitectura de referință cuprinde opt module, fiecare proiectat pentru a rezolva un set specific de probleme. În mod colectiv, aceste module abordează guvernanța în diferite dimensiuni, cum ar fi infrastructura, datele, modelul și costul. Fiecare modul oferă un set distinct de funcții și interoperează cu alte module pentru a oferi o platformă ML integrată end-to-end cu controale de securitate și guvernanță încorporate. În această secțiune, prezentăm un scurt rezumat al capacităților fiecărui modul.

Fundații cu mai multe conturi

Acest modul îi ajută pe administratorii cloud să construiască un Zona de aterizare AWS Control Tower ca cadru fundamental. Aceasta include construirea unei structuri cu mai multe conturi, autentificare și autorizare prin IAM Identity Center, un design hub-and-spoke de rețea, servicii de înregistrare centralizată și noi conturi de membru AWS cu linii de bază standardizate de securitate și guvernare.

În plus, acest modul oferă îndrumări despre cele mai bune practici cu privire la structurile de organizare și conturi care sunt adecvate pentru a vă susține fluxurile de lucru ML și de analiză. Administratorii cloud vor înțelege scopul conturilor și al unităților organizaționale necesare, cum să le implementeze și serviciile cheie de securitate și conformitate pe care ar trebui să le folosească pentru a-și guverna la nivel central sarcinile de lucru ML și de analiză.

Este, de asemenea, acoperit un cadru pentru vânzarea de conturi noi, care utilizează automatizarea pentru a stabili noile conturi atunci când acestea sunt furnizate. Prin configurarea unui proces automat de furnizare a conturilor, administratorii cloud pot oferi echipelor de ML și de analiză conturile de care au nevoie pentru a-și desfășura activitatea mai rapid, fără a sacrifica o bază solidă pentru guvernanță.

Fundațiile lacului de date

Acest modul îi ajută pe administratorii lacului de date să configureze un lac de date pentru a ingera date, a gestiona seturi de date și a utiliza Formația lacului AWS model de guvernanță pentru gestionarea accesului precis la date între conturi și utilizatori folosind un catalog de date centralizat, politici de acces la date și controale de acces bazate pe etichete. Puteți începe cu un singur cont pentru bazele platformei de date pentru o dovadă de concept sau câteva sarcini mici de lucru. Pentru implementarea volumului de lucru de producție la scară medie spre mare, recomandăm adoptarea unei strategii cu mai multe conturi. Într-o astfel de setare, LOB-urile își pot asuma rolul de producători de date și consumatori de date folosind diferite conturi AWS, iar guvernarea lacului de date este operată dintr-un cont AWS central partajat. Producătorul de date colectează, prelucrează și stochează date din domeniul său de date, pe lângă monitorizarea și asigurarea calității activelor lor de date. Consumatorii de date consumă datele de la producătorul de date după ce catalogul centralizat le partajează folosind Lake Formation. Catalogul centralizat stochează și gestionează catalogul de date partajat pentru conturile de producător de date.

Servicii de platformă ML

Acest modul ajută echipa de inginerie a platformei ML să configureze servicii partajate care sunt utilizate de echipele de știință a datelor în conturile lor de echipă. Serviciile includ un portofoliu de Catalog de servicii cu produse pt domeniul SageMaker implementare, Profilul utilizatorului domeniului SageMaker implementare, șabloane de modele pentru știința datelor pentru construirea și implementarea modelelor. Acest modul are funcționalități pentru un registru de model centralizat, carduri de model, tablou de bord model și conducte CI/CD utilizate pentru a orchestra și automatiza fluxurile de lucru de dezvoltare și implementare a modelelor.

În plus, acest modul detaliază modul de implementare a controalelor și guvernării necesare pentru a activa capabilitățile de autoservire bazate pe persoană, permițând echipelor de știință a datelor să implementeze în mod independent infrastructura cloud și șabloanele ML necesare.

Dezvoltarea cazurilor de utilizare ML

Acest modul ajută LOB-urile și oamenii de știință de date să acceseze domeniul SageMaker al echipei lor într-un mediu de dezvoltare și să instanțieze un șablon de construire a modelelor pentru a-și dezvolta modelele. În acest modul, oamenii de știință de date lucrează la o instanță de cont de dezvoltare a șablonului pentru a interacționa cu datele disponibile pe lacul de date centralizat, reutiliza și partaja caracteristici dintr-un magazin central de caracteristici, creează și rulează experimente ML, construiește și testează fluxurile de lucru ML, și înregistrați modelele lor într-un registru de modele de cont de dezvoltare în mediile lor de dezvoltare.

Capacitățile precum urmărirea experimentelor, rapoartele de explicabilitate a modelelor, monitorizarea datelor și a părtinirii modelului și registrul modelului sunt, de asemenea, implementate în șabloane, permițând adaptarea rapidă a soluțiilor la modelele dezvoltate de cercetătorii de date.

Operații ML

Acest modul îi ajută pe inginerii LOB și ML să lucreze la instanțele lor de dezvoltare ale șablonului de implementare a modelului. După ce modelul candidat este înregistrat și aprobat, aceștia creează conducte CI/CD și rulează fluxuri de lucru ML în mediul de testare al echipei, care înregistrează modelul în registrul central al modelului care rulează într-un cont de servicii partajate de platformă. Când un model este aprobat în registrul central de modele, aceasta declanșează o conductă CI/CD pentru a implementa modelul în mediul de producție al echipei.

Magazin de caracteristici centralizat

După ce primele modele sunt implementate în producție și mai multe cazuri de utilizare încep să partajeze caracteristici create din aceleași date, un depozit de caracteristici devine esențial pentru a asigura colaborarea între cazurile de utilizare și pentru a reduce munca duplicat. Acest modul ajută echipa de inginerie a platformei ML să înființeze un magazin de caracteristici centralizat pentru a oferi stocare și guvernare pentru caracteristicile ML create de cazurile de utilizare ML, permițând reutilizarea caracteristicilor în cadrul proiectelor.

Înregistrare și observabilitate

Acest modul ajută LOB-urile și practicienii ML să obțină vizibilitate asupra stării sarcinilor de lucru ML în mediile ML prin centralizarea activității de jurnal, cum ar fi CloudTrail, CloudWatch, jurnalele de flux VPC și jurnalele de încărcare de lucru ML. Echipele pot filtra, interoga și vizualiza jurnalele pentru analiză, ceea ce poate ajuta și la îmbunătățirea poziției de securitate.

Costuri și raportare

Acest modul ajută diverse părți interesate (administrator de cloud, administrator de platformă, birou de afaceri în cloud) să genereze rapoarte și tablouri de bord pentru a defalca costurile la nivel de utilizator ML, echipa ML și produse ML și să urmărească utilizarea, cum ar fi numărul de utilizatori, tipurile de instanțe și puncte finale.

Clienții ne-au cerut să oferim îndrumări cu privire la câte conturi să creăm și la modul de structurare a acestor conturi. În secțiunea următoare, oferim îndrumări cu privire la structura contului respectiv ca referință pe care o puteți modifica pentru a se potrivi nevoilor dvs. în funcție de cerințele de guvernanță ale întreprinderii.

În această secțiune, discutăm recomandarea noastră pentru organizarea structurii contului dvs. Împărtășim o structură de referință de referință; totuși, recomandăm administratorilor de ML și de date să colaboreze îndeaproape cu administratorul cloud pentru a personaliza această structură a contului pe baza controalelor organizației lor.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vă recomandăm să organizați conturile în funcție de OU pentru securitate, infrastructură, încărcături de lucru și implementări. Mai mult, în cadrul fiecărei OU, organizați-vă pe OU non-producție și producție, deoarece conturile și sarcinile de lucru implementate în cadrul acestora au controale diferite. În continuare, vom discuta pe scurt aceste OU.

Securitate OU

Conturile din această OU sunt gestionate de administratorul cloud al organizației sau de echipa de securitate pentru monitorizarea, identificarea, protejarea, detectarea și răspunsul la evenimentele de securitate.

OU infrastructură

Conturile din această OU sunt gestionate de administratorul cloud al organizației sau echipa de rețea pentru gestionarea resurselor și rețelelor partajate de infrastructură la nivel de întreprindere.

Vă recomandăm să aveți următoarele conturi în OU de infrastructură:

Reţea – Configurați o infrastructură de rețea centralizată, cum ar fi AWS Transit Gateway
Servicii partajate – Configurați servicii AD centralizate și puncte finale VPC

Sarcini de lucru OU

Conturile din această OU sunt gestionate de administratorii echipei platformei organizației. Dacă aveți nevoie de controale diferite implementate pentru fiecare echipă de platformă, puteți imbrica alte niveluri de OU în acest scop, cum ar fi un OU cu încărcături de lucru ML, OU cu încărcături de date și așa mai departe.

Vă recomandăm următoarele conturi în OU sarcinile de lucru:

Conturi de dezvoltare, de testare și de prod ML la nivel de echipă – Configurați acest lucru pe baza cerințelor dvs. de izolare a sarcinii de lucru
Conturi de lac de date – Partiționați conturile după domeniul dvs. de date
Cont central de guvernare a datelor – Centralizați-vă politicile de acces la date
Cont central de magazin cu funcții – Centralizați funcțiile pentru partajarea între echipe

Implementări OU

Conturile din această OU sunt gestionate de administratorii echipei platformei organizației pentru implementarea sarcinilor de lucru și observabilitate.

Vă recomandăm următoarele conturi în OU de implementări, deoarece echipa platformei ML poate configura diferite seturi de controale la acest nivel de OU pentru a gestiona și guverna implementările:

Conturi de servicii partajate ML pentru test și prod – Găzduiește servicii partajate CI/CD și model de registru
Observabilitatea ML ține cont pentru test și prod – Găzduiește jurnalele CloudWatch, jurnalele CloudTrail și alte jurnale după cum este necesar

În continuare, discutăm pe scurt controalele organizației care trebuie luate în considerare pentru încorporarea în conturile membrilor pentru monitorizarea resurselor de infrastructură.

Controale de mediu AWS

Un control este o regulă la nivel înalt care oferă guvernanță continuă pentru mediul dumneavoastră AWS global. Este exprimat într-un limbaj simplu. În acest cadru, folosim AWS Control Tower pentru a implementa următoarele controale care vă ajută să vă guvernați resursele și să monitorizați conformitatea între grupurile de conturi AWS:

Controale preventive – Un control preventiv asigură că conturile dvs. mențin conformitatea, deoarece nu permite acțiunile care duc la încălcări ale politicii și sunt implementate folosind o Politică de control al serviciului (SCP). De exemplu, puteți seta un control preventiv care asigură că CloudTrail nu este șters sau oprit în conturile sau regiunile AWS.
Controale detective – Un control detectiv detectează nerespectarea resurselor din conturile dvs., cum ar fi încălcările politicii, oferă alerte prin tabloul de bord și este implementat folosind Configurare AWS reguli. De exemplu, puteți crea un control detectiv pentru a detecta dacă accesul public la citire este activat la Serviciul Amazon de stocare simplă (Amazon S3) găleți în contul comun de arhivă de jurnal.
Controale proactive – Un control proactiv vă scanează resursele înainte ca acestea să fie furnizate și se asigură că resursele sunt conforme cu acel control și sunt implementate folosind Formarea AWS Cloud cârlige. Resursele care nu sunt conforme nu vor fi furnizate. De exemplu, puteți seta un control proactiv care verifică dacă accesul direct la internet nu este permis pentru o instanță de notebook SageMaker.

Interacțiuni între serviciile platformei ML, cazurile de utilizare ML și operațiunile ML

Diferite persoane, cum ar fi șeful de știință a datelor (scientist principal de date), cercetătorul de date și inginer ML, operează modulele 2–6, așa cum se arată în diagrama următoare, pentru diferitele etape ale serviciilor platformei ML, dezvoltarea cazurilor de utilizare ML și operațiunile ML împreună cu fundațiile lacului de date și magazinul central de caracteristici.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Următorul tabel rezumă activitatea fluxului operațional și etapele fluxului de configurare pentru diferite persoane. Odată ce o persoană inițiază o activitate ML ca parte a fluxului operațional, serviciile rulează așa cum este menționat în pașii fluxului de configurare.

Persoană	Activitate de flux operațional – Număr	Activitate de flux operațional – Descriere	Pasul fluxului de configurare – Număr	Pasul fluxului de configurare – Descriere
Lead Data Science sau ML Team Leader	1	Utilizează Catalogul de servicii în contul de servicii platformei ML și implementează următoarele: Infrastructura ML proiecte SageMaker Registrul modelului SageMaker	1-A	Configurați mediile de dezvoltare, testare și producție pentru LOB-uri Configurați SageMaker Studio în contul de servicii platformei ML
Lead Data Science sau ML Team Leader	1		1-B	Configurați SageMaker Studio cu configurația necesară
Om de stiinta de date	2	Efectuează și urmărește experimentele ML în blocnotesurile SageMaker	2-A	Utilizează date din Lake Formation Salvează funcții în magazinul central de caracteristici
	3	Automatizează experimentele ML de succes cu proiecte și conducte SageMaker	3-A	Inițiază conductele SageMaker (preprocesează, antrenează, evaluează) în contul de dezvoltare Inițiază procesul de compilare CI/CD cu CodePipeline în contul de dezvoltare
	3		3-B	După rularea conductelor SageMaker, salvează modelul în registrul de model local (dev).
Lead Data Scientist sau lider de echipă ML	4	Aprobă modelul în registrul de modele local (dev).	4-A	Metadatele modelului și pachetul modelului scrie din registrul de model local (dev) în registrul central de model
	5	Aproba modelul in registrul central de modele	5-A	Inițiază procesul CI/CD de implementare pentru a crea puncte finale SageMaker în mediul de testare
	5	Aproba modelul in registrul central de modele	5-B	Scrie informațiile și metadatele modelului în modulul de guvernare ML (card model, tablou de bord model) în contul de servicii platformei ML din contul local (dev)
Inginer ML	6	Testează și monitorizează punctul final SageMaker în mediul de testare după CI/CD	.
	7	Aprobă implementarea pentru punctele finale SageMaker în mediul prod	7-A	Inițiază procesul de implementare CI/CD pentru a crea puncte finale SageMaker în mediul prod
	8	Testează și monitorizează punctul final SageMaker în mediul de testare după CI/CD	.

Persoane și interacțiuni cu diferite module ale platformei ML

Fiecare modul se adresează unor persoane țintă specifice din cadrul unor divizii specifice care utilizează modulul cel mai des, acordându-le acces primar. Accesul secundar este apoi permis altor divizii care necesită utilizarea ocazională a modulelor. Modulele sunt adaptate nevoilor anumitor roluri sau persoane pentru a optimiza funcționalitatea.

Discutăm următoarele echipe:

Inginerie centrală în cloud – Această echipă operează la nivel de cloud întreprindere în toate sarcinile de lucru pentru configurarea serviciilor comune de infrastructură cloud, cum ar fi configurarea rețelei la nivel de întreprindere, identitatea, permisiunile și gestionarea contului
Ingineria platformei de date – Această echipă gestionează lacurile de date ale întreprinderii, colectarea datelor, conservarea datelor și guvernarea datelor
Ingineria platformei ML – Această echipă operează la nivel de platformă ML în LOB-uri pentru a furniza servicii de infrastructură ML partajate, cum ar fi furnizarea infrastructurii ML, urmărirea experimentelor, guvernanța modelului, implementarea și observabilitatea

Următorul tabel detaliază ce divizii au acces primar și secundar pentru fiecare modul în funcție de persoanele țintă ale modulului.

Numărul modulului	Module	Acces primar	Acces secundar	Persoane țintă	Numărul de conturi
1	Fundații cu mai multe conturi	Inginerie centrală în cloud	LOB-uri individuale	Administrator cloud Ingineri cloud	Puţini
2	Fundațiile lacului de date	Inginerie centrală în cloud sau platformă de date	LOB-uri individuale	Administrator lac de date Ingineri de date	Multiplu
3	Servicii de platformă ML	Cloud central sau inginerie platformă ML	LOB-uri individuale	Admin platforma ML Conducător de echipă ML ingineri ML Conducător guvernanță ML	O
4	Dezvoltarea cazurilor de utilizare ML	LOB-uri individuale	Cloud central sau inginerie platformă ML	Oamenii de știință ai datelor Ingineri de date Conducător de echipă ML ingineri ML	Multiplu
5	Operații ML	Cloud central sau inginerie ML	LOB-uri individuale	Ingineri ML Conducerea echipei ML Oamenii de știință ai datelor	Multiplu
6	Magazin de caracteristici centralizat	Cloud central sau inginerie de date	LOB-uri individuale	Inginer de date Oamenii de știință ai datelor	O
7	Înregistrare și observabilitate	Inginerie centrală în cloud	LOB-uri individuale	Administrator cloud Auditori IT	O
8	Costuri și raportare	LOB-uri individuale	Ingineria platformei centrale	directori LOB Managerii ML	O

Concluzie

În această postare, am introdus un cadru pentru guvernarea ciclului de viață ML la scară, care vă ajută să implementați sarcini de lucru ML bine arhitecturate, care încorporează controale de securitate și guvernare. Am discutat despre modul în care acest cadru adoptă o abordare holistică pentru construirea unei platforme ML, luând în considerare guvernarea datelor, guvernanța modelului și controalele la nivel de întreprindere. Vă încurajăm să experimentați cadrul și conceptele introduse în această postare și să vă împărtășiți feedbackul.

Despre autori

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Ram Vittal este arhitect principal de soluții ML la AWS. Are peste 3 decenii de experiență în arhitectura și construirea de aplicații distribuite, hibride și cloud. El este pasionat de construirea de soluții AI/ML și de date mari securizate, scalabile, de încredere pentru a ajuta clienții întreprinderilor cu adoptarea și optimizarea cloud-ului pentru a-și îmbunătăți rezultatele în afaceri. În timpul liber, se plimbă cu motocicleta și se plimbă cu oaia lui de trei ani!

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sovik Kumar Nath este un arhitect de soluții AI/ML cu AWS. Are o vastă experiență în proiectarea de soluții end-to-end de învățare automată și de analiză de afaceri în finanțe, operațiuni, marketing, asistență medicală, managementul lanțului de aprovizionare și IoT. Sovik a publicat articole și deține un brevet în monitorizarea modelelor ML. Are duble diplome de master de la Universitatea din Florida de Sud, Universitatea din Fribourg, Elveția și o diplomă de licență de la Institutul Indian de Tehnologie, Kharagpur. În afara serviciului, lui Sovik îi place să călătorească, să facă plimbări cu feribotul și să se uite la filme.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Maira Ladeira Tanke este Senior Data Specialist la AWS. În calitate de lider tehnic, ea ajută clienții să-și accelereze atingerea valorii afacerii prin tehnologie emergentă și soluții inovatoare. Maira lucrează la AWS din ianuarie 2020. Înainte de aceasta, a lucrat ca data scientist în mai multe industrii, concentrându-se pe obținerea valorii afacerii din date. În timpul liber, Mairei îi place să călătorească și să petreacă timpul cu familia ei într-un loc cald.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Ryan Lempka este arhitect senior de soluții la Amazon Web Services, unde își ajută clienții să lucreze înapoi de la obiectivele de afaceri pentru a dezvolta soluții pe AWS. Are o experiență profundă în strategia de afaceri, managementul sistemelor IT și știința datelor. Ryan este dedicat să învețe pe tot parcursul vieții și îi place să se provoace în fiecare zi pentru a învăța ceva nou.

Governing the ML lifecycle at scale, Part 1: A framework for architecting ML workloads using Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sriharsh Adari este arhitect senior de soluții la Amazon Web Services (AWS), unde îi ajută pe clienți să lucreze înapoi de la rezultatele afacerii pentru a dezvolta soluții inovatoare pe AWS. De-a lungul anilor, el a ajutat mai mulți clienți cu privire la transformările platformei de date pe verticalele industriei. Domeniul său de bază de expertiză include Strategia tehnologică, Data Analytics și Data Science. În timpul liber, îi place să facă sport, să se uite la emisiuni TV și să joace Tabla.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

Timestamp-ul: Octombrie 20, 2023

Timestamp-ul: Februarie 7, 2023

Republicat de Platon

Îmbunătățiți experiența apelantului cu sugestii în Amazon Lex

Accelerarea timpului până la perspectivă cu colecțiile de serii cronologice MongoDB și Amazon SageMaker Canvas | Amazon Web Services

Identificarea schemelor de acoperire a apărării în Statisticile NFL Next Gen

Aplicați mascarea vulgară în Amazon Translate

Pregătirea de date rentabilă pentru învățarea automată folosind SageMaker Data Wrangler

Amazon SageMaker Automatic Model Tuning acceptă acum trei noi criterii de finalizare pentru optimizarea hiperparametrului

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont