Styring af ML-livscyklussen i stor skala, del 1: En ramme for arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker

Genudgivet af Platon

Abonnenter: 0

Kunder i alle størrelser og brancher innoverer på AWS ved at tilføje maskinlæring (ML) i deres produkter og tjenester. Den seneste udvikling inden for generative AI-modeller har yderligere fremskyndet behovet for ML-adoption på tværs af brancher. Implementering af sikkerheds-, databeskyttelses- og styringskontroller er dog stadig vigtige udfordringer, som kunder står over for, når de implementerer ML-arbejdsbelastninger i stor skala. At tackle disse udfordringer bygger rammerne og grundlaget for at mindske risici og ansvarlig brug af ML-drevne produkter. Selvom generativ AI kan have brug for yderligere kontroller på plads, såsom fjernelse af toksicitet og forebyggelse af jailbreaking og hallucinationer, deler den de samme grundlæggende komponenter for sikkerhed og styring som traditionel ML.

Vi hører fra kunder, at de kræver specialiseret viden og investering på op til 12 måneder for at bygge deres skræddersyede Amazon SageMaker ML-platformimplementering for at sikre skalerbare, pålidelige, sikre og styret ML-miljøer for deres brancher (LOB'er) eller ML-teams. Hvis du mangler en ramme til styring af ML-livscyklussen i stor skala, kan du løbe ind i udfordringer såsom isolering af ressourcer på teamniveau, skalering af eksperimentressourcer, operationalisering af ML-arbejdsgange, skalering af modelstyring og styring af sikkerhed og overholdelse af ML-arbejdsbelastninger.

Styring af ML-livscyklus i stor skala er en ramme, der hjælper dig med at opbygge en ML-platform med indlejrede sikkerheds- og styringskontroller baseret på industriens bedste praksis og virksomhedsstandarder. Denne ramme adresserer udfordringer ved at give præskriptiv vejledning gennem en modulær rammetilgang, der udvider en AWS kontroltårn multi-account AWS miljø og tilgangen diskuteret i indlægget Opsætning af sikre, velstyrede maskinlæringsmiljøer på AWS.

Den giver foreskrivende vejledning til følgende ML-platformfunktioner:

Fundamenter for flere konti, sikkerhed og netværk – Denne funktion bruger AWS Control Tower og veludviklede principper til opsætning og drift af multi-account miljø, sikkerhed og netværkstjenester.
Data- og styringsgrundlag – Denne funktion bruger en data mesh arkitektur til opsætning og drift af datasøen, det centrale funktionslager og datastyringsfundamenter for at muliggøre finmasket dataadgang.
ML platform delt og styringstjenester – Denne funktion muliggør opsætning og drift af almindelige tjenester såsom CI/CD, AWS servicekatalog til leveringsmiljøer og et centralt modelregister til modelfremme og afstamning.
ML teammiljøer – Denne funktion muliggør opsætning og drift af miljøer for ML-teams til modeludvikling, testning og implementering af deres use cases til indlejring af sikkerheds- og styringskontroller.
ML platform observerbarhed – Denne funktion hjælper med fejlfinding og identificering af grundårsagen til problemer i ML-modeller gennem centralisering af logfiler og tilvejebringelse af værktøjer til loganalysevisualisering. Det giver også vejledning til generering af omkostnings- og brugsrapporter for ML-brugssager.

Selvom denne ramme kan give fordele for alle kunder, er den mest fordelagtig for store, modne, regulerede eller globale virksomhedskunder, der ønsker at skalere deres ML-strategier i en kontrolleret, kompatibel og koordineret tilgang på tværs af organisationen. Det hjælper med at muliggøre ML-adoption og mindsker risici. Denne ramme er nyttig for følgende kunder:

Store virksomhedskunder, der har mange LOB'er eller afdelinger, der er interesseret i at bruge ML. Denne ramme gør det muligt for forskellige teams at opbygge og implementere ML-modeller uafhængigt og samtidig give central styring.
Enterprise-kunder med en moderat til høj modenhed i ML. De har allerede implementeret nogle indledende ML-modeller og søger at skalere deres ML-indsats. Denne ramme kan hjælpe med at accelerere ML-adoption på tværs af organisationen. Disse virksomheder anerkender også behovet for ledelse til at administrere ting som adgangskontrol, databrug, modelydelse og unfair bias.
Virksomheder i regulerede brancher såsom finansielle tjenesteydelser, sundhedspleje, kemi og den private sektor. Disse virksomheder har brug for stærk styring og hørbarhed for alle ML-modeller, der bruges i deres forretningsprocesser. Vedtagelse af denne ramme kan hjælpe med at lette overholdelse og samtidig give mulighed for lokal modeludvikling.
Globale organisationer, der skal balancere centraliseret og lokal kontrol. Denne rammes fødererede tilgang tillader det centrale platformsingeniørteam at opstille nogle politikker og standarder på højt niveau, men giver også LOB-teams fleksibilitet til at tilpasse sig baseret på lokale behov.

I den første del af denne serie gennemgår vi referencearkitekturen til opsætning af ML-platformen. I et senere indlæg vil vi give præskriptiv vejledning til, hvordan du implementerer de forskellige moduler i referencearkitekturen i din organisation.

ML-platformens muligheder er grupperet i fire kategorier, som vist i den følgende figur. Disse egenskaber danner grundlaget for referencearkitekturen, der diskuteres senere i dette indlæg:

Byg ML-fundamenter
Skaler ML-operationer
Observerbar ML
Sikker ML

Løsningsoversigt

Rammen til styring af ML-livscyklus i skala-rammeværker gør det muligt for organisationer at integrere sikkerheds- og styringskontroller gennem hele ML-livscyklussen, hvilket igen hjælper organisationer med at reducere risikoen og accelerere infusion af ML i deres produkter og tjenester. Rammen hjælper med at optimere opsætningen og styringen af sikre, skalerbare og pålidelige ML-miljøer, der kan skaleres til at understøtte et stigende antal modeller og projekter. Rammen muliggør følgende funktioner:

Konto- og infrastrukturforsyning med organisationspolitik-kompatible infrastrukturressourcer
Selvbetjeningsimplementering af datavidenskabelige miljøer og end-to-end ML operations (MLOps) skabeloner til ML use cases
Isolering af ressourcer på LOB-niveau eller teamniveau til overholdelse af sikkerhed og privatliv
Styret adgang til produktionskvalitetsdata til eksperimentering og produktionsklare arbejdsgange
Administration og styring af kodelagre, kodepipelines, implementerede modeller og datafunktioner
Et modelregistrerings- og funktionslager (lokale og centrale komponenter) til forbedring af styring
Sikkerheds- og styringskontroller til end-to-end modeludvikling og implementeringsprocessen

I dette afsnit giver vi et overblik over præskriptiv vejledning til at hjælpe dig med at bygge denne ML-platform på AWS med indlejrede sikkerheds- og styringskontroller.

Den funktionelle arkitektur forbundet med ML-platformen er vist i følgende diagram. Arkitekturen kortlægger de forskellige muligheder i ML-platformen til AWS-konti.

Den funktionelle arkitektur med forskellige muligheder implementeres ved hjælp af en række AWS-tjenester, bl.a AWS-organisationer, SageMaker, AWS DevOps-tjenester og en datasø. Referencearkitekturen for ML-platformen med forskellige AWS-tjenester er vist i følgende diagram.

Denne ramme betragter flere personer og tjenester til at styre ML-livscyklussen i stor skala. Vi anbefaler følgende trin til at organisere dine teams og tjenester:

Ved at bruge AWS Control Tower og automatiseringsværktøjer opsætter din skyadministrator multikonto-fundamenterne, såsom Organisationer og AWS IAM Identity Center (efterfølger til AWS Single Sign-On) og sikkerheds- og styringstjenester som f.eks AWS Key Management Service (AWS KMS) og servicekatalog. Derudover opretter administratoren en række forskellige organisationsenheder (OU'er) og indledende konti for at understøtte dine ML- og analysearbejdsgange.
Datasø-administratorer opsætter din datasø og datakatalog og opsætter det centrale funktionslager, der arbejder med ML-platformsadministratoren.
ML-platformsadministratoren leverer ML-delte tjenester som f.eks AWS CodeCommit, AWS CodePipeline, Amazon Elastic Container Registry (Amazon ECR), et centralt modelregister, SageMaker modelkort, SageMaker Model Dashboard, og servicekatalogprodukter til ML-teams.
ML-teamet leder forbund via IAM Identity Center, bruger Service Catalog-produkter og leverer ressourcer i ML-teamets udviklingsmiljø.
Dataforskere fra ML-teams på tværs af forskellige forretningsenheder samles ind i deres teams udviklingsmiljø for at bygge modelpipeline.
Dataforskere søger og trækker funktioner fra det centrale featurebutikkatalog, bygger modeller gennem eksperimenter og vælger den bedste model til promovering.
Dataforskere opretter og deler nye funktioner i det centrale feature store-katalog til genbrug.
En ML-ingeniør implementerer modelpipelinen i ML-teamets testmiljø ved hjælp af en shared services CI/CD-proces.
Efter interessentvalidering implementeres ML-modellen til teamets produktionsmiljø.
Sikkerheds- og styringskontroller er indlejret i hvert lag af denne arkitektur ved hjælp af tjenester som f.eks AWS Security Hub, Amazon Guard Duty, Amazon MacieOg meget mere.
Sikkerhedskontrol styres centralt fra sikkerhedsværktøjskontoen ved hjælp af Security Hub.
ML-platformsstyringsfunktioner såsom SageMaker Model Cards og SageMaker Model Dashboard administreres centralt fra governance services-kontoen.
amazoncloudwatch , AWS CloudTrail logfiler fra hver medlemskonto gøres tilgængelige centralt fra en observationskonto ved hjælp af AWS native-tjenester.

Dernæst dykker vi dybt ned i modulerne i referencearkitekturen for denne ramme.

Referencearkitekturmoduler

Referencearkitekturen består af otte moduler, der hver er designet til at løse et specifikt sæt af problemer. Tilsammen adresserer disse moduler styring på tværs af forskellige dimensioner, såsom infrastruktur, data, model og omkostninger. Hvert modul tilbyder et særskilt sæt funktioner og interopererer med andre moduler for at give en integreret end-to-end ML-platform med indlejret sikkerheds- og styringskontrol. I dette afsnit præsenterer vi en kort oversigt over hvert moduls muligheder.

Multi-konto fonde

Dette modul hjælper cloud-administratorer med at bygge en AWS Control Tower landingszone som en grundlæggende ramme. Dette omfatter opbygning af en multikontostruktur, godkendelse og autorisation via IAM Identity Center, et netværkshub-and-spoke-design, centraliserede logningstjenester og nye AWS-medlemskonti med standardiserede sikkerheds- og styringsbaselines.

Derudover giver dette modul vejledning om bedste praksis om OU- og kontostrukturer, der er passende til at understøtte dine ML- og analysearbejdsgange. Cloud-administratorer vil forstå formålet med de påkrævede konti og OU'er, hvordan de skal implementeres, og vigtige sikkerheds- og overholdelsestjenester, de skal bruge til centralt at styre deres ML- og analysearbejdsbelastninger.

En ramme for salg af nye konti er også dækket, som bruger automatisering til at baseline nye konti, når de er klargjort. Ved at have en automatiseret kontoprovisioneringsproces opsat, kan cloud-administratorer give ML- og analyseteam de konti, de har brug for til at udføre deres arbejde hurtigere, uden at ofre på et stærkt grundlag for styring.

Data sø fundamenter

Dette modul hjælper datasø-administratorer med at konfigurere en datasø til at indtage data, kurere datasæt og bruge AWS søformation styringsmodel til styring af finmasket dataadgang på tværs af konti og brugere ved hjælp af et centraliseret datakatalog, dataadgangspolitikker og tag-baserede adgangskontroller. Du kan starte i det små med én konto til dit dataplatforms fundament for et proof of concept eller et par små arbejdsbelastninger. Til mellem- til storskala produktionsbelastningsimplementering anbefaler vi, at du vedtager en strategi med flere konti. I en sådan indstilling kan LOB'er påtage sig rollen som dataproducenter og dataforbrugere ved hjælp af forskellige AWS-konti, og datasø-styringen drives fra en central delt AWS-konto. Dataproducenten indsamler, behandler og opbevarer data fra deres datadomæne, udover at overvåge og sikre kvaliteten af deres dataaktiver. Dataforbrugere forbruger dataene fra dataproducenten, efter at det centraliserede katalog deler dem ved hjælp af Lake Formation. Det centraliserede katalog gemmer og administrerer det delte datakatalog for dataproducentens konti.

ML platform tjenester

Dette modul hjælper ML-platformsingeniørteamet med at opsætte delte tjenester, der bruges af datavidenskabsteamene på deres teamkonti. Tjenesterne omfatter en Servicekatalog-portefølje med produkter til SageMaker domæne indsættelse, SageMaker domæne brugerprofil implementering, datavidenskabsmodelskabeloner til modelopbygning og implementering. Dette modul har funktioner til et centraliseret modelregister, modelkort, modeldashboard og CI/CD-pipelines, der bruges til at orkestrere og automatisere modeludviklings- og implementeringsarbejdsgange.

Derudover beskriver dette modul, hvordan man implementerer de kontroller og styring, der kræves for at muliggøre personbaserede selvbetjeningsfunktioner, hvilket giver datavidenskabsteams mulighed for uafhængigt at implementere deres nødvendige cloud-infrastruktur og ML-skabeloner.

ML use case udvikling

Dette modul hjælper LOB'er og dataforskere med at få adgang til deres teams SageMaker-domæne i et udviklingsmiljø og instansiere en modelbygningsskabelon for at udvikle deres modeller. I dette modul arbejder dataforskere på en udviklerkontoinstans af skabelonen for at interagere med de tilgængelige data på den centraliserede datasø, genbruge og dele funktioner fra en central funktionsbutik, oprette og køre ML-eksperimenter, bygge og teste deres ML-arbejdsgange, og registrere deres modeller til en dev-kontomodelregistrering i deres udviklingsmiljøer.

Muligheder som eksperimentsporing, modelforklaringsrapporter, data- og modelbiasmonitorering og modelregistrering er også implementeret i skabelonerne, hvilket giver mulighed for hurtig tilpasning af løsningerne til dataforskernes udviklede modeller.

ML operationer

Dette modul hjælper LOB'er og ML-ingeniører med at arbejde på deres dev-forekomster af modelimplementeringsskabelonen. Efter kandidatmodellen er registreret og godkendt, opsætter de CI/CD-pipelines og kører ML-arbejdsgange i teamets testmiljø, som registrerer modellen i det centrale modelregister, der kører på en platforms-shared services-konto. Når en model er godkendt i det centrale modelregister, udløser dette en CI/CD-pipeline til at implementere modellen i teamets produktionsmiljø.

Centraliseret featurebutik

Efter at de første modeller er implementeret i produktionen, og flere use cases begynder at dele funktioner, der er oprettet ud fra de samme data, bliver en feature store essentiel for at sikre samarbejde på tværs af use cases og reducere dobbeltarbejde. Dette modul hjælper ML-platformsingeniørteamet med at oprette en centraliseret funktionsbutik til at levere lagring og styring af ML-funktioner, der er skabt af ML-brugssager, hvilket muliggør genbrug af funktioner på tværs af projekter.

Logning og observerbarhed

Dette modul hjælper LOB'er og ML-udøvere med at få indsigt i tilstanden af ML-arbejdsbelastninger på tværs af ML-miljøer gennem centralisering af logaktivitet såsom CloudTrail, CloudWatch, VPC-flowlogs og ML-arbejdsbelastningslogfiler. Teams kan filtrere, forespørge og visualisere logfiler til analyse, hvilket også kan hjælpe med at forbedre sikkerhedspositionen.

Omkostninger og rapportering

Dette modul hjælper forskellige interessenter (cloud admin, platform admin, cloud business office) med at generere rapporter og dashboards for at opdele omkostninger på ML-bruger-, ML-team- og ML-produktniveauer og spore brug såsom antal brugere, instanstyper og endepunkter.

Kunder har bedt os om at give vejledning om, hvor mange konti der skal oprettes, og hvordan man strukturerer disse konti. I det næste afsnit giver vi vejledning om den kontostruktur som reference, som du kan ændre, så den passer til dine behov i henhold til dine krav til virksomhedsledelse.

I dette afsnit diskuterer vi vores anbefaling til organisering af din kontostruktur. Vi deler en grundlæggende referencekontostruktur; Vi anbefaler dog, at ML- og dataadministratorer arbejder tæt sammen med deres cloudadministrator for at tilpasse denne kontostruktur baseret på deres organisationskontrol.

Vi anbefaler at organisere konti efter OU til sikkerhed, infrastruktur, arbejdsbelastninger og implementeringer. Inden for hver OU skal du desuden organisere efter ikke-produktions- og produktions-OU, fordi de konti og arbejdsbelastninger, der er implementeret under dem, har forskellige kontroller. Dernæst diskuterer vi kort disse organisationsenheder.

Sikkerheds-OU

Konti i denne OU administreres af organisationens cloud-administrator eller sikkerhedsteam til at overvåge, identificere, beskytte, detektere og reagere på sikkerhedshændelser.

Infrastruktur OU

Konti i denne OU administreres af organisationens cloud-administrator eller netværksteam til styring af delte ressourcer og netværk på virksomhedsniveau.

Vi anbefaler at have følgende konti under infrastrukturorganisationen:

Netværk – Opsæt en centraliseret netværksinfrastruktur som f.eks AWS Transit Gateway
Fælles tjenester – Opsæt centraliserede AD-tjenester og VPC-endepunkter

Arbejdsbelastning OU

Konti i denne OU administreres af organisationens platformsteamadministratorer. Hvis du har brug for forskellige kontroller implementeret for hvert platformsteam, kan du indlejre andre niveauer af OU til det formål, såsom en ML-arbejdsbelastnings-OU, dataarbejdsbelastnings-OU og så videre.

Vi anbefaler følgende konti under arbejdsbelastnings-OU:

ML-udvikler-, test- og produktkonti på teamniveau – Indstil dette baseret på dine krav til isolering af arbejdsbelastning
Data Lake regnskaber – Opdel konti efter dit datadomæne
Central datastyringskonto – Centraliser dine dataadgangspolitikker
Central funktion butik konto – Centraliser funktioner til deling på tværs af teams

Implementerings-OU

Konti i denne OU administreres af organisationens platformsteamadministratorer til implementering af arbejdsbelastninger og observerbarhed.

Vi anbefaler følgende konti under implementerings-OU, fordi ML-platformsteamet kan opsætte forskellige sæt kontrolelementer på dette OU-niveau til at administrere og styre implementeringer:

ML shared services står for test og prod – Værtsplatforms delte tjenester CI/CD og modelregistrering
ML observerbarhed tegner sig for test og prod – Værter for CloudWatch-logfiler, CloudTrail-logfiler og andre logfiler efter behov

Dernæst diskuterer vi kort organisationskontroller, der skal overvejes for indlejring i medlemskonti til overvågning af infrastrukturressourcerne.

AWS miljøkontroller

En kontrol er en regel på højt niveau, der giver løbende styring af dit overordnede AWS-miljø. Det er udtrykt i almindeligt sprog. I denne ramme bruger vi AWS Control Tower til at implementere følgende kontroller, der hjælper dig med at styre dine ressourcer og overvåge overholdelse på tværs af grupper af AWS-konti:

Forebyggende kontrol – En forebyggende kontrol sikrer, at dine konti opretholder overholdelse, fordi den ikke tillader handlinger, der fører til overtrædelser af politikker og implementeres ved hjælp af en Service Control Policy (SCP). For eksempel kan du indstille en forebyggende kontrol, der sikrer, at CloudTrail ikke slettes eller stoppes i AWS-konti eller regioner.
Detektiv kontrol – En detektivkontrol registrerer manglende overholdelse af ressourcer på dine konti, såsom politikovertrædelser, giver advarsler gennem dashboardet og implementeres ved hjælp af AWS-konfig regler. For eksempel kan du oprette en detektivkontrol til at registrere, om offentlig læseadgang er aktiveret til Amazon Simple Storage Service (Amazon S3) buckets i logarkivets delte konto.
Proaktiv kontrol – En proaktiv kontrol scanner dine ressourcer, før de klargøres og sikrer, at ressourcerne er kompatible med denne kontrol og implementeres vha. AWS CloudFormation kroge. Ressourcer, der ikke er kompatible, vil ikke blive klargjort. For eksempel kan du indstille en proaktiv kontrol, der kontrollerer, at direkte internetadgang ikke er tilladt for en SageMaker notebook-instans.

Interaktioner mellem ML platformtjenester, ML use cases og ML operationer

Forskellige personaer, såsom chefen for datavidenskab (lead data scientist), dataforsker og ML-ingeniør, driver modulerne 2-6 som vist i det følgende diagram for forskellige stadier af ML-platformstjenester, udvikling af ML-brugscase og ML-drift sammen med datasø-fundamenter og det centrale feature-lager.

Følgende tabel opsummerer operationsflowaktiviteten og opsætningsflowtrinene for forskellige personas. Når en persona starter en ML-aktivitet som en del af operationsflowet, kører tjenesterne som nævnt i opsætningsflowtrinene.

Person	Ops Flow-aktivitet – Antal	Ops Flow-aktivitet – Beskrivelse	Setup Flow Trin – Antal	Opsætningsflowtrin – Beskrivelse
Lead Data Science eller ML Team Lead	1	Bruger Service Catalog i ML-platformstjenestekontoen og implementerer følgende: ML infrastruktur SageMaker projekter SageMaker modelregistrering	1-A	Opsætter dev-, test- og prod-miljøer for LOB'er Konfigurerer SageMaker Studio i ML-platformstjenestekontoen
Lead Data Science eller ML Team Lead	1		1-B	Opsætter SageMaker Studio med den nødvendige konfiguration
Dataforsker	2	Udfører og sporer ML-eksperimenter i SageMaker-notebooks	2-A	Bruger data fra Lake Formation Gemmer funktioner i den centrale featurebutik
	3	Automatiserer vellykkede ML-eksperimenter med SageMaker-projekter og pipelines	3-A	Starter SageMaker-pipelines (forbehandle, træne, evaluere) i udviklerkontoen Starter build CI/CD-processen med CodePipeline i udviklerkontoen
	3		3-B	Efter at SageMaker-pipelines er kørt, gemmer modellen i det lokale (dev) modelregister
Lead Data Scientist eller ML Team Lead	4	Godkender modellen i det lokale (dev) modelregister	4-A	Model metadata og modelpakke skriver fra det lokale (dev) modelregister til det centrale modelregister
	5	Godkender modellen i det centrale modelregister	5-A	Starter implementerings-CI/CD-processen for at skabe SageMaker-slutpunkter i testmiljøet
	5	Godkender modellen i det centrale modelregister	5-B	Skriver modeloplysningerne og metadataene til ML-styringsmodulet (modelkort, modeldashboard) i ML-platformsservicekontoen fra den lokale (dev) konto
ML ingeniør	6	Tester og overvåger SageMaker-endepunktet i testmiljøet efter CI/CD	.
	7	Godkender implementering af SageMaker-slutpunkter i prod-miljøet	7-A	Starter implementerings-CI/CD-processen for at skabe SageMaker-slutpunkter i prod-miljøet
	8	Tester og overvåger SageMaker-endepunktet i testmiljøet efter CI/CD	.

Personas og interaktioner med forskellige moduler af ML platformen

Hvert modul henvender sig til bestemte målpersoner inden for specifikke divisioner, der oftest bruger modulet, hvilket giver dem primær adgang. Sekundær adgang er så tilladt til andre opdelinger, der kræver lejlighedsvis brug af modulerne. Modulerne er skræddersyet til behovene i bestemte jobroller eller personas for at optimere funktionaliteten.

Vi diskuterer følgende hold:

Central cloud engineering – Dette team opererer på virksomhedens cloud-niveau på tværs af alle arbejdsbelastninger til opsætning af almindelige cloud-infrastrukturtjenester, såsom opsætning af netværk på virksomhedsniveau, identitet, tilladelser og kontoadministration
Data platform engineering – Dette team administrerer virksomhedens datasøer, dataindsamling, datakurering og datastyring
ML platform engineering – Dette team opererer på ML-platformsniveau på tværs af LOB'er for at levere delte ML-infrastrukturtjenester såsom levering af ML-infrastruktur, eksperimentsporing, modelstyring, implementering og observerbarhed

Følgende tabel beskriver, hvilke divisioner der har primær og sekundær adgang til hvert modul i henhold til modulets målpersonas.

Modulnummer	Moduler	Primær adgang	Sekundær adgang	Mål Personas	Antal konti
1	Multi-konto fonde	Central cloud engineering	Individuelle LOB'er	Cloud administrator Cloud ingeniører	Kun få
2	Data sø fundamenter	Central cloud- eller dataplatformsteknik	Individuelle LOB'er	Data lake admin Dataingeniører	Multiple
3	ML platform tjenester	Central cloud eller ML platform engineering	Individuelle LOB'er	ML platform Admin ML holdleder ML ingeniører ML governance leder	Én
4	ML use case udvikling	Individuelle LOB'er	Central cloud eller ML platform engineering	Dataforskere Dataingeniører ML holdleder ML ingeniører	Multiple
5	ML operationer	Central cloud eller ML engineering	Individuelle LOB'er	ML ingeniører ML team leder Dataforskere	Multiple
6	Centraliseret featurebutik	Central cloud eller datateknik	Individuelle LOB'er	Dataingeniør Dataforskere	Én
7	Logning og observerbarhed	Central cloud engineering	Individuelle LOB'er	Cloud administrator IT -revisorer	Én
8	Omkostninger og rapportering	Individuelle LOB'er	Central platformsteknik	LOB-ledere ML ledere	Én

Konklusion

I dette indlæg introducerede vi en ramme til styring af ML-livscyklussen i stor skala, der hjælper dig med at implementere veldesignede ML-arbejdsbelastninger, der integrerer sikkerheds- og styringskontroller. Vi diskuterede, hvordan denne ramme tager en holistisk tilgang til opbygning af en ML-platform, der tager højde for datastyring, modelstyring og kontrol på virksomhedsniveau. Vi opfordrer dig til at eksperimentere med rammerne og begreberne introduceret i dette indlæg og dele din feedback.

Om forfatterne

Styring af ML-livscyklussen i stor skala, Del 1: En ramme til arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Ram Vittal er Principal ML Solutions Architect hos AWS. Han har over 3 årtiers erfaring med at bygge og bygge distribuerede, hybride og cloud-applikationer. Han brænder for at bygge sikre, skalerbare, pålidelige AI/ML- og big data-løsninger for at hjælpe virksomhedskunder med deres cloud-adoption og optimeringsrejse for at forbedre deres forretningsresultater. I sin fritid kører han motorcykel og går tur med sin treårige sheep-a-doodle!

Styring af ML-livscyklussen i stor skala, Del 1: En ramme til arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Sovik Kumar Nath er AI/ML løsningsarkitekt med AWS. Han har stor erfaring med at designe end-to-end machine learning og forretningsanalyseløsninger inden for økonomi, drift, marketing, sundhedspleje, supply chain management og IoT. Sovik har publiceret artikler og har patent på ML-modelovervågning. Han har dobbelte mastergrader fra University of South Florida, University of Fribourg, Schweiz, og en bachelorgrad fra Indian Institute of Technology, Kharagpur. Uden for arbejdet nyder Sovik at rejse, tage færgeture og se film.

Styring af ML-livscyklussen i stor skala, Del 1: En ramme til arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Maira Ladeira Tanke er Senior Data Specialist hos AWS. Som teknisk leder hjælper hun kunder med at fremskynde deres opnåelse af forretningsværdi gennem ny teknologi og innovative løsninger. Maira har været hos AWS siden januar 2020. Før det arbejdede hun som dataforsker i flere brancher med fokus på at opnå forretningsværdi fra data. I sin fritid nyder Maira at rejse og tilbringe tid med sin familie et varmt sted.

Styring af ML-livscyklussen i stor skala, Del 1: En ramme til arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Ryan Lempka er Senior Solutions Architect hos Amazon Web Services, hvor han hjælper sine kunder med at arbejde baglæns fra forretningsmål for at udvikle løsninger på AWS. Han har dyb erfaring med forretningsstrategi, IT-systemstyring og datavidenskab. Ryan er dedikeret til at være en livslang lærende og nyder at udfordre sig selv hver dag for at lære noget nyt.

Styring af ML-livscyklussen i stor skala, Del 1: En ramme til arkitektur af ML-arbejdsbelastninger ved hjælp af Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Sriharsh Adari er Senior Solutions Architect hos Amazon Web Services (AWS), hvor han hjælper kunder med at arbejde baglæns fra forretningsresultater for at udvikle innovative løsninger på AWS. I årenes løb har han hjulpet adskillige kunder med transformationer af dataplatforme på tværs af brancher. Hans kerneområde af ekspertise omfatter teknologistrategi, dataanalyse og datavidenskab. I sin fritid nyder han at dyrke sport, overse tv-serier og spille Tabla.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

Tidsstempel: Oktober 20, 2023

Tidsstempel: Februar 7, 2023

Genudgivet af Platon

Forbedre opkaldsoplevelsen med tip i Amazon Lex

Accelererer tid til indsigt med MongoDB tidsseriesamlinger og Amazon SageMaker Canvas | Amazon Web Services

Identifikation af forsvarsdækningsordninger i NFL's Next Gen Stats

Anvend bandeordmaskering i Amazon Translate

Omkostningseffektiv dataforberedelse til maskinlæring ved hjælp af SageMaker Data Wrangler

Amazon SageMaker Automatic Model Tuning understøtter nu tre nye færdiggørelseskriterier for hyperparameteroptimering

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto