Markedsfør rørledninger i et multimiljøoppsett ved hjelp av Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub og Jenkins CI/CD

Publisert av Platon

Følgere: 0

Å bygge ut en plattform for maskinlæringsoperasjoner (MLOps) i det raskt utviklende landskapet av kunstig intelligens (AI) og maskinlæring (ML) for organisasjoner er avgjørende for sømløst å bygge bro over gapet mellom datavitenskapelig eksperimentering og distribusjon, samtidig som kravene til modellytelse oppfylles. sikkerhet og overholdelse.

For å oppfylle regulatoriske krav og samsvarskrav, er nøkkelkravene ved utforming av en slik plattform:

Adressedatadrift
Overvåk modellens ytelse
Tilrettelegge for automatisk modellomskolering
Gi en prosess for modellgodkjenning
Oppbevar modellene i et sikkert miljø

I dette innlegget viser vi hvordan du lager et MLOps-rammeverk for å møte disse behovene mens du bruker en kombinasjon av AWS-tjenester og tredjepartsverktøysett. Løsningen innebærer et multimiljøoppsett med automatisert modellomskolering, batch-inferens og overvåking med Amazon SageMaker modellmonitor, modellversjon med SageMaker modellregister, og en CI/CD-pipeline for å lette promotering av ML-kode og pipelines på tvers av miljøer ved å bruke Amazon SageMaker, Amazon EventBridge, Amazon enkel varslingstjeneste (Amazon S3), HashiCorp Terraform, GitHubog Jenkins CI/CD. Vi bygger en modell for å forutsi alvorlighetsgraden (godartet eller ondartet) av en mammografisk masselesjon trent med XGBoost-algoritme ved å bruke det offentlig tilgjengelige UCI Mammografi Mass datasettet og distribuer det ved hjelp av MLOps-rammeverket. De fullstendige instruksjonene med kode er tilgjengelige i GitHub repository.

Løsningsoversikt

Følgende arkitekturdiagram viser en oversikt over MLOps-rammeverket med følgende nøkkelkomponenter:

Strategi for flere kontoer – To forskjellige miljøer (dev og prod) er satt opp i to forskjellige AWS-kontoer i henhold til AWS Well-Architected beste praksis, og en tredje konto er satt opp i det sentrale modellregisteret:
- Utviklermiljø – Hvor en Amazon SageMaker Studio-domene er satt opp for å tillate modellutvikling, modelltrening og testing av ML-rørledninger (tog og inferens), før en modell er klar til å bli promotert til høyere miljøer.
- Prod miljø – Hvor ML-rørledningene fra dev blir forfremmet til som et første trinn, og planlagt og overvåket over tid.
- Sentralt modellregister - Amazon SageMaker modellregister er satt opp i en egen AWS-konto for å spore modellversjoner generert på tvers av dev- og prod-miljøene.
CI/CD og kildekontroll – Utrullingen av ML-pipelines på tvers av miljøer håndteres gjennom CI/CD satt opp med Jenkins, sammen med versjonskontroll håndtert gjennom GitHub. Kodeendringer slått sammen til det tilsvarende miljøet git branch utløser en CI/CD-arbeidsflyt for å gjøre passende endringer i det gitte målmiljøet.
Parti spådommer med modellovervåking – Inferensrørledningen bygget med Amazon SageMaker-rørledninger kjører på en planlagt basis for å generere spådommer sammen med modellovervåking ved å bruke SageMaker Model Monitor for å oppdage datadrift.
Automatisert omskoleringsmekanisme – Treningspipelinen bygget med SageMaker Pipelines utløses hver gang en datadrift oppdages i inferensrørledningen. Etter at den er trent, blir modellen registrert i det sentrale modellregisteret for å godkjennes av en modellgodkjenner. Når den er godkjent, brukes den oppdaterte modellversjonen til å generere spådommer gjennom inferensrørledningen.
Infrastruktur som kode – Infrastrukturen som kode (IaC), opprettet ved hjelp av HashiCorp Terraform, støtter planleggingen av inferensrørledningen med EventBridge, utløsning av togrørledningen basert på en EventBridge-regel og sende varsler ved hjelp av Amazon enkel varslingstjeneste (Amazon SNS) emner.

mlops arkitektur

MLOps arbeidsflyt inkluderer følgende trinn:

Få tilgang til SageMaker Studio-domenet i utviklingskontoen, klon GitHub-depotet, gå gjennom prosessen med modellutvikling ved å bruke eksempelmodellen som er gitt, og generer tog- og inferensrørledningene.
Kjør togrørledningen i utviklingskontoen, som genererer modellartefakter for den trente modellversjonen og registrerer modellen i SageMaker Model Registry i den sentrale modellregisterkontoen.
Godkjenn modellen i SageMaker Model Registry i den sentrale modellregisterkontoen.
Skyv koden (tog- og inferensrørledninger, og Terraform IaC-koden for å lage EventBridge-planen, EventBridge-regelen og SNS-emnet) inn i en funksjonsgren av GitHub-depotet. Opprett en pull-forespørsel for å slå sammen koden til hovedgrenen til GitHub-depotet.
Utløs Jenkins CI/CD-pipeline, som er satt opp med GitHub-depotet. CI/CD-rørledningen distribuerer koden til prod-kontoen for å opprette tog- og inferensrørledningene sammen med Terraform-kode for å klargjøre EventBridge-planen, EventBridge-regelen og SNS-emnet.
Inferensrørledningen er planlagt å kjøre på daglig basis, mens togrørledningen er satt opp til å kjøre når datadrift oppdages fra inferensrørledningen.
Varsler sendes gjennom SNS-emnet når det er en feil med enten toget eller inferensrørledningen.

Forutsetninger

For denne løsningen bør du ha følgende forutsetninger:

Tre AWS-kontoer (dev-, prod- og sentrale modellregisterkontoer)
Et SageMaker Studio-domene satt opp i hver av de tre AWS-kontoene (se Ombord på Amazon SageMaker Studio eller se videoen Ombord raskt til Amazon SageMaker Studio for installasjonsinstruksjoner)
Jenkins (vi bruker Jenkins 2.401.1) med administrative rettigheter installert på AWS
Terraform versjon 1.5.5 eller nyere installert på Jenkins server

For dette innlegget jobber vi i us-east-1 Region for å distribuere løsningen.

Tilsett KMS-nøkler i utvikler- og produksjonskontoer

Vårt første skritt er å skape AWS nøkkelstyringstjeneste (AWS KMS)-nøkler i dev- og prod-kontoene.

Opprett en KMS-nøkkel i dev-kontoen og gi tilgang til prod-kontoen

Fullfør følgende trinn for å opprette en KMS-nøkkel i utviklerkontoen:

På AWS KMS-konsollen velger du Kundeadministrerte nøkler i navigasjonsruten.
Velg Opprett nøkkel.
Til Nøkkeltype, plukke ut symmetrisk.
Til Nøkkelbruk, plukke ut Krypter og dekrypter.
Velg neste.
Skriv inn produksjonskontonummeret for å gi produksjonskontoen tilgang til KMS-nøkkelen som er klargjort i utviklerkontoen. Dette er et nødvendig trinn fordi første gang modellen trenes i utviklerkontoen, krypteres modellartefaktene med KMS-nøkkelen før de skrives til S3-bøtten i den sentrale modellregisterkontoen. Produksjonskontoen trenger tilgang til KMS-nøkkelen for å dekryptere modellartefaktene og kjøre inferensrørledningen.
Velg neste og fullfør opprettelsen av nøkkelen din.

Etter at nøkkelen er klargjort, skal den være synlig på AWS KMS-konsollen.

kms-tasten på konsollen

Opprett en KMS-nøkkel i prod-kontoen

Gå gjennom de samme trinnene i forrige seksjon for å opprette en kundeadministrert KMS-nøkkel i prod-kontoen. Du kan hoppe over trinnet for å dele KMS-nøkkelen med en annen konto.

Sett opp en modellartefakter S3-bøtte i den sentrale modellregisterkontoen

Lag en S3-bøtte etter eget valg med strengen sagemaker i navnekonvensjonen som en del av bøttens navn i den sentrale modellregisterkontoen, og oppdater bøttepolicyen på S3-bøtten for å gi tillatelser fra både dev- og prod-kontoene til å lese og skrive modellartefakter inn i S3-bøtten.

Følgende kode er bøttepolicyen som skal oppdateres på S3-bøtten:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AddPerm", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<dev-account-id>:root" }, "Action": [ "s3:PutObject", "s3:PutObjectAcl", "s3:GetObject", "s3:GetObjectVersion" ], "Resource": "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" }, { "Sid": "AddPerm1", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<dev-account-id>:root" }, "Action": "s3:ListBucket", "Resource": [ "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>", "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" ] }, { "Sid": "AddPerm2", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<prod-account-id>:root" }, "Action": [ "s3:PutObject", "s3:PutObjectAcl", "s3:GetObject", "s3:GetObjectVersion" ], "Resource": "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" }, { "Sid": "AddPerm3", "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::<prod-account-id>:root" }, "Action": "s3:ListBucket", "Resource": [ "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>", "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" ] } ]
}

Sett opp IAM-roller i AWS-kontoene dine

Neste trinn er å sette opp AWS identitets- og tilgangsadministrasjon (IAM) roller i AWS-kontoene dine med tillatelser for AWS Lambda, SageMaker og Jenkins.

Lambda-utførelsesrolle

Sett opp Lambda-utførelsesroller i dev- og prod-kontoene, som vil bli brukt av Lambda-funksjonen som kjøres som en del av SageMaker Pipelines Lambda trinn. Dette trinnet vil kjøre fra slutningsrørledningen for å hente den siste godkjente modellen, ved hjelp av hvilken slutninger genereres. Opprett IAM-roller i utvikler- og produksjonskontoene med navnekonvensjonen arn:aws:iam::<account-id>:role/lambda-sagemaker-role og legg ved følgende IAM-policyer:

Retningslinjer 1 – Opprett en innebygd policy kalt cross-account-model-registry-access, som gir tilgang til modellpakken satt opp i modellregisteret i den sentrale kontoen:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "sagemaker:ListModelPackages", "Resource": "arn:aws:sagemaker:us-east-1:<central-model-registry-account-id>:model-package/mammo-severity-model-package/*" }, { "Sid": "VisualEditor1", "Effect": "Allow", "Action": "sagemaker:DescribeModelPackageGroup", "Resource": "arn:aws:sagemaker:us-east-1:<central-model-registry-account-id>:model-package-group/mammo-severity-model-package" } ]
}

Retningslinjer 2 - Feste AmazonSageMakerFullAccess, som er en AWS administrert policy som gir full tilgang til SageMaker. Det gir også utvalgt tilgang til relaterte tjenester, som f.eks Automatisk skalering av AWS-applikasjoner, Amazon S3, Amazon Elastic Container Registry (Amazon ECR), og Amazon CloudWatch-logger.
Retningslinjer 3 - Feste AWSLambda_FullAccess, som er en AWS-administrert policy som gir full tilgang til Lambda, Lambda-konsollfunksjoner og andre relaterte AWS-tjenester.

Retningslinjer 4 – Bruk følgende IAM-tillitspolicy for IAM-rollen:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "lambda.amazonaws.com", "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ]
}

SageMaker utførelsesrolle

SageMaker Studio-domenene som er satt opp i dev- og prod-kontoene skal hver ha en utførelsesrolle tilknyttet, som kan finnes på Domeneinnstillinger på siden med domenedetaljer, som vist i følgende skjermbilde. Denne rollen brukes til å kjøre opplæringsjobber, behandle jobber og mer innenfor SageMaker Studio-domenet.

sagemaker studio domene

Legg til følgende retningslinjer i SageMaker-utførelsesrollen i begge kontoene:

Retningslinjer 1 – Opprett en innebygd policy kalt cross-account-model-artifacts-s3-bucket-access, som gir tilgang til S3-bøtten i den sentrale modellregisterkontoen, som lagrer modellartefaktene:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion" ], "Resource": "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" }, { "Sid": "VisualEditor1", "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>", "arn:aws:s3:::<s3-bucket-in-central-model-registry-account>/*" ] } ]
}

Retningslinjer 2 – Opprett en innebygd policy kalt cross-account-model-registry-access, som gir tilgang til modellpakken i modellregisteret i den sentrale modellregisterkontoen:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "sagemaker:CreateModelPackageGroup", "Resource": "arn:aws:sagemaker:us-east-1:<central-model-registry-account-id>:model-package-group/mammo-severity-model-package" } ]
}

Retningslinjer 3 – Opprett en innebygd policy kalt kms-key-access-policy, som gir tilgang til KMS-nøkkelen opprettet i forrige trinn. Oppgi konto-ID-en der policyen opprettes og KMS-nøkkel-ID-en som er opprettet i den kontoen.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowUseOfKeyInThisAccount", "Effect": "Allow", "Action": [ "kms:Encrypt", "kms:Decrypt", "kms:ReEncrypt*", "kms:GenerateDataKey*", "kms:DescribeKey" ], "Resource": "arn:aws:kms:us-east-1:<account-id>:key/<kms-key-id>" } ]
}

Retningslinjer 4 - Feste AmazonSageMakerFullAccess, som er en AWS administrert policy som gir full tilgang til SageMaker og velge tilgang til relaterte tjenester.
Retningslinjer 5 - Feste AWSLambda_FullAccess, som er en AWS-administrert policy som gir full tilgang til Lambda, Lambda-konsollfunksjoner og andre relaterte AWS-tjenester.
Retningslinjer 6 - Feste CloudWatchEventsFullAccess, som er en AWS-administrert policy som gir full tilgang til CloudWatch Events.

Retningslinjer 7 – Legg til følgende IAM-tillitspolicy for SageMaker-utførelses-IAM-rollen:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "events.amazonaws.com", "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ]
}

Policy 8 (spesifikt for SageMaker-utførelsesrollen i prod-kontoen) – Opprett en innebygd policy kalt cross-account-kms-key-access-policy, som gir tilgang til KMS-nøkkelen som er opprettet i utviklerkontoen. Dette er nødvendig for at slutningspipelinen skal kunne lese modellartefakter som er lagret i den sentrale modellregisterkontoen der modellartefaktene er kryptert med KMS-nøkkelen fra utviklerkontoen når den første versjonen av modellen opprettes fra utviklerkontoen.
```
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowUseOfKeyInDevAccount", "Effect": "Allow", "Action": [ "kms:Encrypt", "kms:Decrypt", "kms:ReEncrypt*", "kms:GenerateDataKey*", "kms:DescribeKey" ], "Resource": "arn:aws:kms:us-east-1:<dev-account-id>:key/<dev-kms-key-id>" } ]
}
```

Jenkins rolle på tvers av kontoer

Sett opp en IAM-rolle kalt cross-account-jenkins-role i prod-kontoen, som Jenkins vil anta for å distribuere ML-rørledninger og tilsvarende infrastruktur i prod-kontoen.

Legg til følgende administrerte IAM-policyer til rollen:

CloudWatchFullAccess
AmazonS3FullAccess
AmazonSNSFullAccess
AmazonSageMakerFullAccess
AmazonEventBridgeFullAccess
AWSLambda_FullAccess

Oppdater tillitsforholdet til rollen for å gi tillatelser til AWS-kontoen som er vert for Jenkins-serveren:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com", "AWS": "arn:aws:iam::<jenkins-account-id>:root" }, "Action": "sts:AssumeRole", "Condition": {} } ]
}

Oppdater tillatelser på IAM-rollen knyttet til Jenkins-serveren

Forutsatt at Jenkins er satt opp på AWS, oppdater IAM-rollen knyttet til Jenkins for å legge til følgende retningslinjer, som vil gi Jenkins tilgang til å distribuere ressursene til prod-kontoen:

Retningslinjer 1 – Opprett følgende innebygde policy kalt assume-production-role-policy:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": "sts:AssumeRole", "Resource": "arn:aws:iam::<prod-account-id>:role/cross-account-jenkins-role" } ]
}

Retningslinjer 2 – Fest CloudWatchFullAccess administrert IAM-policy.

Sett opp modellpakkegruppen i den sentrale modellregisterkontoen

Fra SageMaker Studio-domenet i den sentrale modellregisterkontoen oppretter du en modellpakkegruppe kalt mammo-severity-model-package ved å bruke følgende kodebit (som du kan kjøre med en Jupyter-notisbok):

import boto3 model_package_group_name = "mammo-severity-model-package"
sm_client = boto3.Session().client("sagemaker") create_model_package_group_response = sm_client.create_model_package_group( ModelPackageGroupName=model_package_group_name, ModelPackageGroupDescription="Cross account model package group for mammo severity model", ) print('ModelPackageGroup Arn : {}'.format(create_model_package_group_response['ModelPackageGroupArn']))

Sett opp tilgang til modellpakken for IAM-roller i dev- og prod-kontoene

Gi tilgang til SageMaker-utførelsesrollene som er opprettet i dev- og prod-kontoene, slik at du kan registrere modellversjoner i modellpakken mammo-severity-model-package i det sentrale modellregisteret fra begge kontoene. Fra SageMaker Studio-domenet i den sentrale modellregisterkontoen, kjør følgende kode i en Jupyter-notisbok:

import json import boto3 model_package_group_name = "mammo-severity-model-package"
# Convert the policy from JSON dict to string
model_package_group_policy = dict(
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AddPermModelPackageGroupCrossAccount", "Effect": "Allow", "Principal": { "AWS": ["arn:aws:iam::<dev-account-id>:root", "arn:aws:iam::<prod-account-id>:root"] }, "Action": [ "sagemaker:DescribeModelPackageGroup" ], "Resource": "arn:aws:sagemaker:us-east-1:<central-model-registry-account>:model-package-group/mammo-severity-model-package" }, { "Sid": "AddPermModelPackageVersionCrossAccount", "Effect": "Allow", "Principal": { "AWS": ["arn:aws:iam::<dev-account-id>:root", "arn:aws:iam::<prod-account-id>:root"] }, "Action": [ "sagemaker:DescribeModelPackage", "sagemaker:ListModelPackages", "sagemaker:UpdateModelPackage", "sagemaker:CreateModelPackage", "sagemaker:CreateModel" ], "Resource": "arn:aws:sagemaker:us-east-1:<central-model-registry-account>:model-package/mammo-severity-model-package/*" } ]
})
model_package_group_policy = json.dumps(model_package_group_policy)
# Add Policy to the model package group
sm_client = boto3.Session().client("sagemaker")
response = sm_client.put_model_package_group_policy( ModelPackageGroupName = model_package_group_name, ResourcePolicy = model_package_group_policy)

Sett opp Jenkins

I denne delen konfigurerer vi Jenkins til å lage ML-rørledningene og den tilsvarende Terraform-infrastrukturen i prod-kontoen gjennom Jenkins CI/CD-rørledning.

På CloudWatch-konsollen oppretter du en logggruppe med navnet jenkins-log innenfor prod-kontoen som Jenkins vil sende logger til fra CI/CD-rørledningen. Logggruppen skal opprettes i samme region som der Jenkins-serveren er satt opp.
Installer følgende plugins på Jenkins-serveren din:
1. Jobb DSL
2. gå
3. Rørledning
4. Rørledning: AWS Steps
5. Pipeline Utility Steps
Sett opp AWS-legitimasjon i Jenkins ved å bruke IAM-rollen på tvers av kontoer (cross-account-jenkins-role) klargjort i prod-kontoen.
Til Systemkonfigurasjon, velg AWS.
Oppgi legitimasjonen og CloudWatch-logggruppen du opprettet tidligere.
Sett opp GitHub-legitimasjon i Jenkins.
Opprett et nytt prosjekt i Jenkins.
Skriv inn et prosjektnavn og velg Rørledning.
På general kategorien, velg GitHub-prosjekt og gå inn i gaffelen GitHub repository URL.
Plukke ut Dette prosjektet er parameterisert.
På Legg til parameter meny, velg Strengeparameter.
Til Navn, Tast inn prodAccount.
Til Standardverdi, skriv inn produktkonto-ID.
Under Avanserte prosjektalternativerFor Definisjon, plukke ut Pipeline script fra SCM.
Til SCM, velg gå.
Til Repository URL, gå inn i gaffelen GitHub repository URL.
Til Credentials, skriv inn GitHub-legitimasjonen som er lagret i Jenkins.
Enter main i Grener å bygge seksjon, basert på hvilken CI/CD-rørledningen vil bli utløst.
Til Skriptbane, Tast inn Jenkinsfile.
Velg Spar.

Jenkins-rørledningen skal være opprettet og synlig på dashbordet ditt.

Bestem S3-bøtter, samle inn og klargjøre data

Fullfør følgende trinn for å konfigurere S3-bøttene og dataene dine:

Lag en S3-bøtte etter eget valg med strengen sagemaker i navnekonvensjonen som en del av bøttens navn i både dev- og prod-kontoer for å lagre datasett og modellartefakter.
Sett opp en S3-bøtte for å opprettholde Terraform-tilstanden i prod-kontoen.
Last ned og lagre den offentlig tilgjengelige UCI Mammografi Mass datasettet til S3-bøtten du opprettet tidligere i utviklerkontoen.
Gaffel og klone GitHub repository innenfor SageMaker Studio-domenet i utviklerkontoen. Repoen har følgende mappestruktur:
- /environments – Konfigurasjonsskript for prod-miljø
- /mlops-infra – Kode for distribusjon av AWS-tjenester ved hjelp av Terraform-kode
- /rørledninger – Kode for SageMaker rørledningskomponenter
- Jenkinsfile – Skript som skal distribueres gjennom Jenkins CI/CD-pipeline
- setup.py – Nødvendig for å installere de nødvendige Python-modulene og lage run-pipeline-kommandoen
- mammography-severity-modeling.ipynb – Lar deg opprette og kjøre ML-arbeidsflyten
Opprett en mappe kalt data i den klonede GitHub-depotmappen og lagre en kopi av den offentlig tilgjengelige UCI Mammografi Mass datasett.
Følg Jupyter-notisboken mammography-severity-modeling.ipynb.

Kjør følgende kode i notatboken for å forhåndsbehandle datasettet og laste det opp til S3-bøtten i utviklerkontoen:

import boto3
import sagemaker
import numpy as np
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder #Replace the values based on the resoures created
default_bucket = "<s3-bucket-in-dev-account>"
model_artifacts_bucket = "<s3-bucket-in-central-model-registry-account>"
region = "us-east-1"
model_name = "mammography-severity-model"
role = sagemaker.get_execution_role()
lambda_role = "arn:aws:iam::<dev-account-id>:role/lambda-sagemaker-role"
kms_key = "arn:aws:kms:us-east-1:<dev-account-id>:key/<kms-key-id-in-dev-account>"
model_package_group_name="arn:aws:sagemaker:us-east-1:<central-model-registry-account-id>:model-package-group/mammo-severity-model-package" feature_columns_names = [ 'BIRADS', 'Age', 'Shape', 'Margin', 'Density',
]
feature_columns_dtype = { 'BIRADS': np.float64, 'Age': np.float64, 'Shape': np.float64, 'Margin': np.float64, 'Density': np.float64,
} # read raw dataset
mammographic_data = pd.read_csv("data/mammographic_masses.data",header=None) # split data into batch and raw datasets
batch_df =mammographic_data.sample(frac=0.05,random_state=200)
raw_df =mammographic_data.drop(batch_df.index) # Split the raw datasets to two parts, one of which will be used to train
#the model initially and then other dataset will be leveraged when #retraining the model
train_dataset_part2 =raw_df.sample(frac=0.1,random_state=200)
train_dataset_part1 =raw_df.drop(train_dataset_part2.index) # save the train datasets train_dataset_part1.to_csv("data/mammo-train-dataset-part1.csv",index=False)
train_dataset_part2.to_csv("data/mammo-train-dataset-part2.csv",index=False) # remove label column from the batch dataset which will be used to generate inferences
batch_df.drop(5,axis=1,inplace=True) # create a copy of the batch dataset batch_modified_df = batch_df def preprocess_batch_data(feature_columns_names,feature_columns_dtype,batch_df): batch_df.replace("?", "NaN", inplace = True) batch_df.columns = feature_columns_names batch_df = batch_df.astype(feature_columns_dtype) numeric_transformer = Pipeline( steps=[("imputer", SimpleImputer(strategy="median"))] ) numeric_features = list(feature_columns_names) preprocess = ColumnTransformer( transformers=[ ("num", numeric_transformer, numeric_features) ] ) batch_df = preprocess.fit_transform(batch_df) return batch_df # save the batch dataset file
batch_df = preprocess_batch_data(feature_columns_names,feature_columns_dtype,batch_df)
pd.DataFrame(batch_df).to_csv("data/mammo-batch-dataset.csv", header=False, index=False) # modify batch dataset to introduce missing values
batch_modified_df.replace("?", "NaN", inplace = True)
batch_modified_df.columns = feature_columns_names
batch_modified_df = batch_modified_df.astype(feature_columns_dtype) # save the batch dataset with outliers file
batch_modified_df.to_csv("data/mammo-batch-dataset-outliers.csv",index=False)

Koden vil generere følgende datasett:

- data/ mammo-train-dataset-part1.csv – Vil bli brukt til å trene den første versjonen av modellen.
- data/ mammo-train-dataset-part2.csv – Vil bli brukt til å trene den andre versjonen av modellen sammen med mammo-train-dataset-part1.csv datasettet.
- data/mammo-batch-dataset.csv – Vil bli brukt til å generere slutninger.
- data/mammo-batch-dataset-outliers.csv – Vil introdusere uteliggere i datasettet for å mislykkes i inferensrørledningen. Dette vil gjøre oss i stand til å teste mønsteret for å utløse automatisert omskolering av modellen.

Last opp datasettet mammo-train-dataset-part1.csv under prefikset mammography-severity-model/train-dataset, og last opp datasettene mammo-batch-dataset.csv og mammo-batch-dataset-outliers.csv til prefikset mammography-severity-model/batch-dataset av S3-bøtten som er opprettet i utviklerkontoen:

import boto3
s3_client = boto3.resource('s3')
s3_client.Bucket(default_bucket).upload_file("data/mammo-train-dataset-part1.csv","mammography-severity-model/data/train-dataset/mammo-train-dataset-part1.csv")
s3_client.Bucket(default_bucket).upload_file("data/mammo-batch-dataset.csv","mammography-severity-model/data/batch-dataset/mammo-batch-dataset.csv")
s3_client.Bucket(default_bucket).upload_file("data/mammo-batch-dataset-outliers.csv","mammography-severity-model/data/batch-dataset/mammo-batch-dataset-outliers.csv")

Last opp datasettene mammo-train-dataset-part1.csv og mammo-train-dataset-part2.csv under prefikset mammography-severity-model/train-dataset inn i S3-bøtta som er opprettet i prod-kontoen gjennom Amazon S3-konsollen.
Last opp datasettene mammo-batch-dataset.csv og mammo-batch-dataset-outliers.csv til prefikset mammography-severity-model/batch-dataset av S3-bøtta i prod-kontoen.

Kjør togrørledningen

Under <project-name>/pipelines/train, kan du se følgende Python-skript:

scripts/raw_preprocess.py – Integrerer med SageMaker Processing for funksjonsutvikling
scripts/evaluate_model.py – Tillater beregning av modellberegninger, i dette tilfellet auc_score
train_pipeline.py – Inneholder koden for modelltreningspipeline

Fullfør følgende trinn:

Last opp skriptene til Amazon S3:

import boto3
s3_client = boto3.resource('s3')
s3_client.Bucket(default_bucket).upload_file("pipelines/train/scripts/raw_preprocess.py","mammography-severity-model/scripts/raw_preprocess.py")
s3_client.Bucket(default_bucket).upload_file("pipelines/train/scripts/evaluate_model.py","mammography-severity-model/scripts/evaluate_model.py")

Få forekomsten av togrørledningen:

from pipelines.train.train_pipeline import get_pipeline train_pipeline = get_pipeline( region=region, role=role, default_bucket=default_bucket, model_artifacts_bucket=model_artifacts_bucket, model_name = model_name, kms_key = kms_key, model_package_group_name= model_package_group_name, pipeline_name="mammo-severity-train-pipeline", base_job_prefix="mammo-severity", ) train_pipeline.definition()

Send inn togrørledningen og kjør den:

train_pipeline.upsert(role_arn=role)
train_execution = train_pipeline.start()

Følgende figur viser en vellykket gjennomføring av treningspipelinen. Det siste trinnet i pipelinen registrerer modellen i den sentrale modellregisterkontoen.

Godkjenne modellen i sentralt modellregister

Logg på den sentrale modellregisterkontoen og få tilgang til SageMaker-modellregistret innenfor SageMaker Studio-domenet. Endre modellversjonsstatusen til Godkjent.

Når den er godkjent, bør statusen endres på modellversjonen.

Kjør inferensrørledningen (valgfritt)

Dette trinnet er ikke nødvendig, men du kan fortsatt kjøre slutningspipeline for å generere spådommer i utviklerkontoen.

Under <project-name>/pipelines/inference, kan du se følgende Python-skript:

scripts/lambda_helper.py – Henter den siste godkjente modellversjonen fra den sentrale modellregisterkontoen ved å bruke et SageMaker Pipelines Lambda-trinn
inference_pipeline.py – Inneholder koden for modellslutningsrørledningen

Fullfør følgende trinn:

Last opp skriptet til S3-bøtten:

import boto3
s3_client = boto3.resource('s3')
s3_client.Bucket(default_bucket).upload_file("pipelines/inference/scripts/lambda_helper.py","mammography-severity-model/scripts/lambda_helper.py")

Få inferensrørledningsforekomsten ved å bruke det normale batch-datasettet:

from pipelines.inference.inference_pipeline import get_pipeline inference_pipeline = get_pipeline( region=region, role=role, lambda_role = lambda_role, default_bucket=default_bucket, kms_key=kms_key, model_name = model_name, model_package_group_name= model_package_group_name, pipeline_name="mammo-severity-inference-pipeline", batch_dataset_filename = "mammo-batch-dataset" )

Send inn slutningsrørledningen og kjør den:

inference_pipeline.upsert(role_arn=role)
inference_execution = inference_pipeline.start()

Følgende figur viser en vellykket kjøring av inferensrørledningen. Det siste trinnet i rørledningen genererer spådommene og lagrer dem i S3-bøtten. Vi bruker MonitorBatchTransformStep for å overvåke inngangene til batchtransformeringsjobben. Hvis det er noen uteliggere, går inferensrørledningen inn i en mislykket tilstand.

Kjør Jenkins-rørledningen

De environment/ mappen i GitHub-depotet inneholder konfigurasjonsskriptet for prod-kontoen. Fullfør følgende trinn for å utløse Jenkins-rørledningen:

Oppdater konfigurasjonsskriptet prod.tfvars.json basert på ressursene opprettet i de foregående trinnene:

{ "env_group": "prod", "aws_region": "us-east-1", "event_bus_name": "default", "pipelines_alert_topic_name": "mammography-model-notification", "email":"admin@org.com", "lambda_role":"arn:aws:iam::<prod-account-id>:role/lambda-sagemaker-role", "default_bucket":"<s3-bucket-in-prod-account>", "model_artifacts_bucket": "<s3-bucket-in-central-model-registry-account>", "kms_key": "arn:aws:kms:us-east-1:<prod-account-id>:key/<kms-key-id-in-prod-account>", "model_name": "mammography-severity-model", "model_package_group_name":"arn:aws:sagemaker:us-east-1:<central-model-registry-account-id>:model-package-group/mammo-severity-model-package", "train_pipeline_name":"mammo-severity-train-pipeline", "inference_pipeline_name":"mammo-severity-inference-pipeline", "batch_dataset_filename":"mammo-batch-dataset", "terraform_state_bucket":"<s3-bucket-terraform-state-in-prod-account>", "train_pipeline": { "name": "mammo-severity-train-pipeline", "arn": "arn:aws:sagemaker:us-east-1:<prod-account-id>:pipeline/mammo-severity-train-pipeline", "role_arn": "arn:aws:iam::<prod-account-id>:role/service-role/<sagemaker-execution-role-in-prod-account>" }, "inference_pipeline": { "name": "mammo-severity-inference-pipeline", "arn": "arn:aws:sagemaker:us-east-1:<prod-account-id>:pipeline/mammo-severity-inference-pipeline", "cron_schedule": "cron(0 23 * * ? *)", "role_arn": "arn:aws:iam::<prod-account-id>:role/service-role/<sagemaker-execution-role-in-prod-account>" } }

Når den er oppdatert, skyver du koden inn i det gaffelformede GitHub-lageret og slår sammen koden til hovedgrenen.
Gå til Jenkins UI, velg Bygg med parametere, og utløs CI/CD-pipelinen opprettet i de forrige trinnene.

Når byggingen er fullført og vellykket, kan du logge på prod-kontoen og se tog- og inferensrørledningene innenfor SageMaker Studio-domenet.

I tillegg vil du se tre EventBridge-regler på EventBridge-konsollen i prod-kontoen:

Planlegg inferensrørledningen
Send feilmelding på togledningen
Når inferensrørledningen ikke klarer å utløse togrørledningen, send et varsel

Til slutt vil du se et SNS-varslingsemne på Amazon SNS-konsollen som sender varsler via e-post. Du får en e-post der du blir bedt om å bekrefte aksepten av disse e-postvarslene.

Test inferensrørledningen ved å bruke et batch-datasett uten uteliggere

For å teste om inferenspipelinen fungerer som forventet i prod-kontoen, kan vi logge inn på prod-kontoen og utløse inferens-pipelinen ved å bruke batch-datasettet uten utliggere.

Kjør pipelinen via SageMaker Pipelines-konsollen i SageMaker Studio-domenet til prod-kontoen, der transform_input vil være S3 URI for datasettet uten uteliggere (s3://<s3-bucket-in-prod-account>/mammography-severity-model/data/mammo-batch-dataset.csv).

Inferensrørledningen lykkes og skriver spådommene tilbake til S3-bøtta.

Test inferensrørledningen ved å bruke et batch-datasett med uteliggere

Du kan kjøre inferensrørledningen ved å bruke batch-datasettet med uteliggere for å sjekke om den automatiserte omskoleringsmekanismen fungerer som forventet.

Kjør pipelinen via SageMaker Pipelines-konsollen i SageMaker Studio-domenet til prod-kontoen, der transform_input vil være S3 URI for datasettet med uteliggere (s3://<s3-bucket-in-prod-account>/mammography-severity-model/data/mammo-batch-dataset-outliers.csv).

Inferensrørledningen svikter som forventet, noe som utløser EventBridge-regelen, som igjen utløser togrørledningen.

Etter noen øyeblikk bør du se en ny kjøring av togrørledningen på SageMaker Pipelines-konsollen, som plukker opp de to forskjellige togdatasettene (mammo-train-dataset-part1.csv og mammo-train-dataset-part2.csv) lastet opp til S3-bøtta for å omskolere modellen.

Du vil også se et varsel sendt til e-posten som abonnerer på SNS-emnet.

For å bruke den oppdaterte modellversjonen, logger du på den sentrale modellregisterkontoen og godkjenner modellversjonen, som vil bli plukket opp under neste kjøring av inferensrørledningen som utløses gjennom den planlagte EventBridge-regelen.

Selv om tog- og slutningsrørledningene bruker en statisk datasett-URL, kan du få datasett-URLen sendt til tog- og slutningsrørledningene som dynamiske variabler for å bruke oppdaterte datasett til å omskolere modellen og generere spådommer i et virkelighetsscenario.

Rydd opp

For å unngå fremtidige kostnader, fullfør følgende trinn:

Fjern SageMaker Studio-domenet på tvers av alle AWS-kontoene.
Slett alle ressursene som er opprettet utenfor SageMaker, inkludert S3-bøttene, IAM-rollene, EventBridge-reglene og SNS-emnet satt opp gjennom Terraform i prod-kontoen.
Slett SageMaker-rørledningene opprettet på tvers av kontoer ved hjelp av AWS kommandolinjegrensesnitt (AWS CLI).

konklusjonen

Organisasjoner må ofte tilpasse seg bedriftsomfattende verktøysett for å muliggjøre samarbeid på tvers av ulike funksjonsområder og team. Dette samarbeidet sikrer at MLOps-plattformen din kan tilpasse seg endrede forretningsbehov og akselererer innføringen av ML på tvers av team. Dette innlegget forklarte hvordan du oppretter et MLOps-rammeverk i et flermiljøoppsett for å aktivere automatisert modellomopplæring, batch-inferens og overvåking med Amazon SageMaker Model Monitor, modellversjon med SageMaker Model Registry og promotering av ML-kode og rørledninger på tvers av miljøer med en CI/CD pipeline. Vi viste frem denne løsningen ved å bruke en kombinasjon av AWS-tjenester og tredjepartsverktøysett. For instruksjoner om implementering av denne løsningen, se GitHub repository. Du kan også utvide denne løsningen ved å ta inn dine egne datakilder og modelleringsrammeverk.

Om forfatterne

Gayatri Ghanakota er en senior maskinlæringsingeniør med AWS Professional Services. Hun brenner for å utvikle, distribuere og forklare AI/ML-løsninger på tvers av ulike domener. Før denne rollen ledet hun flere initiativer som dataforsker og ML-ingeniør med globale toppfirmaer innen finans- og detaljhandel. Hun har en mastergrad i informatikk med spesialisering i datavitenskap fra University of Colorado, Boulder.

Sunita Koppar er en Sr. Data Lake-arkitekt med AWS Professional Services. Hun er lidenskapelig opptatt av å løse kundenes smertepunkter ved å behandle big data og tilby langsiktige skalerbare løsninger. Før denne rollen utviklet hun produkter innen internett-, telekom- og bildomener, og har vært AWS-kunde. Hun har en mastergrad i datavitenskap fra University of California, Riverside.

Markedsfør rørledninger i et multimiljøoppsett ved hjelp av Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub og Jenkins CI/CD | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Saswata Dash er DevOps-konsulent med AWS Professional Services. Hun har jobbet med kunder på tvers av helsevesen og biovitenskap, luftfart og produksjon. Hun brenner for alt som har med automatisering å gjøre og har omfattende erfaring med å designe og bygge kundeløsninger i bedriftsskala i AWS. Utenom jobben forfølger hun lidenskapen sin for fotografering og å fange soloppganger.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/promote-pipelines-in-a-multi-environment-setup-using-amazon-sagemaker-model-registry-hashicorp-terraform-github-and-jenkins-ci-cd/

Tidstempel: November 9, 2023

Tidstempel: November 14, 2023

Publisert av Platon

Konfigurer DTMF-spor og bestilte repetisjonsmeldinger med Amazon Lex

Skybasert medisinsk bildebehandlingsrekonstruksjon ved hjelp av dype nevrale nettverk

Akselerer katastroferespons med datasyn for satellittbilder ved hjelp av Amazon SageMaker og Amazon Augmented AI

Amazon SageMaker med TensorBoard: En oversikt over en vertsbasert TensorBoard-opplevelse

Utnytte kunstig intelligens og maskinlæring hos Parsons med AWS DeepRacer

Lag syntetiske data for datasynsrørledninger på AWS

Forhindre kontoovertakelse ved pålogging med den nye Account Takeover Insights-modellen i Amazon Fraud Detector

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn