Masinaõppe (ML) töövoogude säilitamine tootmises on keeruline ülesanne, kuna see nõuab pideva integreerimise ja pideva edastamise (CI/CD) torujuhtmete loomist ML-koodi ja mudelite jaoks, mudeli versioonide loomist, andmete ja kontseptsioonide triivimise jälgimist, mudelite ümberõpet ja käsiraamatut. kinnitamisprotsess, et mudeli uued versioonid vastaksid nii jõudlus- kui ka vastavusnõuetele.
Selles postituses kirjeldame, kuidas luua MLOps-i töövoogu partii järelduste tegemiseks, mis automatiseerib tööde ajastamist, mudeli jälgimist, ümberõpet ja registreerimist, samuti vigade käsitlemist ja teavitamist, kasutades Amazon SageMaker, Amazon EventBridge, AWS Lambda, Amazoni lihtne teavitusteenus (Amazon SNS), HashiCorp Terraform ja GitLab CI/CD. Esitatud MLOps-i töövoog pakub korduvkasutatavat malli ML-i elutsükli haldamiseks automatiseerimise, jälgimise, auditeeritavuse ja skaleeritavuse kaudu, vähendades seeläbi partii järelduste töökoormuse säilitamise keerukust ja kulusid tootmises.
Lahenduse ülevaade
Järgmine joonis illustreerib kavandatud MLOps-i sihtarhitektuuri ettevõtte partii järelduste tegemiseks organisatsioonidele, kes kasutavad GitLabi CI/CD-d ja Terraformi infrastruktuuri koodina (IaC) koos AWS-i tööriistade ja teenustega. GitLabi CI/CD toimib orkestreerijana makro-orkestrina model build
ja model deploy
torujuhtmed, mis hõlmavad hankimist, ehitamist ja varustamist Amazon SageMakeri torujuhtmed ja tugiressursse, kasutades SageMaker Python SDK ja Terraformi. SageMaker Python SDK-d kasutatakse SageMakeri torujuhtmete loomiseks või värskendamiseks koolituse, hüperparameetrite optimeerimisega (HPO) treenimise ja partii järelduste tegemiseks. Terraformi kasutatakse täiendavate ressursside, nagu EventBridge reeglite, Lambda funktsioonide ja SNS-i teemade loomiseks SageMakeri torujuhtmete jälgimiseks ja teadete saatmiseks (näiteks kui konveieri samm ebaõnnestub või õnnestub). SageMaker Pipelines toimib ML-mudeli koolituse ja järelduste töövoogude orkestreerijana.
See arhitektuurikujundus esindab mitme kontoga strateegiat, kus ML-mudeleid luuakse, koolitatakse ja registreeritakse keskses mudeliregistris andmeteaduse arenduskonto raames (millel on rohkem juhtelemente kui tavalisel rakenduste arenduskontol). Seejärel juurutatakse järelduskonveierid lavastus- ja tootmiskontodele, kasutades automatiseerimist DevOpsi tööriistadest, nagu GitLab CI/CD. Keskse mudeliregistri saab valikuliselt paigutada ka jagatud teenuste kontole. Viitama Töömudel ML mitme kontoga strateegia parimate tavade kohta.
Järgmistes alajaotistes käsitleme üksikasjalikult arhitektuuri disaini erinevaid aspekte.
Infrastruktuur kui kood
IaC pakub võimalust hallata IT-infrastruktuuri masinloetavate failide kaudu, tagades tõhusa versioonikontrolli. Selles postituses ja lisatud koodinäidises näitame, kuidas seda kasutada HashiCorp Terraform GitLabi CI/CD-ga, et AWS-i ressursse tõhusalt hallata. See lähenemine rõhutab IaC peamist eelist, pakkudes läbipaistvat ja korratavat protsessi IT infrastruktuuri haldamisel.
Modellikoolitus ja ümberõpe
Selles konstruktsioonis töötab SageMakeri koolituskonveier ajakava alusel (EventBridge'i kaudu) või põhineb Amazoni lihtne salvestusteenus (Amazon S3) sündmuse käivitaja (näiteks kui Amazon S3-sse paigutatakse käivitusfail või uued treeningandmed, kui tegemist on ühe treeningandmete objektiga), et mudelit regulaarselt uute andmetega ümber kalibreerida. See torujuhe ei too mudelisse struktuurilisi ega materiaalseid muudatusi, kuna see kasutab fikseeritud hüperparameetreid, mis on ettevõtte mudeli ülevaatuse protsessi käigus heaks kiidetud.
Koolituskonveier registreerib äsja koolitatud mudeli versiooni rakenduses Amazon SageMakeri mudeliregister kui mudel ületab eelnevalt määratletud mudeli jõudluse läve (näiteks RMSE regressiooni ja F1 skoor klassifikatsiooni jaoks). Kui mudeliregistris registreeritakse mudeli uus versioon, käivitab see Amazon SNS-i kaudu teate vastutavale andmeteadlasele. Seejärel peab andmeteadlane mudeli uusima versiooni üle vaatama ja käsitsi kinnitama Amazon SageMaker Studio UI või API-kõne kaudu, kasutades AWS-i käsurea liides (AWS CLI) või AWS SDK Pythoni jaoks (Boto3), enne kui mudeli uut versiooni saab järelduste tegemiseks kasutada.
SageMakeri koolitustoru ja seda toetavad ressursid on loonud GitLab model build
konveier, kas GitLabi konveieri käsitsi käitamise kaudu või automaatselt, kui kood on ühendatud main
filiaal model build
Giti hoidla.
Partii järeldus
SageMakeri partii järelduste konveier töötab ajakava alusel (EventBridge'i kaudu) või S3 sündmuse päästiku alusel. Partii järelduste konveier tõmbab mudeliregistrist automaatselt mudeli uusima kinnitatud versiooni ja kasutab seda järelduste tegemiseks. Partii järelduste konveier sisaldab samme andmete kvaliteedi kontrollimiseks koolituskonveieri loodud baasjoonega, samuti mudeli kvaliteeti (mudeli jõudlust), kui põhitõe sildid on saadaval.
Kui partii järelduste konveier avastab andmekvaliteediga seotud probleeme, teavitab see Amazon SNS-i kaudu vastutavat andmeteadlast. Kui see tuvastab mudeli kvaliteediprobleemid (näiteks RMSE on suurem kui eelnevalt määratud lävi), nurjub mudeli kvaliteedikontrolli konveieri samm, mis omakorda käivitab EventBridge'i sündmuse HPO konveieriga koolituse alustamiseks.
SageMakeri partii järelduste konveier ja seda toetavad ressursid loob GitLab model deploy
konveier, kas GitLabi konveieri käsitsi käitamise kaudu või automaatselt, kui kood on ühendatud main
filiaal model deploy
Giti hoidla.
Mudeli häälestamine ja ümberhäälestus
SageMakeri koolitus HPO konveieriga käivitub, kui partii järelduste konveieri mudeli kvaliteedi kontrollimise etapp ebaõnnestub. Mudeli kvaliteedi kontrollimiseks võrreldakse mudeli ennustusi tegelike põhitõe siltidega. Kui mudeli kvaliteedimõõdik (nt RMSE regressiooni ja F1 skoor klassifikatsiooni jaoks) ei vasta eelnevalt määratud kriteeriumile, märgitakse mudeli kvaliteedikontrolli samm ebaõnnestunuks. SageMakeri koolituse koos HPO torujuhtmega saab vastutav andmeteadlane vajadusel käivitada ka käsitsi (SageMaker Studio kasutajaliideses või API-kõne kaudu, kasutades AWS CLI-d või SageMaker Python SDK-d). Kuna mudeli hüperparameetrid muutuvad, peab vastutav andmeteadlane saama heakskiidu ettevõtte mudelite ülevaatusnõukogult, enne kui mudelite uue versiooni saab mudeliregistris kinnitada.
SageMakeri koolituse koos HPO torujuhtme ja seda toetavate ressurssidega loob GitLab model build
konveier, kas GitLabi konveieri käsitsi käitamise kaudu või automaatselt, kui kood on ühendatud main
filiaal model build
Giti hoidla.
Mudeli jälgimine
Andmestatistika ja piirangute lähtejooned luuakse koolituse ja koolituse osana HPO torujuhtmetega. Need salvestatakse Amazon S3-sse ja registreeritakse ka koolitatud mudeliga mudeliregistris, kui mudel läbib hindamise. Pakitud järelduste konveieri kasutuste kavandatud arhitektuur Amazon SageMakeri mudelimonitor andmete kvaliteedi kontrollimiseks kohandatud kasutamise ajal Amazon SageMakeri töötlemine sammud mudeli kvaliteedi kontrollimiseks. See disain lahutab andmete ja mudeli kvaliteedikontrolli, mis omakorda võimaldab teil saata hoiatusteateid ainult siis, kui tuvastatakse andmete triivimine; ja käivitada koolitus HPO torujuhtmega, kui tuvastatakse mudeli kvaliteedi rikkumine.
Mudeli kinnitus
Pärast äsja koolitatud mudeli registreerimist mudeliregistris saab vastutav andmeteadlane teatise. Kui mudelit on koolituskonveier välja õpetanud (uute treeningandmetega ümberkalibreerimine, kui hüperparameetrid on fikseeritud), ei ole ettevõtte mudelite ülevaatusnõukogu kinnitust vaja. Andmeteadlane saab mudeli uue versiooni iseseisvalt üle vaadata ja heaks kiita. Teisest küljest, kui mudelit on koolitatud HPO konveieriga (ümberhäälestamine hüperparameetrite muutmisega), peab uus mudeliversioon läbima ettevõtte ülevaatuse, enne kui seda saab tootmises järelduste tegemiseks kasutada. Kui ülevaatusprotsess on lõppenud, saab andmeteadlane jätkata ja mudeli uue versiooni mudeliregistris heaks kiita. Mudelpaketi oleku muutmine olekusse Approved
käivitab Lambda funktsiooni EventBridge'i kaudu, mis omakorda käivitab GitLabi model deploy
torujuhtme API-kõne kaudu. See värskendab automaatselt SageMakeri partii järelduste konveieri, et kasutada järelduste tegemiseks mudeli viimast kinnitatud versiooni.
Uue mudeliversiooni kinnitamiseks või tagasilükkamiseks mudeliregistris on kaks peamist võimalust: kasutades Pythoni jaoks mõeldud AWS SDK-d (Boto3) või SageMaker Studio kasutajaliidest. Vaikimisi on seatud nii koolituskonveier kui ka koolitus HPO konveieriga ModelApprovalStatus
et PendingManualApproval
. Vastutav andmeteadlane saab mudeli kinnitusolekut värskendada, helistades numbrile update_model_package
API alates Boto3. Viitama Värskendage mudeli kinnitusolekut Lisateavet mudeli kinnitusoleku värskendamise kohta SageMaker Studio kasutajaliidese kaudu.
Andmete I/O disain
SageMaker suhtleb otse Amazon S3-ga, et lugeda sisendeid ja salvestada koolitus- ja järelduskonveieri üksikute etappide väljundeid. Järgmine diagramm illustreerib, kuidas erinevad Pythoni skriptid, töötlemata ja töödeldud koolitusandmed, töötlemata ja töödeldud järeldusandmed, järeldustulemused ja põhitõe sildid (kui need on mudeli kvaliteedi jälgimiseks saadaval), mudeli artefaktid, koolituse ja järelduste hindamise mõõdikud (mudeli kvaliteedi jälgimine), S3 ämbrisse saab korraldada ka andmekvaliteedi lähtetasemeid ja rikkumiste aruandeid (andmete kvaliteedi jälgimiseks). Noolte suund diagrammil näitab, millised failid on SageMakeri torujuhtmete vastavate etappide sisendid või väljundid. Nooled on loetavamaks muutmiseks värvikoodiga konveieri sammu tüübi alusel. Torujuhe laadib automaatselt üles Pythoni skriptid GitLabi hoidlast ja salvestab iga etapi väljundfailid või mudeliartefakdid vastavale S3 teele.
Andmeinsener vastutab järgmise eest:
- Märgistatud treeningandmete üleslaadimine Amazon S3 sobivale teele. See hõlmab uute koolitusandmete regulaarset lisamist, et tagada koolitustorustikul ja HPO torustikuga koolitusel juurdepääs viimastele koolitusandmetele vastavalt mudeli ümberõppeks ja ümberhäälestamiseks.
- Sisendandmete üleslaadimine sobiva tee järelduste tegemiseks S3 ämbris enne järelduskonveieri kavandatud käitamist.
- Mudeli kvaliteedi jälgimiseks maapealsete tõesiltide üleslaadimine sobivale S3 teele.
Andmeteadlane vastutab järgmise eest:
- Põhitõesiltide ettevalmistamine ja nende edastamine andmetehnika meeskonnale Amazon S3 üleslaadimiseks.
- Koolitusel koolitatud mudeliversioonide võtmine HPO torujuhtmega ettevõtte ülevaatuse protsessi kaudu ja vajalike kinnituste saamine.
- Äsja koolitatud mudeliversioonide käsitsi kinnitamine või tagasilükkamine mudeliregistris.
- Järeldustoru tootmisvärava kinnitamine ja tootmisse viimise toetamine.
Näidiskood
Selles jaotises esitame ühe konto seadistusega partii järeldustoimingute näidiskoodi, nagu on näidatud järgmisel arhitektuuriskeemil. Näidiskoodi leiate aadressilt GitHubi hoidla, ja see võib olla lähtepunktiks partiide järelduste tegemiseks mudelite jälgimise ja automaatse ümberõppe abil, kasutades ettevõtete jaoks sageli vajalikke kvaliteediväravaid. Näidiskood erineb sihtarhitektuurist järgmistel viisidel.
- See kasutab ühte AWS-i kontot ML-mudeli koostamiseks ja juurutamiseks ning tugiressursside loomiseks. Viitama AWS-i keskkonna korraldamine mitme konto abil juhiste saamiseks AWS-i mitme konto seadistamise kohta.
- See kasutab ML-mudeli koostamiseks ja juurutamiseks ning toetavate ressursside loomiseks ja juurutamiseks ühte GitLabi CI/CD torujuhet.
- Kui mudeli uus versioon on koolitatud ja heaks kiidetud, ei käivitu GitLabi CI/CD konveier automaatselt ja vastutav andmeteadlane peab seda käsitsi käivitama, et värskendada SageMakeri partii järelduste konveier mudeli uusima kinnitatud versiooniga.
- See toetab SageMakeri koolitus- ja järelduskonveieri käitamiseks ainult S3 sündmusepõhiseid käivitajaid.
Eeldused
Enne selle lahenduse juurutamist peaksid teil olema järgmised eeltingimused.
- AWS-i konto
- SageMakeri stuudio
- SageMakeri täitmise roll koos Amazon S3 lugemise/kirjutamise ja AWS-i võtmehaldusteenus (AWS KMS) krüptida/dekrüpteerida load
- S3 ämber andmete, skriptide ja mudeliartefaktide salvestamiseks
- Terraform versioon 0.13.5 või uuem
- GitLab koos töötava Dockeri jooksuriga torujuhtmete käitamiseks
- AWS CLI
- jq
- tõmblukku lahti tõmbama
- Python3 (Python 3.7 või uuem) ja järgmised Pythoni paketid:
- boto3
- salveitegija
- pandas
- pyyaml
Hoidla struktuur
. GitHubi hoidla sisaldab järgmisi katalooge ja faile:
/code/lambda_function/
- See kataloog sisaldab Pythoni faili Lambda funktsiooni jaoks, mis valmistab ette ja saadab teavitussõnumeid (Amazon SNS-i kaudu) SageMakeri torujuhtmete sammuoleku muudatuste kohta/data/
- See kataloog sisaldab töötlemata andmefaile (koolitus-, järeldus- ja põhitõeandmed)/env_files/
– See kataloog sisaldab sisendmuutujate faili Terraform/pipeline_scripts/
- See kataloog sisaldab kolme Pythoni skripti koolituse loomiseks ja värskendamiseks, järelduste tegemiseks ja koolituseks HPO SageMakeri torujuhtmetega, samuti konfiguratsioonifaile iga torujuhtme parameetrite täpsustamiseks/scripts/
– See kataloog sisaldab täiendavaid Pythoni skripte (nt eeltöötlus ja hindamine), millele viitab koolitus, järeldused ja koolitus HPO torujuhtmetega.gitlab-ci.yml
– See fail määrab GitLabi CI/CD torujuhtme konfiguratsiooni/events.tf
– See fail määratleb EventBridge'i ressursid/lambda.tf
– See fail määratleb lambda teavitusfunktsiooni ja sellega seotud AWS-i identiteedi- ja juurdepääsuhaldus (IAM) ressursse/main.tf
– See fail määratleb Terraformi andmeallikad ja kohalikud muutujad/sns.tf
– See fail määratleb Amazon SNS-i ressursid/tags.json
– See JSON-fail võimaldab teil deklareerida kohandatud sildi võtme-väärtuse paare ja lisada need oma Terraformi ressurssidele kohaliku muutuja abil/variables.tf
– See fail deklareerib kõik Terraformi muutujad
Muutujad ja konfiguratsioon
Järgmises tabelis on toodud muutujad, mida selle lahenduse parameetristamiseks kasutatakse. Vaadake ./env_files/dev_env.tfvars
lisateabe saamiseks faili.
Nimi | Kirjeldus |
bucket_name |
S3 ämber, mida kasutatakse andmete, skriptide ja mudeliartefaktide salvestamiseks |
bucket_prefix |
S3 eesliide ML projekti jaoks |
bucket_train_prefix |
S3 prefiks treeningandmete jaoks |
bucket_inf_prefix |
S3 eesliide järeldusandmete jaoks |
notification_function_name |
Lambda funktsiooni nimi, mis valmistab ette ja saadab teateid SageMakeri torujuhtmete astme oleku muutuste kohta |
custom_notification_config |
Konfiguratsioon teavitusteate kohandamiseks konkreetsete SageMakeri konveieri etappide jaoks, kui tuvastatakse konkreetne konveieri käitamise olek |
email_recipient |
E-posti aadresside loend SageMakeri torujuhtmete sammu oleku muutmise teatiste saamiseks |
pipeline_inf |
SageMakeri järelduskonveieri nimi |
pipeline_train |
SageMakeri koolitustoru nimi |
pipeline_trainwhpo |
HPO torujuhtmega SageMaker koolituse nimi |
recreate_pipelines |
Kui seadistatud true , kustutatakse kolm olemasolevat SageMakeri torujuhet (koolitus, järeldus, koolitus HPO-ga) ja GitLabi CI/CD käivitamisel luuakse uued. |
model_package_group_name |
Mudelpaketi rühma nimi |
accuracy_mse_threshold |
MSE maksimaalne väärtus enne mudeli värskendamise nõudmist |
role_arn |
SageMakeri torujuhtme täitmise rolli IAM-i roll ARN |
kms_key |
KMS-võti ARN Amazon S3 ja SageMakeri krüptimiseks |
subnet_id |
Alamvõrgu ID SageMakeri võrgukonfiguratsiooni jaoks |
sg_id |
SageMakeri võrgukonfiguratsiooni turvarühma ID |
upload_training_data |
Kui seadistatud true , laaditakse treeninguandmed Amazon S3-sse ja see üleslaadimistoiming käivitab treeningkonveieri käitamise |
upload_inference_data |
Kui seadistatud true , laaditakse järeldusandmed Amazon S3-sse ja see üleslaadimistoiming käivitab järelduste konveieri käitamise |
user_id |
SageMakeri kasutaja töötaja ID, mis lisatakse SageMakeri ressurssidele sildina |
Rakendage lahendus
Lahenduse juurutamiseks oma AWS-i kontol tehke järgmist.
- Kloonige GitHubi hoidla oma töökataloogi.
- Vaadake üle ja muutke GitLabi CI/CD konveieri konfiguratsiooni vastavalt oma keskkonnale. Konfiguratsioon on täpsustatud
./gitlab-ci.yml
faili. - Üldiste lahendusmuutujate värskendamiseks vaadake faili README
./env_files/dev_env.tfvars
faili. See fail sisaldab muutujaid nii Pythoni skriptide kui ka Terraformi automatiseerimise jaoks.- Kontrollige täiendavaid SageMaker Pipelinesi parameetreid, mis on määratletud allolevates YAML-failides
./batch_scoring_pipeline/pipeline_scripts/
. Vajadusel vaadake üle ja uuendage parameetreid.
- Kontrollige täiendavaid SageMaker Pipelinesi parameetreid, mis on määratletud allolevates YAML-failides
- Vaadake üle SageMakeri torujuhtme loomise skriptid
./pipeline_scripts/
samuti skriptid, millele nad on viidatud./scripts/
kausta. GitHubi repos pakutavad näidisskriptid põhinevad Abalone andmestik. Kui kavatsete kasutada teist andmestikku, värskendage kindlasti skripte, et need vastaksid teie konkreetsele probleemile. - Sisestage oma andmefailid
./data/
kausta, kasutades järgmist nimetamisviisi. Kui kasutate Abalone'i andmestikku koos esitatud näidisskriptidega, veenduge, et andmefailid oleksid päisteta, treeningandmed sisaldavad nii sõltumatuid kui ka sihtmuutujaid, säilitades algse veergude järjestuse, järeldusandmed sisaldavad ainult sõltumatuid muutujaid ja põhitõde. fail sisaldab ainult sihtmuutujat.training-data.csv
inference-data.csv
ground-truth.csv
- Kinnitage ja suruge kood hoidlasse, et käivitada GitLabi CI/CD konveieri käitamine (esimene käitamine). Pange tähele, et torujuhtme esimene käitamine ebaõnnestub
pipeline
etapis, sest järelduste konveieri skripti jaoks pole veel kinnitatud mudeliversiooni. Vaadake üle sammude logi ja kinnitage uus SageMakeri nimeline konveierTrainingPipeline
on edukalt loodud.
-
- Avage SageMaker Studio kasutajaliides, seejärel vaadake üle ja käivitage koolitustoru.
- Pärast koolituskonveieri edukat käitamist kinnitage mudeliregistris registreeritud mudeli versioon ja seejärel käivitage uuesti kogu GitLabi CI/CD konveier.
- Vaadake Terraformi plaani väljund üle
build
etapp. Kinnitage juhendapply
etappi GitLabi CI/CD torujuhtmes, et jätkata konveieri käitamist ja volitada Terraform looma teie AWS-i kontole jälgimis- ja teavitusressursse. - Lõpuks vaadake üle SageMakeri torujuhtmete käitamise olek ja väljund SageMaker Studio kasutajaliideses ning kontrollige oma meili teavitusteateid, nagu on näidatud järgmisel ekraanipildil. Vaikimisi sõnumi sisu on JSON-vormingus.
SageMakeri torujuhtmed
Selles jaotises kirjeldame kolme SageMakeri torujuhet MLOps-i töövoos.
Koolitustorustik
Koolitusprogramm koosneb järgmistest etappidest:
- Eeltöötlusetapp, sealhulgas funktsioonide teisendamine ja kodeerimine
- Andmete kvaliteedi kontrollimise etapp andmestatistika ja piirangute baastaseme genereerimiseks koolitusandmete abil
- Treeningu samm
- Koolituse hindamise etapp
- Tingimuse samm kontrollimaks, kas koolitatud mudel vastab eelnevalt kindlaksmääratud jõudluse lävele
- Mudeli registreerimise samm äsja koolitatud mudeli registreerimiseks mudeliregistris, kui koolitatud mudel vastab nõutavale jõudluslävele
Mõlemad skip_check_data_quality
ja register_new_baseline_data_quality
parameetrid on seatud True
koolitusel. Need parameetrid juhendavad konveier andmekvaliteedi kontrolli vahele jätma ning lihtsalt looma ja registreerima koolitusandmete abil uut andmestatistikat või piirangute baasjooni. Järgmisel joonisel on kujutatud koolitustoru edukat läbimist.
Partii järelduste konveier
Partii järelduse konveier koosneb järgmistest sammudest.
- Mudeli loomine mudeliregistris viimase kinnitatud mudeliversiooni järgi
- Eeltöötlusetapp, sealhulgas funktsioonide teisendamine ja kodeerimine
- Partii järelduse samm
- Andmekvaliteedi kontrolli eeltöötlusetapp, mis loob uue CSV-faili, mis sisaldab nii sisendandmeid kui ka mudeli ennustusi, mida kasutatakse andmete kvaliteedi kontrollimiseks
- Andmete kvaliteedi kontrollimise etapp, mis kontrollib sisendandmeid algstatistika ja registreeritud mudeliga seotud piirangutega
- Tingimuse samm kontrollimaks, kas tõendandmed on kättesaadavad. Kui põhitõeandmed on kättesaadavad, viiakse läbi mudeli kvaliteedikontrolli etapp
- Mudeli kvaliteedi arvutamise etapp, mis arvutab mudeli jõudluse põhitõemärgiste põhjal
Mõlemad skip_check_data_quality
ja register_new_baseline_data_quality
parameetrid on seatud False
järeldamistorustikus. Need parameetrid juhendavad konveierit teostama andmete kvaliteedi kontrolli, kasutades registreeritud mudeliga seotud andmestatistikat või piirangute baasjoont (supplied_baseline_statistics_data_quality
ja supplied_baseline_constraints_data_quality
) ja jätke järelduste tegemise ajal vahele uute andmete statistika ja piirangute loomine või registreerimine. Järgmine joonis illustreerib partii järelduste konveieri käitamist, kus andmete kvaliteedi kontrollimise etapp ebaõnnestus mudeli halva jõudluse tõttu järeldusandmetel. Sel konkreetsel juhul käivitatakse mudeli peenhäälestamiseks automaatselt koolitus HPO torujuhtmega.
Koolitus HPO torujuhtmega
HPO torujuhtme koolitus koosneb järgmistest sammudest:
- Eeltöötlusetapp (funktsioonide teisendamine ja kodeerimine)
- Andmete kvaliteedi kontrollimise etapp andmestatistika ja piirangute baastaseme genereerimiseks koolitusandmete abil
- Hüperparameetrite häälestamise samm
- Koolituse hindamise etapp
- Tingimuse samm kontrollimaks, kas koolitatud mudel vastab eelnevalt määratud täpsuslävele
- Mudeli registreerimise etapp, kui kõige paremini koolitatud mudel vastab nõutavale täpsuslävele
Mõlemad skip_check_data_quality
ja register_new_baseline_data_quality
parameetrid on seatud True
koolitusel HPO torujuhtmega. Järgmisel joonisel on kujutatud koolituse edukat läbimist HPO torujuhtmega.
Koristage
Oma ressursside puhastamiseks tehke järgmised sammud.
- Kasutada
destroy
etapis GitLabi CI/CD torujuhtmes, et kõrvaldada kõik Terraformi pakutavad ressursid. - Kasutage selleks AWS-i CLI-d nimekiri ja kõrvaldama kõik ülejäänud Pythoni skriptidega loodud torujuhtmed.
- Soovi korral kustutage muud AWS-i ressursid, nagu S3-salv või väljaspool CI/CD-konveieri loodud IAM-roll.
Järeldus
Selles postituses näitasime, kuidas ettevõtted saavad luua MLOps-i töövooge oma partii järeldustööde jaoks, kasutades Amazon SageMakerit, Amazon EventBridge'i, AWS Lambdat, Amazon SNS-i, HashiCorp Terraformi ja GitLab CI/CD-d. Esitatud töövoog automatiseerib andmete ja mudelite jälgimist, mudelite ümberõpet, samuti paketttöö käitamist, koodi versioonide loomist ja infrastruktuuri ettevalmistamist. See võib kaasa tuua märkimisväärse keerukuse ja kulude vähenemise partiide järeldustööde tootmises säilitamisel. Rakenduse üksikasjade kohta lisateabe saamiseks vaadake üle GitHub repo.
Autoritest
Hasan Shojaei on AWSi professionaalsete teenuste vanem andmeteadlane, kes aitab klientidel erinevates tööstusharudes, nagu sport, kindlustus ja finantsteenused, lahendada nende äriprobleeme, kasutades suurandmete, masinõppe ja pilvetehnoloogiaid. Enne seda rolli juhtis Hasan mitmeid algatusi, et töötada välja uudsed füüsikapõhised ja andmepõhised modelleerimistehnikad parimate energiaettevõtete jaoks. Väljaspool tööd on Hasan kirglik raamatute, matkamise, fotograafia ja ajaloo vastu.
Wenxin Liu on Sr. Cloud Infrastructure Architect. Wenxin nõustab ettevõtteid pilve kasutuselevõtu kiirendamisel ja toetab nende uuendusi pilves. Ta on lemmikloomade armastaja ning kirglik lumelauasõidu ja reisimise vastu.
Vivek Lakshmanan on Amazoni masinõppeinsener. Tal on magistrikraad tarkvaratehnikas spetsialiseerumisega andmeteadusele ja mitmeaastane kogemus MLE-na. Vivek on põnevil tipptehnoloogiate rakendamisest ja AI/ML-lahenduste loomisest klientidele pilves. Ta on kirglik statistika, NLP ja mudeli seletatavuse vastu AI/ML-is. Vabal ajal meeldib talle kriketit mängida ja autoreise teha.
Andy Cracchiolo on pilveinfrastruktuuri arhitekt. Rohkem kui 15 aastat IT-infrastruktuuriga töötanud Andy on edukas ja tulemustele orienteeritud IT-spetsialist. Lisaks IT-infrastruktuuri, toimingute ja automatiseerimise optimeerimisele on Andyl end tõestanud IT-toimingute analüüsimine, ebakõlade tuvastamine ja protsessitäiustuste juurutamine, mis suurendavad tõhusust, vähendavad kulusid ja suurendavad kasumit.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Autod/elektrisõidukid, Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- ChartPrime. Tõsta oma kauplemismängu ChartPrime'iga kõrgemale. Juurdepääs siia.
- BlockOffsets. Keskkonnakompensatsiooni omandi ajakohastamine. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/mlops-for-batch-inference-with-model-monitoring-and-retraining-using-amazon-sagemaker-hashicorp-terraform-and-gitlab-ci-cd/
- :on
- :on
- :mitte
- : kus
- $ UP
- 100
- 125
- 13
- 15 aastat
- 15%
- 26%
- 29
- 500
- 7
- a
- MEIST
- kiirendama
- juurdepääs
- saavutatud
- konto
- Kontod
- täpsus
- üle
- tegelik
- lisatud
- lisades
- lisamine
- Täiendavad lisad
- aadress
- Vastuvõtmine
- vastu
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- mööda
- Ka
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- analüüsides
- ja
- infrastruktuuri
- mistahes
- API
- taotlus
- Sovelluskehitys
- Rakendades
- lähenemine
- asjakohane
- heakskiit
- kinnitused
- heaks kiitma
- heaks
- arhitektuur
- OLEME
- AS
- aspektid
- seotud
- At
- auditeeritavus
- volitada
- auto
- automatiseerib
- Automaatne
- automaatselt
- Automaatika
- saadaval
- AWS
- AWS Lambda
- AWS-i professionaalsed teenused
- põhineb
- Baseline
- BE
- sest
- olnud
- enne
- kasu
- BEST
- parimaid tavasid
- Suur
- Big andmed
- juhatus
- keha
- Raamatud
- mõlemad
- Filiaal
- Ehitus
- ehitatud
- äri
- by
- arvutab
- arvutus
- helistama
- kutsudes
- CAN
- juhul
- kesk-
- väljakutseid
- raske
- muutma
- Vaidluste lahendamine
- muutuv
- kontrollima
- kontroll
- Kontroll
- klassifikatsioon
- Cloud
- pilve adopteerimine
- pilve infrastruktuur
- kood
- Veerud
- Ettevõtted
- võrrelda
- täitma
- keerukust
- Vastavus
- koostatud
- mõiste
- konfiguratsioon
- koos
- piiranguid
- sisaldab
- pidev
- kontrollida
- kontrolli
- Konventsioon
- kulud
- võiks
- looma
- loodud
- loob
- loomine
- loomine
- kriket
- tava
- Kliendid
- viimase peal
- andmed
- andmeteadus
- andmeteadlane
- andmepõhistele
- kuulutab
- vaikimisi
- määratletud
- Määratleb
- Kraad
- tarne
- näitama
- Näidatud
- juurutada
- lähetatud
- juurutamine
- kirjeldama
- Disain
- detail
- detailid
- tuvastatud
- arendama
- & Tarkvaraarendus
- erinev
- suund
- otse
- kataloogid
- Avastab
- arutama
- laevalaadija
- ei
- Ei tee
- kaks
- ajal
- iga
- lihtsam
- tõhusalt
- efektiivsus
- tõhus
- kumbki
- kõrvaldama
- Töötaja
- energia
- insener
- Inseneriteadus
- lisaseadmed
- tagama
- tagades
- ettevõte
- ettevõtete
- Kogu
- keskkond
- viga
- hindamine
- sündmus
- näide
- ületab
- erutatud
- täitmine
- olemasolevate
- kogemus
- f1
- FAIL
- Ebaõnnestunud
- ei
- tunnusjoon
- Joonis
- fail
- Faile
- finants-
- finantsteenused
- esimene
- fikseeritud
- Järel
- eest
- formaat
- avastatud
- Alates
- funktsioon
- funktsioonid
- Gates
- Üldine
- loodud
- teeniva
- Git
- GitHub
- Go
- läheb
- suurem
- Maa
- Grupp
- juhised
- käsi
- Käsitsemine
- Olema
- he
- aitab
- tema
- ajalugu
- Kuidas
- Kuidas
- HTML
- http
- HTTPS
- Hüperparameetrite optimeerimine
- ID
- identifitseerimiseks
- Identity
- if
- illustreerib
- täitmine
- rakendamisel
- in
- sisaldama
- hõlmab
- Kaasa arvatud
- Suurendama
- sõltumatud
- iseseisvalt
- näitab
- eraldi
- tööstusharudes
- info
- Infrastruktuur
- algatused
- uuendusi
- sisend
- sisendite
- kindlustus
- integratsioon
- interaktiivne
- sisse
- kehtestama
- küsimustes
- IT
- ITS
- töö
- Tööturg
- jpg
- Json
- lihtsalt
- Võti
- Labels
- hiljemalt
- viima
- õppimine
- Led
- eluring
- joon
- nimekiri
- kohalik
- logi
- masin
- masinõpe
- põhiline
- säilitamine
- tegema
- juhtima
- juhtimine
- juhtiv
- käsiraamat
- käsitsi
- märgitud
- meistrid
- materjal
- Vastama
- vastab
- sõnum
- kirjad
- meetriline
- Meetrika
- ML
- MLOps
- mudel
- modelleerimine
- mudelid
- muutma
- järelevalve
- rohkem
- mitmekordne
- Nimega
- nimetamine
- vajalik
- Vajadus
- vaja
- vajadustele
- võrgustike loomine
- Uus
- äsja
- nlp
- ei
- teade
- teated
- romaan
- objekt
- saama
- saamine
- of
- pakkumine
- Pakkumised
- sageli
- on
- ones
- ainult
- töö
- Operations
- optimeerimine
- optimeerimine
- or
- et
- organisatsioonid
- Korraldatud
- originaal
- Muu
- väljund
- väljaspool
- pakend
- pakette
- paari
- parameetrid
- osa
- eriline
- möödub
- kirglik
- tee
- täitma
- jõudlus
- teostatud
- fotograafia
- torujuhe
- kava
- plaanitud
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängimine
- Punkt
- vaene
- post
- tavad
- Ennustused
- Valmistab ette
- eeldused
- esitada
- esitatud
- Eelnev
- Probleem
- jätkama
- protsess
- Töödeldud
- Produktsioon
- professionaalne
- kasum
- edutatud
- pakutud
- tõestatud
- tingimusel
- annab
- pakkudes
- Tõmbab
- Lükkama
- Python
- kvaliteet
- Töötlemata
- Lugenud
- Lugemine
- saab
- vastuvõtmine
- hiljuti
- rekord
- vähendama
- vähendamine
- kohta
- registreerima
- registreeritud
- registreerimine
- registrite
- Registreerimine
- registri
- regulaarselt
- ülejäänud
- korratav
- Aruanded
- Hoidla
- esindab
- nõutav
- Nõuded
- Vajab
- Vahendid
- need
- vastavalt
- vastutav
- Tulemused
- Jätka
- korduvkasutatav
- läbi
- tee
- Roll
- eeskirjade
- jooks
- jooksja
- jooksmine
- jookseb
- salveitegija
- SageMakeri järeldus
- SageMakeri torujuhtmed
- Skaalautuvus
- ajakava
- planeerimine
- teadus
- teadlane
- skoor
- skripte
- SDK
- Osa
- saatma
- saatmine
- saadab
- teenima
- teenib
- teenused
- komplekt
- seade
- mitu
- jagatud
- peaks
- näidatud
- Näitused
- märkimisväärne
- lihtne
- ühekordne
- tarkvara
- tarkvaraarendus
- lahendus
- Lahendused
- LAHENDAGE
- Allikad
- Allhange
- konkreetse
- määratletud
- sport
- Stage
- matkimine
- algus
- Käivitus
- riik
- statistika
- olek
- Samm
- Sammud
- ladustamine
- salvestada
- ladustamine
- Strateegia
- struktuuriline
- stuudio
- edukas
- Edukalt
- selline
- Kostüüm
- Toetamine
- Toetab
- tabel
- TAG
- võtmine
- sihtmärk
- Ülesanne
- meeskond
- tehnikat
- Tehnoloogiad
- šabloon
- Terraform
- kui
- et
- .
- oma
- Neile
- SIIS
- Seal.
- sellega
- Need
- nad
- see
- kolm
- künnis
- Läbi
- aeg
- et
- töövahendid
- ülemine
- Teemasid
- jälgida
- tulemused
- koolitatud
- koolitus
- Transformation
- läbipaistev
- Reisimine
- vallandada
- vallandas
- Tõde
- Pöörake
- kaks
- tüüp
- tüüpiline
- ui
- all
- rõhutab
- Värskendused
- ajakohastamine
- laetud
- Üleslaadimine
- kasutama
- Kasutatud
- Kasutaja
- kasutusalad
- kasutamine
- ära kasutama
- kasutatud
- väärtus
- muutuja
- kontrollima
- versioon
- versioonid
- kaudu
- RIKKUMINE
- hoiatus
- Tee..
- kuidas
- we
- web
- veebiteenused
- Hästi
- millal
- kas
- mis
- kuigi
- WHO
- will
- koos
- jooksul
- Töö
- töövoog
- Töövoogud
- töö
- yaml
- aastat
- veel
- sa
- Sinu
- sephyrnet