Käynnistä Amazon SageMaker Autopilot Experiments suoraan Amazon SageMaker -putkistosta automatisoidaksesi helposti MLOps-työnkulkuja

Julkaissut Platon

seuraajia: 0

Amazon SageMaker -autopilotti, alhaisen koodin koneoppimispalvelu (ML), joka automaattisesti rakentaa, kouluttaa ja virittää parhaat ML-mallit taulukkotietojen perusteella, on nyt integroitu Amazon SageMaker -putkistot, ensimmäinen tarkoitukseen rakennettu jatkuva integrointi ja jatkuva toimitus (CI/CD) palvelu ML:lle. Tämä mahdollistaa ML-mallien rakentamisen päästä-päähän automatisoinnin Autopilotin avulla ja mallien integroinnin seuraaviin CI/CD-vaiheisiin.

Toistaiseksi, jotta voit käynnistää Autopilot-kokeilun Pipelinesissä, sinun on rakennettava mallinrakennustyönkulku kirjoittamalla mukautettu integraatiokoodi Pipelinesin kanssa Lambda or Käsittely askeleet. Katso lisätietoja Siirrä Amazon SageMaker Autopilot ML -malleja kokeilusta tuotantoon Amazon SageMaker Pipelinesin avulla.

Autopilotin tuen natiivivaiheena Pipelinesissä voit nyt lisätä automaattisen harjoitusvaiheen (AutoMLStep) Pipelinesissä ja käynnistä Autopilot-kokeilu Yhdistelevä harjoitustila. Jos esimerkiksi rakennat koulutusta ja arviointia koskevaa ML-työnkulkua petosten havaitsemiseen liittyvää käyttötapausta varten Pipelinesin kanssa, voit nyt käynnistää Autopilot-kokeen käyttämällä AutoML-vaihetta, joka suorittaa automaattisesti useita kokeita löytääkseen parhaan mallin tietystä syötetietojoukosta. . Kun paras malli on luotu käyttämällä Mallin vaihe, sen suorituskykyä voidaan arvioida testitiedoilla käyttämällä Muutosvaihe ja Käsittelyvaihe mukautetulle arviointiskriptille Pipelinesissä. Lopulta malli voidaan rekisteröidä SageMaker-mallirekisteriin käyttämällä Mallin vaihe yhdessä a Kuntovaihe.

Tässä viestissä näytämme, kuinka luodaan päästä-päähän ML-työnkulku SageMakerin luoman ML-mallin kouluttamiseksi ja arvioimiseksi käyttämällä äskettäin käynnistettyä AutoML-vaihetta Pipelinesissa ja rekisteröi se SageMaker-mallirekisteriin. Parhaan suorituskyvyn omaava ML-malli voidaan ottaa käyttöön SageMaker-päätepisteessä.

Tietojoukon yleiskatsaus

Käytämme julkisesti saatavilla olevia UCI Adult 1994 Census Income -tietoaineisto ennustaa, onko henkilön vuositulot yli 50,000 50 dollaria vuodessa. Tämä on binäärinen luokitteluongelma; tulotavoitemuuttujan vaihtoehdot ovat joko XNUMX tk.

Tietojoukko sisältää 32,561 16,281 riviä koulutusta ja validointia varten ja 15 XNUMX riviä testausta varten, joissa kussakin on XNUMX saraketta. Tämä sisältää demografisia tietoja yksilöistä ja class tuloluokkaa osoittavana kohdesarakkeena.

Sarakkeen nimi	Kuvaus
ikä	Jatkuva
työluokka	Yksityinen, omavarainen, omavarainen, liittovaltion hallinto, paikallishallinto, osavaltion hallinto, ilman palkkaa, ei koskaan toiminut
fnlwgt	Jatkuva
koulutus	Kandidaat, Joku korkeakoulu, 11., HS-grad, Prof-koulu, Assoc-acdm, Assoc-voc, 9., 7.-8., 12., Maisteri, 1.-4., 10., Tohtori, 5.-6., Esikoulu
koulutus-numero	Jatkuva
Siviilisääty	Naimisissa oleva puoliso, eronnut, ei koskaan naimisissa, eronnut, leski, naimisissa oleva puoliso, poissa oleva puoliso, naimisissa oleva puoliso
ammatti	Tekninen tuki, askartelukorjaus, muu palvelu, myynti, johtaja, erikoisala, käsittelijät-siivoojat, koneen tarkastus, hallintovirkailija, maatalous-kalastus, kuljetus-muutto, yksityistalo, Suojelupalvelu, asevoimat
yhteys	Vaimo, Oma lapsi, Aviomies, Ei perheenjäsen, Muu sukulainen, Naimaton
rotu	Valkoinen, Aasian-Pac-Islander, Amer-Intian-Eskimo, Muu, Musta
sukupuoli	Nainen Mies
myyntivoitto	Jatkuva
pääomatappiota	Jatkuva
Tuntia viikossa	Jatkuva
Kotimaa	Yhdysvallat, Kambodža, Englanti, Puerto-Rico, Kanada, Saksa, ulkomaiset Yhdysvallat (Guam-USVI jne.), Intia, Japani, Kreikka, Etelä, Kiina, Kuuba, Iran, Honduras, Filippiinit, Italia, Puola, Jamaika , Vietnam, Meksiko, Portugali, Irlanti, Ranska, Dominikaaninen tasavalta, Laos, Ecuador, Taiwan, Haiti, Kolumbia, Unkari, Guatemala, Nicaragua, Skotlanti, Thaimaa, Jugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Alankomaat
luokka	Tuloluokka, joko 50 tk

Ratkaisun yleiskatsaus

Käytämme Pipelinejä erilaisten orkestrointiin putkilinjan vaiheet tarvitaan Autopilot-mallin kouluttamiseen. Luomme ja toteutamme an Autopilotin kokeilu osana tässä opetusohjelmassa kuvattua AutoML-vaihetta.

Seuraavat vaiheet vaaditaan tässä päästä-päähän Autopilotin koulutusprosessissa:

Luo ja seuraa Autopilot-harjoitustyötä käyttämällä AutoMLStep.
Luo SageMaker-malli käyttämällä ModelStep. Tämä vaihe hakee parhaan mallin metatiedot ja artefaktit, jotka Autopilot on renderöinyt edellisessä vaiheessa.
Arvioi koulutettu Autopilot-malli testitietojoukossa käyttämällä TransformStep.
Vertaa edellisen ajon tulosta TransformStep käyttäen todellisia kohdetunnisteita ProcessingStep.
Rekisteröi ML-malli SageMaker-mallirekisteri käyttämällä ModelStep, jos aiemmin saatu arviointimittari ylittää ennalta määritellyn kynnysarvon ConditionStep.
Ota ML-malli käyttöön SageMaker-päätepisteenä testaustarkoituksiin.

arkkitehtuuri

Alla oleva arkkitehtuurikaavio havainnollistaa eri prosessivaiheita, jotka ovat tarpeen kaikkien vaiheiden pakkaamiseksi toistettavaan, automatisoituun ja skaalautuvaan SageMaker Autopilot -koulutusputkilinjaan. Datatiedostot luetaan S3-ämpäristä ja liukuhihnan vaiheita kutsutaan peräkkäin.

Walkthrough

Tämä viesti tarjoaa yksityiskohtaisen selvityksen putkilinjan vaiheista. Tarkistamme koodin ja keskustelemme kunkin vaiheen osista. Jos haluat ottaa ratkaisun käyttöön, katso esimerkki muistikirja, joka sisältää vaiheittaiset ohjeet Autopilot MLOps -työnkulun toteuttamiseen putkistojen avulla.

Edellytykset

Täytä seuraavat edellytykset:

Kun tietojoukko on valmis käytettäväksi, meidän on määritettävä putkistot luomaan toistettava prosessi ML-mallien automaattista rakentamista ja kouluttamista varten Autopilotin avulla. Käytämme SageMaker SDK Ohjelmallisesti määritellä, suorittaa ja seurata päästä-päähän ML-koulutusputkia.

Putkilinjan vaiheet

Seuraavissa osioissa käymme läpi SageMaker-putkilinjan eri vaiheet, mukaan lukien AutoML-koulutuksen, mallin luomisen, eräpäätelmän, arvioinnin ja parhaan mallin ehdollisen rekisteröinnin. Seuraava kaavio havainnollistaa koko putkilinjan virtausta.

AutoML harjoitusvaihe

An AutoML-objekti käytetään määrittämään Autopilotin harjoitustyön ajo ja se voidaan lisätä SageMaker-putkistoon käyttämällä AutoMLStep luokkaa seuraavan koodin osoittamalla tavalla. Yhdistelmäharjoitustila on määritettävä, mutta muita parametreja voidaan säätää tarpeen mukaan. Esimerkiksi sen sijaan, että AutoML-työ päättelee ML:n automaattisesti ongelman tyyppi ja objektiivinen mittari, nämä voidaan koodata määrittämällä problem_type ja job_objective parametrit välitetään AutoML-objektille.

automl = AutoML(
    role=execution_role,
    target_attribute_name=target_attribute_name,
    sagemaker_session=pipeline_session,
    total_job_runtime_in_seconds=max_automl_runtime,
    mode="ENSEMBLING",
)
train_args = automl.fit(
    inputs=[
        AutoMLInput(
            inputs=s3_train_val,
            target_attribute_name=target_attribute_name,
            channel_type="training",
        )
    ]
)
step_auto_ml_training = AutoMLStep(
    name="AutoMLTrainingStep",
    step_args=train_args,
)

Mallin luomisvaihe

AutoML-vaihe huolehtii erilaisten ML-malliehdokkaiden generoimisesta, yhdistämisestä ja parhaan ML-mallin hankkimisesta. Mallin artefaktit ja metatiedot tallennetaan automaattisesti, ja ne voidaan saada soittamalla get_best_auto_ml_model() menetelmä AutoML-harjoitusvaiheessa. Näitä voidaan sitten käyttää SageMaker-mallin luomiseen osana mallivaihetta:

best_auto_ml_model = step_auto_ml_training.get_best_auto_ml_model(
    execution_role, sagemaker_session=pipeline_session
)
step_args_create_model = best_auto_ml_model.create(instance_type=instance_type)
step_create_model = ModelStep(name="ModelCreationStep", step_args=step_args_create_model)

Erämuunnos- ja arviointivaiheet

Käytämme Muuntaja esine varten eräpäätelmä testitietojoukossa, jota voidaan sitten käyttää arviointitarkoituksiin. Tulosennusteita verrataan todellisiin tai perustotuustunnisteisiin käyttämällä Scikit-learn-metriikkatoimintoa. Arvioimme tuloksiamme sen perusteella F1 pisteet. Suorituskykymittarit tallennetaan JSON-tiedostoon, johon viitataan, kun malli rekisteröidään seuraavassa vaiheessa.

Ehdolliset rekisteröintivaiheet

Tässä vaiheessa rekisteröimme uuden Autopilot-mallimme SageMaker-mallirekisteriin, jos se ylittää ennalta määritetyn arviointimittarin kynnyksen.

Luo ja suorita putki

Kun olemme määrittäneet vaiheet, yhdistämme ne SageMaker-putkistoon:

pipeline = Pipeline(
    name="AutoMLTrainingPipeline",
    parameters=[
        instance_count,
        instance_type,
        max_automl_runtime,
        model_approval_status,
        model_package_group_name,
        model_registration_metric_threshold,
        s3_bucket,
        target_attribute_name,
    ],
    steps=[
        step_auto_ml_training,
        step_create_model,
        step_batch_transform,
        step_evaluation,
        step_conditional_registration,
    ],
    sagemaker_session=pipeline_session,
)

Vaiheet suoritetaan peräkkäisessä järjestyksessä. Liukulinja suorittaa kaikki AutoML-työn vaiheet Autopilotin ja Pipelinesin avulla koulutusta, mallin arviointia ja mallin rekisteröintiä varten.

Voit tarkastella uutta mallia siirtymällä mallirekisteriin Studio-konsolissa ja avaamalla AutoMLModelPackageGroup. Valitse mikä tahansa koulutustyön versio nähdäksesi tavoitetiedot Mallin laatu Tab.

Voit tarkastella selitettävyysraporttia osoitteessa Selitettävyys -välilehteä ymmärtääksesi mallisi ennusteet.

Voit tarkastella kaikkien vuonna luotujen mallien taustalla olevaa Autopilot-kokeilua AutoMLStep, siirry kohtaan AutoML sivulle ja valitse työn nimi.

Ota käyttöön malli

Kun olemme tarkistaneet ML-mallin suorituskyvyn manuaalisesti, voimme ottaa käyttöön juuri luodun mallimme SageMaker-päätepisteessä. Tätä varten voimme ajaa muistikirjan solut, jotka luovat mallin päätepisteen käyttämällä SageMaker-mallirekisteriin tallennettua mallikonfiguraatiota.

Huomaa, että tämä komentosarja on jaettu esittelytarkoituksiin, mutta on suositeltavaa noudattaa vankempaa CI/CD-liukuhihnaa tuotantokäyttöön ML-päätelmien tekemiseksi. Lisätietoja on kohdassa ML-työnkulkujen luominen, automatisointi, hallinta ja skaalaus Amazon SageMaker Pipelinesin avulla.

Yhteenveto

Tässä viestissä kuvataan helppokäyttöinen ML-putkistotapa, jolla voit kouluttaa automaattisesti taulukkomuotoisia ML-malleja (AutoML) Autopilotin, Pipelinesin ja Studion avulla. AutoML parantaa ML-harjoittajien tehokkuutta ja nopeuttaa tietä ML-kokeilusta tuotantoon ilman laajaa ML-asiantuntemusta. Esittelemme ML-mallin luomiseen, arviointiin ja rekisteröintiin tarvittavat prosessivaiheet. Aloita kokeilemalla esimerkki muistikirja kouluttaa ja ottaa käyttöön omia mukautettuja AutoML-mallejasi.

Lisätietoja Autopilotista ja putkistosta on kohdassa Automatisoi mallin kehitys Amazon SageMaker Autopilotilla ja Amazon SageMaker -putkistot.

Erityiset kiitokset kaikille julkaisuun osallistuneille: Shenghua Yue, John He, Ao Guo, Xinlu Tu, Tian Qin, Yanda Hu, Zhankui Lu ja Dewen Qi.

Tietoja Tekijät

Janisha Anand on vanhempi tuotepäällikkö SageMaker Low/No Code ML -tiimissä, johon kuuluu SageMaker Autopilot. Hän nauttii kahvista, liikkumisesta ja perheen kanssa viettämisestä.

Marcelo Aberle on ML-insinööri AWS AI:ssa. Hän auttaa Amazon ML Solutions Lab asiakkaat rakentavat skaalautuvia ML(-Ops) -järjestelmiä ja -kehystä. Vapaa-ajallaan hän nauttii vaeltamisesta ja pyöräilystä San Franciscon lahden alueella.

Geremy Cohen on AWS-ratkaisuarkkitehti, jossa hän auttaa asiakkaita rakentamaan huippuluokan pilvipohjaisia ratkaisuja. Vapaa-ajallaan hän nauttii lyhyistä kävelyretkistä rannalla, tutustu lahden alueeseen perheensä kanssa, korjaa asiat talon ympäri, rikkoo talon ympärillä ja grillaa.

Shenghua Yue on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hän keskittyy ML-työkalujen ja -tuotteiden rakentamiseen asiakkaille. Työn ulkopuolella hän nauttii ulkoilusta, joogasta ja patikoinnista.