Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2

Datan laadusta ja monimutkaisuudesta riippuen datatieteilijät käyttävät 45–80 % ajastaan ​​tietojen valmistelutehtäviin. Tämä tarkoittaa, että tietojen valmistelu ja puhdistaminen vievät arvokasta aikaa varsinaisesta datatieteen työstä. Kun koneoppimismalli (ML) on koulutettu valmiilla tiedoilla ja valmis käyttöön, datatieteilijöiden on usein kirjoitettava uudelleen datamuunnokset, joita käytetään tietojen valmisteluun ML-päätelmiä varten. Tämä saattaa venyttää aikaa, joka kuluu sellaisen hyödyllisen mallin käyttöönottoon, joka voi päätellä ja pisteyttää tiedot raakamuodostaan ​​ja -muodostaan.

Tämän sarjan osassa 1 osoitimme, kuinka Data Wrangler mahdollistaa a yhtenäinen tietojen valmistelu ja mallikoulutus kokemusta Amazon SageMaker -autopilotti muutamalla napsautuksella. Tässä sarjan toisessa ja viimeisessä osassa keskitymme ominaisuuteen, joka sisältää ja käyttää uudelleen Amazon SageMaker Data Wrangler muunnoksia, kuten puuttuvien arvojen imputoreita, ordinaal- tai one-hot-enkooderit ja paljon muuta, sekä ML-päätelmien Autopilot-mallit. Tämä ominaisuus mahdollistaa raakadatan automaattisen esikäsittelyn käyttämällä Data Wrangler -ominaisuuden muunnoksia uudelleen päättelyhetkellä, mikä vähentää entisestään aikaa, joka tarvitaan koulutetun mallin käyttöönottoon tuotantoon.

Ratkaisun yleiskatsaus

Data Wrangler vähentää tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin, ja Autopilot rakentaa, kouluttaa ja virittää automaattisesti parhaat ML-mallit tietosi perusteella. Autopilotin avulla säilytät edelleen täysin tietosi ja mallisi hallinnan ja näkyvyyden. Molemmat palvelut on suunniteltu tekemään ML:n harjoittajista tuottavampia ja nopeuttamaan arvon hankkimista.

Seuraava kaavio kuvaa ratkaisuarkkitehtuuriamme.

Edellytykset

Koska tämä viesti on toinen kaksiosaisesta sarjasta, varmista, että olet lukenut ja toteuttanut onnistuneesti Osa 1 ennen kuin jatkat.

Vie ja kouluta malli

Osassa 1, ML:n tietojen valmistelun jälkeen, keskustelimme siitä, kuinka voit käyttää Data Wranglerin integroitua kokemusta datajoukkojen analysointiin ja laadukkaiden ML-mallien rakentamiseen helposti Autopilotissa.

Tällä kertaa käytämme Autopilot-integraatiota mallin harjoittamiseen samaa koulutustietojoukkoa vasten, mutta sen sijaan, että tekisimme joukkopäätelmiä, teemme reaaliaikaisen päättelyn. Amazon Sage Maker päätelmäpäätepiste, joka luodaan automaattisesti meille.

Automaattisen päätepisteen käyttöönoton tarjoaman mukavuuden lisäksi esittelemme, kuinka voit myös ottaa käyttöön kaikki Data Wrangler -ominaisuusmuunnokset SageMaker-sarjapäätelmäliukuhihnana. Tämä mahdollistaa raakatietojen automaattisen esikäsittelyn käyttämällä Data Wrangler -ominaisuuden muunnoksia uudelleen päättelyhetkellä.

Huomaa, että tätä ominaisuutta tuetaan tällä hetkellä vain Data Wrangler -virroissa, jotka eivät käytä liitos-, ryhmittely-, ketjutus- ja aikasarjamuunnoksia.

Voimme käyttää uutta Data Wrangler -integraatiota Autopilotin kanssa mallin kouluttamiseen suoraan Data Wrangler -tietovirran käyttöliittymästä.

  1. Valitse plusmerkki vierestä Skaalausarvot solmu ja valitse Junamalli.
  2. varten Amazon S3 sijainti, määritä Amazonin yksinkertainen tallennuspalvelu (Amazon S3) sijainti, johon SageMaker vie tietosi.
    Jos Data Wranglerilla on oletusarvoisesti juuriryhmäpolku, se luo ainutlaatuisen viennin alihakemiston sen alle – sinun ei tarvitse muokata tätä oletusjuuripolkua, ellet halua. Autopilot käyttää tätä sijaintia mallin automaattiseen kouluttamiseen, mikä säästää sinua. aika siitä, kun on määritettävä Data Wrangler -virran lähtöpaikka ja sitten määritettävä Autopilotin harjoitustietojen syöttösijainti. Tämä tekee kokemuksesta saumattomamman.
  3. Valita Vienti ja juna viedä muunnetut tiedot Amazon S3:een.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Kun vienti onnistuu, sinut ohjataan osoitteeseen Luo Autopilot-kokeilu sivu, jossa Syöttötiedot S3-sijainti on jo täytetty puolestasi (se täytettiin edellisen sivun tuloksista).
  4. varten Kokeilun nimi, anna nimi (tai säilytä oletusnimi).
  5. varten Kohde, valitse Tulos sarakkeena, jonka haluat ennustaa.
  6. Valita Seuraava: Koulutusmenetelmä.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kuten postauksessa on kuvattu Amazon SageMaker Autopilot on jopa kahdeksan kertaa nopeampi uudella, AutoGluonilla toimivalla ensemble-harjoitustilalla, voit joko antaa Autopilotin valita harjoitustilan automaattisesti tietojoukon koon perusteella tai valita harjoitustilan manuaalisesti joko yhdistelmää tai hyperparametrien optimointia (HPO) varten.

Kunkin vaihtoehdon tiedot ovat seuraavat:

  • auto – Autopilotti valitsee automaattisesti joko yhdistelmä- tai HPO-tilan tietojoukkosi koon perusteella. Jos tietojoukkosi on suurempi kuin 100 Mt, Autopilot valitsee HPO; muuten se valitsee kokoonpanon.
  • Kokoonpano – Autopilotti käyttää AutoGluon Ensembling-tekniikka kouluttaa useita perusmalleja ja yhdistää niiden ennusteet käyttämällä mallien pinoamista optimaaliseksi ennustavaksi malliksi.
  • Hyperparametrien optimointi – Autopilotti löytää mallin parhaan version säätämällä hyperparametreja Bayesin optimointitekniikalla ja suorittamalla koulutustöitä tietojoukossasi. HPO valitsee tietojoukkosi kannalta oleellisimmat algoritmit ja valitsee parhaan valikoiman hyperparametreja mallien virittämiseksi. Esimerkissämme jätämme oletusvalinnan auto.
  1. Valita Seuraavaksi: Käyttöönotto ja lisäasetukset jatkaa.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  2. On Käyttöönotto ja lisäasetukset -sivulla, valitse käyttöönottovaihtoehto.
    On tärkeää ymmärtää käyttöönottovaihtoehdot yksityiskohtaisemmin; se, mitä valitsemme, vaikuttaa siihen, sisällytetäänkö aiemmin Data Wranglerissa tekemämme muunnokset päättelyputkeen:
    • Ota automaattisesti käyttöön paras malli Data Wranglerin muunnoksilla – Tämän käyttöönottovaihtoehdon avulla, kun valmistelet tietoja Data Wranglerissa ja koulutat mallia Autopilotin avulla, koulutettu malli otetaan käyttöön kaikkien Data Wrangler -ominaisuusmuunnosten rinnalla. SageMaker-sarjapäätelmäputki. Tämä mahdollistaa raakatietojen automaattisen esikäsittelyn käyttämällä Data Wrangler -ominaisuuden muunnoksia uudelleen päättelyhetkellä. Huomaa, että päättelypäätepiste odottaa tietojesi muodon olevan samassa muodossa kuin silloin, kun ne tuodaan Data Wrangler -virtaan.
    • Ota paras malli käyttöön automaattisesti ilman Data Wranglerin muunnoksia – Tämä vaihtoehto ottaa käyttöön reaaliaikaisen päätepisteen, joka ei käytä Data Wrangler -muunnoksia. Tässä tapauksessa sinun on sovellettava Data Wrangler -virtauksessa määritettyjä muunnoksia tietoihisi ennen päättelyä.
    • Älä ota automaattisesti käyttöön parasta mallia – Käytä tätä vaihtoehtoa, kun et halua luoda päätelmäpäätepistettä ollenkaan. Se on hyödyllinen, jos haluat luoda parhaan mallin myöhempää käyttöä varten, kuten paikallisesti suoritettavan joukkopäätelmän. (Tämä on käyttöönottovaihtoehto, jonka valitsimme sarjan osassa 1.) Huomaa, että kun valitset tämän vaihtoehdon, luotu malli (Autopilotin parhaalta ehdokkaalta SageMaker SDK:n kautta) sisältää Data Wrangler -ominaisuuden, joka muuntuu SageMakerin sarjapäätelmäliukuhihnaksi.

    Tähän viestiin käytämme Ota automaattisesti käyttöön paras malli Data Wranglerin muunnoksilla vaihtoehto.

  3. varten Käyttöönottovaihtoehtovalitse Ota automaattisesti käyttöön paras malli Data Wranglerin muunnoksilla.
  4. Jätä muut asetukset oletusarvoiksi.
  5. Valita Seuraavaksi: Tarkista ja luo jatkaa.
    On Tarkista ja luo -sivulla näemme yhteenvedon Autopilot-kokeilua varten valituista asetuksista.
  6. Valita Luo kokeilu aloittaaksesi mallin luomisprosessin.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Sinut ohjataan Autopilotin työnkuvaussivulle. Mallit näkyvät Mallit -välilehti, kun ne luodaan. Varmista, että prosessi on valmis, siirry kohtaan Työprofiili -välilehti ja etsi a Completed arvo Tila ala.

Voit palata tälle Autopilotin työnkuvaussivulle milloin tahansa osoitteesta Amazon SageMaker Studio:

  1. Valita Kokeilut ja kokeet på den SageMaker-resurssit pudotusvalikosta.
  2. Valitse luomasi Autopilot-työn nimi.
  3. Valitse (klikkaa hiiren oikealla painikkeella) kokeilu ja valitse Kuvaile AutoML-työtä.

Katso koulutus ja käyttöönotto

Kun Autopilot suorittaa kokeen, voimme tarkastella koulutustuloksia ja tutkia parasta mallia Autopilotin työnkuvaussivulta.

Valitse (napsauta hiiren kakkospainikkeella) merkitty malli Paras malli, ja valitse Avaa mallitiedot.

Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

- Suorituskyky -välilehti näyttää useita mallimittaustestejä, mukaan lukien sekavuusmatriisi, tarkkuus-/palautuskäyrän alla oleva alue (AUCPR) ja vastaanottimen toimintakäyrän alla oleva alue (ROC). Nämä kuvaavat mallin yleistä validointisuoritusta, mutta ne eivät kerro meille, yleistyykö malli hyvin. Meidän on silti suoritettava arviointeja näkymättömille testitiedoille nähdäksemme, kuinka tarkasti malli tekee ennusteita (tässä esimerkissä ennustamme, onko henkilöllä diabetes).

Suorita johtopäätös reaaliaikaista päätepistettä vastaan

Luo uusi SageMaker-muistikirja tehdäksesi reaaliaikaisia ​​päätelmiä mallin suorituskyvyn arvioimiseksi. Syötä seuraava koodi muistikirjaan suorittaaksesi reaaliaikaisen päättelyn vahvistusta varten:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Kun olet määrittänyt koodin toimimaan muistikirjassasi, sinun on määritettävä kaksi muuttujaa:

  • endpoint_name
  • payload_str

Määritä päätepisteen_nimi

endpoint_name edustaa meille automaattisesti luoman reaaliaikaisen päättelypäätepisteen nimeä. Ennen kuin asetamme sen, meidän on löydettävä sen nimi.

  1. Valita Endpoints på den SageMaker-resurssit pudotusvalikosta.
  2. Paikanna sen päätepisteen nimi, jossa on luomasi Autopilot-työn nimi, johon on liitetty satunnainen merkkijono.
  3. Valitse (napsauta hiiren oikealla painikkeella) kokeilu ja valitse Kuvaile päätepistettä.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    - Päätepisteen tiedot -sivu tulee näkyviin.
  4. Korosta koko päätepisteen nimi ja paina Ctrl + C kopioidaksesi sen leikepöydälle.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  5. Syötä tämä arvo (varmista, että se lainataan) kohteelle endpoint_name päättelymuistikirjassa.
    Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Määritä payload_str

Muistikirjan mukana tulee oletusarvoinen kuormamerkkijono payload_str joita voit käyttää päätepisteesi testaamiseen, mutta voit kokeilla erilaisia ​​arvoja, kuten testitietojoukostasi.

Voit hakea arvoja testitietojoukosta noudattamalla kohdassa olevia ohjeita Osa 1 viedäksesi testitietojoukon Amazon S3:een. Sitten voit ladata sen Amazon S3 -konsolissa ja valita rivit, joilla haluat käyttää tiedostoa Amazon S3:sta.

Jokaisella testitietojoukon rivillä on yhdeksän saraketta, joista viimeinen on outcome arvo. Varmista, että käytät tässä muistikirjan koodissa vain yhtä tietoriviä (ei koskaan CSV-otsikkoa). payload_str. Varmista myös, että lähetät vain a payload_str kahdeksalla sarakkeella, josta olet poistanut tulosarvon.

Jos esimerkiksi testidatatiedostosi näyttävät seuraavalta koodilta ja haluamme tehdä ensimmäisen rivin reaaliaikaisen päättelyn:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Asetamme payload_str että 10,115,0,0,0,35.3,0.134,29. Huomaa, kuinka jätimme pois outcome arvo 0 lopussa.

Jos tietojoukkosi tavoitearvo vahingossa ei ole ensimmäinen tai viimeinen arvo, poista arvo niin, että pilkkurakenne on ennallaan. Oletetaan esimerkiksi, että ennustamme palkkia ja tietojoukkomme näyttää seuraavalta koodilta:

foo,bar,foobar
85,17,20

Tässä tapauksessa asetamme payload_str että 85,,20.

Kun kannettavaa tietokonetta käytetään oikein määritetyllä payload_str ja endpoint_name arvot, saat CSV-vastauksen takaisin muodossa outcome (0 tai 1), confidence (0-1).

Siivota

Varmistaaksesi, että sinulle ei aiheudu opetusohjelmaan liittyviä kuluja tämän opetusohjelman suorittamisen jälkeen, muista sammuttaa Data Wrangler -sovellus (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), sekä kaikki muistikirjan ilmentymät, joita käytetään päättelytehtävien suorittamiseen. Auto Pilotin käyttöönoton kautta luodut päätepäätepisteet tulee poistaa myös lisäkulujen estämiseksi.

Yhteenveto

Tässä viestissä osoitimme, kuinka integroitat tietojenkäsittelysi, sisältäen suunnittelun ja mallinrakennuksen Data Wranglerin ja Autopilotin avulla. Sarjan osan 1 pohjalta korostimme, kuinka voit helposti kouluttaa, virittää ja ottaa mallin käyttöön reaaliaikaisessa päätepisteessä Autopilotin avulla suoraan Data Wrangler -käyttöliittymästä. Automaattisen päätepisteen käyttöönoton tarjoaman mukavuuden lisäksi osoitimme, kuinka voit myös ottaa käyttöön kaikki Data Wrangler -ominaisuusmuunnokset SageMaker-sarjapäätelmäputkena, joka mahdollistaa raakatietojen automaattisen esikäsittelyn käyttämällä Data Wrangler -ominaisuusmuunnoksia uudelleen päättelyn aika.

Matalakoodi- ja AutoML-ratkaisut, kuten Data Wrangler ja Autopilot, poistavat tarpeen hankkia syvällistä koodaustietoa kestävien ML-mallien rakentamiseen. Aloita Data Wranglerin käyttö tänään kokea, kuinka helppoa on rakentaa ML-malleja Autopilotin avulla.


Tietoja kirjoittajista

Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Geremy Cohen on AWS-ratkaisuarkkitehti, jossa hän auttaa asiakkaita rakentamaan huippuluokan pilvipohjaisia ​​ratkaisuja. Vapaa-ajallaan hän nauttii lyhyistä kävelyretkistä rannalla, tutustu lahden alueeseen perheensä kanssa, korjaa asiat talon ympäri, rikkoo talon ympärillä ja grillaa.

Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Pradeep Reddy on vanhempi tuotepäällikkö SageMaker Low/No Code ML -tiimissä, johon kuuluvat SageMaker Autopilot, SageMaker Automatic Model Tuner. Työn ulkopuolella Pradeep nauttii lukemisesta, juoksemisesta ja ulkoilusta kämmenkokoisten tietokoneiden, kuten Raspberry pi:n, ja muun kodin automaatiotekniikan parissa.

Yhtenäinen tietojen valmistelu, mallikoulutus ja käyttöönotto Amazon SageMaker Data Wranglerin ja Amazon SageMaker Autopilotin kanssa – Osa 2 PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Tohtori John He on vanhempi ohjelmistokehitysinsinööri Amazon AI:ssä, jossa hän keskittyy koneoppimiseen ja hajautettuun tietojenkäsittelyyn. Hän on suorittanut tohtorin tutkinnon CMU:sta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen