Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMakeri autopiloodiga – 2. osa

Sõltuvalt andmete kvaliteedist ja keerukusest kulutavad andmeteadlased andmete ettevalmistamise ülesannetele 45–80% oma ajast. See tähendab, et andmete ettevalmistamine ja puhastamine võtavad tegelikust andmeteaduslikust tööst väärtuslikku aega. Pärast seda, kui masinõppe (ML) mudel on ettevalmistatud andmetega koolitatud ja kasutuselevõtuks valmis, peavad andmeteadlased sageli ümber kirjutama andmete teisendusi, mida kasutatakse andmete ettevalmistamiseks ML-i järelduste tegemiseks. See võib pikendada aega, mis kulub kasuliku mudeli juurutamiseks, mis suudab järeldada ja hinnata andmeid selle töötlemata kuju ja vormi põhjal.

Selle seeria 1. osas näitasime, kuidas Data Wrangler võimaldab a ühtne andmete ettevalmistamine ja mudelikoolitus kogemus Amazon SageMakeri autopiloot vaid mõne klikiga. Selle seeria teises ja viimases osas keskendume funktsioonile, mis sisaldab ja taaskasutab Amazon SageMaker Data Wrangler teisendusi, nagu puuduvate väärtuste imputerid, järg- või ühekuumkoodrid ja palju muud, koos ML-i järelduste autopiloodi mudelitega. See funktsioon võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal, vähendades veelgi aega, mis kulub koolitatud mudeli kasutuselevõtuks tootmises.

Lahenduse ülevaade

Data Wrangler vähendab ML-i jaoks andmete koondamiseks ja ettevalmistamiseks kuluvat aega nädalatest minutiteni ning Autopilot koostab, treenib ja häälestab teie andmete põhjal automaatselt parimad ML-mudelid. Autopiloodi abil säilitate endiselt täieliku kontrolli ja nähtavuse oma andmete ja mudeli üle. Mõlemad teenused on loodud selleks, et muuta ML-praktikud tootlikumaks ja kiirendada väärtuse leidmise aega.

Järgmine diagramm illustreerib meie lahenduse arhitektuuri.

Eeldused

Kuna see postitus on kaheosalisest seeriast teine, veenduge, et olete selle läbi lugenud ja rakendanud Osa 1 enne jätkamist.

Eksportige ja treenige mudel

1. osas arutasime pärast andmete ettevalmistamist ML-i jaoks, kuidas kasutada Data Wrangleri integreeritud kogemust andmekogumite analüüsimiseks ja hõlpsasti kvaliteetsete ML-mudelite loomiseks Autopiloodis.

Seekord kasutame autopiloodi integratsiooni veel kord, et treenida mudelit sama koolitusandmestiku alusel, kuid hulgijäreldamise asemel teeme reaalajas järelduse Amazon SageMaker järelduse lõpp-punkt, mis luuakse meie jaoks automaatselt.

Lisaks automaatse lõpp-punkti juurutamise pakutavale mugavusele demonstreerime, kuidas saate juurutada ka kõigi Data Wrangleri funktsiooniteisendustega SageMakeri jadajärelduskonveierina. See võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal.

Pange tähele, et seda funktsiooni toetatakse praegu ainult Data Wrangleri voogude puhul, mis ei kasuta liitumise, rühmitamise alusel, konkateneerimise ega aegridade teisendusi.

Saame kasutada uut Data Wrangleri integratsiooni Autopilotiga, et treenida mudelit otse Data Wrangleri andmevoo kasutajaliidesest.

  1. Valige plussmärk kõrval Skaala väärtused sõlm ja valige Rongi mudel.
  2. eest Amazon S3 asukoht, täpsustage Amazoni lihtne salvestusteenus (Amazon S3) asukoht, kuhu SageMaker teie andmed ekspordib.
    Kui Data Wrangler kuvatakse vaikimisi juurkobarateega, loob see selle alla ainulaadse ekspordi alamkataloogi – te ei pea seda vaikimisi juurteed muutma, kui te seda ei soovi. Autopiloot kasutab seda asukohta mudeli automaatseks koolitamiseks, säästes teid aega, mis kulub alates Data Wrangleri voo väljundi asukoha määramisest ja seejärel Autopiloodi treeningandmete sisendkoha määramisest. See tagab sujuvama kogemuse.
  3. Vali Eksport ja koolitamine teisendatud andmete eksportimiseks Amazon S3-sse.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.
    Kui eksportimine õnnestub, suunatakse teid aadressile Looge autopiloodi katse leht, koos Sisendandmed S3 asukoht on teie eest juba täidetud (see on täidetud eelmise lehe tulemuste põhjal).
  4. eest Katse nimi, sisestage nimi (või säilitage vaikenimi).
  5. eest sihtmärk, vali Tulemus kui veerg, mida soovite ennustada.
  6. Vali Järgmine: Treeningmeetod.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.

Nagu postituses täpsemalt kirjeldatud Amazon SageMaker Autopilot on kuni kaheksa korda kiirem uue ansamblitreeningu režiimiga, mida toetab AutoGluon, võite lasta Autopiloodil valida treeningrežiimi automaatselt, lähtudes andmekogumi suurusest, või valida treeningrežiimi käsitsi kas komplekteerimiseks või hüperparameetrite optimeerimiseks (HPO).

Iga valiku üksikasjad on järgmised.

  • Auto – Autopiloot valib teie andmestiku suuruse põhjal automaatselt kas komplekteerimis- või HPO-režiimi. Kui teie andmestik on suurem kui 100 MB, valib Autopilot HPO; vastasel juhul valib see komplekteerimise.
  • Ansambeldamine – Autopiloot kasutab AutoGluon komplekteerimistehnika mitme baasmudeli treenimiseks ja kombineerib nende ennustused mudelite virnastamise abil optimaalseks ennustavaks mudeliks.
  • Hüperparameetrite optimeerimine – Autopiloot leiab mudeli parima versiooni, häälestades hüperparameetreid, kasutades Bayesi optimeerimistehnikat ja käivitades teie andmekogumis treeningtöid. HPO valib teie andmestiku jaoks kõige asjakohasemad algoritmid ja valib mudelite häälestamiseks parima valiku hüperparameetreid. Näiteks jätame vaikevaliku Auto.
  1. Vali Järgmine: juurutamine ja täpsemad seaded jätkama.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.
  2. Kohta Juurutamine ja täpsemad seaded lehel, valige juurutamise valik.
    Oluline on juurutusvõimalusi üksikasjalikumalt mõista; see, mida me valime, mõjutab seda, kas varem Data Wrangleris tehtud teisendused kaasatakse järelduste konveierisse või mitte:
    • Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega – Selle juurutamisvalikuga, kui valmistate ette andmed Data Wrangleris ja koolitate mudelit Autopiloodi abil, juurutatakse koolitatud mudel koos kõigi Data Wrangleri funktsiooniteisendustega. SageMaker jadajärelduskonveier. See võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal. Pange tähele, et järelduse lõpp-punkt eeldab, et teie andmete vorming on samas vormingus, mis siis, kui need imporditakse Data Wrangleri voogu.
    • Parima mudeli automaatne juurutamine ilma Data Wrangleri teisendusteta – See suvand juurutab reaalajas lõpp-punkti, mis ei kasuta Data Wrangleri teisendusi. Sel juhul peate enne järelduste tegemist oma andmetele rakendama Data Wrangleri voos määratletud teisendusi.
    • Ärge juurutage parimat mudelit automaatselt – Peaksite seda valikut kasutama, kui te ei soovi üldse järelduse lõpp-punkti luua. See on kasulik, kui soovite luua parima mudeli hilisemaks kasutamiseks, näiteks lokaalselt käivitatud hulgijärelduste tegemiseks. (See on juurutamissuvand, mille valisime seeria 1. osas.) Pange tähele, et kui valite selle suvandi, siis (Autopiloti parimast kandidaadist SageMakeri SDK kaudu) loodud mudel sisaldab Data Wrangleri funktsiooni SageMakeri jadajärelduskonveierina.

    Selle postituse jaoks kasutame Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega valik.

  3. eest Juurutamise võimalusvalige Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega.
  4. Jätke muud seaded vaikeseadeteks.
  5. Vali Järgmine: vaadake üle ja looge jätkama.
    Kohta Vaadake üle ja looge lehel näeme kokkuvõtet meie Autopiloodi katse jaoks valitud sätetest.
  6. Vali Loo katse mudeli loomise protsessi alustamiseks.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.

Teid suunatakse Autopiloodi töökirjelduse lehele. Mudelid näitavad Mudelid vahekaarti, kui need genereeritakse. Protsessi lõpuleviimise kinnitamiseks minge lehele Tööprofiil vahekaarti ja otsige üles a Completed väärtus olek valdkonnas.

Sellele Autopiloodi töökirjelduse lehele saate igal ajal naasta aadressilt Amazon SageMaker Studio:

  1. Vali Katsed ja katsed kohta SageMakeri ressursid rippmenüüst.
  2. Valige loodud Autopiloodi töö nimi.
  3. Valige (paremklõpsake) katse ja valige Kirjeldage AutoML-i tööd.

Vaadake koolitust ja kasutuselevõttu

Kui Autopilot katse lõpetab, saame vaadata koolituse tulemusi ja uurida parimat mudelit Autopiloodi töökirjelduse lehelt.

Valige (paremklõpsake) märgistatud mudel Parim mudelja vali Ava mudeli üksikasjades.

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.

. jõudlus vahekaardil kuvatakse mitu mudeli mõõtmistesti, sealhulgas segadusmaatriks, täpsus-/meenutuskõvera alune pindala (AUCPR) ja vastuvõtja töökarakteristiku kõvera alune ala (ROC). Need illustreerivad mudeli üldist valideerimise tulemuslikkust, kuid need ei ütle meile, kas mudel üldistab hästi. Peame siiski läbi viima nägematute katseandmete hindamise, et näha, kui täpselt mudel prognoosib (selle näite puhul ennustame, kas inimesel on diabeet).

Tehke järeldused reaalajas lõpp-punkti põhjal

Looge uus SageMakeri märkmik, et teha mudeli jõudluse hindamiseks reaalajas järeldusi. Valideerimiseks reaalajas järelduste tegemiseks sisestage märkmikusse järgmine kood:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Pärast koodi seadistamist märkmikus käitamiseks peate konfigureerima kaks muutujat.

  • endpoint_name
  • payload_str

Konfigureerige lõpp-punkti_nimi

endpoint_name tähistab reaalajas järelduse lõpp-punkti nime, mille juurutus meie jaoks automaatselt lõi. Enne selle määramist peame leidma selle nime.

  1. Vali Lõpp-punktid kohta SageMakeri ressursid rippmenüüst.
  2. Otsige üles lõpp-punkti nimi, millel on teie loodud Autopiloodi töö nimi, millele on lisatud juhuslik string.
  3. Valige (paremklõpsake) katse ja valige Kirjeldage lõpp-punkti.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.
    . Lõpp-punkti üksikasjad ilmub leht.
  4. Tõstke esile lõpp-punkti täielik nimi ja vajutage Ctrl + C selle lõikepuhvrisse kopeerimiseks.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.
  5. Sisestage see väärtus (veenduge, et see oleks noteeritud) jaoks endpoint_name järelduste vihikus.
    Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.

Payload_str

Sülearvutiga on kaasas vaikekoormuse string payload_str mida saate kasutada oma lõpp-punkti testimiseks, kuid võite vabalt katsetada erinevate väärtustega, näiteks oma testandmestiku väärtustega.

Väärtuste tõmbamiseks testandmestikust järgige juhiseid Osa 1 testandmestiku eksportimiseks Amazon S3-sse. Seejärel saate Amazon S3 konsoolil selle alla laadida ja valida read, et kasutada Amazon S3 faili.

Igal teie testandmestiku real on üheksa veergu, kusjuures viimane veerg on outcome väärtus. Veenduge, et selle märkmiku koodi puhul kasutaksite ainult ühte andmerida (mitte kunagi CSV päist). payload_str. Veenduge ka, et saadaksite ainult a payload_str kaheksa veeruga, kust olete tulemuse väärtuse eemaldanud.

Näiteks kui teie testandmestiku failid näevad välja nagu järgmine kood ja me tahame teha esimese rea reaalajas järelduse:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Me seadsime payload_str et 10,115,0,0,0,35.3,0.134,29. Pange tähele, kuidas me jätsime välja outcome väärtus 0 lõpus.

Kui teie andmestiku sihtväärtus ei ole juhuslikult esimene või viimane väärtus, eemaldage väärtus, mille koma struktuur on puutumata. Oletame näiteks, et ennustame riba ja meie andmestik näeb välja järgmise koodina:

foo,bar,foobar
85,17,20

Sel juhul määrame payload_str et 85,,20.

Kui sülearvutit käitatakse õigesti konfigureeritud seadmega payload_str ja endpoint_name väärtused, saate CSV-vastuse tagasi vormingus outcome (0 või 1), confidence (0-1).

Koristamine

Veendumaks, et pärast selle õpetuse täitmist ei võetaks õpetusega seotud tasusid, sulgege kindlasti rakendus Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), samuti kõik märkmiku eksemplarid, mida kasutatakse järeldustoimingute tegemiseks. Lisatasude vältimiseks tuleks kustutada ka Auto Piloti juurutamise kaudu loodud järeldusotsused.

Järeldus

Selles postituses demonstreerisime, kuidas integreerida andmetöötlust, inseneritööd ja mudelite loomist Data Wrangleri ja Autopiloti abil. Tuginedes sarja 1. osale, tõstsime esile, kuidas saate hõlpsasti treenida, häälestada ja rakendada mudelit reaalajas järelduse lõpp-punktis Autopilotiga otse Data Wrangleri kasutajaliidese kaudu. Lisaks automaatse lõpp-punkti juurutamise pakutavale mugavusele demonstreerisime, kuidas saate juurutada ka kõigi Data Wrangleri funktsiooniteisendustega SageMakeri jadajärelduskonveierina, mis tagab algandmete automaatse eeltöötluse, kasutades Data Wrangleri funktsiooniteisendusi järelduse tegemise aeg.

Madala koodiga ja AutoML-i lahendused, nagu Data Wrangler ja Autopilot, eemaldavad tugevate ML-mudelite loomiseks vajaduse sügavate kodeerimisteadmiste järele. Alustage Data Wrangleri kasutamist täna, et kogeda, kui lihtne on Autopiloti abil ML-mudeleid luua.


Autoritest

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.Geremy Cohen on AWS-i lahenduste arhitekt, kes aitab klientidel luua tipptasemel pilvepõhiseid lahendusi. Vabal ajal naudib ta lühikesi jalutuskäike rannas, perega lahe piirkonna avastamist, maja ümber asjade parandamist, maja ümber lõhkumist ja grillimist.

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.Pradeep Reddy on vanem tootejuht SageMaker Low/No Code ML meeskonnas, kuhu kuuluvad SageMaker Autopilot, SageMaker Automatic Model Tuner. Väljaspool tööd naudib Pradeep lugemist, jooksmist ja peopesasuuruste arvutitega, nagu raspberry pi, ja muud koduautomaatika tehnoloogiat.

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMaker Autopilotiga – PlatoBlockchain Data Intelligence 2. osa. Vertikaalne otsing. Ai.Dr John He on Amazon AI vanemtarkvaraarenduse insener, kus ta keskendub masinõppele ja hajutatud andmetöötlusele. Tal on CMU doktorikraad.

Ajatempel:

Veel alates AWS-i masinõpe