Sõltuvalt andmete kvaliteedist ja keerukusest kulutavad andmeteadlased andmete ettevalmistamise ülesannetele 45–80% oma ajast. See tähendab, et andmete ettevalmistamine ja puhastamine võtavad tegelikust andmeteaduslikust tööst väärtuslikku aega. Pärast seda, kui masinõppe (ML) mudel on ettevalmistatud andmetega koolitatud ja kasutuselevõtuks valmis, peavad andmeteadlased sageli ümber kirjutama andmete teisendusi, mida kasutatakse andmete ettevalmistamiseks ML-i järelduste tegemiseks. See võib pikendada aega, mis kulub kasuliku mudeli juurutamiseks, mis suudab järeldada ja hinnata andmeid selle töötlemata kuju ja vormi põhjal.
Selle seeria 1. osas näitasime, kuidas Data Wrangler võimaldab a ühtne andmete ettevalmistamine ja mudelikoolitus kogemus Amazon SageMakeri autopiloot vaid mõne klikiga. Selle seeria teises ja viimases osas keskendume funktsioonile, mis sisaldab ja taaskasutab Amazon SageMaker Data Wrangler teisendusi, nagu puuduvate väärtuste imputerid, järg- või ühekuumkoodrid ja palju muud, koos ML-i järelduste autopiloodi mudelitega. See funktsioon võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal, vähendades veelgi aega, mis kulub koolitatud mudeli kasutuselevõtuks tootmises.
Lahenduse ülevaade
Data Wrangler vähendab ML-i jaoks andmete koondamiseks ja ettevalmistamiseks kuluvat aega nädalatest minutiteni ning Autopilot koostab, treenib ja häälestab teie andmete põhjal automaatselt parimad ML-mudelid. Autopiloodi abil säilitate endiselt täieliku kontrolli ja nähtavuse oma andmete ja mudeli üle. Mõlemad teenused on loodud selleks, et muuta ML-praktikud tootlikumaks ja kiirendada väärtuse leidmise aega.
Järgmine diagramm illustreerib meie lahenduse arhitektuuri.
Eeldused
Kuna see postitus on kaheosalisest seeriast teine, veenduge, et olete selle läbi lugenud ja rakendanud Osa 1 enne jätkamist.
Eksportige ja treenige mudel
1. osas arutasime pärast andmete ettevalmistamist ML-i jaoks, kuidas kasutada Data Wrangleri integreeritud kogemust andmekogumite analüüsimiseks ja hõlpsasti kvaliteetsete ML-mudelite loomiseks Autopiloodis.
Seekord kasutame autopiloodi integratsiooni veel kord, et treenida mudelit sama koolitusandmestiku alusel, kuid hulgijäreldamise asemel teeme reaalajas järelduse Amazon SageMaker järelduse lõpp-punkt, mis luuakse meie jaoks automaatselt.
Lisaks automaatse lõpp-punkti juurutamise pakutavale mugavusele demonstreerime, kuidas saate juurutada ka kõigi Data Wrangleri funktsiooniteisendustega SageMakeri jadajärelduskonveierina. See võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal.
Pange tähele, et seda funktsiooni toetatakse praegu ainult Data Wrangleri voogude puhul, mis ei kasuta liitumise, rühmitamise alusel, konkateneerimise ega aegridade teisendusi.
Saame kasutada uut Data Wrangleri integratsiooni Autopilotiga, et treenida mudelit otse Data Wrangleri andmevoo kasutajaliidesest.
- Valige plussmärk kõrval Skaala väärtused sõlm ja valige Rongi mudel.
- eest Amazon S3 asukoht, täpsustage Amazoni lihtne salvestusteenus (Amazon S3) asukoht, kuhu SageMaker teie andmed ekspordib.
Kui Data Wrangler kuvatakse vaikimisi juurkobarateega, loob see selle alla ainulaadse ekspordi alamkataloogi – te ei pea seda vaikimisi juurteed muutma, kui te seda ei soovi. Autopiloot kasutab seda asukohta mudeli automaatseks koolitamiseks, säästes teid aega, mis kulub alates Data Wrangleri voo väljundi asukoha määramisest ja seejärel Autopiloodi treeningandmete sisendkoha määramisest. See tagab sujuvama kogemuse. - Vali Eksport ja koolitamine teisendatud andmete eksportimiseks Amazon S3-sse.
Kui eksportimine õnnestub, suunatakse teid aadressile Looge autopiloodi katse leht, koos Sisendandmed S3 asukoht on teie eest juba täidetud (see on täidetud eelmise lehe tulemuste põhjal). - eest Katse nimi, sisestage nimi (või säilitage vaikenimi).
- eest sihtmärk, vali Tulemus kui veerg, mida soovite ennustada.
- Vali Järgmine: Treeningmeetod.
Nagu postituses täpsemalt kirjeldatud Amazon SageMaker Autopilot on kuni kaheksa korda kiirem uue ansamblitreeningu režiimiga, mida toetab AutoGluon, võite lasta Autopiloodil valida treeningrežiimi automaatselt, lähtudes andmekogumi suurusest, või valida treeningrežiimi käsitsi kas komplekteerimiseks või hüperparameetrite optimeerimiseks (HPO).
Iga valiku üksikasjad on järgmised.
- Auto – Autopiloot valib teie andmestiku suuruse põhjal automaatselt kas komplekteerimis- või HPO-režiimi. Kui teie andmestik on suurem kui 100 MB, valib Autopilot HPO; vastasel juhul valib see komplekteerimise.
- Ansambeldamine – Autopiloot kasutab AutoGluon komplekteerimistehnika mitme baasmudeli treenimiseks ja kombineerib nende ennustused mudelite virnastamise abil optimaalseks ennustavaks mudeliks.
- Hüperparameetrite optimeerimine – Autopiloot leiab mudeli parima versiooni, häälestades hüperparameetreid, kasutades Bayesi optimeerimistehnikat ja käivitades teie andmekogumis treeningtöid. HPO valib teie andmestiku jaoks kõige asjakohasemad algoritmid ja valib mudelite häälestamiseks parima valiku hüperparameetreid. Näiteks jätame vaikevaliku Auto.
- Vali Järgmine: juurutamine ja täpsemad seaded jätkama.
- Kohta Juurutamine ja täpsemad seaded lehel, valige juurutamise valik.
Oluline on juurutusvõimalusi üksikasjalikumalt mõista; see, mida me valime, mõjutab seda, kas varem Data Wrangleris tehtud teisendused kaasatakse järelduste konveierisse või mitte:- Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega – Selle juurutamisvalikuga, kui valmistate ette andmed Data Wrangleris ja koolitate mudelit Autopiloodi abil, juurutatakse koolitatud mudel koos kõigi Data Wrangleri funktsiooniteisendustega. SageMaker jadajärelduskonveier. See võimaldab lähteandmete automaatset eeltöötlust koos Data Wrangleri funktsiooniteisenduste taaskasutamisega järelduse tegemise ajal. Pange tähele, et järelduse lõpp-punkt eeldab, et teie andmete vorming on samas vormingus, mis siis, kui need imporditakse Data Wrangleri voogu.
- Parima mudeli automaatne juurutamine ilma Data Wrangleri teisendusteta – See suvand juurutab reaalajas lõpp-punkti, mis ei kasuta Data Wrangleri teisendusi. Sel juhul peate enne järelduste tegemist oma andmetele rakendama Data Wrangleri voos määratletud teisendusi.
- Ärge juurutage parimat mudelit automaatselt – Peaksite seda valikut kasutama, kui te ei soovi üldse järelduse lõpp-punkti luua. See on kasulik, kui soovite luua parima mudeli hilisemaks kasutamiseks, näiteks lokaalselt käivitatud hulgijärelduste tegemiseks. (See on juurutamissuvand, mille valisime seeria 1. osas.) Pange tähele, et kui valite selle suvandi, siis (Autopiloti parimast kandidaadist SageMakeri SDK kaudu) loodud mudel sisaldab Data Wrangleri funktsiooni SageMakeri jadajärelduskonveierina.
Selle postituse jaoks kasutame Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega valik.
- eest Juurutamise võimalusvalige Parima mudeli automaatne juurutamine koos Data Wrangleri teisendustega.
- Jätke muud seaded vaikeseadeteks.
- Vali Järgmine: vaadake üle ja looge jätkama.
Kohta Vaadake üle ja looge lehel näeme kokkuvõtet meie Autopiloodi katse jaoks valitud sätetest. - Vali Loo katse mudeli loomise protsessi alustamiseks.
Teid suunatakse Autopiloodi töökirjelduse lehele. Mudelid näitavad Mudelid vahekaarti, kui need genereeritakse. Protsessi lõpuleviimise kinnitamiseks minge lehele Tööprofiil vahekaarti ja otsige üles a Completed
väärtus olek valdkonnas.
Sellele Autopiloodi töökirjelduse lehele saate igal ajal naasta aadressilt Amazon SageMaker Studio:
- Vali Katsed ja katsed kohta SageMakeri ressursid rippmenüüst.
- Valige loodud Autopiloodi töö nimi.
- Valige (paremklõpsake) katse ja valige Kirjeldage AutoML-i tööd.
Vaadake koolitust ja kasutuselevõttu
Kui Autopilot katse lõpetab, saame vaadata koolituse tulemusi ja uurida parimat mudelit Autopiloodi töökirjelduse lehelt.
Valige (paremklõpsake) märgistatud mudel Parim mudelja vali Ava mudeli üksikasjades.
. jõudlus vahekaardil kuvatakse mitu mudeli mõõtmistesti, sealhulgas segadusmaatriks, täpsus-/meenutuskõvera alune pindala (AUCPR) ja vastuvõtja töökarakteristiku kõvera alune ala (ROC). Need illustreerivad mudeli üldist valideerimise tulemuslikkust, kuid need ei ütle meile, kas mudel üldistab hästi. Peame siiski läbi viima nägematute katseandmete hindamise, et näha, kui täpselt mudel prognoosib (selle näite puhul ennustame, kas inimesel on diabeet).
Tehke järeldused reaalajas lõpp-punkti põhjal
Looge uus SageMakeri märkmik, et teha mudeli jõudluse hindamiseks reaalajas järeldusi. Valideerimiseks reaalajas järelduste tegemiseks sisestage märkmikusse järgmine kood:
Pärast koodi seadistamist märkmikus käitamiseks peate konfigureerima kaks muutujat.
endpoint_name
payload_str
Konfigureerige lõpp-punkti_nimi
endpoint_name
tähistab reaalajas järelduse lõpp-punkti nime, mille juurutus meie jaoks automaatselt lõi. Enne selle määramist peame leidma selle nime.
- Vali Lõpp-punktid kohta SageMakeri ressursid rippmenüüst.
- Otsige üles lõpp-punkti nimi, millel on teie loodud Autopiloodi töö nimi, millele on lisatud juhuslik string.
- Valige (paremklõpsake) katse ja valige Kirjeldage lõpp-punkti.
. Lõpp-punkti üksikasjad ilmub leht. - Tõstke esile lõpp-punkti täielik nimi ja vajutage Ctrl + C selle lõikepuhvrisse kopeerimiseks.
- Sisestage see väärtus (veenduge, et see oleks noteeritud) jaoks
endpoint_name
järelduste vihikus.
Payload_str
Sülearvutiga on kaasas vaikekoormuse string payload_str
mida saate kasutada oma lõpp-punkti testimiseks, kuid võite vabalt katsetada erinevate väärtustega, näiteks oma testandmestiku väärtustega.
Väärtuste tõmbamiseks testandmestikust järgige juhiseid Osa 1 testandmestiku eksportimiseks Amazon S3-sse. Seejärel saate Amazon S3 konsoolil selle alla laadida ja valida read, et kasutada Amazon S3 faili.
Igal teie testandmestiku real on üheksa veergu, kusjuures viimane veerg on outcome
väärtus. Veenduge, et selle märkmiku koodi puhul kasutaksite ainult ühte andmerida (mitte kunagi CSV päist). payload_str
. Veenduge ka, et saadaksite ainult a payload_str
kaheksa veeruga, kust olete tulemuse väärtuse eemaldanud.
Näiteks kui teie testandmestiku failid näevad välja nagu järgmine kood ja me tahame teha esimese rea reaalajas järelduse:
Me seadsime payload_str
et 10,115,0,0,0,35.3,0.134,29
. Pange tähele, kuidas me jätsime välja outcome
väärtus 0
lõpus.
Kui teie andmestiku sihtväärtus ei ole juhuslikult esimene või viimane väärtus, eemaldage väärtus, mille koma struktuur on puutumata. Oletame näiteks, et ennustame riba ja meie andmestik näeb välja järgmise koodina:
Sel juhul määrame payload_str
et 85,,20
.
Kui sülearvutit käitatakse õigesti konfigureeritud seadmega payload_str
ja endpoint_name
väärtused, saate CSV-vastuse tagasi vormingus outcome
(0 või 1), confidence
(0-1).
Koristamine
Veendumaks, et pärast selle õpetuse täitmist ei võetaks õpetusega seotud tasusid, sulgege kindlasti rakendus Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), samuti kõik märkmiku eksemplarid, mida kasutatakse järeldustoimingute tegemiseks. Lisatasude vältimiseks tuleks kustutada ka Auto Piloti juurutamise kaudu loodud järeldusotsused.
Järeldus
Selles postituses demonstreerisime, kuidas integreerida andmetöötlust, inseneritööd ja mudelite loomist Data Wrangleri ja Autopiloti abil. Tuginedes sarja 1. osale, tõstsime esile, kuidas saate hõlpsasti treenida, häälestada ja rakendada mudelit reaalajas järelduse lõpp-punktis Autopilotiga otse Data Wrangleri kasutajaliidese kaudu. Lisaks automaatse lõpp-punkti juurutamise pakutavale mugavusele demonstreerisime, kuidas saate juurutada ka kõigi Data Wrangleri funktsiooniteisendustega SageMakeri jadajärelduskonveierina, mis tagab algandmete automaatse eeltöötluse, kasutades Data Wrangleri funktsiooniteisendusi järelduse tegemise aeg.
Madala koodiga ja AutoML-i lahendused, nagu Data Wrangler ja Autopilot, eemaldavad tugevate ML-mudelite loomiseks vajaduse sügavate kodeerimisteadmiste järele. Alustage Data Wrangleri kasutamist täna, et kogeda, kui lihtne on Autopiloti abil ML-mudeleid luua.
Autoritest
Geremy Cohen on AWS-i lahenduste arhitekt, kes aitab klientidel luua tipptasemel pilvepõhiseid lahendusi. Vabal ajal naudib ta lühikesi jalutuskäike rannas, perega lahe piirkonna avastamist, maja ümber asjade parandamist, maja ümber lõhkumist ja grillimist.
Pradeep Reddy on vanem tootejuht SageMaker Low/No Code ML meeskonnas, kuhu kuuluvad SageMaker Autopilot, SageMaker Automatic Model Tuner. Väljaspool tööd naudib Pradeep lugemist, jooksmist ja peopesasuuruste arvutitega, nagu raspberry pi, ja muud koduautomaatika tehnoloogiat.
Dr John He on Amazon AI vanemtarkvaraarenduse insener, kus ta keskendub masinõppele ja hajutatud andmetöötlusele. Tal on CMU doktorikraad.
- AI
- ai kunst
- ai kunsti generaator
- on robot
- Amazon SageMaker
- Amazon SageMakeri autopiloot
- Amazon SageMaker Data Wrangler
- tehisintellekti
- tehisintellekti sertifikaat
- tehisintellekt panganduses
- tehisintellekti robot
- tehisintellekti robotid
- tehisintellekti tarkvara
- AWS-i masinõpe
- blockchain
- plokiahela konverents ai
- coingenius
- vestluslik tehisintellekt
- krüptokonverents ai
- dall's
- sügav õpe
- google ai
- masinõpe
- Platon
- plato ai
- Platoni andmete intelligentsus
- Platoni mäng
- PlatoData
- platogaming
- skaala ai
- süntaks
- sephyrnet