Amazon SageMaker on täielikult hallatav masinõppe (ML) teenus. SageMakeriga saavad andmeteadlased ja arendajad kiiresti ja lihtsalt luua ja koolitada ML-mudeleid ning seejärel juurutada need otse tootmisvalmis hostitud keskkonda. Sagemaker pakub integreeritud Jupyteri loomismärkmiku eksemplari, mis võimaldab hõlpsalt juurdepääsu teie andmeallikatele uurimiseks ja analüüsimiseks, nii et te ei pea servereid haldama. See pakub ka levinud ML-algoritme, mis on optimeeritud töötama tõhusalt hajutatud keskkonnas ülimahukate andmete vastu.
SageMaker nõuab, et ML-mudeli treeningandmed oleksid olemas Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) või Amazon FSx for Luster (lisateabe saamiseks vaadake Access Training Data). Mudeli koolitamiseks, kasutades väljaspool kolme toetatud salvestusteenust salvestatud andmeid, tuleb andmed esmalt sisestada ühte neist teenustest (tavaliselt Amazon S3). Selleks on vaja luua andmekonveier (kasutades selliseid tööriistu nagu Amazon SageMaker Data Wrangler) andmete teisaldamiseks Amazon S3-sse. See lähenemine võib aga tekitada andmehalduse väljakutse seoses selle andmesalvestusmeediumi elutsükli haldamisega, juurdepääsu juhtelementide loomisega, andmete auditeerimisega ja muuga – seda kõike selleks, et kogu koolitustöö ajaks lavastada koolitusandmeid. Sellistes olukordades võib olla soovitav, et SageMakerile pääseksid ligi lühiajaliste salvestusmeediumite andmed, mis on ühendatud lühiajaliste koolituseksemplaridega, ilma andmete vahepealse salvestamiseta Amazon S3-s.
See postitus näitab, kuidas seda teha Lumehelves andmeallikana ja laadides andmed otse Snowflake'ist alla SageMaker Trainingi tööeksemplari.
Lahenduse ülevaade
Me kasutame California elamumajanduse andmekogum selle postituse koolitusandmete kogumina ja treenige ML-mudelit, et ennustada iga linnaosa keskmist majaväärtust. Lisame need andmed Snowflake'i uue tabelina. Loome kohandatud treeningkonteineri, mis laadib andmed otse Snowflake'i tabelist treeningeksemplari alla, mitte ei laadi andmeid esmalt alla S3 ämbrisse. Pärast andmete koolituseksemplari allalaadimist täidab kohandatud treeningskript andmete ettevalmistamise ülesandeid ja treenib seejärel ML-mudelit, kasutades XGBoost hindaja. Kogu selle postituse kood on saadaval aadressil GitHub repo.
Järgmine joonis kujutab pakutud lahenduse kõrgetasemelist arhitektuuri, et kasutada Snowflake'i andmeallikana ML-mudelite koolitamiseks SageMakeriga.
Töövoo etapid on järgmised.
- Seadistage SageMakeri märkmik ja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli koos asjakohaste lubadega, et võimaldada SageMakerile juurdepääsu Amazoni elastsete konteinerite register (Amazon ECR), Secrets Manager ja muud teie AWS-i konto teenused.
- Salvestage oma Snowflake'i konto mandaadid AWS-i saladuste halduris.
- Sisestage andmed oma Snowflake'i konto tabelisse.
- Looge ML-mudeli koolituse jaoks kohandatud konteineri pilt ja lükake see Amazon ECR-i.
- ML-mudeli koolitamiseks käivitage SageMakeri koolitustöö. Koolituse eksemplar hangib Snowflake'i mandaadid Secrets Managerist ja kasutab neid mandaate andmestiku otse Snowflake'ist allalaadimiseks. See on samm, mis välistab vajaduse andmete esmakordseks allalaadimiseks S3 ämbrisse.
- Treenitud ML-mudelit hoitakse S3 ämbris.
Eeldused
Selles postituses pakutava lahenduse rakendamiseks peaks teil olema AWS-i kontoon Lumehelbe konto ja SageMakeri tundmine.
Seadistage SageMakeri märkmik ja IAM-i roll
Kasutame AWS CloudFormationit, et luua SageMakeri märkmik nimega aws-aiml-blogpost-sagemaker-snowflake-example
ja IAM-i roll nimega SageMakerSnowFlakeExample
. Valima Käivitage Stack piirkonna jaoks, kuhu soovite ressursse kasutada.
Salvestage Snowflake'i mandaadid Secrets Manageris
Salvestage oma Snowflake'i mandaadid saladusena saladuste halduris. Juhised saladuse loomise kohta leiate aadressilt Create an AWS Secrets Manager secret
.
- Nimetage saladus
snowflake_credentials
. See on vajalik, kuna kood on seessnowflake-load-dataset.ipynb
loodab, et saladust nii nimetatakse. - Looge saladus võtme-väärtuse paarina kahe võtmega:
- kasutajanimi - teie Snowflake'i kasutajanimi.
- parool – Teie Snowflake’i kasutajanimega seotud parool.
Sisestage andmed oma Snowflake'i konto tabelisse
Andmete allaneelamiseks toimige järgmiselt.
- Valige SageMakeri konsoolil Sülearvutid navigeerimispaanil.
- Valige märkmik aws-aiml-blogpost-sagemaker-snowflake-example ja valige Avage JupyterLab.
- Vali
snowflake-load-dataset.ipynb
selle avamiseks JupyterLabis. See märkmik neelab alla California elamumajanduse andmekogum lumehelbe lauale. - Muutke märkmikus järgmise lahtri sisu, et asendada kohatäite väärtused teie lumehelbekontole vastavaga:
- Valige menüüst Käivita Käivitage kõik rakud koodi käivitamiseks selles märkmikus. See laadib andmestiku kohalikult sülearvutisse alla ja sisestab selle seejärel Snowflake tabelisse.
Järgmine märkmikus olev koodilõik neelab andmestiku Snowflake'i. Vaadake snowflake-load-dataset.ipynb
märkmik täiskoodi jaoks.
- Sulgege märkmik pärast seda, kui kõik lahtrid on tõrgeteta jooksnud. Teie andmed on nüüd saadaval Snowflake'is. Järgmine ekraanipilt näitab
california_housing
Lumehelbekeses loodud tabel.
Käivita sagemaker-snowflake-example.ipynb
märkmik
See sülearvuti loob kohandatud treeningkonteineri koos Snowflake'i ühendusega, eraldab andmed Snowflake'ist koolituseksemplari lühiajalisse salvestusruumi ilma neid Amazon S3-s lavastamata ja teostab andmetele hajutatud andmete paralleelse (DDP) XGBoost mudeli koolituse. Nii väikese andmestiku mudelitreeninguks pole DDP-koolitus vajalik; see on siin lisatud veel ühe hiljuti välja antud SageMakeri funktsiooni illustreerimiseks.
Looge koolituse jaoks kohandatud konteiner
Nüüd loome ML-mudeli koolitustöö jaoks kohandatud konteineri. Pange tähele, et Dockeri konteineri loomiseks on vaja juurjuurdepääsu. See SageMakeri märkmik juurutati juurjuurdepääsuga. Kui teie ettevõtte organisatsiooni poliitikad ei võimalda juurjuurdepääsu pilveressurssidele, võite kasutada järgmisi Dockeri faili ja kestaskripte, et luua Dockeri konteiner mujal (näiteks sülearvutis) ja seejärel lükata see Amazon ECR-i. Konteinerit kasutame SageMaker XGBoost konteineri pildil 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1
järgmiste täiendustega:
- . Snowflake Connector Pythoni jaoks andmete allalaadimiseks tabelist Snowflake koolituseksemplari.
- Pythoni skript, mis loob ühenduse saladuste halduriga, et hankida Snowflake'i mandaadid.
Lumehelbe konnektori ja Pythoni skripti kasutamine tagab, et kasutajad, kes kasutavad seda konteineri kujutist ML-mudeli koolituseks, ei pea seda koodi oma treeningskripti osana kirjutama ja saavad kasutada seda neile juba kättesaadavat funktsiooni.
Järgmine on treeningkonteineri Dockeri fail:
Konteinerpilt luuakse ja lükatakse Amazon ECR-i. Seda pilti kasutatakse ML-mudeli treenimiseks.
Treenige ML-mudelit, kasutades SageMakeri koolitustööd
Kui oleme konteineri pildi edukalt loonud ja Amazon ECR-i lükanud, saame seda mudelikoolituseks kasutama hakata.
- Loome Pythoni skriptide komplekti andmete allalaadimiseks Snowflake'ist, kasutades Snowflake Connector Pythoni jaoks, valmistage ette andmed ja seejärel kasutage
XGBoost Regressor
ML mudeli treenimiseks. See on andmete otse koolituseksemplari allalaadimise samm, mis väldib Amazon S3 kasutamist treeningandmete vahemäluna. - Hõlbutame hajutatud andmete paralleelset koolitust, lastes koolituskoodil alla laadida juhusliku andmete alamhulga, nii et iga koolituseksemplar laadib Snowflake'ist alla võrdse hulga andmeid. Näiteks kui treeningsõlme on kaks, laadib iga sõlm alla juhusliku valimi 50% tabeli Snowflake ridadest.Vaadake järgmist koodi:
- Seejärel pakume SageMakeri SDK-le koolitusskripti
Estimator
koos lähtekataloogiga, et kõik meie loodud skriptid saaksid koolituskonteinerisse saata, kui koolitustööd käitatakseEstimator.fit
meetod:Lisateavet leiate aadressilt Valmistage ette Scikit-Learni koolitusskript.
- Pärast mudelikoolituse lõppu on koolitatud mudel saadaval a
model.tar.gz
fail piirkonna SageMakeri vaikeämbris:
Nüüd saate uute andmete kohta järelduste tegemiseks koolitatud mudeli kasutusele võtta! Juhiste saamiseks vaadake Looge oma lõpp-punkt ja juurutage oma mudel.
Koristage
Edaspidiste tasude vältimiseks kustutage ressursid. Seda saate teha, kustutades IAM-i rolli ja SageMakeri märkmiku loomiseks kasutatud CloudFormationi malli.
Peate Snowflake'i ressursid käsitsi Snowflake'i konsoolist kustutama.
Järeldus
Selles postituses näitasime, kuidas laadida Snowflake tabelis salvestatud andmeid SageMaker Trainingi tööeksemplari ja koolitada XGBoosti mudelit kohandatud koolituskonteineri abil. See lähenemisviis võimaldab meil otse integreerida Snowflake'i andmeallikana SageMakeri sülearvutiga, ilma et oleksime Amazon S3-s andmeid lavastanud.
Soovitame teil rohkem teada saada, uurides Amazon SageMaker Python SDK ja lahenduse loomine, kasutades selles postituses esitatud näidisrakendust ja teie ettevõtte jaoks asjakohast andmekogumit. Kui teil on küsimusi või ettepanekuid, jätke kommentaar.
Autoritest
Amit Arora on tehisintellekti ja ML-i spetsialiseerunud arhitekt ettevõttes Amazon Web Services, aidates ettevõtetel kasutada pilvepõhiseid masinõppeteenuseid, et oma uuendusi kiiresti skaleerida. Ta on ka MS andmeteaduse ja -analüütika programmi adjunkt Georgetowni ülikoolis Washingtonis.
Divya Muralidharan on Amazon Web Servicesi lahenduste arhitekt. Ta on kirglik aidata ettevõtte klientidel tehnoloogiaga seotud äriprobleeme lahendada. Tal on arvutiteaduse magistrikraad Rochesteri Tehnoloogiainstituudist. Väljaspool kontorit veedab ta aega süüa tehes, lauldes ja taimi kasvatades.
Sergei Ermolin on AWS-i peamine AIML-lahenduste arhitekt. Varem oli ta Inteli süvaõppe, analüütika ja suurandmete tehnoloogiate tarkvaralahenduste arhitekt. Silicon Valley veteran, kellel on kirg masinõppe ja tehisintellekti vastu, on Sergey närvivõrkude vastu huvi tundnud GPU-eelsest ajast, kui ta kasutas neid Hewlett-Packardis kvartskristallide ja tseesiumi aatomkellade vananemiskäitumise ennustamiseks. Sergeyl on MSEE ja CS sertifikaat Stanfordist ning bakalaureusekraad füüsikas ja masinaehituses California osariigi ülikoolist Sacramentos. Väljaspool tööd naudib Sergey veinivalmistamist, suusatamist, jalgrattasõitu, purjetamist ja sukeldumist. Sergei on ka vabatahtlik piloot Ingli lend.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/
- :on
- $ UP
- 1
- 10
- 7
- 8
- a
- MEIST
- juurdepääs
- juurdepääsetav
- konto
- täiendused
- pärast
- vastu
- Vananemine
- AI
- AIML
- algoritme
- Materjal: BPA ja flataatide vaba plastik
- võimaldab
- juba
- Amazon
- Amazon FSx
- Amazon SageMaker
- Amazon Web Services
- summa
- analüüs
- analytics
- ja
- Teine
- lähenemine
- asjakohane
- arhitektuur
- OLEME
- kunstlik
- tehisintellekti
- AS
- seotud
- At
- auditeerimine
- autor
- saadaval
- AWS
- AWS CloudFormation
- baas
- põhineb
- BE
- sest
- Suur
- Big andmed
- ehitama
- Ehitus
- ehitatud
- äri
- by
- California
- kutsutud
- CAN
- Rakke
- sertifikaat
- väljakutse
- koormuste
- Vali
- puhastamine
- Kellad
- Cloud
- kood
- Veerg
- Veerud
- kommentaar
- ühine
- täitma
- arvuti
- Arvutiteadus
- Võta meiega ühendust
- ühendus
- konsool
- Konteiner
- sisaldab
- sisu
- kontrolli
- looma
- loodud
- loob
- loomine
- volikiri
- tava
- Kliendid
- andmed
- andmehaldus
- Andmete ettevalmistamine
- andmeteadus
- andmete salvestamine
- kuupäev Kellaaeg
- Päeva
- DDP
- Otsustamine
- sügav
- sügav õpe
- vaikimisi
- Kraad
- juurutada
- lähetatud
- Arendajad
- otse
- jagatud
- piirkond
- laevalaadija
- Ära
- lae alla
- allalaadimine
- iga
- kergesti
- tõhusalt
- kumbki
- kõrvaldab
- mujal
- lubatud
- julgustama
- Lõpp-punkt
- Inseneriteadus
- tagab
- ettevõte
- keskkond
- viga
- näide
- täitma
- olemas
- ootab
- uurimine
- Avastades
- Väljavõtted
- äärmiselt
- hõlbustada
- õiglane
- Tuttav
- tunnusjoon
- Joonis
- fail
- lõplik
- esimene
- sobima
- Järel
- järgneb
- eest
- Alates
- täis
- täielikult
- funktsionaalsus
- tulevik
- saama
- saamine
- GitHub
- läheb
- Kasvavad
- Olema
- võttes
- aidates
- siin
- kõrgetasemeline
- omab
- võõrustas
- hosts
- maja
- elamispind
- Kuidas
- Kuidas
- aga
- HTML
- HTTPS
- Identity
- pilt
- rakendada
- täitmine
- import
- in
- sisaldama
- lisatud
- indeks
- info
- uuendusi
- paigaldama
- Näiteks
- Instituut
- juhised
- integreerima
- integreeritud
- Intel
- Intelligentsus
- huvitatud
- IT
- töö
- võtmed
- sülearvuti
- suur
- viimane
- Õppida
- õppimine
- Lahkuma
- eluring
- ln
- kohapeal
- masin
- masinõpe
- juhtima
- juhitud
- juhtimine
- juht
- juhtiv
- käsitsi
- sobitamine
- mehaaniline
- Meedia
- keskmine
- menüü
- meetod
- ML
- mudel
- mudelid
- rohkem
- liikuma
- MS
- nimi
- NAVIGATSIOON
- Vajadus
- vajadustele
- võrgustikud
- närvivõrgud
- Uus
- järgmine
- sõlme
- sõlmed
- märkmik
- number
- objekt
- of
- Office
- on
- ONE
- avatud
- optimeeritud
- et
- organisatsioon
- Muu
- väljaspool
- pakend
- pandas
- pane
- Parallel
- osa
- kirg
- kirglik
- Parool
- täidab
- Õigused
- Füüsika
- piloot
- torujuhe
- kohatäide
- Taimed
- Platon
- Platoni andmete intelligentsus
- PlatoData
- Poliitika
- asustatud
- post
- ennustada
- Valmistama
- esitada
- varem
- Peamine
- probleeme
- Programm
- pakutud
- anda
- tingimusel
- annab
- eesmärk
- Lükkama
- lükatakse
- Python
- Küsimused
- kiiresti
- juhuslik
- kiiresti
- pigem
- Lugenud
- hiljuti
- andmed
- vähendab
- piirkond
- vabastatud
- asjakohane
- asendama
- esindab
- nõutav
- Vajab
- Vahendid
- tagasipöördumine
- Roll
- juur
- ROW
- jooks
- Sacramento
- salveitegija
- purjetamine
- Säästa
- Skaala
- teadus
- teadlased
- skikit õppima
- skripte
- SDK
- Saladus
- Serverid
- teenus
- Teenused
- komplekt
- kuju
- Shell
- peaks
- Näitused
- märkimisväärne
- Räni
- Silicon Valley
- lihtne
- alates
- olukordades
- väike
- So
- tarkvara
- lahendus
- Lahendused
- LAHENDAGE
- allikas
- Allikad
- Ruum
- spetsialist
- matkimine
- algus
- riik
- väljavõte
- Samm
- Sammud
- ladustamine
- ladustatud
- alamvõrgud
- Edukalt
- selline
- toetama
- Toetatud
- süsteem
- tabel
- ülesanded
- Tehnoloogiad
- Tehnoloogia
- šabloon
- tingimused
- et
- .
- Allikas
- oma
- Neile
- Need
- kolm
- Läbi
- aeg
- et
- töövahendid
- Summa
- Rong
- koolitatud
- koolitus
- rongid
- tüüpiliselt
- Ülikool
- Värskendused
- us
- kasutama
- Kasutaja
- Kasutajad
- org
- väärtus
- Väärtused
- veteran
- vabatahtlik
- Washington
- Tee..
- web
- veebiteenused
- mis
- WHO
- will
- koos
- jooksul
- ilma
- Töö
- kirjutama
- XGBoost
- sa
- Sinu
- sephyrnet