Amazon Sage Maker on täysin hallittu koneoppimispalvelu (ML). SageMakerin avulla datatieteilijät ja -kehittäjät voivat nopeasti ja helposti rakentaa ja kouluttaa ML-malleja ja ottaa ne sitten suoraan käyttöön tuotantovalmiissa isännöitävissä olosuhteissa. Sagemaker tarjoaa integroidun Jupyter-kirjoitusmuistikirjan esiintymän helpon pääsyn tietolähteihisi tutkimista ja analysointia varten, joten sinun ei tarvitse hallita palvelimia. Se tarjoaa myös yleisiä ML-algoritmeja, jotka on optimoitu toimimaan tehokkaasti erittäin suuria tietoja vastaan hajautetussa ympäristössä.
SageMaker edellyttää, että ML-mallin harjoitustiedot ovat joko mukana Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) tai Amazon FSx for Luster (lisätietoja on kohdassa Access Training Data). Jotta malli voidaan kouluttaa käyttämällä kolmen tuetun tallennuspalvelun ulkopuolelle tallennettua dataa, tiedot on ensin syötettävä johonkin näistä palveluista (tyypillisesti Amazon S3). Tämä edellyttää tietoputken rakentamista (käyttäen työkaluja, kuten Amazon SageMaker Data Wrangler) siirtääksesi tietoja Amazon S3:een. Tämä lähestymistapa voi kuitenkin luoda tiedonhallinnan haasteita tämän tiedontallennusvälineen elinkaaren hallinnassa, pääsynhallinnan luomisessa, tietojen auditoinnissa ja niin edelleen, kaikki koulutusdatan vaiheistamiseksi koulutustyön ajaksi. Tällaisissa tilanteissa voi olla toivottavaa, että SageMakerin käytettävissä oleva data on lyhytaikaisiin koulutustapahtumiin liitettynä lyhytaikaisissa tallennusvälineissä ilman tietojen välimuistia Amazon S3:ssa.
Tämä viesti näyttää tavan tehdä tämä käyttämällä Lumihiutale tietolähteenä ja lataamalla tiedot suoraan Snowflakesta SageMaker Training -työesiintymään.
Ratkaisun yleiskatsaus
Käytämme Kalifornian asuntotietojoukko koulutustietojoukoksi tälle viralle ja harjoittele ML-malli ennustamaan kunkin piirin talon mediaaniarvo. Lisäämme nämä tiedot Snowflakeen uutena taulukkona. Luomme mukautetun harjoitussäiliön, joka lataa tiedot suoraan Snowflake-taulukosta harjoitusinstanssiin sen sijaan, että lataat tiedot ensin S3-ämpäriin. Kun tiedot on ladattu koulutusesiintymään, mukautettu harjoitusskripti suorittaa tietojen valmistelutehtävät ja kouluttaa sitten ML-mallin käyttämällä XGBoost estimaattori. Kaikki tämän viestin koodi on saatavilla osoitteessa GitHub repo.
Seuraava kuva esittää ehdotetun ratkaisun korkean tason arkkitehtuuria käyttää Snowflakea tietolähteenä ML-mallien kouluttamiseen SageMakerilla.
Työnkulun vaiheet ovat seuraavat:
- Asenna SageMaker-muistikirja ja AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) -rooli, jolla on asianmukaiset oikeudet, jotta SageMaker pääsee käyttämään Amazonin elastisten säiliörekisteri (Amazon ECR), Secrets Manager ja muut palvelut AWS-tililläsi.
- Tallenna Snowflake-tilisi kirjautumistiedot AWS Secrets Manageriin.
- Käsittele tiedot Snowflake-tilisi taulukossa.
- Luo mukautettu säilökuva ML-mallikoulutukseen ja siirrä se Amazon ECR:ään.
- Aloita SageMaker Training -työ ML-mallin kouluttamiseksi. Harjoitteluinstanssi hakee Snowflake-tunnistetiedot Secrets Managerista ja lataa sitten tietojoukon suoraan Snowflakesta näiden valtuustietojen avulla. Tämä on vaihe, joka poistaa tarpeen ladata tietoja ensin S3-säihöön.
- Koulutettu ML-malli säilytetään S3-ämpäriin.
Edellytykset
Tässä viestissä tarjotun ratkaisun toteuttamiseksi sinulla pitäisi olla AWS-tili, The Lumihiutale tili ja SageMakerin tuntemus.
Määritä SageMaker-muistikirja ja IAM-rooli
Käytämme AWS CloudFormationia luodaksemme SageMaker-muistikirjan nimeltä aws-aiml-blogpost-sagemaker-snowflake-example
ja IAM-rooli nimeltä SageMakerSnowFlakeExample
. Valita Käynnistä pino alueelle, johon haluat sijoittaa resursseja.
Tallenna Snowflaken tunnistetiedot Secrets Managerissa
Tallenna Snowflake-kirjautumistietosi salaisuutena Secrets Managerissa. Katso ohjeet salaisuuden luomiseen kohdasta Create an AWS Secrets Manager secret
.
- Nimeä salaisuus
snowflake_credentials
. Tämä on pakollinen, koska koodi sisäänsnowflake-load-dataset.ipynb
odottaa, että salaisuutta kutsutaan sellaiseksi. - Luo salaisuus avain-arvo-parina kahdella avaimella:
- käyttäjätunnus – Lumihiutale-käyttäjänimesi.
- salasana – Lumihiutale-käyttäjänimesi salasana.
Käsittele tiedot Snowflake-tilisi taulukossa
Voit ottaa tiedot suorittamalla seuraavat vaiheet:
- Valitse SageMaker-konsolissa Kannettavat navigointipaneelissa.
- Valitse muistikirja aws-aiml-blogpost-sagemaker-snowflake-example ja valitse Avaa JupyterLab.
- Valita
snowflake-load-dataset.ipynb
avataksesi sen JupyterLabissa. Tämä muistikirja nielee Kalifornian asuntotietojoukko Snowflake-pöytään. - Muokkaa muistikirjassa seuraavan solun sisältöä korvataksesi paikkamerkkiarvot lumihiutaletiliäsi vastaavalla:
- Valitse Suorita-valikosta Suorita kaikki solut suorittaaksesi koodin tässä muistikirjassa. Tämä lataa tietojoukon paikallisesti muistikirjaan ja syöttää sen sitten Snowflake-taulukkoon.
Seuraava muistikirjan koodinpätkä syöttää tietojoukon Snowflakeen. Katso snowflake-load-dataset.ipynb
muistikirja koko koodin saamiseksi.
- Sulje muistikirja, kun kaikki solut ovat suoritettu ilman virheitä. Tietosi ovat nyt saatavilla Snowflakessa. Seuraava kuvakaappaus näyttää
california_housing
Lumihiutaleessa luotu taulukko.
Suorita sagemaker-snowflake-example.ipynb
muistikirja
Tämä muistikirja luo mukautetun harjoitussäiliön, jossa on Snowflake-yhteys, poimii tiedot Snowflakesta koulutusesiintymän lyhytaikaiseen tallennustilaan ilman, että se asetetaan Amazon S3:een, ja suorittaa hajautetun datan rinnakkaismallin (DDP) XGBoost-mallikoulutuksen tiedoille. DDP-koulutusta ei vaadita mallikoulutukseen niin pienessä tietojoukossa; se sisältyy tähän kuvaamaan vielä toista äskettäin julkaistua SageMaker-ominaisuutta.
Luo mukautettu säilö harjoittelua varten
Luomme nyt mukautetun kontin ML-mallin koulutustyötä varten. Huomaa, että Docker-säilön luomiseen tarvitaan pääkäyttäjän oikeudet. Tämä SageMaker-muistikirja otettiin käyttöön pääkäyttäjän oikeuksilla. Jos yrityksesi organisaatiokäytännöt eivät salli pääkäyttäjän pääsyä pilviresursseihin, voit käyttää seuraavia Docker-tiedosto- ja komentosarjoja Docker-säilön rakentamiseen muualle (esimerkiksi kannettavaan tietokoneeseen) ja työntää se sitten Amazon ECR:ään. Käytämme SageMaker XGBoost -säiliökuvaan perustuvaa säilöä 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1
seuraavilla lisäyksillä:
- - Snowflake-liitin Pythonille ladataksesi tiedot Snowflake-taulukosta harjoitusinstanssiin.
- Python-skripti, joka muodostaa yhteyden Secrets Manageriin lumihiutaleen tunnistetietojen hakemiseksi.
Snowflake-liittimen ja Python-komentosarjan käyttäminen varmistaa, että käyttäjien, jotka käyttävät tätä säilökuvaa ML-mallin harjoitteluun, ei tarvitse kirjoittaa tätä koodia osana harjoitusskriptiään ja että he voivat käyttää tätä jo saatavilla olevaa toimintoa.
Seuraava on koulutuskontin Docker-tiedosto:
Konttikuva rakennetaan ja työnnetään Amazon ECR:ään. Tätä kuvaa käytetään ML-mallin harjoittamiseen.
Harjoittele ML-mallia käyttämällä SageMaker Training -työtä
Kun olemme luoneet konttikuvan onnistuneesti ja siirtäneet sen Amazon ECR:ään, voimme alkaa käyttää sitä mallikoulutukseen.
- Luomme joukon Python-skriptejä tietojen lataamiseksi Snowflakesta käyttämällä Snowflake-liitin Pythonille, valmistele tiedot ja käytä sitten
XGBoost Regressor
kouluttaa ML-mallia. Se on vaihe, jossa tiedot ladataan suoraan harjoitusinstanssiin, jolloin vältytään käyttämästä Amazon S3:a harjoitustietojen välimuistina. - Helpotamme Distributed Data Parallel -koulutusta antamalla koulutuskoodin ladata satunnaisen osajoukon tiedoista siten, että jokainen harjoitusinstanssi lataa saman määrän tietoa Snowflakesta. Jos esimerkiksi harjoitussolmuja on kaksi, jokainen solmu lataa satunnaisen otoksen 50 %:sta Snowflake-taulukon riveistä.Katso seuraava koodi:
- Tämän jälkeen toimitamme koulutusohjelman SageMaker SDK:lle
Estimator
yhdessä lähdehakemiston kanssa, jotta kaikki luomamme komentosarjat voidaan toimittaa koulutussäiliöön, kun koulutustyö suoritetaan käyttämälläEstimator.fit
menetelmä:Lisätietoja on Valmista Scikit-Learn-harjoituskäsikirjoitus.
- Kun mallikoulutus on suoritettu, koulutettu malli on saatavilla a
model.tar.gz
tiedosto alueen SageMaker-oletussäilöön:
Voit nyt ottaa käyttöön koulutetun mallin saadaksesi päätelmiä uusista tiedoista! Katso ohjeet kohdasta Luo päätepiste ja ota malli käyttöön.
Puhdistaa
Vältä tulevia maksuja poistamalla resurssit. Voit tehdä tämän poistamalla IAM-roolin ja SageMaker-muistikirjan luomiseen käytetyn CloudFormation-mallin.
Sinun on poistettava Snowflake-resurssit manuaalisesti Snowflake-konsolista.
Yhteenveto
Tässä viestissä näytimme kuinka ladata Snowflake-taulukkoon tallennettuja tietoja SageMaker Training -työesiintymään ja kouluttaa XGBoost-malli mukautetun koulutussäiliön avulla. Tämän lähestymistavan avulla voimme integroida Snowflaken suoraan tietolähteenä SageMaker-muistikirjan kanssa ilman, että tietoja on ladattu Amazon S3:ssa.
Kannustamme sinua oppimaan lisää tutustumalla Amazon SageMaker Python SDK ja rakentaa ratkaisu käyttämällä tässä viestissä olevaa esimerkkitoteutusta ja yrityksesi kannalta olennaista tietojoukkoa. Jos sinulla on kysyttävää tai ehdotuksia, jätä kommentti.
Tietoja kirjoittajista
Amit Arora on AI- ja ML-asiantuntijaarkkitehti Amazon Web Services -palvelussa, joka auttaa yritysasiakkaita käyttämään pilvipohjaisia koneoppimispalveluita innovaatioiden nopeaan skaalaamiseen. Hän on myös dosentti MS-tietotiede- ja analytiikkaohjelmassa Georgetownin yliopistossa Washington DC:ssä.
Divya Muralidharan on ratkaisuarkkitehti Amazon Web Servicesissä. Hän on intohimoinen auttamaan yritysasiakkaita ratkaisemaan liiketoimintaongelmia teknologian avulla. Hän on suorittanut tietojenkäsittelytieteen maisterin tutkinnon Rochester Institute of Technologysta. Toimiston ulkopuolella hän viettää aikaa ruoanlaittoon, laulamiseen ja kasvien kasvattamiseen.
Sergei Ermolin on AWS:n johtava AIML-ratkaisuarkkitehti. Aiemmin hän oli Intelin ohjelmistoratkaisujen arkkitehti syväoppimisen, analytiikan ja big data -tekniikoiden parissa. Piilaakson veteraani, joka on intohimoinen koneoppimiseen ja tekoälyyn, Sergey on ollut kiinnostunut hermoverkoista GPU:ta edeltävistä ajoista lähtien, jolloin hän käytti niitä ennustamaan Hewlett-Packardin kvartsikiteiden ja cesiumatomikellojen ikääntymiskäyttäytymistä. Sergeyllä on MSEE- ja CS-tutkinto Stanfordista ja BS-tutkinto fysiikasta ja konetekniikasta California State Universitystä, Sacramentosta. Työn ulkopuolella Sergey harrastaa viininvalmistusta, hiihtoa, pyöräilyä, purjehdusta ja laitesukellusta. Sergey on myös vapaaehtoislentäjä Enkelin lento.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/
- :On
- $ YLÖS
- 1
- 10
- 7
- 8
- a
- Meistä
- pääsy
- saatavilla
- Tili
- lisäyksiä
- Jälkeen
- vastaan
- Vanheneminen
- AI
- AIML
- algoritmit
- Kaikki
- mahdollistaa
- jo
- Amazon
- Amazon FSx
- Amazon Sage Maker
- Amazon Web Services
- määrä
- analyysi
- Analytics
- ja
- Toinen
- lähestymistapa
- sopiva
- arkkitehtuuri
- OVAT
- keinotekoinen
- tekoäly
- AS
- liittyvä
- At
- tilintarkastus
- kirjoittaminen
- saatavissa
- AWS
- AWS-pilven muodostuminen
- pohja
- perustua
- BE
- koska
- Iso
- Big Data
- rakentaa
- Rakentaminen
- rakennettu
- liiketoiminta
- by
- Kalifornia
- nimeltään
- CAN
- Solut
- todistus
- haaste
- maksut
- Valita
- Siivous
- Kellot
- pilvi
- koodi
- Sarake
- Pylväät
- kommentti
- Yhteinen
- täydellinen
- tietokone
- Tietojenkäsittelyoppi
- kytkeä
- liitäntä
- Console
- Kontti
- sisältää
- sisältö
- valvonta
- luoda
- luotu
- luo
- Luominen
- Valtakirja
- asiakassuhde
- Asiakkaat
- tiedot
- tiedonhallinta
- Tietojen valmistelu
- tietojenkäsittely
- tietovarasto
- treffiaika
- päivää
- DDP
- Päätetään
- syvä
- syvä oppiminen
- oletusarvo
- Aste
- sijoittaa
- käyttöön
- kehittäjille
- suoraan
- jaettu
- piiri
- Satamatyöläinen
- Dont
- download
- lataukset
- kukin
- helposti
- tehokkaasti
- myöskään
- eliminoi
- muualla
- käytössä
- kannustaa
- päätepiste
- Tekniikka
- varmistaa
- yritys
- ympäristö
- virhe
- esimerkki
- suorittaa
- olemassa
- odottaa
- tutkimus
- Tutkiminen
- otteet
- erittäin
- helpottamaan
- oikeudenmukainen
- perehtyneisyys
- Ominaisuus
- Kuva
- filee
- lopullinen
- Etunimi
- sovittaa
- jälkeen
- seuraa
- varten
- alkaen
- koko
- täysin
- toiminnallisuus
- tulevaisuutta
- saada
- saada
- GitHub
- menee
- Kasvava
- Olla
- ottaa
- auttaa
- tätä
- korkean tason
- pitää
- isännöi
- isännät
- Talo
- kotelo
- Miten
- Miten
- Kuitenkin
- HTML
- HTTPS
- Identiteetti
- kuva
- toteuttaa
- täytäntöönpano
- tuoda
- in
- sisältää
- mukana
- indeksi
- tiedot
- innovaatiot
- asentaa
- esimerkki
- Instituutti
- ohjeet
- yhdistää
- integroitu
- Intel
- Älykkyys
- kiinnostunut
- IT
- Job
- avaimet
- kannettava tietokone
- suuri
- Sukunimi
- OPPIA
- oppiminen
- jättää
- elinkaari
- ln
- paikallisesti
- kone
- koneoppiminen
- hoitaa
- onnistui
- johto
- johtaja
- toimitusjohtaja
- käsin
- matching
- mekaaninen
- Media
- keskikokoinen
- valikko
- menetelmä
- ML
- malli
- mallit
- lisää
- liikkua
- MS
- nimi
- suunnistus
- Tarve
- tarpeet
- verkot
- hermoverkkoihin
- Uusi
- seuraava
- solmu
- solmut
- muistikirja
- numero
- objekti
- of
- Office
- on
- ONE
- avata
- optimoitu
- tilata
- organisaatio
- Muut
- ulkopuolella
- paketti
- pandas
- lasi
- Parallel
- osa
- intohimo
- intohimoinen
- Salasana
- suorittaa
- Oikeudet
- Fysiikka
- lentäjä
- putki
- placeholder
- Kasvit
- Platon
- Platonin tietotieto
- PlatonData
- politiikkaa
- asutuilla
- Kirje
- ennustaa
- Valmistella
- esittää
- aiemmin
- Pääasiallinen
- ongelmia
- Ohjelma
- ehdotettu
- toimittaa
- mikäli
- tarjoaa
- tarkoitus
- Työnnä
- työntää
- Python
- kysymykset
- nopeasti
- satunnainen
- nopeasti
- pikemminkin
- Lue
- äskettäin
- asiakirjat
- vähentää
- alue
- julkaistu
- merkityksellinen
- korvata
- edustaa
- tarvitaan
- Vaatii
- Esittelymateriaalit
- palata
- Rooli
- juuri
- RIVI
- ajaa
- Sacramento
- sagemaker
- purjehdus
- Säästä
- Asteikko
- tiede
- tutkijat
- scikit opittava
- skriptejä
- sdk
- salaisuus
- servers
- palvelu
- Palvelut
- setti
- Muoto
- Kuori
- shouldnt
- Näytä
- merkittävä
- Pii
- Silicon Valley
- Yksinkertainen
- koska
- tilanteita
- pieni
- So
- Tuotteemme
- ratkaisu
- Ratkaisumme
- SOLVE
- lähde
- Lähteet
- Tila
- asiantuntija
- näyttämöllepano
- Alkaa
- Osavaltio
- Lausunto
- Vaihe
- Askeleet
- Levytila
- tallennettu
- aliverkkoon
- Onnistuneesti
- niin
- tuki
- Tuetut
- järjestelmä
- taulukko
- tehtävät
- Technologies
- Elektroniikka
- sapluuna
- ehdot
- että
- -
- Lähde
- heidän
- Niitä
- Nämä
- kolmella
- Kautta
- aika
- että
- työkalut
- Yhteensä
- Juna
- koulutettu
- koulutus
- junat
- tyypillisesti
- yliopisto
- Päivitykset
- us
- käyttää
- käyttäjä
- Käyttäjät
- Laakso
- arvo
- arvot
- veteraani
- vapaaehtoinen
- Washington
- Tapa..
- verkko
- verkkopalvelut
- joka
- KUKA
- tulee
- with
- sisällä
- ilman
- Referenssit
- kirjoittaa
- XGBoost
- Voit
- Sinun
- zephyrnet