Podatkovni znanstveniki potrebujejo dosledno in ponovljivo okolje za strojno učenje (ML) in delovne obremenitve podatkovne znanosti, ki omogoča upravljanje odvisnosti in je varno. AWS posode za globoko učenje že ponuja vnaprej zgrajene slike Docker za usposabljanje in streženje modelov v običajnih okvirih, kot so TensorFlow, PyTorch in MXNet. Da bi izboljšali to izkušnjo, smo na JupyterConu 2023 napovedali javno različico beta odprtokodne distribucije SageMaker. To zagotavlja enotno izkušnjo ML od konca do konca za razvijalce ML z različnimi stopnjami strokovnega znanja. Razvijalcem ni več treba preklapljati med različnimi vsebniki ogrodja za eksperimentiranje ali ko se selijo iz lokalnih okolij JupyterLab in prenosnikov SageMaker na produkcijska opravila na SageMaker. Odprtokodna distribucija SageMaker podpira najpogostejše pakete in knjižnice za podatkovno znanost, ML in vizualizacijo, kot so TensorFlow, PyTorch, Scikit-learn, Pandas in Matplotlib. Posodo lahko začnete uporabljati od Javna galerija Amazon ECR začenši danes.
V tej objavi vam pokažemo, kako lahko uporabite odprtokodno distribucijo SageMaker za hitro eksperimentiranje v vašem lokalnem okolju in jih preprosto promovirate na delovna mesta v SageMakerju.
Pregled rešitev
Za naš primer prikazujemo usposabljanje modela klasifikacije slik z uporabo PyTorcha. Uporabljamo KMNIST nabor podatkov je javno dostopen na PyTorchu. Urimo model nevronske mreže, testiramo delovanje modela in na koncu natisnemo učno in testno izgubo. Celoten zvezek za ta primer je na voljo v Repozitorij primerov SageMaker Studio Lab. Začnemo eksperimentirati na lokalnem prenosnem računalniku z uporabo odprtokodne distribucije, ga premaknemo na Amazon SageMaker Studio za uporabo večjega primerka in nato načrtujte zvezek kot opravilo zvezka.
Predpogoji
Potrebujete naslednje predpogoje:
Nastavite svoje lokalno okolje
Odprtokodno distribucijo lahko začnete uporabljati neposredno na lokalnem prenosniku. Če želite zagnati JupyterLab, zaženite naslednje ukaze na vašem terminalu:
Lahko zamenjate ECR_IMAGE_ID
s katero koli slikovno oznako, ki je na voljo v Javna galerija Amazon ECR, ali izberite latest-gpu
če uporabljate stroj, ki podpira GPE.
Ta ukaz bo zagnal JupyterLab in zagotovil URL na terminalu, na primer http://127.0.0.1:8888/lab?token=<token>
. Kopirajte povezavo in jo vnesite v želeni brskalnik, da zaženete JupyterLab.
Nastavite Studio
Studio je celovito integrirano razvojno okolje (IDE) za ML, ki razvijalcem in podatkovnim znanstvenikom omogoča gradnjo, usposabljanje, uvajanje in spremljanje modelov ML v velikem obsegu. Studio nudi obsežen seznam lastnih slik s skupnimi ogrodji in paketi, kot so Data Science, TensorFlow, PyTorch in Spark. Te slike podatkovnim znanstvenikom olajšajo začetek uporabe strojnega jezika tako, da preprosto izberejo ogrodje in vrsto primerka za računanje.
Zdaj lahko uporabljate odprtokodno distribucijo SageMaker v Studiu z uporabo programa Studio's prinesite svojo sliko funkcija. Če želite svoji domeni SageMaker dodati odprtokodno distribucijo, izvedite naslednje korake:
- Dodajte odprtokodno distribucijo v svoj račun Registar elastičnih zabojnikov Amazon (Amazon ECR) repozitorij tako, da zaženete naslednje ukaze na vašem terminalu:
- Ustvarite sliko SageMaker in jo priložite domeni Studio:
- Na konzoli SageMaker zaženite Studio tako, da izberete svojo domeno in obstoječi uporabniški profil.
- Po želji znova zaženite Studio tako, da sledite korakom v Zaustavite in posodobite SageMaker Studio.
Prenesite zvezek
Prenesite vzorčni zvezek lokalno iz GitHub repo.
Odprite zvezek v izbranem IDE in dodajte celico na začetek zvezka za namestitev torchsummary
. torchsummary
paket ni del distribucije in namestitev tega v prenosnik bo zagotovila, da bo prenosnik deloval od konca do konca. Priporočamo uporabo conda
or micromamba
za upravljanje okolij in odvisnosti. Dodajte naslednjo celico v zvezek in shranite zvezek:
Preizkusite na lokalnem zvezku
Naložite zvezek v uporabniški vmesnik JupyterLab, ki ste ga zagnali, tako da izberete ikono za nalaganje, kot je prikazano na naslednjem posnetku zaslona.
Ko je naložen, zaženite cv-kmnist.ipynb
zvezek. Celice lahko začnete izvajati takoj, ne da bi morali namestiti kakršne koli odvisnosti, kot so torch, matplotlib ali ipywidgets.
Če ste sledili prejšnjim korakom, lahko vidite, da lahko distribucijo uporabljate lokalno iz prenosnika. V naslednjem koraku uporabimo isto distribucijo v Studiu, da izkoristimo funkcije Studia.
Premakni poskus v Studio (izbirno)
Po želji promovirajmo eksperimentiranje v Studio. Ena od prednosti Studia je, da so osnovni računalniški viri popolnoma elastični, tako da lahko preprosto kličete razpoložljive vire navzgor ali navzdol, spremembe pa potekajo samodejno v ozadju, ne da bi prekinili vaše delo. Če ste želeli zagnati isti prenosni računalnik od prejšnjega na večjem naboru podatkov in primerku računanja, se lahko preselite v Studio.
Pomaknite se do uporabniškega vmesnika Studio, ki ste ga zagnali prej, in izberite ikono za nalaganje, da naložite zvezek.
Ko zaženete zvezek, boste pozvani, da izberete sliko in vrsto primerka. V zaganjalniku jedra izberite sagemaker-runtime
kot podoba in an ml.t3.medium
primer, nato izberite Izberite.
Zdaj lahko izvajate prenosni računalnik od konca do konca, ne da bi potrebovali kakršne koli spremembe na prenosnem računalniku iz vašega lokalnega razvojnega okolja v prenosne računalnike Studio!
Načrtujte prenosnik kot opravilo
Ko končate z eksperimentiranjem, SageMaker ponuja več možnosti za produkcijo vašega prenosnika, kot so delovna mesta za usposabljanje in cevovodi SageMaker. Ena od takšnih možnosti je neposreden zagon samega zvezka kot neinteraktivnega, načrtovanega opravila z zvezkom Opravila prenosnika SageMaker. Na primer, morda boste želeli občasno ponovno usposobiti svoj model ali občasno pridobiti sklepe o vhodnih podatkih in ustvariti poročila, ki jih bodo uporabili vaši deležniki.
V programu Studio izberite ikono opravila zvezka, da zaženete opravilo z zvezkom. Če ste razširitev za opravila prenosnega računalnika namestili lokalno na svoj prenosni računalnik, lahko načrtujete prenosni računalnik tudi neposredno iz prenosnega računalnika. glej Navodila za lokalno nastavitev razširitve za opravila prenosnika.
Opravilo zvezka samodejno uporablja URI slike ECR odprtokodne distribucije, tako da lahko neposredno načrtujete opravilo z zvezkom.
Izberite Teči po urniku, izberite urnik, na primer vsak teden v soboto, in izberite Ustvari. Lahko tudi izbirate Zaženi zdaj če si želite takoj ogledati rezultate.
Ko je prvo opravilo prenosnega računalnika končano, si lahko ogledate rezultate prenosnega računalnika neposredno iz uporabniškega vmesnika Studio, tako da izberete notebook pod Izhodne datoteke.
Dodatni premisleki
Poleg neposredne uporabe javno dostopne slike ECR za delovne obremenitve ML ponuja odprtokodna distribucija naslednje prednosti:
- Datoteka Dockerfile, ki se uporablja za izdelavo slike, je na voljo razvijalcem, da lahko raziskujejo in gradijo svoje lastne slike. To sliko lahko tudi podedujete kot osnovno sliko in namestite svoje knjižnice po meri, da boste imeli ponovljivo okolje.
- Če niste vajeni Dockerja in raje uporabljate okolja Conda v okolju JupyterLab, nudimo
env.out
datoteko za vsako od objavljenih različic. Z navodili v datoteki lahko ustvarite lastno okolje Conda, ki bo posnemalo isto okolje. Oglejte si na primer datoteko okolja CPE cpu.env.out. - Različice slike GPE lahko uporabite za izvajanje delovnih obremenitev, združljivih z GPU, kot sta poglobljeno učenje in obdelava slik.
Čiščenje
Izvedite naslednje korake za čiščenje virov:
- Če ste načrtovali, da se vaš prenosnik izvaja po urniku, začasno ustavite ali izbrišite urnik na Definicije delovnih mest v zvezku da bi se izognili plačevanju prihodnjih služb.
- Zaprite vse aplikacije Studio, da se izognete plačilu za neuporabljeno uporabo računalnika. glej Zaustavite in posodobite aplikacije Studio za navodila.
- Po želji izbrišite domeno Studio, če ste jo ustvarili.
zaključek
Ohranjanje ponovljivega okolja v različnih fazah življenjskega cikla ML je eden največjih izzivov za podatkovne znanstvenike in razvijalce. Z odprtokodno distribucijo SageMaker nudimo sliko z medsebojno združljivimi različicami najpogostejših ogrodij in paketov ML. Distribucija je tudi odprtokodna, kar razvijalcem omogoča preglednost paketov in gradbenih procesov, kar olajša prilagajanje lastne distribucije.
V tej objavi smo vam pokazali, kako uporabiti distribucijo v vašem lokalnem okolju, v Studiu in kot vsebnik za vaša izobraževalna opravila. Ta funkcija je trenutno v javni različici beta. Priporočamo vam, da to preizkusite in delite svoje povratne informacije in težave o javno skladišče GitHub!
O avtorjih
Durga Sury je arhitekt rešitev ML v skupini Amazon SageMaker Service SA. Navdušena je nad tem, da bi strojno učenje postalo dostopno vsem. V štirih letih pri AWS je pomagala vzpostaviti platforme AI/ML za poslovne stranke. Ko ni v službi, obožuje vožnje z motorjem, skrivnostne romane in dolge sprehode s svojim 4-letnim haskijem.
Ketan Vijayvargiya je višji inženir za razvoj programske opreme v Amazon Web Services (AWS). Njegova glavna področja so strojno učenje, porazdeljeni sistemi in odprta koda. Izven službe si čas rad preživlja v samostojnem gostovanju in uživanju v naravi.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- EVM Finance. Poenoten vmesnik za decentralizirane finance. Dostopite tukaj.
- Quantum Media Group. IR/PR ojačan. Dostopite tukaj.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/get-started-with-the-open-source-amazon-sagemaker-distribution/
- :ima
- : je
- :ne
- $GOR
- 1
- 10
- 100
- 11
- 2023
- 7
- 9
- a
- O meni
- dostopen
- čez
- dodajte
- Poleg tega
- Dodatne
- Prednost
- Prednosti
- AI / ML
- vsi
- že
- Prav tako
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazonske spletne storitve (AWS)
- an
- in
- razglasitve
- kaj
- aplikacija
- aplikacije
- SE
- območja
- AS
- At
- pripisujejo
- samodejno
- Na voljo
- izogniti
- AWS
- ozadje
- baza
- temeljijo
- BE
- Začetek
- beta
- med
- največji
- brskalnik
- izgradnjo
- by
- CAN
- CAT
- Celice
- izzivi
- Spremembe
- izbira
- Izberite
- izbiri
- Razvrstitev
- COM
- Skupno
- združljiv
- dokončanje
- Izračunajte
- konfiguracija
- dosledno
- Konzole
- poraba
- Posoda
- Zabojniki
- ustvarjajo
- ustvaril
- Trenutno
- po meri
- Stranke, ki so
- prilagodite
- datum
- znanost o podatkih
- nabor podatkov
- globoko
- globoko učenje
- privzeto
- razporedi
- opisati
- Razvijalci
- Razvoj
- drugačen
- neposredno
- porazdeljena
- porazdeljeni sistemi
- distribucija
- Lučki delavec
- domena
- opravljeno
- navzdol
- vsak
- prej
- lažje
- enostavno
- omogoča
- spodbujanje
- konec
- konec koncev
- inženir
- zagotovitev
- Vnesite
- Podjetje
- okolje
- okolja
- Tudi vsak
- vsi
- Primer
- Primeri
- obstoječih
- izkušnje
- poskus
- strokovno znanje
- raziskuje
- izvoz
- razširitev
- obsežen
- Feature
- Lastnosti
- povratne informacije
- file
- končno
- prva
- Osredotočite
- sledili
- po
- za
- Okvirni
- okviri
- iz
- polno
- v celoti
- Prihodnost
- ustvarjajo
- dobili
- GitHub
- GPU
- Imajo
- ob
- he
- pomagal
- jo
- njegov
- Kako
- Kako
- HTML
- HTTPS
- ICON
- if
- slika
- Razvrstitev slik
- slike
- takoj
- izboljšanje
- in
- Dohodni
- namestitev
- nameščen
- Namestitev
- primer
- Navodila
- integrirana
- v
- Vprašanja
- IT
- sam
- Job
- Delovna mesta
- jpg
- json
- lab
- laptop
- večja
- kosilo
- začela
- učenje
- Lets
- ravni
- knjižnice
- življenski krog
- kot
- všeč mi je
- LINK
- Seznam
- lokalna
- lokalno
- prijava
- Long
- več
- off
- ljubi
- stroj
- strojno učenje
- Znamka
- Izdelava
- upravljanje
- upravljanje
- matplotlib
- morda
- selitev
- ML
- Model
- modeli
- monitor
- Najbolj
- motorno kolo
- premikanje
- več
- vzajemno
- Mystery
- Ime
- Narava
- Nimate
- potrebujejo
- mreža
- nevronska mreža
- Novo
- Naslednja
- št
- prenosnik
- zdaj
- of
- Ponudbe
- on
- ONE
- odprite
- open source
- Možnost
- možnosti
- or
- naši
- ven
- zunaj
- lastne
- paket
- pakete
- pand
- del
- strastno
- pavza
- plačilna
- performance
- Kraj
- Platforme
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Prispevek
- raje
- prednostno
- predpogoji
- Tiskanje
- zasebna
- Procesi
- obravnavati
- proizvodnja
- profil
- spodbujanje
- zagotavljajo
- zagotavlja
- zagotavljanje
- javnega
- javno
- objavljeno
- Push
- Python
- pitorha
- hitro
- Priporočamo
- zamenjajte
- Poročila
- Skladišče
- Zahteve
- viri
- Rezultati
- Run
- tek
- s
- SA
- sagemaker
- SageMaker cevovodi
- Enako
- sobota
- Shrani
- Lestvica
- urnik
- načrtovano
- Znanost
- Znanstveniki
- scikit-učiti
- zavarovanje
- glej
- višji
- Storitev
- Storitve
- služijo
- nastavite
- nastavitve
- Delite s prijatelji, znanci, družino in partnerji :-)
- je
- Prikaži
- predstavitev
- je pokazala,
- pokazale
- Enostavno
- preprosto
- So
- Software
- Razvoj programske opreme
- rešitve
- vir
- Spark
- preživeti
- postopka
- interesne skupine
- Začetek
- začel
- Začetek
- Korak
- Koraki
- studio
- taka
- Podpira
- Preklop
- sistemi
- TAG
- Bodite
- skupina
- tensorflo
- terminal
- Test
- da
- O
- njihove
- Njih
- POTEM
- te
- jih
- ta
- čas
- do
- danes
- baklo
- Vlak
- usposabljanje
- Preglednost
- poskusite
- tip
- ui
- osnovni
- poenoteno
- neuporabljeno
- Nadgradnja
- naložili
- URL
- Uporaba
- uporaba
- Rabljeni
- uporabnik
- uporablja
- uporabo
- različica
- Poglej
- vizualizacija
- želeli
- hotel
- we
- web
- spletne storitve
- teden
- kdaj
- bo
- z
- brez
- delo
- deluje
- let
- Vi
- Vaša rutina za
- zefirnet