Az adattudósoknak konzisztens és reprodukálható környezetre van szükségük a gépi tanuláshoz (ML) és az adattudományi munkaterheléshez, amely lehetővé teszi a függőségek kezelését és biztonságos. AWS Deep Learning Containers már előre elkészített Docker-képeket biztosít a modellek betanításához és kiszolgálásához olyan gyakori keretrendszerekben, mint a TensorFlow, PyTorch és MXNet. Az élmény javítása érdekében a 2023-as JupyterCon rendezvényen bejelentettük a SageMaker nyílt forráskódú disztribúció nyilvános bétaverzióját. Ez egységes, teljes körű ML-élményt biztosít a különböző szintű szakértelemmel rendelkező ML-fejlesztők számára. A fejlesztőknek többé nem kell váltaniuk a különböző keretkonténerek között a kísérletezéshez, vagy amikor a helyi JupyterLab környezetekből és a SageMaker notebookokból a SageMaker éles munkáiba költöznek. A nyílt forráskódú SageMaker Distribution támogatja a leggyakoribb adattudományi, ML- és vizualizációs csomagokat és könyvtárakat, mint például a TensorFlow, a PyTorch, a Scikit-learn, a Pandas és a Matplotlib. Elkezdheti használni a tárolót a Amazon ECR Public Gallery ma kezdődik.
Ebben a bejegyzésben bemutatjuk, hogyan használhatja a SageMaker nyílt forráskódú disztribúcióját, hogy gyorsan kísérletezzen a helyi környezetével, és könnyen előléptesse őket a SageMaker munkahelyei közé.
Megoldás áttekintése
Példánkban bemutatjuk egy képosztályozási modell képzését a PyTorch segítségével. Használjuk a KMNIST adatkészlet nyilvánosan elérhető a PyTorch-on. Betanítunk egy neurális hálózati modellt, teszteljük a modell teljesítményét, végül kinyomtatjuk a betanítást és a tesztvesztést. A példa teljes notebookja a következő helyen érhető el: SageMaker Studio Lab példatár. Kezdjük a kísérletezést egy helyi laptopon a nyílt forráskódú disztribúció használatával, helyezzük át ide Amazon SageMaker Studio nagyobb példány használatához, majd ütemezze be a notebookot jegyzetfüzet-feladatként.
Előfeltételek
A következő előfeltételekre van szüksége:
Állítsa be a helyi környezetet
Közvetlenül elkezdheti használni a nyílt forráskódú disztribúciót helyi laptopján. A JupyterLab elindításához futtassa a következő parancsokat a terminálon:
Lecserélheti ECR_IMAGE_ID
a címben elérhető bármelyik képcímkével Amazon ECR Public Gallery, vagy válassza a latest-gpu
címkét, ha olyan gépet használ, amely támogatja a GPU-t.
Ez a parancs elindítja a JupyterLabot, és megad egy URL-t a terminálon, pl http://127.0.0.1:8888/lab?token=<token>
. Másolja ki a hivatkozást, és írja be a kívánt böngészőbe a JupyterLab elindításához.
Állítsa be a Stúdiót
A Studio egy teljes körű integrált fejlesztői környezet (IDE) az ML-hez, amely lehetővé teszi a fejlesztők és adattudósok számára, hogy ML modelleket építsenek, képezzenek, telepítsenek és figyeljenek nagy méretekben. A Studio kiterjedt listát kínál a belső felektől származó képekről, közös keretrendszerekkel és csomagokkal, például Data Science, TensorFlow, PyTorch és Spark. Ezek a képek megkönnyítik az adattudósok számára az ML használatának megkezdését azáltal, hogy egyszerűen kiválasztanak egy keretrendszert és példánytípust a számításhoz.
Mostantól használhatja a SageMaker nyílt forráskódú disztribúcióját a Studio-ban a Studio használatával hozza a saját képét funkció. Ha hozzá szeretné adni a nyílt forráskódú disztribúciót a SageMaker tartományhoz, kövesse az alábbi lépéseket:
- Adja hozzá a nyílt forráskódú terjesztést a fiókjához Amazon Elastic Container Registry (Amazon ECR) adattárat a következő parancsok futtatásával a terminálon:
- Hozzon létre egy SageMaker képet, és csatolja a képet a Studio tartományhoz:
- A SageMaker konzolon indítsa el a Studio-t a domain és a meglévő felhasználói profil kiválasztásával.
- Opcionálisan indítsa újra a Studio alkalmazást a következő lépésekkel Kapcsolja ki és frissítse a SageMaker Studio-t.
Töltse le a notebookot
Töltse le a mintajegyzetfüzetet helyben a webhelyről GitHub repo.
Nyissa meg a notebookot a választott IDE-ben, és adjon hozzá egy cellát a notebook elejéhez a telepítéshez torchsummary
Az torchsummary
csomag nem része a disztribúciónak, és ennek a notebookra való telepítése biztosítja, hogy a notebook a végétől a végéig fut. Javasoljuk a használatát conda
or micromamba
környezetek és függőségek kezelésére. Adja hozzá a következő cellát a jegyzetfüzethez, és mentse el a jegyzetfüzetet:
Kísérletezzen a helyi notebookon
Töltse fel a jegyzetfüzetet az elindított JupyterLab felhasználói felületre a feltöltés ikon kiválasztásával, ahogy az a következő képernyőképen látható.
Feltöltés után indítsa el a cv-kmnist.ipynb
jegyzetfüzet. Azonnal elindíthatja a cellák futtatását anélkül, hogy bármilyen függőséget kellene telepítenie, mint például a torch, a matplotlib vagy az ipywidgets.
Ha követte az előző lépéseket, láthatja, hogy a disztribúciót helyileg használhatja laptopjáról. A következő lépésben ugyanazt a disztribúciót használjuk a Studioban, hogy kihasználjuk a Studio funkcióit.
A kísérlet áthelyezése a Stúdióba (nem kötelező)
Opcionálisan népszerűsítsük a kísérletet a Studióban. A Studio egyik előnye, hogy a mögöttes számítási erőforrások teljesen rugalmasak, így könnyedén tárcsázhatja a rendelkezésre álló erőforrásokat felfelé vagy lefelé, a változások pedig automatikusan, a háttérben történnek anélkül, hogy megszakítanák a munkát. Ha a korábbi jegyzetfüzetet nagyobb adatkészleten és számítási példányon szeretné futtatni, áttérhet a Studióba.
Keresse meg a Studio korábban elindított felhasználói felületét, és válassza a feltöltés ikont a jegyzetfüzet feltöltéséhez.
A jegyzetfüzet elindítása után a rendszer felkéri a kép és a példánytípus kiválasztására. A kernelindítóban válassza a lehetőséget sagemaker-runtime
mint a kép és egy ml.t3.medium
példát, majd válasszon választ.
Mostantól a jegyzetfüzetet a végétől a végéig futtathatja anélkül, hogy változtatásokat kellene végeznie a notebookon a helyi fejlesztői környezetről a Studio jegyzetfüzetekre!
Ütemezze be a jegyzetfüzetet munkaként
Ha befejezte a kísérletezést, a SageMaker többféle lehetőséget kínál a notebook gyártáshoz, például képzési feladatokat és SageMaker-folyamatokat. Az egyik ilyen lehetőség magának a notebooknak a közvetlen futtatása, nem interaktív, ütemezett notebook feladatként SageMaker notebook munkák. Előfordulhat például, hogy rendszeres időközönként át kell képeznie a modelljét, vagy rendszeresen következtetéseket vonhat le a bejövő adatokról, és jelentéseket készíthet az érdekelt felek fogyasztása céljából.
A Studio alkalmazásban válassza ki a notebook job ikont a notebook feladat elindításához. Ha a notebook jobs bővítményt helyileg telepítette laptopjára, akkor a notebookot közvetlenül a laptopjáról is ütemezheti. Lát Installation Guide a notebook jobs bővítmény helyi beállításához.
A notebookfeladat automatikusan használja a nyílt forráskódú disztribúció ECR image URI-ját, így közvetlenül ütemezheti a notebookfeladatot.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Fuss ütemterv szerint, válasszon ütemezést, például minden héten szombaton, és válassza ki Létrehozása. Ön is választhat Fuss most ha azonnal meg szeretné tekinteni az eredményeket.
Amikor az első notebook-feladat befejeződött, a kiválasztással közvetlenül megtekintheti a notebook kimeneteit a Studio felhasználói felületéről jegyzetfüzet alatt Kimeneti fájlok.
További megfontolások
Azon túl, hogy a nyilvánosan elérhető ECR-képet közvetlenül ML-munkaterhelésekhez használja, a nyílt forráskódú terjesztés a következő előnyöket kínálja:
- A kép elkészítéséhez használt Dockerfile nyilvánosan elérhető a fejlesztők számára, hogy felfedezzék és elkészíthessék saját képeiket. Ezt a lemezképet is örökölheti alapképként, és telepítheti egyéni könyvtárait, hogy reprodukálható környezetet biztosítson.
- Ha nem szokott a Docker használatához, és inkább Conda környezeteket használ JupyterLab környezetében, biztosítunk egy
env.out
fájlt az egyes közzétett verziókhoz. A fájlban található utasítások segítségével létrehozhatja saját Conda környezetét, amely ugyanazt a környezetet utánozza. Lásd például a CPU-környezet fájlját cpu.env.out. - A kép GPU-verzióit használhatja GPU-kompatibilis munkaterhelések futtatására, például mély tanulásra és képfeldolgozásra.
Tisztítsuk meg
Az erőforrások tisztításához hajtsa végre a következő lépéseket:
- Ha a notebook ütemezett futtatását ütemezte, szüneteltesse vagy törölje az ütemezést a Notebook munkaköri meghatározások lapon, hogy elkerülje a jövőbeni munkák fizetését.
- Zárja le az összes Studio alkalmazást, hogy ne kelljen fizetnie a fel nem használt számítógéphasználatért. Lát Állítsa le és frissítse a Studio alkalmazásokat utasításokat.
- Opcionálisan törölje a Studio tartományt, ha létrehozott egyet.
Következtetés
A reprodukálható környezet fenntartása az ML életciklusának különböző szakaszaiban az egyik legnagyobb kihívás az adatkutatók és fejlesztők számára. A SageMaker nyílt forráskódú disztribúcióval a leggyakoribb ML keretrendszerek és csomagok kölcsönösen kompatibilis verzióit tartalmazó képet biztosítunk. A disztribúció is nyílt forráskódú, így a fejlesztők számára átláthatóságot biztosít a csomagok és az építési folyamatok megismerésében, megkönnyítve saját disztribúciójuk testreszabását.
Ebben a bejegyzésben megmutattuk, hogyan használhatja a disztribúciót a helyi környezetben, a Studióban, valamint a képzési feladatok tárolójaként. Ez a funkció jelenleg nyilvános bétaverzióban van. Javasoljuk, hogy próbálja ki ezt, és ossza meg visszajelzéseit és problémáit nyilvános GitHub adattár!
A szerzőkről
Durga Sury ML Solutions Architect az Amazon SageMaker Service SA csapatánál. Szenvedélyesen törekszik arra, hogy mindenki számára elérhetővé tegye a gépi tanulást. Az AWS-nél eltöltött 4 év alatt segített AI/ML platformok felállításában vállalati ügyfelek számára. Amikor nem dolgozik, szereti a motorozást, a rejtélyes regényeket és a hosszú sétákat 5 éves huskyjával.
Ketan Vijayvargiya az Amazon Web Services (AWS) vezető szoftverfejlesztő mérnöke. Fókuszterületei a gépi tanulás, az elosztott rendszerek és a nyílt forráskód. Munkán kívül szívesen tölti az idejét önellátással és a természet élvezetével.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
- Quantum Media Group. IR/PR erősített. Hozzáférés itt.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/get-started-with-the-open-source-amazon-sagemaker-distribution/
- :van
- :is
- :nem
- $ UP
- 1
- 10
- 100
- 11
- 2023
- 7
- 9
- a
- Rólunk
- hozzáférhető
- át
- hozzá
- mellett
- További
- Előny
- előnyei
- AI / ML
- Minden termék
- már
- Is
- amazon
- Amazon SageMaker
- Az Amazon Web Services
- Amazon Web Services (AWS)
- an
- és a
- bejelentés
- bármilyen
- app
- alkalmazások
- VANNAK
- területek
- AS
- At
- csatolja
- automatikusan
- elérhető
- elkerülése érdekében
- AWS
- háttér
- bázis
- alapján
- BE
- Kezdet
- beta
- között
- Legnagyobb
- böngésző
- épít
- by
- TUD
- CAT
- Cellák
- kihívások
- Változások
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választja
- besorolás
- COM
- Közös
- összeegyeztethető
- teljes
- Kiszámít
- Configuration
- következetes
- Konzol
- fogyasztás
- Konténer
- Konténerek
- teremt
- készítette
- Jelenleg
- szokás
- Ügyfelek
- testre
- dátum
- adat-tudomány
- adatkészletek
- mély
- mély tanulás
- alapértelmezett
- telepíteni
- leírni
- fejlesztők
- Fejlesztés
- különböző
- közvetlenül
- megosztott
- elosztott rendszerek
- terjesztés
- Dokkmunkás
- domain
- csinált
- le-
- minden
- Korábban
- könnyebb
- könnyen
- lehetővé teszi
- ösztönzése
- végén
- végtől végig
- mérnök
- biztosítására
- belép
- Vállalkozás
- Környezet
- környezetek
- Minden
- mindenki
- példa
- példák
- létező
- tapasztalat
- kísérlet
- szakvélemény
- feltárása
- export
- kiterjesztés
- kiterjedt
- Funkció
- Jellemzők
- Visszacsatolás
- filé
- Végül
- vezetéknév
- Összpontosít
- követ
- következő
- A
- Keretrendszer
- keretek
- ból ből
- Tele
- teljesen
- jövő
- generál
- kap
- GitHub
- GPU
- Legyen
- tekintettel
- he
- segített
- neki
- övé
- Hogyan
- How To
- HTML
- HTTPS
- ICON
- if
- kép
- Képosztályozás
- képek
- azonnal
- javul
- in
- Bejövő
- telepíteni
- telepítve
- telepítése
- példa
- utasítás
- integrált
- bele
- kérdések
- IT
- maga
- Munka
- Állások
- jpg
- json
- labor
- hordozható számítógép
- nagyobb
- indít
- indított
- tanulás
- Lets
- szintek
- könyvtárak
- életciklus
- mint
- Kedvencek
- LINK
- Lista
- helyi
- helyileg
- Belépés
- Hosszú
- hosszabb
- le
- szeret
- gép
- gépi tanulás
- csinál
- Gyártás
- kezelése
- kezelése
- matplotlib
- esetleg
- vándorol
- ML
- modell
- modellek
- monitor
- a legtöbb
- motorkerékpár
- mozog
- többszörös
- közösen
- Rejtély
- név
- Természet
- Szükség
- igénylő
- hálózat
- neurális hálózat
- Új
- következő
- nem
- jegyzetfüzet
- Most
- of
- Ajánlatok
- on
- ONE
- nyitva
- nyílt forráskódú
- opció
- Opciók
- or
- mi
- ki
- kívül
- saját
- csomag
- csomagok
- pandák
- rész
- szenvedélyes
- szünet
- fizet
- teljesítmény
- Hely
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- állás
- jobban szeret
- előnyben részesített
- előfeltételek
- magán
- Folyamatok
- feldolgozás
- Termelés
- profil
- kellene támogatnia,
- ad
- biztosít
- amely
- nyilvános
- nyilvánosan
- közzétett
- Nyomja
- Piton
- pytorch
- gyorsan
- ajánl
- cserélni
- Jelentések
- raktár
- követelmények
- Tudástár
- Eredmények
- futás
- futás
- s
- SA
- sagemaker
- SageMaker csővezetékek
- azonos
- szombat
- Megtakarítás
- Skála
- menetrend
- tervezett
- Tudomány
- tudósok
- scikit elsajátítható
- biztonság
- lát
- idősebb
- szolgáltatás
- Szolgáltatások
- szolgáló
- készlet
- beállítások
- Megosztás
- ő
- előadás
- kirakat
- kimutatta,
- mutatott
- Egyszerű
- egyszerűen
- So
- szoftver
- szoftverfejlesztés
- Megoldások
- forrás
- Szikra
- költ
- állapota
- érdekeltek
- kezdet
- kezdődött
- Kezdve
- Lépés
- Lépései
- stúdió
- ilyen
- Támogatja
- kapcsoló
- Systems
- TAG
- Vesz
- csapat
- tensorflow
- terminál
- teszt
- hogy
- A
- azok
- Őket
- akkor
- Ezek
- ők
- ezt
- idő
- nak nek
- Ma
- fáklya
- Vonat
- Képzések
- Átláthatóság
- megpróbál
- típus
- ui
- mögöttes
- egységes
- felhasználatlan
- Frissítések
- feltöltve
- URL
- Használat
- használ
- használt
- használó
- használ
- segítségével
- változat
- Megnézem
- megjelenítés
- akar
- kívánatos
- we
- háló
- webes szolgáltatások
- hét
- amikor
- lesz
- val vel
- nélkül
- Munka
- dolgozó
- év
- te
- A te
- zephyrnet