Ha az alapértelmezett életciklus-konfigurációt használja a domainhez vagy felhasználói profilhoz Amazon SageMaker Studio És használni Amazon SageMaker Data Wrangler adatkészítéshez, akkor ez a bejegyzés neked szól. Ebben a bejegyzésben bemutatjuk, hogyan hozhat létre Data Wrangler-folyamatot, és hogyan használhatja adat-előkészítésre egy Studio-környezetben, alapértelmezett életciklus-konfigurációval.
A Data Wrangler képes arra Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára, hogy vizuális felületen keresztül készítsenek adatokat gépi tanulási (ML) alkalmazásokhoz. Az adatok előkészítése az ML életciklusának kulcsfontosságú lépése, és a Data Wrangler teljes körű megoldást kínál az ML adatok importálására, feltárására, átalakítására, jellemzőire és feldolgozására vizuális, alacsony kódú élményben. Segítségével egyszerűen és gyorsan csatlakozhat olyan AWS-komponensekhez, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShiftés AWS-tó formációés olyan külső források, mint a Snowflake és a DataBricks DeltaLake. A Data Wrangler olyan szabványos adattípusokat támogat, mint a CSV, JSON, ORC és Parquet.
A Studio-alkalmazások olyan interaktív alkalmazások, amelyek lehetővé teszik a Studio vizuális felületét, kódkészítést és futtatási élményt. Az alkalmazástípusok lehetnek Jupyter Server vagy Kernel Gateway:
- Jupyter szerver – Lehetővé teszi a Studio vizuális felületének elérését. A Studio minden felhasználója saját Jupyter Server alkalmazást kap.
- Kernel Gateway – Lehetővé teszi a Studio notebookok és terminálok kódfuttatási környezetének és kerneleinek elérését. További információkért lásd Jupyter Kernel Gateway.
Életciklus konfigurációk Az LCC-k olyan shell-szkriptek, amelyek automatizálják a Studio-környezetek testreszabását, például a JupyterLab-bővítmények telepítését, az adatkészletek előtöltését és a forráskód-tárolók beállítását. Az LCC-szkripteket a Studio életciklus-események váltják ki, például egy új Studio-jegyzetfüzet elindítása. Ha programozottan életciklus-konfigurációt szeretne beállítani alapértelmezettként a tartományhoz vagy felhasználói profilhoz, létrehozhat egy új erőforrást, vagy frissíthet egy meglévő erőforrást. Ahhoz, hogy egy életciklus-konfigurációt alapértelmezettként társíthasson, először létre kell hoznia egy életciklus-konfigurációt a lépések szerint Életciklus-konfiguráció létrehozása és társítása
Megjegyzés: A tartományi szinten beállított alapértelmezett életciklus-konfigurációkat minden felhasználó örökli, míg a felhasználói szinten beállítottak egy adott felhasználóra vonatkoznak. Ha egyszerre alkalmazza a tartomány- és a felhasználói profil-szintű életciklus-konfigurációkat, akkor a felhasználói profil-szintű életciklus-konfiguráció élvez elsőbbséget, és a rendszer alkalmazza az alkalmazásra, függetlenül attól, hogy milyen életciklus-konfigurációt alkalmaz a tartomány szintjén. További információkért lásd Alapértelmezett életciklus-konfigurációk beállítása.
A Data Wrangler elfogadja az alapértelmezett Kernel Gateway életciklus-konfigurációt, de az alapértelmezett Kernel Gateway életciklus-konfigurációban meghatározott parancsok némelyike nem alkalmazható a Data Wranglerre, ami a Data Wrangler indítási hibáját okozhatja. A következő képernyőképen egy példa látható egy hibaüzenetre, amelyet a Data Wrangler folyamat elindításakor kaphat. Ez csak alapértelmezett életciklus-konfigurációkkal fordulhat elő, életciklus-konfigurációkkal nem.
Megoldás áttekintése
A Studio alapértelmezett életciklus-konfigurációját használó ügyfelek követhetik ezt a bejegyzést, és az életciklus-konfigurációs szkripten belüli kódblokkot használhatják a Data Wrangler alkalmazás hibamentes elindításához.
Állítsa be az alapértelmezett életciklus-konfigurációt
Az alapértelmezett életciklus-konfiguráció beállításához hozzá kell adnia a DefaultResourceSpec
a megfelelő alkalmazástípusból. Az életciklus-konfiguráció viselkedése attól függ, hogy hozzáadták-e a DefaultResourceSpec
egy Jupyter Server vagy Kernel Gateway alkalmazás:
- Jupyter Server alkalmazások – Ha hozzáadjuk a
DefaultResourceSpec
Egy Jupyter Server alkalmazásban az alapértelmezett életciklus-konfigurációs szkript automatikusan lefut, amikor a felhasználó először jelentkezik be a Studioba, vagy újraindítja a Studio alkalmazást. Ezzel automatizálhatja a Studio fejlesztői környezet egyszeri beállítási műveleteit, például a notebook-bővítmények telepítését vagy a GitHub-tárhely beállítását. Ennek példáját lásd Az Amazon SageMaker Studio testreszabása az életciklus-konfigurációk segítségével. - Kernel Gateway alkalmazások – Ha hozzáadjuk a
DefaultResourceSpec
egy Kernel Gateway alkalmazásban a Studio alapértelmezés szerint az életciklus-konfigurációs szkriptet választja ki a Studio indítójából. Elindíthat egy notebookot vagy terminált az alapértelmezett szkripttel, vagy választhat egy másikat az életciklus-konfigurációk listájából.
A Kernel Gateway alapértelmezett életciklus-konfigurációja, amelyet a DefaultResourceSpec
a Studio tartomány összes Kernel Gateway képére vonatkozik, hacsak nem választ egy másik szkriptet a Studio indítójában megjelenő listából.
Amikor a Studio életciklus-konfigurációival dolgozik, létrehoz egy életciklus-konfigurációt, és csatolja azt Studio-tartományához vagy felhasználói profiljához. Ezután elindíthat egy Jupyter Server vagy Kernel Gateway alkalmazást az életciklus-konfiguráció használatához.
Az alábbi táblázat összefoglalja azokat a hibákat, amelyekkel egy Data Wrangler alkalmazás alapértelmezett életciklus-konfigurációkkal történő indításakor találkozhat.
Az életciklus-konfiguráció szintje Alkalmazva |
Hozzon létre Data Wrangler Flow-t Működik (vagy) hiba |
Kerülő megoldás |
Domén | Hibás kérés | Alkalmazza a szkriptet (lásd alább) |
Felhasználói profil | Hibás kérés | Alkalmazza a szkriptet (lásd alább) |
Alkalmazás | Működik – nincs probléma | Nem szükséges |
Ha a Studio és a Data Wrangler (Kernel Gateway alkalmazás) alapértelmezett életciklus-konfigurációját használja, előfordulhat, hogy a Kernel Gateway alkalmazás meghibásodik. Ebben a bejegyzésben bemutatjuk, hogyan állítsa be megfelelően az alapértelmezett életciklus-konfigurációt, hogy kizárja a futó parancsokat a Data Wrangler alkalmazásból, így elkerülhető a Kernel Gateway alkalmazás meghibásodása.
Tegyük fel, hogy telepíteni szeretné a git-clone-repo script, mint az alapértelmezett életciklus-konfiguráció, amely a Jupyter-kiszolgáló indításakor automatikusan kijelöl egy Git-tárat a felhasználó saját mappájában. Nézzük meg az életciklus-konfiguráció (Studio-tartomány, felhasználói profil vagy alkalmazásszint) alkalmazásának minden egyes forgatókönyvét.
Alkalmazza az életciklus-konfigurációt a Studio-tartomány vagy a felhasználói profil szintjén
Az alapértelmezett Kernel Gateway életciklus-konfigurációnak a Studio tartomány vagy a felhasználói profil szintjén történő alkalmazásához hajtsa végre az ebben a szakaszban található lépéseket. Kezdjük a felhasználói profilszintre vonatkozó utasításokkal.
Az életciklus-konfigurációs parancsfájlba bele kell foglalnia a következő kódblokkot, amely ellenőrzi és kihagyja a Data Wrangler Kernel Gateway alkalmazást:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
Például használjuk a következő szkript mint az eredetink (vegye figyelembe, hogy a repo klónozására szolgáló mappa megváltozott /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
Az új módosított szkript így néz ki:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
Ezt a szkriptet elmentheti másként git_command_test.sh
.
Most egy sor parancsot futtat a terminálban vagy a parancssorban. Konfigurálnia kell a AWS parancssori interfész (AWS CLI) az AWS-sel való interakcióhoz. Ha még nem állította be az AWS CLI-t, tekintse meg a következőt: Az AWS parancssori felület konfigurálása.
- Konvertálja a saját
git_command_test.sh
fájlt Base64 formátumba. Ez a követelmény megakadályozza a térközök és sortörések kódolásából adódó hibákat. - Hozzon létre egy Studio életciklus-konfigurációt. A következő parancs életciklus-konfigurációt hoz létre, amely egy társított Kernel Gateway alkalmazás indításakor fut le:
- Használja a következő API-hívást egy új felhasználói profil létrehozásához egy társított életciklus-konfigurációval:
Ha szeretne létrehozni egy Studio-tartományt az életciklus-konfiguráció tartományszintű társításához, vagy frissíteni szeretné a felhasználói profilt vagy a tartományt, kövesse a Alapértelmezett életciklus-konfigurációk beállítása.
- Most elindíthatja Studio alkalmazását a SageMaker vezérlőpultjáról.
- A Studio környezetében a filé menüben válasszon Új és a Data Wrangler Flow.Az új Data Wrangler folyamatnak minden probléma nélkül meg kell nyílnia.
- A Git klón érvényesítéséhez új indítót nyithat meg a Studio alkalmazásban.
- Alatt Jegyzetfüzetek és számítási erőforrások, válassza ki a Python 3 notebookot és a Data Science SageMaker kép, hogy elindítsa a szkriptet alapértelmezett életciklus-konfigurációs szkriptként.
Láthatja a Git-et, amelyre klónozott /root
a következő képernyőképen.
Sikeresen alkalmaztuk a kernel alapértelmezett életciklus-konfigurációját a felhasználói profil szintjén, és létrehoztunk egy Data Wrangler folyamatot. A Studio tartomány szintjén történő konfiguráláshoz az egyetlen változás az, hogy a felhasználói profil létrehozása helyett át kell adni az életciklus-konfiguráció ARN-jét egy domain létrehozása hívás.
Alkalmazza az életciklus-konfigurációt az alkalmazás szintjén
Ha az alapértelmezett Kernel Gateway életciklus-konfigurációt alkalmazza az alkalmazás szintjén, akkor nem lesz problémája, mert a Data Wrangler kihagyja az alkalmazás szintjén alkalmazott életciklus-konfigurációt.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan konfigurálhatja megfelelően az alapértelmezett életciklus-konfigurációt a Studio számára, amikor a Data Wranglert használja az adatok előkészítésére és megjelenítésére.
Összefoglalva, ha az alapértelmezettet kell használnia életciklus-konfiguráció a Studio számára A Studio-környezetek testreszabásának automatizálásához és a Data Wrangler használatához az adatok előkészítéséhez alkalmazhatja az alapértelmezett Kernel Gateway életciklus-konfigurációt a felhasználói profil vagy a Studio tartomány szintjén az életciklus-konfigurációban szereplő megfelelő kódblokk segítségével, így az alapértelmezett életciklus-konfiguráció ellenőrzi azt. és kihagyja a Data Wrangler Kernel Gateway alkalmazást.
További információért tekintse meg a következő forrásokat:
- Az Amazon SageMaker Studio életciklus-konfigurációs dokumentációja
- Amazon SageMaker Studio
- Példa életciklus-konfigurációs szkriptek tárháza
- Életciklus-konfigurációk hibakeresése
A szerzőkről
Rajakumar Sampathkumar az AWS fő műszaki ügyfélmenedzsere, aki útmutatást nyújt az ügyfeleknek az üzleti technológia összehangolásához, és támogatja felhőalapú működési modelljeik és folyamataik újrafeltalálását. Szenvedélye a felhő és a gépi tanulás. Raj egyben gépi tanulási specialista is, és az AWS-ügyfelekkel együttműködve tervezi, telepíti és kezeli az AWS-munkaterheléseket és architektúrákat.
Vicky Zhang az Amazon SageMaker szoftverfejlesztő mérnöke. Szenvedélyes a problémamegoldás. Szabadidejében szívesen néz detektívfilmeket és tollaslabdázik.
Rahul Nabera az AWS Professional Services adatelemzési tanácsadója. Jelenlegi munkája arra összpontosít, hogy lehetővé tegye az ügyfelek számára, hogy adat- és gépi tanulási terheléseiket az AWS-re építsék. Szabadidejében szívesen játszik krikettet és röplabdát.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- Rólunk
- hozzáférés
- Fiók
- cselekvések
- hozzáadott
- Minden termék
- amazon
- analitika
- api
- app
- alkalmazható
- Alkalmazás
- alkalmazások
- alkalmazott
- alkalmaz
- Alkalmazása
- megfelelő
- alkalmazások
- Társult
- társult
- automatizált
- automatikusan
- AWS
- mert
- lent
- Blokk
- határ
- szünetek
- épít
- hívás
- Okoz
- változik
- Ellenőrzések
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- felhő
- kód
- teljes
- alkatrészek
- Kiszámít
- Configuration
- Csatlakozás
- szaktanácsadó
- tartalmaz
- ellenőrzés
- teremt
- készítette
- teremt
- létrehozása
- krikett
- kritikus
- Jelenlegi
- Ügyfelek
- dátum
- Adatelemzés
- bizonyítani
- függ
- telepíteni
- Design
- Fejlesztő
- Fejlesztés
- különböző
- domain
- minden
- könnyen
- visszhang
- lehetővé
- lehetővé teszi
- lehetővé téve
- végtől végig
- mérnök
- Mérnökök
- Környezet
- események
- példa
- létező
- tapasztalat
- feltárása
- kiterjesztések
- Kudarc
- gyorsabb
- vezetéknév
- első
- áramlási
- koncentrál
- következik
- következő
- formátum
- ból ből
- gateway
- megy
- GitHub
- történik
- magasság
- itt
- Kezdőlap
- Hogyan
- How To
- HTTPS
- kép
- képek
- tartalmaz
- beleértve
- információ
- telepíteni
- példa
- interaktív
- Felület
- kérdések
- IT
- indít
- indítás
- tanulás
- szint
- vonal
- Lista
- néz
- gép
- gépi tanulás
- KÉSZÍT
- kezelése
- menedzser
- esetleg
- ML
- modellek
- több
- Filmek
- jegyzetfüzet
- nyitva
- működés
- eredeti
- saját
- panel
- szenvedélyes
- játék
- Készít
- Fő
- Probléma
- folyamat
- Folyamatok
- szakmai
- profil
- biztosít
- amely
- gyorsan
- raktár
- kérni
- követelmények
- forrás
- Tudástár
- futás
- futás
- azonos
- Megtakarítás
- Tudomány
- tudósok
- Series of
- Szolgáltatások
- készlet
- beállítás
- felépítés
- Héj
- előadás
- Egyszerű
- So
- szoftver
- szoftverfejlesztés
- szilárd
- megoldások
- Megoldása
- néhány
- forráskód
- szakember
- különleges
- standard
- kezdet
- kezdődik
- tárolás
- stúdió
- sikeresen
- Támogató
- Támogatja
- Műszaki
- terminál
- teszt
- A
- idő
- Átalakítás
- váltott
- típusok
- alatt
- Frissítések
- használ
- Felhasználók
- megjelenítés
- Mit
- vajon
- belül
- nélkül
- Munka
- művek
- A te