اگر از پیکربندی چرخه حیات پیشفرض برای دامنه یا نمایه کاربری خود استفاده میکنید Amazon SageMaker Studio و استفاده کنید Amazon SageMaker Data Rangler برای آماده سازی داده ها، پس این پست برای شماست. در این پست نشان میدهیم که چگونه میتوانید یک جریان Data Wrangler ایجاد کنید و از آن برای آمادهسازی دادهها در محیط Studio با پیکربندی چرخه حیات پیشفرض استفاده کنید.
Data Wrangler یک قابلیت است آمازون SageMaker این امر باعث می شود که دانشمندان و مهندسان داده سریعتر داده ها را برای برنامه های کاربردی یادگیری ماشین (ML) از طریق یک رابط بصری آماده کنند. آمادهسازی دادهها مرحلهای حیاتی از چرخه حیات ML است و Data Wrangler راهحلی سرتاسری برای وارد کردن، کاوش، تبدیل، ویژهسازی و پردازش دادهها برای ML در یک تجربه بصری و کمکد ارائه میکند. این به شما امکان می دهد به راحتی و به سرعت به اجزای AWS مانند سرویس ذخیره سازی ساده آمازون (Amazon S3) آمازون آتنا, آمازون Redshiftو سازند دریاچه AWSو منابع خارجی مانند Snowflake و DataBricks DeltaLake. Data Wrangler از انواع داده های استاندارد مانند CSV، JSON، ORC و Parket پشتیبانی می کند.
برنامههای استودیو، برنامههای تعاملی هستند که رابط بصری، نوشتن کد و تجربه اجرا را فعال میکنند. انواع برنامه ها می توانند سرور Jupyter یا Kernel Gateway باشند:
- سرور Jupyter – دسترسی به رابط بصری استودیو را فعال می کند. هر کاربر در استودیو برنامه Jupyter Server خود را دریافت می کند.
- دروازه هسته – دسترسی به محیط اجرای کد و هسته ها را برای نوت بوک ها و پایانه های استودیو شما فعال می کند. برای اطلاعات بیشتر ببین دروازه هسته Jupyter.
تنظیمات چرخه حیات (LCC) اسکریپتهای پوستهای برای سفارشیسازی خودکار برای محیطهای استودیو شما هستند، مانند نصب برنامههای افزودنی JupyterLab، بارگذاری پیشبار مجموعههای داده، و راهاندازی مخازن کد منبع. اسکریپت های LCC توسط رویدادهای چرخه حیات استودیو، مانند راه اندازی یک نوت بوک جدید استودیو، فعال می شوند. برای تنظیم یک پیکربندی چرخه حیات بهعنوان پیشفرض برای دامنه یا نمایه کاربری خود به صورت برنامهنویسی، میتوانید یک منبع جدید ایجاد کنید یا یک منبع موجود را بهروزرسانی کنید. برای مرتبط کردن پیکربندی چرخه حیات به عنوان پیشفرض، ابتدا باید پیکربندی چرخه حیات را به دنبال مراحل زیر ایجاد کنید. ایجاد و مرتبط کردن یک پیکربندی چرخه زندگی
توجه: تنظیمات چرخه عمر پیشفرض تنظیمشده در سطح دامنه توسط همه کاربران به ارث میرسد، در حالی که پیکربندیهای تنظیمشده در سطح کاربر به یک کاربر خاص اختصاص داده میشوند. اگر پیکربندی چرخه عمر سطح دامنه و نمایه کاربر را به طور همزمان اعمال کنید، پیکربندی چرخه عمر در سطح نمایه کاربر اولویت دارد و صرف نظر از اینکه چه پیکربندی چرخه حیات در سطح دامنه اعمال می شود، روی برنامه اعمال می شود. برای اطلاعات بیشتر ببین تنظیم تنظیمات چرخه عمر پیش فرض.
Data Wrangler پیکربندی پیشفرض چرخه حیات دروازه هسته را میپذیرد، اما برخی از دستورات تعریفشده در پیکربندی چرخه حیات دروازه هستهای پیشفرض برای Data Wrangler قابل اجرا نیستند، که میتواند باعث شروع نشدن Data Wrangler شود. تصویر زیر نمونه ای از پیام خطایی را نشان می دهد که ممکن است هنگام راه اندازی جریان داده Wrangler دریافت کنید. این ممکن است فقط با تنظیمات چرخه حیات پیشفرض اتفاق بیفتد و نه با پیکربندیهای چرخه حیات.
بررسی اجمالی راه حل
مشتریانی که از پیکربندی چرخه حیات پیشفرض در Studio استفاده میکنند، میتوانند این پست را دنبال کنند و از بلوک کد ارائهشده در اسکریپت پیکربندی چرخه حیات برای راهاندازی برنامه Data Wrangler بدون هیچ خطایی استفاده کنند.
پیکربندی چرخه عمر پیش فرض را تنظیم کنید
برای تنظیم یک پیکربندی چرخه عمر پیش فرض، باید آن را به آن اضافه کنید DefaultResourceSpec
از نوع برنامه مناسب رفتار پیکربندی چرخه عمر شما بستگی به اضافه شدن آن به آن دارد DefaultResourceSpec
از یک برنامه Jupyter Server یا Kernel Gateway:
- برنامه های سرور Jupyter - وقتی به
DefaultResourceSpec
در برنامه Jupyter Server، اسکریپت پیکربندی چرخه حیات پیشفرض زمانی که کاربر برای اولین بار وارد استودیو میشود یا استودیو را مجدداً راهاندازی میکند، بهطور خودکار اجرا میشود. میتوانید از این برای خودکار کردن اقدامات راهاندازی یکباره برای محیط توسعهدهنده Studio، مانند نصب برنامههای افزودنی نوتبوک یا راهاندازی مخزن GitHub استفاده کنید. برای نمونه ای از این، نگاه کنید Amazon SageMaker Studio را با استفاده از تنظیمات چرخه زندگی سفارشی کنید. - برنامه های دروازه کرنل - وقتی به
DefaultResourceSpec
در یک برنامه Kernel Gateway، Studio به طور پیشفرض اسکریپت پیکربندی چرخه حیات را از راهانداز استودیو انتخاب میکند. میتوانید نوتبوک یا ترمینال را با اسکریپت پیشفرض راهاندازی کنید یا یکی دیگر از فهرست تنظیمات چرخه حیات را انتخاب کنید.
یک پیکربندی پیشفرض چرخه حیات دروازه هسته که در آن مشخص شده است DefaultResourceSpec
برای همه تصاویر Kernel Gateway در دامنه Studio اعمال می شود مگر اینکه اسکریپت متفاوتی را از لیست ارائه شده در راه اندازی استودیو انتخاب کنید.
وقتی با پیکربندیهای چرخه حیات برای Studio کار میکنید، یک پیکربندی چرخه حیات ایجاد میکنید و آن را به دامنه استودیو یا نمایه کاربر خود متصل میکنید. سپس می توانید یک برنامه Jupyter Server یا Kernel Gateway را برای استفاده از پیکربندی چرخه حیات راه اندازی کنید.
جدول زیر این خطاهایی را که ممکن است هنگام راهاندازی یک برنامه Data Wrangler با تنظیمات چرخه حیات پیشفرض با آنها مواجه شوید، خلاصه میکند.
سطحی که پیکربندی چرخه حیات در آن است اعمال می شود |
ایجاد جریان مخاصمه داده کارها (یا) خطا |
راه حل |
دامنه | خطای درخواست بد | اسکریپت را اعمال کنید (به زیر مراجعه کنید) |
مشخصات کاربر | خطای درخواست بد | اسکریپت را اعمال کنید (به زیر مراجعه کنید) |
کاربرد | کار می کند - مشکلی وجود ندارد | لازم نیست |
هنگامی که از پیکربندی چرخه حیات پیشفرض مرتبط با Studio و Data Wrangler (برنامه دروازه کرنل) استفاده میکنید، ممکن است با شکست برنامه Kernel Gateway مواجه شوید. در این پست نشان میدهیم که چگونه پیکربندی چرخه حیات پیشفرض را به درستی تنظیم کنیم تا دستورات در حال اجرا در یک برنامه Data Wrangler حذف شود تا با شکست برنامه Kernel Gateway مواجه نشوید.
فرض کنید می خواهید a را نصب کنید git-clone-repo اسکریپت به عنوان پیکربندی چرخه حیات پیشفرض است که با شروع سرور Jupyter به طور خودکار یک مخزن Git را در پوشه اصلی کاربر بررسی میکند. بیایید به هر سناریوی اعمال یک پیکربندی چرخه حیات (دامنه استودیو، نمایه کاربر یا سطح برنامه) نگاه کنیم.
پیکربندی چرخه حیات را در دامنه Studio یا سطح نمایه کاربر اعمال کنید
برای اعمال پیکربندی پیش فرض چرخه حیات دروازه هسته در سطح دامنه Studio یا نمایه کاربر، مراحل این بخش را کامل کنید. ما با دستورالعمل های سطح نمایه کاربر شروع می کنیم.
در اسکریپت پیکربندی چرخه حیات خود، باید بلوک کد زیر را وارد کنید که برنامه Data Wrangler Kernel Gateway را بررسی کرده و از آن پرش می کند:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
به عنوان مثال، اجازه دهید استفاده کنید اسکریپت زیر به عنوان اصلی ما (توجه داشته باشید که پوشه کلون کردن مخزن به آن تغییر کرده است /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
اسکریپت اصلاح شده جدید به شکل زیر است:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
شما می توانید این اسکریپت را به عنوان ذخیره کنید git_command_test.sh
.
اکنون یک سری دستورات را در ترمینال یا خط فرمان خود اجرا می کنید. شما باید پیکربندی کنید رابط خط فرمان AWS (AWS CLI) برای تعامل با AWS. اگر AWS CLI را راهاندازی نکردهاید، به آن مراجعه کنید پیکربندی AWS CLI.
- خود را تبدیل کنید
git_command_test.sh
فایل به فرمت Base64 این نیاز از خطاهای ناشی از رمزگذاری فاصله و شکست خطوط جلوگیری می کند. - یک پیکربندی چرخه حیات استودیو ایجاد کنید. دستور زیر یک پیکربندی چرخه حیات ایجاد میکند که با راهاندازی یک برنامه هستهای مرتبط اجرا میشود:
- از فراخوانی API زیر برای ایجاد یک نمایه کاربر جدید با پیکربندی چرخه حیات مرتبط استفاده کنید:
همچنین، اگر میخواهید یک دامنه استودیو ایجاد کنید تا پیکربندی چرخه حیات خود را در سطح دامنه مرتبط کند، یا نمایه کاربر یا دامنه را بهروزرسانی کنید، میتوانید مراحل زیر را دنبال کنید. تنظیم تنظیمات چرخه عمر پیش فرض.
- اکنون می توانید برنامه استودیو خود را از کنترل پنل SageMaker راه اندازی کنید.
- در محیط استودیو خود، در پرونده منو ، انتخاب کنید جدید و جریان متخاصم دادهجریان جدید Data Wrangler باید بدون هیچ مشکلی باز شود.
- برای تأیید اعتبار کلون Git، می توانید یک Launcher جدید در استودیو باز کنید.
- تحت نوت بوک و منابع محاسباتی، نوت بوک Python 3 و را انتخاب کنید علم اطلاعات تصویر SageMaker برای شروع اسکریپت خود به عنوان اسکریپت پیکربندی چرخه حیات پیش فرض شما.
می توانید Git شبیه سازی شده را ببینید /root
در اسکرین شات زیر
پیکربندی پیشفرض چرخه حیات هسته را با موفقیت در سطح نمایه کاربر اعمال کردهایم و یک جریان Data Wrangler ایجاد کردهایم. برای پیکربندی در سطح دامنه Studio، تنها تغییر این است که به جای ایجاد نمایه کاربر، ARN پیکربندی چرخه حیات را در یک ایجاد دامنه زنگ زدن.
پیکربندی چرخه عمر را در سطح برنامه اعمال کنید
اگر پیکربندی پیشفرض چرخه حیات دروازه هسته را در سطح برنامه اعمال کنید، هیچ مشکلی نخواهید داشت زیرا Data Wrangler پیکربندی چرخه حیات اعمال شده در سطح برنامه را نادیده میگیرد.
نتیجه
در این پست نشان دادیم که چگونه پیکربندی چرخه حیات پیشفرض خود را برای Studio به درستی پیکربندی کنید، زمانی که از Data Wrangler برای آمادهسازی داده و الزامات تجسم استفاده میکنید.
به طور خلاصه، اگر نیاز به استفاده از پیش فرض دارید پیکربندی چرخه حیات برای Studio برای سفارشیسازی خودکار برای محیطهای استودیو خود و استفاده از Data Wrangler برای آمادهسازی دادهها، میتوانید پیکربندی چرخه حیات پیشفرض Kernel Gateway را در نمایه کاربر یا سطح دامنه Studio با بلوک کد مناسب موجود در پیکربندی چرخه حیات خود اعمال کنید تا پیکربندی چرخه حیات پیشفرض آن را بررسی کند. و از برنامه Data Wrangler Kernel Gateway می گذرد.
برای اطلاعات بیشتر به منابع زیر مراجعه کنید:
- مستندات پیکربندی چرخه حیات Amazon SageMaker Studio
- Amazon SageMaker Studio
- مخزن نمونه اسکریپت های پیکربندی چرخه حیات
- اشکال زدایی تنظیمات چرخه عمر
درباره نویسنده
راجاکومار سامپاتکومار یک مدیر حساب فنی اصلی در AWS است که راهنمایی های مشتریان را در مورد همسویی فناوری تجاری ارائه می دهد و از اختراع مجدد مدل ها و فرآیندهای عملیات ابری آنها پشتیبانی می کند. او علاقه زیادی به یادگیری ابری و ماشینی دارد. راج همچنین یک متخصص یادگیری ماشین است و با مشتریان AWS برای طراحی، استقرار و مدیریت حجم کاری و معماری AWS آنها کار می کند.
ویکی ژانگ مهندس توسعه نرم افزار در Amazon SageMaker است. او مشتاق حل مسئله است. او در اوقات فراغت خود از تماشای فیلم های پلیسی و بازی بدمینتون لذت می برد.
راهول نابرا یک مشاور تجزیه و تحلیل داده ها در خدمات حرفه ای AWS است. کار فعلی او بر این تمرکز دارد که مشتریان را قادر می سازد تا داده ها و بارهای کاری یادگیری ماشین خود را بر روی AWS بسازند. او در اوقات فراغت خود از بازی کریکت و والیبال لذت می برد.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- درباره ما
- دسترسی
- حساب
- اقدامات
- اضافه
- معرفی
- آمازون
- علم تجزیه و تحلیل
- API
- نرم افزار
- مربوط
- کاربرد
- برنامه های کاربردی
- اعمال می شود
- درخواست
- با استفاده از
- مناسب
- برنامه های
- وابسته
- مرتبط است
- خودکار بودن
- بطور خودکار
- AWS
- زیرا
- در زیر
- مسدود کردن
- مرز
- می شکند
- ساختن
- صدا
- علت
- تغییر دادن
- چک
- را انتخاب کنید
- ابر
- رمز
- کامل
- اجزاء
- محاسبه
- پیکر بندی
- اتصال
- مشاور
- شامل
- کنترل
- ایجاد
- ایجاد شده
- ایجاد
- ایجاد
- کریکت
- بسیار سخت
- جاری
- مشتریان
- داده ها
- تجزیه و تحلیل داده ها
- نشان دادن
- بستگی دارد
- گسترش
- طرح
- توسعه دهنده
- پروژه
- مختلف
- دامنه
- هر
- به آسانی
- از دست
- قادر ساختن
- را قادر می سازد
- را قادر می سازد
- پشت سر هم
- مهندس
- مورد تأیید
- محیط
- حوادث
- مثال
- موجود
- تجربه
- اکتشاف
- ضمیمهها
- شکست
- سریعتر
- نام خانوادگی
- بار اول
- جریان
- تمرکز
- به دنبال
- پیروی
- قالب
- از جانب
- دروازه
- رفتن
- GitHub
- رخ دادن
- ارتفاع
- اینجا کلیک نمایید
- صفحه اصلی
- چگونه
- چگونه
- HTTPS
- تصویر
- تصاویر
- شامل
- مشمول
- اطلاعات
- نصب
- نمونه
- تعاملی
- رابط
- مسائل
- IT
- راه اندازی
- راه اندازی
- یادگیری
- سطح
- لاین
- فهرست
- نگاه کنيد
- دستگاه
- فراگیری ماشین
- باعث می شود
- مدیریت
- مدیر
- قدرت
- ML
- مدل
- بیش
- فیلم ها
- دفتر یادداشت
- باز کن
- عمل
- اصلی
- خود
- تابلو
- احساساتی
- بازی
- آماده
- اصلی
- مشکل
- روند
- فرآیندهای
- حرفه ای
- مشخصات
- فراهم می کند
- ارائه
- به سرعت
- مخزن
- درخواست
- مورد نیاز
- منابع
- منابع
- دویدن
- در حال اجرا
- همان
- ذخیره
- علم
- دانشمندان
- سلسله
- خدمات
- تنظیم
- محیط
- برپایی
- صدف
- نشان
- ساده
- So
- نرم افزار
- توسعه نرم افزار
- جامد
- راه حل
- حل کردن
- برخی از
- کد منبع
- متخصص
- خاص
- استاندارد
- شروع
- شروع می شود
- ذخیره سازی
- استودیو
- موفقیت
- حمایت از
- پشتیبانی از
- فنی
- پایانه
- آزمون
- La
- زمان
- دگرگون کردن
- باعث شد
- انواع
- زیر
- بروزرسانی
- استفاده کنید
- کاربران
- تجسم
- چی
- چه
- در داخل
- بدون
- مهاجرت کاری
- با این نسخهها کار
- شما