در نوامبر 2021، با همکاری RStudio PBC، ما اعلام کرد در دسترس بودن عمومی RStudio در Amazon SageMaker، اولین RStudio Workbench IDE با مدیریت کامل در صنعت در فضای ابری است. اکنون می توانید مجوز RStudio فعلی خود را بیاورید تا به راحتی محیط های RStudio خود مدیریت شده خود را به آمازون SageMaker فقط در چند مرحله ساده
RStudio یکی از محبوب ترین IDE ها در بین توسعه دهندگان R برای پروژه های یادگیری ماشین (ML) و علم داده است. RStudio ابزارهای منبع باز برای R و نرم افزارهای حرفه ای آماده سازمانی را برای تیم های علم داده برای توسعه و به اشتراک گذاری کار خود در سازمان فراهم می کند. آوردن RStudio در SageMaker نه تنها به شما امکان دسترسی به زیرساخت AWS را به روشی کاملاً مدیریت شده می دهد، بلکه به شما امکان دسترسی بومی به SageMaker را نیز می دهد.
در این پست، نحوه استفاده از ویژگیهای SageMaker را از طریق RStudio در SageMaker برای ایجاد خط لوله SageMaker که مدلهای R شما را میسازد، پردازش، آموزش و ثبت میکند، بررسی میکنیم. ما همچنین با استفاده از SageMaker برای استقرار مدل خود، همه از R استفاده می کنیم.
بررسی اجمالی راه حل
نمودار زیر معماری استفاده شده در راه حل ما را نشان می دهد. تمام کدهای استفاده شده در این مثال را می توان در مخزن GitHub.
پیش نیازها
برای دنبال کردن این پست، دسترسی به RStudio در SageMaker مورد نیاز است. اگر در استفاده از RStudio در SageMaker تازه کار هستید، بررسی کنید با RStudio در Amazon SageMaker شروع کنید.
همچنین باید کانتینرهای Docker سفارشی بسازیم. ما استفاده می کنیم AWS CodeBuild برای ساخت این ظروف، بنابراین به چند عدد اضافی نیاز دارید هویت AWS و مدیریت دسترسی مجوزهای (IAM) که ممکن است به طور پیش فرض نداشته باشید. قبل از ادامه، مطمئن شوید که نقش IAM که استفاده میکنید دارای خطمشی اعتماد با CodeBuild است:
مجوزهای زیر نیز در نقش IAM برای اجرای یک ساخت در CodeBuild و فشار دادن تصویر به آن مورد نیاز است رجیستری ظروف الاستیک آمازون (Amazon ECR):
ظروف پایه R را ایجاد کنید
برای استفاده از اسکریپت های R ما برای پردازش و آموزش مشاغل پردازش و آموزشی SageMaker، باید خودمان را ایجاد کنیم. ظروف داكر حاوی زمان اجرا و بسته های لازم توانایی استفاده از کانتینر خود، که بخشی از پیشنهاد SageMaker است، به توسعه دهندگان و دانشمندان داده انعطاف پذیری زیادی می دهد تا از ابزارها و چارچوب های انتخابی خود استفاده کنند، تقریباً بدون محدودیت.
ما دو کانتینر Docker با قابلیت R ایجاد می کنیم: یکی برای پردازش مشاغل و دیگری برای آموزش و استقرار مدل های ما. پردازش داده ها معمولاً به بسته ها و کتابخانه های متفاوتی نسبت به مدل سازی نیاز دارد، بنابراین در اینجا منطقی است که دو مرحله را از هم جدا کنیم و از کانتینرهای مختلف استفاده کنیم.
برای جزئیات بیشتر در مورد استفاده از ظروف با SageMaker، مراجعه کنید استفاده از ظروف Docker با SageMaker.
ظرف مورد استفاده برای پردازش به صورت زیر تعریف می شود:
برای این پست از یک ظرف ساده و نسبتا سبک استفاده می کنیم. بسته به نیاز خود یا سازمانتان، ممکن است بخواهید چندین بسته R دیگر را از قبل نصب کنید.
کانتینر مورد استفاده برای آموزش و استقرار به شرح زیر تعریف می شود:
هسته RStudio روی یک کانتینر Docker اجرا میشود، بنابراین نمیتوانید کانتینرها را با استفاده از دستورات Docker مستقیماً در جلسه استودیو خود بسازید و مستقر کنید. در عوض، می توانید از کتابخانه بسیار مفید استفاده کنید Sagemaker-Studio-Imagebuild، که اساسا وظیفه ساخت کانتینرها را به CodeBuild برون سپاری می کند.
با دستورات زیر دو رجیستری آمازون ECR ایجاد می کنیم: sagemaker-r-processing
و sagemaker-r-train-n-deploy
، و کانتینرهای مربوطه را بسازید که بعداً استفاده می کنیم:
خط لوله را ایجاد کنید
اکنون که کانتینرها ساخته و آماده شده اند، می توانیم خط لوله SageMaker را ایجاد کنیم که گردش کار ساخت مدل را هماهنگ می کند. کد کامل این در زیر فایل است pipeline.R
در مخزن ساده ترین راه برای ایجاد خط لوله SageMaker استفاده از SageMaker SDK است که یک کتابخانه Python است که می توانیم با استفاده از کتابخانه به آن دسترسی داشته باشیم. شبکه سازی. این به ما امکان دسترسی به تمام قابلیت های SageMaker را بدون خروج از محیط زبان R می دهد.
خط لوله ای که ما می سازیم دارای اجزای زیر است:
- مرحله پیش پردازش – این یک کار پردازشی SageMaker است (با استفاده از
sagemaker-r-processing
ظرف) مسئول پیش پردازش داده ها و تقسیم داده ها به مجموعه داده های قطار و آزمایش است. - مرحله آموزش – این یک کار آموزشی SageMaker است (با استفاده از
sagemaker-r-train-n-deploy
ظرف) مسئول آموزش مدل است. در این مثال یک مدل خطی ساده را آموزش می دهیم. - مرحله ارزیابی – این یک کار پردازشی SageMaker است (با استفاده از
sagemaker-r-processing
ظرف) مسئول انجام ارزیابی مدل است. به طور خاص در این مثال، ما به RMSE (ریشه میانگین مربعات خطا) در مجموعه داده آزمایشی علاقهمندیم، که میخواهیم از آن در مرحله بعد و همچنین با خود مدل استفاده کنیم. - مرحله مشروط - این یک مرحله مشروط، بومی خطوط لوله SageMaker است که به ما امکان می دهد منطق خط لوله را بر اساس برخی پارامترها منشعب کنیم. در این حالت خط لوله بر اساس مقدار RMSE که در مرحله قبل محاسبه شده است منشعب می شود.
- ثبت مرحله مدل – اگر مرحله شرطی قبل باشد
True
، و عملکرد مدل قابل قبول است، سپس مدل در رجیستری مدل ثبت می شود. برای اطلاعات بیشتر مراجعه کنید ثبت و استقرار مدل ها با رجیستری مدل.
ابتدا تابع upsert را برای ایجاد (یا به روز رسانی) خط لوله فراخوانی کنید و سپس تابع start را فراخوانی کنید تا در واقع اجرای خط لوله شروع شود:
خط لوله و رجیستری مدل را بررسی کنید
یکی از خوبیهای استفاده از RStudio در SageMaker این است که با قرار گرفتن در پلتفرم SageMaker، میتوانید از ابزار مناسب برای کار مناسب استفاده کنید و به سرعت بر اساس کاری که باید انجام دهید، بین آنها جابجا شوید.
به محض شروع اجرای خط لوله، می توانیم به آن سوئیچ کنیم Amazon SageMaker Studio، که به ما اجازه می دهد خط لوله را تجسم کنیم و جریان و اجرای قبلی آن را نظارت کنیم.
برای مشاهده جزئیات مربوط به خط لوله ای که به تازگی ایجاد و اجرا کردیم، به رابط Studio IDE بروید، انتخاب کنید منابع SageMaker، انتخاب کنید خطوط لوله در منوی کشویی، و خط لوله را انتخاب کنید (در این مورد، AbalonePipelineUsingR
).
این جزئیات خط لوله، از جمله تمام اجراهای فعلی و قبلی را نشان می دهد. مطابق تصویر زیر، آخرین مورد را برای نمایش تصویری خط لوله انتخاب کنید.
DAG خط لوله به طور خودکار توسط سرویس بر اساس وابستگی های داده بین مراحل، و همچنین بر اساس وابستگی های اضافه شده سفارشی (در این مثال اضافه نشده است) ایجاد می شود.
وقتی اجرا کامل شد، در صورت موفقیت آمیز بودن، باید سبز شدن همه مراحل را ببینید.
با انتخاب هر یک از مراحل جداگانه، جزئیات مربوط به مرحله خاص، از جمله ورودیها، خروجیها، گزارشها و تنظیمات پیکربندی اولیه نمایش داده میشود. این به شما امکان می دهد در خط لوله حفاری کنید و هر مرحله شکست خورده را بررسی کنید.
به طور مشابه، هنگامی که خط لوله به پایان رسید، یک مدل در رجیستری مدل ذخیره می شود. برای دسترسی به آن، در منابع SageMaker پنجره، انتخاب کنید رجیستری مدل در منوی کشویی و مدل خود را انتخاب کنید. این لیست مدل های ثبت شده را نشان می دهد، همانطور که در تصویر زیر نشان داده شده است. یکی را برای باز کردن صفحه جزئیات برای آن نسخه مدل خاص انتخاب کنید.
پس از باز کردن نسخه ای از مدل، انتخاب کنید وضعیت به روز رسانی و تصویب برای تایید مدل
در این مرحله، بر اساس مورد استفاده خود، میتوانید این تأییدیه را برای راهاندازی اقدامات بیشتر، از جمله استقرار مدل بر اساس نیاز خود تنظیم کنید.
استقرار مدل بدون سرور
پس از آموزش و ثبت یک مدل در SageMaker، استقرار مدل در SageMaker ساده است.
چندین گزینه برای نحوه استقرار یک مدل وجود دارد، مانند استنتاج دسته ای، نقاط پایانی بلادرنگ یا نقاط پایانی ناهمزمان. هر روش دارای چندین پیکربندی مورد نیاز است، از جمله انتخاب نوع نمونه مورد نظر و همچنین مکانیسم مقیاسبندی.
برای این مثال، ما از ویژگی اخیراً اعلام شده SageMaker استفاده می کنیم. استنتاج بدون سرور (در حالت پیش نمایش از زمان نوشتن)، برای استقرار مدل R خود در نقطه پایانی بدون سرور. برای این نوع نقطه پایانی، ما فقط مقدار رمی را که میخواهیم به مدل برای استنتاج اختصاص دهیم و همچنین حداکثر تعداد فراخوانهای همزمان مجاز مدل را تعریف میکنیم. SageMaker از میزبانی مدل و مقیاس بندی خودکار در صورت نیاز مراقبت می کند. شما فقط برای تعداد دقیق ثانیه ها و داده های استفاده شده توسط مدل هزینه دریافت می کنید، بدون هیچ هزینه ای برای زمان بیکاری.
شما می توانید مدل را در یک نقطه پایانی بدون سرور با کد زیر مستقر کنید:
اگر خطا را مشاهده کردید ClientError: An error occurred (ValidationException) when calling the CreateModel operation: Invalid approval status "PendingManualApproval"
مدلی که می خواهید اجرا کنید تایید نشده است. مراحل بخش قبل را برای تایید مدل خود دنبال کنید.
با ارسال یک درخواست به نقطه پایانی HTTP که ما مستقر کردیم، نقطه پایانی را فراخوانی کنید، یا در عوض از SageMaker SDK استفاده کنید. در کد زیر، نقطه پایانی را در برخی از داده های آزمایشی فراخوانی می کنیم:
نقطه پایانی که ما فراخوانی کردیم یک نقطه پایانی بدون سرور بود و به این ترتیب ما برای مدت زمان دقیق و داده های استفاده شده هزینه دریافت می کنیم. ممکن است متوجه شوید که اولین باری که نقطه پایانی را فراخوانی می کنید حدود یک ثانیه طول می کشد تا پاسخ دهید. این به دلیل زمان شروع سرد نقطه پایانی بدون سرور است. اگر بلافاصله بعد از آن فراخوان دیگری انجام دهید، مدل پیشبینی را در زمان واقعی برمیگرداند زیرا از قبل گرم است.
پس از اتمام آزمایش با نقطه پایانی، می توانید آن را با دستور زیر حذف کنید:
نتیجه
در این پست، روند ایجاد خط لوله SageMaker با استفاده از R در محیط RStudio خود را طی کردیم و نحوه استقرار مدل R خود را در یک نقطه پایانی بدون سرور در SageMaker با استفاده از رجیستری مدل SageMaker به نمایش گذاشتیم.
با ترکیب RStudio و SageMaker، اکنون میتوانید با استفاده از زبان انتخابی ما، R، گردشهای کاری کامل ML را در AWS ایجاد و هماهنگ کنید.
برای غواصی عمیق تر در این راه حل، من شما را تشویق می کنم که کد منبع این راه حل و همچنین نمونه های دیگر را مرور کنید. GitHub.
درباره نویسنده
جورجیوس شیناس یک معمار راه حل های تخصصی برای AI/ML در منطقه EMEA است. او در لندن مستقر است و از نزدیک با مشتریان در بریتانیا و ایرلند کار می کند. جورجیوس به مشتریان کمک میکند تا برنامههای یادگیری ماشینی را در تولید در AWS با علاقه خاصی به شیوههای MLOps طراحی و استقرار دهند و مشتریان را قادر میسازد تا یادگیری ماشین را در مقیاس انجام دهند. او در اوقات فراغت از سفر، آشپزی و گذراندن وقت با دوستان و خانواده لذت می برد.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت