امروزه، بسیاری از مشتریان AWS در حال ساختن پلتفرمهای یادگیری ماشینی آماده سازمانی (ML) هستند سرویس الاستیک کوبرنتز آمازون (Amazon EKS) با استفاده از Kubeflow در AWS (توزیع خاص AWS از Kubeflow) در بسیاری از موارد استفاده، از جمله بینایی رایانه، درک زبان طبیعی، ترجمه گفتار و مدلسازی مالی.
با آخرین نسخه منبع باز Kubeflow نسخه 1.6.1، جامعه Kubeflow به حمایت از این پذیرش در مقیاس بزرگ Kubeflow برای موارد استفاده سازمانی ادامه می دهد. آخرین نسخه شامل بسیاری از ویژگی های جدید هیجان انگیز مانند پشتیبانی از Kubernetes v1.22، Python SDK ترکیبی برای PyTorch، MXNet، MPI، XGBoost در اپراتور آموزشی توزیع شده Kubeflow، CRDهای جدید ClusterServingRuntime و ServingRuntime برای سرویس مدل، و بسیاری موارد دیگر است.
کمکهای AWS به Kubeflow با راهاندازی اخیر Kubeflow در AWS 1.6.1 از همه ویژگیهای منبع باز بالادست Kubeflow پشتیبانی میکند و شامل بسیاری از ادغامهای جدید با سرویسهای AWS بسیار بهینه، بومی ابری و آماده برای سازمان است که به شما کمک میکند تا بسیار قابل اعتماد بسازید. سیستم های ML ایمن، قابل حمل و مقیاس پذیر.
در این پست، ویژگیهای جدید Kubeflow در AWS v1.6.1 را مورد بحث قرار میدهیم و سه ادغام مهم را که در یک پلتفرم همراه شدهاند تا به شما ارائه دهند، برجسته میکنیم:
- راه حل یک کلیک زیرساخت به عنوان کد (IaaC) که نصب سرتاسر Kubeflow را خودکار می کند، از جمله ایجاد خوشه EKS
- پشتیبانی از آموزش های توزیع شده در آمازون SageMaker با استفاده از اپراتورهای آمازون SageMaker برای Kubernetes (ACK) و اجزای SageMaker برای خطوط لوله Kubeflow و به صورت محلی در Kubernetes با استفاده از اپراتورهای آموزشی Kubeflow. بسیاری از مشتریان از این قابلیت برای ساخت معماریهای یادگیری ماشین ترکیبی استفاده میکنند که در آن از محاسبات Kubernetes برای فاز آزمایشی و SageMaker برای اجرای بارهای کاری در مقیاس تولید استفاده میکنند.
- نظارت و قابلیت مشاهده پیشرفته برای بارهای کاری ML از جمله Amazon EKS، معیارهای Kubeflow و گزارش های برنامه با استفاده از Prometheus، Grafana و CloudWatch آمازون یکپارچگی
مورد استفاده در این وبلاگ به طور خاص بر ادغام SageMaker با Kubeflow در AWS متمرکز است که میتواند به گردشهای کاری Kubernetes فعلی شما اضافه شود و شما را قادر میسازد معماریهای یادگیری ماشین ترکیبی بسازید.
Kubeflow در AWS
Kubeflow در AWS 1.6.1 با افزودن خدمات AWS زیر در کنار قابلیتهای موجود، مسیر روشنی را برای استفاده از Kubeflow فراهم میکند:
- SageMaker ادغام با Kubeflow برای اجرای گردش های کاری ترکیبی ML با استفاده از SageMaker Operators for Kubernetes (ACK) و SageMaker Components برای Kubeflow Pipelines.
- گزینه های استقرار خودکار با استفاده از اسکریپت های Kustomize و نمودارهای Helm بهبود یافته و ساده شده اند.
- اضافه شدن پشتیبانی از Infrastructure as Code (IaC) برای استقرار یک کلیک برای Kubeflow در AWS با استفاده از Terraform برای همه موارد موجود گزینه های استقرار. این اسکریپت ایجاد منابع AWS زیر را خودکار می کند:
- پشتیبانی AWS PrivateLink برای آمازون S3 که به کاربران غیرتجاری منطقه امکان می دهد به نقاط پایانی S3 مربوطه خود متصل شوند.
- اضافه شدن ادغام با سرویس مدیریت آمازون برای Prometheus (AMP) و آمازون گرافانا را مدیریت کرد برای نظارت بر معیارها با Kubeflow در AWS.
- ظروف سرور نوت بوک Kubeflow با جدیدترین تصاویر کانتینر یادگیری عمیق بر اساس TensorFlow 2.10.0 و PyTorch 1.12.1 به روز شده است.
- ادغام با DLC های AWS برای اجرای توزیع شده پرورش و استنتاج حجم کار
نمودار معماری زیر یک عکس فوری از تمام ادغامهای سرویس (از جمله مواردی که قبلاً ذکر شد) است که برای کنترل Kubeflow و اجزای صفحه داده در Kubeflow در AWS در دسترس هستند. هواپیمای کنترلی Kubeflow در بالای Amazon EKS نصب شده است، که یک سرویس کانتینری مدیریت شده است که برای اجرا و مقیاسبندی برنامههای Kubernetes در فضای ابری استفاده میشود. این یکپارچهسازیهای سرویس AWS به شما امکان میدهد تا بخشهای حیاتی هواپیمای کنترل Kubeflow را از Kubernetes جدا کنید و طراحی ایمن، مقیاسپذیر، انعطافپذیر و بهینهسازی هزینه را ارائه دهید. برای جزئیات بیشتر در مورد ارزشی که این ادغام های سرویس نسبت به Kubeflow منبع باز اضافه می کنند، به آن مراجعه کنید با Kubeflow در AWS یک سیستم یادگیری ماشین مقیاس پذیر را در Kubernetes بسازید و استقرار دهید.
بیایید با جزئیات بیشتری در مورد اینکه چگونه ویژگی های کلیدی Kubeflow در AWS 1.6.1 می تواند برای سازمان شما مفید باشد بحث کنیم.
Kubeflow در جزئیات ویژگی AWS
با انتشار Kubeflow 1.6.1، ما سعی کردیم ابزارهای بهتری را برای انواع مختلف مشتریان ارائه کنیم که بدون توجه به اینکه کدام گزینه را انتخاب می کنید، شروع به کار با Kubeflow را آسان می کند. این ابزارها نقطه شروع خوبی را ارائه می دهند و می توانند متناسب با نیازهای شما تغییر کنند.
گزینه های استقرار
ما گزینه های استقرار مختلفی را برای موارد مختلف استفاده مشتری ارائه می دهیم. در اینجا میتوانید انتخاب کنید که با کدام سرویسهای AWS میخواهید استقرار Kubeflow خود را ادغام کنید. اگر تصمیم گرفتید بعداً گزینههای استقرار را تغییر دهید، توصیه میکنیم نصب جدیدی را برای استقرار جدید انجام دهید. گزینه های استقرار زیر در دسترس هستند:
اگر می خواهید Kubeflow را با حداقل تغییرات مستقر کنید، این را در نظر بگیرید وانیل گزینه استقرار همه گزینه های استقرار موجود را می توان با استفاده از Kustomize، Helm یا Terraform نصب کرد.
ما همچنین افزونه های مختلفی داریم که می توانند در بالای هر یک از این گزینه های استقرار نصب شوند:
گزینه های نصب
پس از اینکه تصمیم گرفتید که کدام گزینه استقرار به بهترین وجه با نیازهای شما مطابقت دارد، می توانید نحوه نصب این استقرارها را انتخاب کنید. در تلاش برای خدمت به متخصصان و تازه واردان، سطوح مختلف اتوماسیون و پیکربندی را داریم.
گزینه 1: Terraform (IaC)
این یک خوشه EKS و تمام منابع زیرساخت AWS مرتبط ایجاد می کند و سپس Kubeflow را در یک دستور با استفاده از Terraform مستقر می کند. در داخل، این از نقشه های EKS و نمودارهای هلم استفاده می کند.
این گزینه دارای مزایای زیر است:
- این انعطاف پذیری را برای شرکت ها فراهم می کند تا Amazon EKS و Kubeflow را با یک فرمان بدون نگرانی در مورد پیکربندی های خاص Kubeflow مستقر کنند. این امر کمک زیادی به سرعت بخشیدن به ارزیابی فناوری، نمونه سازی اولیه و چرخه عمر توسعه محصول می کند که انعطاف پذیری را برای استفاده از ماژول های ترافورم و اصلاح آن برای رفع نیازهای خاص پروژه فراهم می کند.
- امروزه بسیاری از سازمانها که Terraform را مرکز استراتژی ابری خود میدانند، اکنون میتوانند از Kubeflow در راهحل AWS Terraform برای رسیدن به اهداف ابری خود استفاده کنند.
گزینه 2: نمودارهای شخصی سازی یا هلم:
این گزینه به شما امکان می دهد Kubeflow را در یک فرآیند دو مرحله ای مستقر کنید:
- منابع AWS مانند Amazon EKS، Amazon RDS، Amazon S3، و Amazon Cognito را از طریق اسکریپت های خودکار موجود در توزیع AWS یا به صورت دستی به دنبال یک گام به گام توسط به گام راهنمای.
- استقرار Kubeflow را با استفاده از نمودار Helm یا Kustomize نصب کنید.
این گزینه دارای مزایای زیر است:
- هدف اصلی این گزینه نصب، ارائه تنظیمات Kubernetes مرتبط با Kubeflow است. بنابراین، میتوانید خوشههای EKS موجود یا هر یک از منابع AWS مرتبط مانند Amazon RDS، Amazon S3 و Amazon Cognito را ایجاد یا وارد کنید و آن را برای کار با Kubeflow در AWS پیکربندی و مدیریت کنید.
- انتقال از مانیفست منبع باز Kustomize Kubeflow به توزیع AWS Kubeflow آسان تر است.
نمودار زیر معماری هر دو گزینه را نشان می دهد.
ادغام با SageMaker
SageMaker یک سرویس کاملاً مدیریت شده است که به طور خاص برای مدیریت گردش کار ML طراحی و بهینه شده است. این مدیریت زیرساختهای سنگین را حذف میکند و نیاز به سرمایهگذاری در فناوری اطلاعات و DevOps برای مدیریت خوشهها برای ساخت، آموزش و استنتاج مدل ML را از بین میبرد.
بسیاری از مشتریان AWS که الزامات حملپذیری یا محدودیتهای استاندارد داخلی دارند، از Amazon EKS برای راهاندازی خطوط لوله ML تکرارپذیر در حال اجرای بارهای آموزشی و استنتاج استفاده میکنند. با این حال، این امر مستلزم آن است که توسعه دهندگان کد سفارشی بنویسند تا زیرساخت ML زیربنایی را بهینه کنند، در دسترس بودن و قابلیت اطمینان بالا را فراهم کنند، و با الزامات امنیتی و نظارتی مناسب مطابقت داشته باشند. بنابراین این مشتریان میخواهند از SageMaker برای زیرساختهای بهینهسازی شده و مدیریتشده برای آموزش و استقرار مدل استفاده کنند و به استفاده از Kubernetes برای ارکستراسیون و خطوط لوله ML برای حفظ استانداردسازی و قابلیت حمل ادامه دهند.
برای رفع این نیاز، AWS به شما امکان میدهد با استفاده از دو گزینه زیر، مدلهایی را در SageMaker از Amazon EKS آموزش، تنظیم و استقرار دهید:
- Amazon SageMaker ACK Operators for Kubernetes که بر اساس کنترلرهای AWS برای Kubernetes چارچوب (ACK). ACK استراتژی AWS است که استانداردسازی را برای ساخت کنترلرهای سفارشی Kubernetes به ارمغان می آورد که به کاربران Kubernetes اجازه می دهد منابع AWS مانند پایگاه های داده یا صف های پیام را به سادگی با استفاده از Kubernetes API فراهم کنند. اپراتورهای SageMaker ACK کار را برای توسعه دهندگان ML و دانشمندان داده که از Kubernetes به عنوان صفحه کنترل خود استفاده می کنند، برای آموزش، تنظیم و استقرار مدل های ML در SageMaker بدون ورود به کنسول SageMaker آسان تر می کنند.
- La اجزای SageMaker برای خطوط لوله Kubeflowکه به شما امکان می دهد SageMaker را با قابلیت حمل و هماهنگی خطوط لوله Kubeflow ادغام کنید. با اجزای SageMaker، هر کار در جریان کاری خط لوله به جای خوشه محلی Kubernetes روی SageMaker اجرا می شود. این به شما امکان می دهد آموزش، تنظیم، استقرار نقطه پایانی و تبدیل دسته ای مشاغل SageMaker بومی را از خطوط لوله Kubeflow خود ایجاد و نظارت کنید، از این رو به شما امکان می دهد محاسبات کامل شامل پردازش داده ها و کارهای آموزشی را از خوشه Kubernetes به سرویس مدیریت شده بهینه یادگیری ماشین SageMaker منتقل کنید.
با شروع Kubeflow در AWS v1.6.1، همه گزینههای استقرار Kubeflow موجود، هر دو گزینه ادغام Amazon SageMaker را به طور پیشفرض در یک پلتفرم گرد هم میآورند. این بدان معناست که اکنون می توانید کارهای SageMaker را با استفاده از اپراتورهای SageMaker ACK از خود سرور نوت بوک Kubeflow با ارسال منبع سفارشی SageMaker یا از مرحله خط لوله Kubeflow با استفاده از اجزای SageMaker ارسال کنید.
دو نسخه از SageMaker Components وجود دارد - Boto3 (AWS SDK برای AWS SDK برای Python) مؤلفههای نسخه 1 مبتنی بر و SageMaker Operator برای مؤلفههای مبتنی بر نسخه 8 K2 (ACK). کامپوننتهای جدید SageMaker نسخه 2 از آخرین Apis آموزشی SageMaker پشتیبانی میکنند و ما به افزودن ویژگیهای SageMaker بیشتر به این نسخه از مؤلفه ادامه خواهیم داد. با این حال، شما این قابلیت را دارید که اجزای Sagemaker نسخه 2 را برای آموزش و نسخه 1 را برای سایر ویژگی های SageMaker مانند تنظیم هایپرپارامتر، کارهای پردازش، میزبانی و بسیاری موارد دیگر ترکیب کنید.
ادغام با پرومتئوس و گرافانا
Prometheus یک ابزار جمعآوری معیارهای منبع باز است که میتوانید آن را برای اجرا در خوشههای Kubernetes پیکربندی کنید. هنگام اجرا بر روی خوشههای Kubernetes، یک سرور اصلی Prometheus به صورت دورهای نقاط انتهایی غلاف را خراش میدهد.
اجزای Kubeflow، مانند خطوط لوله Kubeflow (KFP) و Notebook، معیارهای Prometheus را منتشر میکنند تا امکان نظارت بر منابع جزء مانند تعداد آزمایشهای در حال اجرا یا تعداد نوتبوکها را فراهم کند.
این معیارها را می توان توسط یک سرور Prometheus که در خوشه Kubernetes اجرا می شود جمع آوری کرد و با استفاده از Prometheus Query Language (PromQL) پرس و جو کرد. برای جزئیات بیشتر در مورد ویژگی هایی که Prometheus پشتیبانی می کند، به بررسی کنید مستندات پرومتئوس.
توزیع Kubeflow در AWS از ادغام با خدمات مدیریت شده AWS زیر پشتیبانی می کند:
- آمازون Prometheus (AMP) را مدیریت کرد که یک تیتان فرزند پاپتوس-سرویس نظارت سازگار برای زیرساخت کانتینر و معیارهای کاربردی برای کانتینرها که نظارت ایمن بر محیط های کانتینر در مقیاس را برای مشتریان آسان می کند. با استفاده از AMP، میتوانید معیارها، گزارشها و ردیابیهای جمعآوریشده از چندین منبع داده در سیستم مشاهدهپذیری خود، از جمله AWS، ISVهای شخص ثالث، و سایر منابع را در مجموعه فناوری اطلاعات خود تجسم، تجزیه و تحلیل و هشدار دهید.
- Amazon Managed Grafana، یک سرویس تجسم داده کاملاً مدیریت شده و ایمن بر اساس منبع باز گرافانا پروژه ای که مشتریان را قادر می سازد فوراً معیارها، گزارش ها و ردیابی های عملیاتی را برای برنامه های خود از چندین منبع داده جستجو، مرتبط و تجسم کنند. آمازون مدیریت Grafana مدیریت عملیاتی Grafana را با مقیاس خودکار زیرساخت محاسباتی و پایگاه داده با افزایش تقاضای استفاده، با به روز رسانی خودکار نسخه و وصله امنیتی، تخلیه می کند.
توزیع Kubeflow در AWS از ادغام سرویس مدیریت شده آمازون برای Prometheus و Amazon Managed Grafana پشتیبانی می کند تا دریافت و تجسم معیارهای Prometheus را به صورت ایمن در مقیاس تسهیل کند.
معیارهای زیر دریافت میشوند و میتوان آنها را تجسم کرد:
- معیارهای منتشر شده از اجزای Kubeflow مانند خطوط لوله Kubeflow و سرور Notebook
- KubeFlow متریک های صفحه کنترل
برای پیکربندی Amazon Managed Service برای Prometheus و Amazon Managed Grafana برای خوشه Kubeflow، به از Prometheus، Amazon Managed Service برای Prometheus و Amazon Managed Grafana برای نظارت بر معیارها با Kubeflow در AWS استفاده کنید..
بررسی اجمالی راه حل
در این مورد، ما از استقرار وانیلی Kubeflow با استفاده از گزینه نصب Terraform استفاده می کنیم. وقتی نصب کامل شد، وارد داشبورد Kubeflow می شویم. از داشبورد، یک سرور نوت بوک Kubeflow Jupyter را می چرخانیم تا یک خط لوله Kubeflow بسازیم که از SageMaker برای اجرای آموزش توزیع شده برای مدل طبقه بندی تصویر و یک نقطه پایانی SageMaker برای استقرار مدل استفاده می کند.
پیش نیازها
مطمئن شوید که پیش نیازهای زیر را دارید:
- شما یک حساب AWS.
- مطمئن شوید که در
us-west-2
منطقه برای اجرای این مثال. - از Google Chrome برای تعامل با کنسول مدیریت AWS و Kubeflow.
- مطمئن شوید که حساب شما دارای محدودیت نوع منبع آموزشی SageMaker برای ml.p3.2xlarge با استفاده از کنسول Service Quotas به 2 افزایش یافته است.
- در صورت تمایل می توانید استفاده کنید AWS Cloud9یک محیط توسعه یکپارچه مبتنی بر ابر (IDE) که امکان تکمیل تمام کارها را از مرورگر وب شما فراهم می کند. برای دستورالعمل های راه اندازی، مراجعه کنید راه اندازی Cloud9 IDE. سرور اوبونتو 18.04 را به عنوان یک پلتفرم در تنظیمات AWS Cloud9 انتخاب کنید.سپس از محیط AWS Cloud9 خود، علامت مثبت را انتخاب کرده و ترمینال جدید را باز کنید.
شما همچنین یک را پیکربندی کنید رابط خط فرمان AWS نمایه (AWS CLI). برای انجام این کار، به شناسه کلید دسترسی و کلید دسترسی مخفی an نیاز دارید هویت AWS و مدیریت دسترسی (من هستم) کاربر حساب با امتیازات اداری (ضمیمه خط مشی مدیریت شده موجود) و دسترسی برنامه ای. کد زیر را ببینید:
مجوزهایی را که cloud9 برای فراخوانی منابع AWS استفاده می کند، تأیید کنید.
از خروجی زیر مطمئن شوید که arn کاربر ادمین را که در نمایه AWS CLI پیکربندی کردهاید، میبینید. در این مثال "kubeflow-user" است
Amazon EKS و Kubeflow را روی AWS نصب کنید
برای نصب Amazon EKS و Kubeflow در AWS، مراحل زیر را انجام دهید:
- محیط خود را برای استقرار Kubeflow در AWS تنظیم کنید:
- نسخه وانیلی Kubeflow را روی AWS و منابع AWS مرتبط مانند EKS با استفاده از Terraform اجرا کنید. لطفاً توجه داشته باشید که حجم های EBS مورد استفاده در گره گروه EKS به طور پیش فرض رمزگذاری نمی شوند:
مجوزهای Kubeflow را تنظیم کنید
- برای برقراری تماسهای SageMaker، S3 و IAM با استفاده از Api، مجوزها را به Notebook pod و Pipeline Component pod اضافه کنید.
kubeflow_iam_permissions.sh
اسکریپت - نقش اجرای SageMaker را ایجاد کنید تا کار آموزشی SageMaker برای دسترسی به مجموعه داده های آموزشی از سرویس S3 با استفاده از
sagemaker_role.sh
اسکریپت
به داشبورد Kubeflow دسترسی پیدا کنید
برای دسترسی به داشبورد Kubeflow، مراحل زیر را انجام دهید:
- با اجرای دستورات زیر میتوانید داشبورد Kubeflow را به صورت محلی در محیط Cloud9 اجرا کنید، بدون اینکه آدرسهای اینترنتی خود را در معرض اینترنت عمومی قرار دهید.
- را انتخاب کنید پیش نمایش برنامه در حال اجرا.
- نماد موجود در گوشه داشبورد Kubeflow را انتخاب کنید تا به عنوان یک برگه جداگانه در کروم باز شود.
- اعتبار پیش فرض را وارد کنید (
user@example.com/12341234
) برای ورود به داشبورد Kubeflow.
Kubeflow را در محیط AWS تنظیم کنید
هنگامی که به داشبورد Kubeflow وارد شدید، مطمئن شوید که فضای نام مناسبی دارید (kubeflow-user-example-com
) انتخاب شده است. مراحل زیر را برای راه اندازی Kubeflow خود در محیط AWS انجام دهید:
- در داشبورد Kubeflow، را انتخاب کنید نوت بوک در صفحه ناوبری
- را انتخاب کنید نوت بوک جدید.
- برای نام، وارد
aws-nb
. - برای تصویر Jupyter Docket، تصویر را انتخاب کنید
jupyter-pytorch:1.12.0-cpu-py38-ubuntu20.04-ec2-2022-09-20
(آخرین موجودjupyter-pytorch
تصویر DLC). - برای پردازنده، وارد
1
. - برای حافظه، وارد
5
. - برای GPU ها، ترک به عنوان هیچ.
- هیچ تغییری در آن ایجاد نکنید فضای کاری و حجم داده ها بخش.
- انتخاب کنید اجازه دسترسی به خطوط لوله Kubeflow را بدهید در پیکربندی بخش و راه اندازی را انتخاب کنید.
- بررسی کنید که نوت بوک شما با موفقیت ایجاد شده است (ممکن است چند دقیقه طول بکشد).
- را انتخاب کنید اتصال برای ورود به JupyterLab.
- با وارد کردن، مخزن را کلون کنید
https://github.com/aws-samples/eks-kubeflow-cloudformation-quick-start.git
در یک مخزن را شبیه سازی کنید رشته. - را انتخاب کنید کلون.
یک نمونه آموزشی توزیع شده را اجرا کنید
پس از راه اندازی نوت بوک Jupyter، می توانید کل نسخه نمایشی را با استفاده از مراحل سطح بالای زیر از پوشه اجرا کنید. eks-kubeflow-cloudformation-quick-start/workshop/pytorch-distributed-training
در مخزن کلون شده:
- اسکریپت آموزشی PyTorch Distributed Data Parallel (DDP) را اجرا کنید – به اسکریپت آموزشی PyTorch DDP مراجعه کنید
cifar10-distributed-gpu-final.py
، که شامل یک نمونه شبکه عصبی کانولوشن و منطق برای توزیع آموزش بر روی خوشه CPU و GPU چند گره است. - یک خط لوله Kubeflow ایجاد کنید - نوت بوک را اجرا کنید
STEP1.0_create_pipeline_k8s_sagemaker.ipynb
برای ایجاد یک خط لوله که اجرا می شود و مدل ها را در SageMaker مستقر می کند. مطمئن شوید که کتابخانه SageMaker را به عنوان بخشی از اولین سلول نوت بوک نصب کرده اید و قبل از اجرای بقیه سلول های نوت بوک، هسته را مجددا راه اندازی کنید. - یک نقطه پایانی SageMaker را فراخوانی کنید - نوت بوک را اجرا کنید
STEP1.1_invoke_sagemaker_endpoint.ipynb
برای فراخوانی و آزمایش نقطه پایانی استنتاج مدل SageMaker ایجاد شده در نوت بوک قبلی.
در بخش های بعدی به تفصیل هر یک از این مراحل را مورد بحث قرار می دهیم.
اسکریپت آموزشی PyTorch DDP را اجرا کنید
به عنوان بخشی از آموزش توزیع شده، ما یک مدل طبقه بندی ایجاد شده توسط یک شبکه عصبی کانولوشنال ساده را آموزش می دهیم که بر روی مجموعه داده CIFAR10 عمل می کند. فیلمنامه آموزشی cifar10-distributed-gpu-final.py
فقط شامل کتابخانه های منبع باز است و برای اجرا در کلاسترهای آموزشی Kubernetes و SageMaker در دستگاه های GPU یا نمونه های CPU سازگار است. قبل از اجرای نمونه های نوت بوک خود، به چند جنبه مهم اسکریپت آموزشی نگاه می کنیم.
ما با استفاده از torch.distributed
ماژول، که شامل پشتیبانی PyTorch و اصول ارتباطی اولیه برای موازی سازی چند فرآیندی در سراسر گره ها در خوشه است:
ما یک مدل طبقه بندی تصویر ساده را با استفاده از ترکیبی از لایه های کانولوشنال، حداکثر ادغام و لایه های خطی ایجاد می کنیم. relu
تابع فعال سازی در گذر رو به جلو آموزش مدل اعمال می شود:
اگر کلاستر آموزشی دارای پردازنده گرافیکی باشد، اسکریپت آموزش را روی دستگاه های CUDA اجرا می کند و متغیر دستگاه دستگاه CUDA پیش فرض را نگه می دارد:
قبل از اجرای آموزش توزیع شده با استفاده از PyTorch DistributedDataParallel
برای اجرای پردازش توزیع شده روی چندین گره، باید محیط توزیع شده را با فراخوانی مقداردهی اولیه کنید init_process_group
. این در هر ماشین از کلاستر آموزشی مقدار دهی اولیه می شود.
مدل طبقهبندیکننده را نمونهسازی میکنیم و مدل را روی دستگاه مورد نظر کپی میکنیم. اگر آموزش توزیع شده برای اجرا در چندین گره فعال باشد، DistributedDataParallel
کلاس به عنوان یک شی بسته بندی در اطراف شی مدل استفاده می شود، که امکان آموزش توزیع همزمان در چندین ماشین را فراهم می کند. داده های ورودی بر روی ابعاد دسته ای تقسیم می شوند و یک کپی از مدل بر روی هر دستگاه و هر دستگاه قرار می گیرد. کد زیر را ببینید:
یک خط لوله Kubeflow ایجاد کنید
نوت بوک از Kubeflow Pipelines SDK و مجموعه ای از بسته های پایتون ارائه شده برای تعیین و اجرای خطوط لوله گردش کار ML. به عنوان بخشی از این SDK، ما از تزئین کننده بسته زبان مخصوص دامنه (DSL) استفاده می کنیم dsl.pipeline
، که توابع پایتون را برای بازگشت خط لوله تزئین می کند.
خط لوله Kubeflow از SageMaker جزء V2 برای ارسال آموزش به SageMaker با استفاده از SageMaker ACK Operators استفاده می کند. ایجاد مدل SageMaker و استقرار مدل از مولفه SageMaker V1 استفاده میکند که اجزای SageMaker مبتنی بر Boto3 هستند. ما از ترکیبی از هر دو مؤلفه در این مثال برای نشان دادن انعطاف پذیری شما در انتخاب استفاده می کنیم.
- اجزای SageMaker را با استفاده از کد زیر بارگیری کنید:
در کد زیر، خط لوله Kubeflow را ایجاد می کنیم که در آن آموزش توزیع شده SageMaker را با استفاده از دو اجرا می کنیم
ml.p3.2xlarge
موارد:پس از تعریف خط لوله، می توانید خط لوله را با مشخصات Argo YAML با استفاده از Kubeflow Pipelines SDK کامپایل کنید.
kfp.compiler
بسته بندی شما می توانید این خط لوله را با استفاده از سرویس گیرنده Kubeflow Pipelines SDK اجرا کنید، که نقطه پایانی سرویس Pipelines را فراخوانی می کند و در هدرهای احراز هویت مناسب درست از نوت بوک عبور می کند. کد زیر را ببینید: - انتخاب جزئیات را اجرا کنید پیوند زیر آخرین سلول برای مشاهده خط لوله Kubeflow. تصویر زیر جزئیات خط لوله ما را برای مؤلفه آموزش و استقرار SageMaker نشان می دهد.
- مرحله شغلی آموزشی را انتخاب کنید و بر روی سیاههها برگه، پیوند گزارشهای CloudWatch را برای دسترسی به گزارشهای SageMaker انتخاب کنید.
تصویر زیر گزارشهای CloudWatch را برای هر یک از دو نمونه ml.p3.2xlarge نشان میدهد. - هر یک از گروه ها را برای دیدن گزارش ها انتخاب کنید.
- با انتخاب گزینه، نقطه پایانی SageMaker را ضبط کنید Sagemaker – Deploy Model مرحله و کپی کردن
endpoint_name
مقدار مصنوع خروجی
یک نقطه پایانی SageMaker را فراخوانی کنید
دفترچه یادداشت STEP1.1_invoke_sagemaker_endpoint.ipynb
نقطه پایانی استنتاج SageMaker ایجاد شده در مرحله قبل را فراخوانی می کند. مطمئن شوید که نام نقطه پایانی را به روز کرده اید:
پاک کردن
برای پاکسازی منابع خود، مراحل زیر را انجام دهید:
- برای حذف منابع AWS دستورات زیر را در AWS Cloud9 اجرا کنید:
- نقش IAM را حذف کنید
sagemakerrole
” با استفاده از دستور AWS CLI زیر: - با استفاده از دستور AWS CLI زیر، نقطه پایانی SageMaker را حذف کنید:
خلاصه
در این پست، ارزشی را که Kubeflow در AWS 1.6.1 از طریق ادغامهای خدمات بومی مدیریت شده توسط AWS برای رفع نیاز موارد استفاده از هوش مصنوعی و ML در سطح سازمانی ارائه میکند، برجسته کردیم. میتوانید از میان چندین گزینه استقرار، Kubeflow را روی AWS با ادغامهای خدمات مختلف با استفاده از Terraform، Kustomize یا Helm نصب کنید. مورد استفاده در این پست یک ادغام Kubeflow با SageMaker را نشان می دهد که از یک کلاستر آموزشی مدیریت شده SageMaker برای اجرای آموزش توزیع شده برای مدل طبقه بندی تصویر و نقطه پایانی SageMaker برای استقرار مدل استفاده می کند.
ما همچنین در دسترس قرار داده ایم نمونه نمونه خط لوله که از آخرین اجزای SageMaker استفاده می کند. می توانید این را مستقیماً از داشبورد Kubeflow اجرا کنید. این خط لوله نیاز به داده های آمازون S3 و SageMaker اجرای نقش IAM به عنوان ورودی های مورد نیاز
برای شروع کار با Kubeflow در AWS، به گزینههای استقرار یکپارچه AWS در دسترس مراجعه کنید Kubeflow در AWS. می توانید دنبال کنید مخزن AWS Labs برای ردیابی تمام مشارکت های AWS به Kubeflow. شما همچنین می توانید ما را در Kubeflow #AWS Slack Channel; بازخورد شما در آنجا به ما کمک می کند تا ویژگی های بعدی را برای مشارکت در پروژه Kubeflow اولویت بندی کنیم.
درباره نویسندگان
کانوالجیت خرمی یک معمار ارشد راه حل در خدمات وب آمازون است. او با مشتریان AWS همکاری می کند تا راهنمایی و کمک فنی ارائه دهد تا به آنها کمک کند ارزش راه حل های خود را هنگام استفاده از AWS بهبود بخشند. Kanwaljit در کمک به مشتریان با برنامه های کاربردی کانتینری و یادگیری ماشین تخصص دارد.
کارتیک کلامدی مهندس توسعه نرم افزار در آمازون AI است. در حال حاضر روی پروژههای منبع باز Kubernetes مانند Kubeflow و AWS SageMaker Controller برای k8s تمرکز دارد. در اوقات فراغت خود دوست دارم بازی های رایانه شخصی بازی کنم و با استفاده از موتور یونیتی با VR دست و پنجه نرم کنم.
راهول خارسه مهندس توسعه نرم افزار در خدمات وب آمازون است. کار او بر ادغام سرویسهای AWS با پلتفرمهای ML Ops کانتینری منبع باز برای بهبود مقیاسپذیری، قابلیت اطمینان و امنیت آنها متمرکز است. راهول علاوه بر تمرکز بر روی درخواستهای مشتریان برای ویژگیها، از آزمایش آخرین پیشرفتهای فناوری در این زمینه نیز لذت میبرد.
- پیشرفته (300)
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- KubeFlow
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- زفیرنت