با استفاده از خوشه های ناهمگن Amazon SageMaker، عملکرد قیمت آموزش مدل خود را بهبود بخشید

بازنشر افلاطون

دنبال: 0

این پست با Chaim Rand از Mobileye نوشته شده است.

بارهای کاری خاص یادگیری ماشین (ML)، مانند آموزش مدل‌های بینایی کامپیوتری یا یادگیری تقویتی، اغلب شامل ترکیب کار فشرده GPU یا شتاب‌دهنده آموزش مدل شبکه عصبی با وظیفه فشرده CPU پیش پردازش داده‌ها، مانند تقویت تصویر است. وقتی هر دو نوع کار روی یک نوع نمونه اجرا می‌شوند، پیش‌پردازش داده‌ها در CPU با تنگنا مواجه می‌شود که منجر به استفاده کمتر از GPU می‌شود. این مشکل با گذشت زمان بدتر می شود زیرا توان تولید نسل های جدیدتر GPU با سرعت بیشتری نسبت به پردازنده ها رشد می کند.

برای رسیدگی به این موضوع، در ژوئیه 2022، ما راه اندازی خوشه های ناهمگن برای آمازون SageMaker آموزش مدل، که به شما امکان می دهد مشاغل آموزشی را راه اندازی کنید که از انواع نمونه های مختلف در یک کار استفاده می کنند. این اجازه می دهد تا بخش هایی از خط لوله پیش پردازش داده را تخلیه کنید محاسبه بهینه شده انواع نمونه، در حالی که وظیفه شبکه عصبی عمیق (DNN) همچنان ادامه دارد GPU یا محاسبات شتابدار انواع نمونه معیارهای ما پس از فعال کردن خوشه‌های ناهمگن در یک آموزش مدل بینایی کامپیوتری TensorFlow محدود به CPU، تا 46% مزیت عملکرد قیمت را نشان می‌دهند.

برای یک مورد استفاده مشابه، موبایل، یک شرکت توسعه فناوری خودروهای خودمختار، این موارد را برای به اشتراک گذاشتن داشت:

با جابجایی آموزش مدل بینایی کامپیوتری یادگیری عمیق مبتنی بر CPU برای اجرای چندین نمونه (CPU و شتاب دهنده‌های GPU/ML)، با استفاده از tf.data.service راه حل مبتنی بر ساخت ما، ما موفق شدیم زمان آموزش را تا 40٪ کاهش دهیم در حالی که هزینه آموزش را 30٪ کاهش دادیم. ما از خوشه های ناهمگنی که به ما اجازه می دهند این راه حل را در Amazon SageMaker اجرا کنیم، هیجان زده هستیم.

- مهندسی هوش مصنوعی، Mobileye

در این پست به موضوعات زیر می پردازیم:

چگونه خوشه های ناهمگن به حذف گلوگاه های CPU کمک می کنند
زمان استفاده از خوشه های ناهمگن و سایر گزینه ها
پیاده سازی مرجع در PyTorch و TensorFlow
نتایج معیار عملکرد
خوشه های ناهمگن در Mobileye

AWS نمونه محاسباتی تسریع شده خانواده شامل شتاب دهنده هایی از تراشه های سفارشی AWS (استنتاج AWS, AWS Trainium), NVIDIA (GPU ها)، و شتاب دهنده های گائودی از آزمایشگاه هابانا (یک شرکت اینتل). توجه داشته باشید که در این پست از دو عبارت GPU و Accelerator به جای یکدیگر استفاده می کنیم.

چگونه خوشه های ناهمگن گلوگاه های پردازش داده را حذف می کنند

هدف دانشمندان داده‌ای که مدل‌های یادگیری عمیق را آموزش می‌دهند، به حداکثر رساندن هزینه آموزش و به حداقل رساندن زمان آموزش هستند. برای دستیابی به این هدف، یک هدف اساسی بهینه سازی، استفاده از GPU بالا، گران ترین و کمیاب ترین منبع در داخل است. ابر محاسبه الاستیک آمازون نمونه (Amazon EC2). این می تواند با بارهای کاری ML چالش برانگیزتر باشد که مدل شبکه عصبی کلاسیک مبتنی بر GPU را به جلو و عقب با وظایف فشرده CPU ترکیب می کند، مانند پردازش داده ها و تقویت در بینایی کامپیوتر یا اجرای شبیه سازی محیط در یادگیری تقویتی. این بارهای کاری ممکن است به CPU محدود شوند، جایی که داشتن CPU بیشتر منجر به توان عملیاتی بالاتر و آموزش سریعتر و ارزانتر می شود زیرا شتاب دهنده های موجود تا حدی بیکار هستند. در برخی موارد، تنگناهای CPU را می توان با تغییر به نوع نمونه دیگری با نسبت CPU:GPU بالاتر برطرف کرد. با این حال، موقعیت‌هایی وجود دارد که تغییر به نوع نمونه دیگری ممکن است به دلیل معماری، ذخیره‌سازی یا وابستگی شبکه‌ای خانواده نمونه ممکن نباشد.

در چنین شرایطی، شما باید با اختلاط انواع نمونه، میزان توان CPU را افزایش دهید: نمونه هایی با GPU و CPU. در مجموع، این منجر به نسبت CPU:GPU بالاتری می شود. تا همین اواخر، مشاغل آموزشی SageMaker به داشتن نمونه هایی از یک نوع نمونه منتخب محدود می شد. با خوشه‌های ناهمگن SageMaker، دانشمندان داده می‌توانند به راحتی یک کار آموزشی را با انواع نمونه‌های مختلف اجرا کنند، که این امکان را می‌دهد تا برخی از وظایف موجود CPU را از نمونه‌های GPU به نمونه‌های اختصاصی CPU بهینه‌سازی شده محاسباتی بارگذاری کند، و در نتیجه استفاده بالاتر از GPU و هزینه بیشتر و سریع‌تر را به همراه دارد. آموزش کارآمد علاوه بر این، با قدرت اضافی CPU، می توانید کارهای پیش پردازشی را که به طور سنتی به صورت آفلاین انجام می شد، به عنوان یک مرحله مقدماتی برای آموزش، به بخشی از کار آموزشی خود تبدیل کنید. این باعث می شود که تکرار و آزمایش بر روی هر دو پیش پردازش داده و مفروضات آموزشی DNN و فراپارامترها سریعتر شود.

برای مثال، یک نوع نمونه GPU قدرتمند، ml.p4d.24xlarge (96 vCPU، 8 x NVIDIA را در نظر بگیرید A100 پردازنده‌های گرافیکی)، با نسبت CPU:GPU 12:1. بیایید فرض کنیم شغل آموزشی شما به 20 vCPU نیاز دارد تا داده های کافی برای استفاده 100٪ از یک GPU را پیش پردازش کند. بنابراین، برای استفاده 8٪ از تمام 100 پردازنده گرافیکی، به نوع نمونه 160 vCPU نیاز دارید. با این حال، ml.p4d.24xlarge دارای 64 vCPU یا 40 درصد است که استفاده از GPU را به 60 درصد محدود می کند، همانطور که در سمت چپ نمودار زیر نشان داده شده است. آیا اضافه کردن یک نمونه ml.p4d.24xlarge دیگر کمکی می کند؟ نه، زیرا نسبت CPU:GPU کار ثابت می ماند.

همانطور که در سمت راست نمودار نشان داده شده است، با خوشه های ناهمگن، می توانیم دو ml.c5.18xlarge (72 vCPU) اضافه کنیم. کل خالص vCPU در این خوشه 210 (96+2*72) است که منجر به نسبت CPU:GPU به 30:1 می شود. هر یک از این نمونه‌های محاسباتی بهینه‌سازی شده با یک وظیفه فشرده پردازشی پیش‌پردازش داده بارگیری می‌شوند و امکان استفاده کارآمد از GPU را فراهم می‌کنند. علیرغم هزینه اضافی ml.c5.18xlarge، استفاده بیشتر از GPU امکان پردازش سریعتر و در نتیجه مزایای عملکرد قیمت بالاتر را فراهم می کند.

زمان استفاده از خوشه های ناهمگن و سایر گزینه ها

در این بخش، نحوه شناسایی گلوگاه CPU را توضیح می‌دهیم و در مورد حل آن با استفاده از مقیاس‌پذیری نوع نمونه در مقابل خوشه‌های ناهمگن بحث می‌کنیم.

راه سریع برای شناسایی گلوگاه CPU نظارت بر CPU و GPU است معیارهای استفاده برای مشاغل آموزشی SageMaker در CloudWatch آمازون. می توانید به این نماها دسترسی داشته باشید کنسول مدیریت AWS در لینک متریک نمونه صفحه شغل آموزشی. معیارهای مربوطه را انتخاب کنید و از وضوح 5 دقیقه به 1 دقیقه تغییر دهید. توجه داشته باشید که مقیاس 100٪ در هر VCPU یا GPU است، بنابراین نرخ استفاده برای مثال با 4 vCPU/GPU می تواند تا 400٪ باشد. شکل زیر یکی از این نمونه‌ها از معیارهای CloudWatch است، که در آن CPU تقریباً 100٪ استفاده می‌شود، که نشان‌دهنده تنگنای CPU است، در حالی که GPU کمتر مورد استفاده قرار می‌گیرد.

برای تشخیص دقیق، کارهای آموزشی را با دیباگر Amazon SageMaker برای نمایه کردن وضعیت استفاده از منابع، آمار و عملیات چارچوب، با افزودن یک پیکربندی پروفایلر هنگام ساختن یک برآوردگر SageMaker با استفاده از SageMaker Python SDK. پس از ارسال کار آموزشی، نتیجه را بررسی کنید گزارش پروفایلر برای تنگناهای CPU

اگر به این نتیجه رسیدید که شغل شما می تواند از نسبت محاسباتی CPU:GPU بالاتری بهره مند شود، ابتدا به یک نوع نمونه دیگر در همان خانواده نمونه، در صورت موجود بودن، توجه کنید. برای مثال، اگر مدل خود را روی ml.g5.8xlarge (32 vCPU، 1 GPU) آموزش می‌دهید، مقیاس آن را تا ml.g5.16xlarge (64 vCPU، 1 GPU) در نظر بگیرید. یا، اگر مدل خود را با استفاده از نمونه چند GPU ml.g5.12xlarge (48 vCPU، 4 GPU) آموزش می‌دهید، مقیاس آن را تا ml.g5.24xlarge (96 vCPU، 4 GPU) در نظر بگیرید. رجوع به G5 به عنوان مثال مشخصات خانواده برای جزئیات بیشتر.

گاهی اوقات، افزایش مقیاس گزینه ای نیست، زیرا هیچ نوع نمونه ای با نسبت vCPU:GPU بالاتر در همان خانواده نمونه وجود ندارد. برای مثال، اگر مدل را روی ml.trn1.32xlarge، ml.p4d.24xlarge یا ml.g5.48xlarge، برای آموزش مدل SageMaker باید خوشه های ناهمگن را در نظر بگیرید.

علاوه بر افزایش مقیاس، می‌خواهیم توجه داشته باشیم که جایگزین‌های دیگری برای خوشه‌های ناهمگن مانند NVIDIA وجود دارد. دالی، که پیش پردازش تصویر را به GPU بارگذاری می کند. برای اطلاعات بیشتر مراجعه کنید غلبه بر تنگناهای پیش پردازش داده با سرویس داده TensorFlow، NVIDIA DALI و سایر روش ها.

برای ساده‌تر شدن تصمیم‌گیری، به فلوچارت زیر مراجعه کنید.

نحوه استفاده از خوشه های ناهمگن SageMaker

برای شروع سریع، می توانید مستقیماً به نمونه های TensorFlow یا PyTorch که به عنوان بخشی از این پست ارائه شده است بروید.

در این بخش، نحوه استفاده از خوشه ناهمگن SageMaker را با یک مثال ساده به شما آموزش می دهیم. ما فرض می کنیم که شما از قبل می دانید که چگونه یک مدل را با SageMaker Python SDK و کلاس Estimator آموزش دهید. اگر نه رجوع کنید با استفاده از SageMaker Python SDK قبل از ادامه

قبل از این ویژگی، کلاس Estimator کار آموزشی را با InstanceCount و پارامترهای InstanceType، که به طور ضمنی فرض می کند که شما فقط یک نوع نمونه (یک خوشه همگن) دارید. با انتشار خوشه های ناهمگن، جدید را معرفی کردیم sagemaker.instance_group.InstanceGroup کلاس این نشان دهنده گروهی از یک یا چند نمونه از یک نوع نمونه خاص است که برای انجام یک نقش منطقی طراحی شده است (مانند پردازش داده یا بهینه سازی شبکه عصبی. شما می توانید دو یا چند گروه داشته باشید، و یک نام سفارشی برای هر گروه نمونه، نمونه مشخص کنید. نوع و تعداد نمونه ها برای هر گروه نمونه. برای اطلاعات بیشتر به ادامه مطلب مراجعه کنید با استفاده از SageMaker Python SDK و استفاده از APIهای سطح پایین SageMaker.

پس از اینکه گروه‌های نمونه را تعریف کردید، باید اسکریپت آموزشی خود را برای خواندن SageMaker تغییر دهید اطلاعات محیط آموزشی که شامل پیکربندی خوشه ناهمگن است. این پیکربندی حاوی اطلاعاتی مانند گروه‌های نمونه فعلی، میزبان‌های فعلی در هر گروه، و رتبه‌بندی میزبان فعلی در کدام گروه است. می توانید منطقی را در اسکریپت آموزشی خود بسازید تا گروه های نمونه را به وظایف خاص آموزشی و پردازش داده اختصاص دهید. علاوه بر این، اسکریپت آموزشی شما باید از ارتباطات گروهی بین نمونه ای یا مکانیسم های بارگذاری داده های توزیع شده مراقبت کند (به عنوان مثال، tf.data.service در TensorFlow یا عمومی سرویس گیرنده-سرور gRPC) یا هر چارچوب دیگری (به عنوان مثال، جرقه آپاچی).

بیایید یک مثال ساده از راه اندازی یک کار آموزشی ناهمگن و خواندن پیکربندی محیط در زمان اجرا را مرور کنیم.

هنگام تعریف و راه‌اندازی کار آموزشی، دو گروه نمونه به‌عنوان آرگومان‌های برآوردگر SageMaker را پیکربندی می‌کنیم:

from sagemaker.instance_group import InstanceGroup
data_group = InstanceGroup("data_group", "ml.c5.18xlarge", 2)
dnn_group = InstanceGroup("dnn_group", "ml.p4d.24xlarge", 1)

from sagemaker.pytorch import PyTorch
estimator = PyTorch(...,
    entry_point='launcher.py',
    instance_groups=[data_group, dnn_group]
)

در اسکریپت آموزشی نقطه ورودی (نام launcher.py، پیکربندی خوشه ناهمگن را می خوانیم که آیا نمونه پیش پردازش یا کد DNN را اجرا می کند:
```
from sagemaker_training import environment
env = environment.Environment()
if env.current_instance_group == 'data_group': ...;
```

با این کار، بیایید کارهایی را که SageMaker از طرف شما انجام می دهد و وظایفی که شما مسئول آن هستید، خلاصه کنیم.

SageMaker وظایف زیر را انجام می دهد:

انواع نمونه های مختلف را با توجه به تعریف گروه نمونه ارائه کنید.
کانال های ورودی را برای همه یا گروه های نمونه خاص فراهم کنید.
اسکریپت های آموزشی و وابستگی ها را در نمونه ها توزیع کنید.
در صورت تعریف، یک کلاستر MPI را روی یک گروه نمونه خاص تنظیم کنید.

شما مسئول وظایف زیر هستید:

اسکریپت شغلی شروع آموزش خود را برای مشخص کردن گروه‌های نمونه تغییر دهید.
پیاده سازی خط لوله داده های توزیع شده (به عنوان مثال، tf.data.service).
اسکریپت نقطه ورودی خود را اصلاح کنید (نگاه کنید به launcher.py در نوت بوک مثال) یک نقطه ورودی واحد باشد که روی همه نمونه ها اجرا شود، تشخیص دهد که در کدام گروه نمونه اجرا می شود و رفتار مربوطه (مانند پردازش داده یا بهینه سازی DNN) را فعال کند.
وقتی حلقه آموزشی به پایان رسید، باید مطمئن شوید که فرآیند نقطه ورود شما در همه نمونه ها در همه گروه های نمونه خارج می شود. این مهم است زیرا SageMaker قبل از اینکه کار را به عنوان کامل علامت‌گذاری کند و صورت‌حساب را متوقف کند، منتظر می‌ماند تا پردازش تمام نمونه‌ها تمام شود. را launcher.py اسکریپت در نوت‌بوک‌های نمونه TensorFlow و PyTorch یک پیاده‌سازی مرجع از نمونه‌های گروه داده سیگنالینگ را برای خروج زمانی که نمونه‌های گروه DNN کار خود را به پایان می‌رسانند، ارائه می‌کند.

نمونه نوت بوک برای خوشه های ناهمگن SageMaker

در این بخش خلاصه ای از آن را ارائه می دهیم نمونه نوت بوک برای هر دو چارچوب TensorFlow و PyTorch ML. در نوت‌بوک‌ها، می‌توانید جزئیات پیاده‌سازی، توضیحاتی در مورد نحوه عملکرد کد، تکه‌های کدی که می‌توانید در اسکریپت‌های آموزشی خود مجدداً استفاده کنید، نمودارهای جریان و تجزیه و تحلیل مقایسه هزینه‌ها را بیابید.

توجه داشته باشید که در هر دو مثال، نباید انتظار داشته باشید که مدل به شکل معناداری همگرا شود. هدف ما فقط اندازه‌گیری خط لوله داده و توان عملیاتی بهینه‌سازی شبکه عصبی است که در زمان دوره/گام بیان می‌شود. شما باید با مدل و مجموعه داده خود محک بزنید تا مزایای عملکرد قیمتی متناسب با حجم کاری شما ایجاد کنید.

خوشه ناهمگن با استفاده از بارگذار داده توزیع شده مبتنی بر tf.data.service (TensorFlow)

این دفتر یادداشت نحوه پیاده سازی یک خوشه ناهمگن برای آموزش SageMaker با استفاده از TensorFlow را نشان می دهد. tf.data.service خط لوله داده های توزیع شده مبتنی بر ما یک مدل بینایی کامپیوتری یادگیری عمیق را آموزش می دهیم Resnet50 که نیاز به افزایش داده های فشرده CPU دارد. استفاده می کند هوروود برای موازی سازی داده های توزیع شده با چند GPU.

ما حجم کار را در دو پیکربندی اجرا می کنیم: ابتدا به عنوان یک خوشه همگن، نمونه تک ml.p4d.24xlarge، با استفاده از یک استاندارد tf.data خط لوله ای که گلوگاه های CPU را نشان می دهد که منجر به استفاده کمتر از GPU می شود. در اجرای دوم، با استفاده از یک خوشه ناهمگن SageMaker از یک نوع نمونه به دو گروه نمونه تغییر می کنیم. این اجرا برخی از پردازش داده ها را به نمونه های اضافی CPU (با استفاده از tf.data.service).

سپس پیکربندی‌های همگن و ناهمگن را مقایسه می‌کنیم و مزایای عملکرد قیمت کلیدی را پیدا می‌کنیم. همانطور که در جدول زیر نشان داده شده است، آموزش کار ناهمگن (86 میلی‌ثانیه در مرحله) 2.2 برابر سریع‌تر از کار همگن (192 میلی‌ثانیه در مرحله) است که آموزش یک مدل را 46 درصد ارزان‌تر می‌کند.

مثال 1 (TF)	ml.p4d.24xl	ml.c5.18xl	قیمت هر ساعت*	میانگین زمان گام	هزینه هر مرحله	بهبود عملکرد قیمت
همگن	1	0	$37.688	MS 192	$0.201	.
ناهمگون	1	2	$45.032	MS 86	$0.108	٪۱۰۰

* قیمت هر ساعت بر اساس us-east-1 است قیمت گذاری بر اساس تقاضای SageMaker

این افزایش سرعت با استفاده از vCPU اضافی ارائه شده توسط گروه داده و پیش پردازش سریعتر امکان پذیر است. را ببینید دفتر یادداشت برای جزئیات بیشتر و نمودارها

خوشه ناهمگن با استفاده از بارگذار داده توزیع شده مبتنی بر سرویس گیرنده-سرور gRPC (PyTorch)

این دفتر یادداشت یک نمونه کار را با استفاده از یک خوشه ناهمگن برای آموزش SageMaker با استفاده از یک بارگذار داده توزیع شده مبتنی بر سرویس گیرنده-سرور gRPC نشان می دهد. این مثال از یک GPU استفاده می کند. ما از مدل PyTorch بر اساس موارد زیر استفاده می کنیم نمونه رسمی MNIST. کد آموزشی به گونه ای اصلاح شده است که برای پیش پردازش داده ها سنگین باشد. ما این مدل را در حالت خوشه‌ای همگن و ناهمگن آموزش می‌دهیم و عملکرد قیمت را مقایسه می‌کنیم.

در این مثال، ما فرض کردیم که حجم کار نمی تواند از چندین GPU بهره مند شود و به یک معماری GPU خاص (NVIDIA) وابسته است. V100). همانطور که در جدول زیر نشان داده شده است، ما هر دو شغل آموزشی همگن و ناهمگن را اجرا کردیم و مزایای عملکرد کلیدی قیمت را پیدا کردیم. آموزش کار ناهمگن (1.19 ثانیه در مرحله) 6.5 برابر سریعتر از کار همگن (0.18 ثانیه در مرحله) است که آموزش یک مدل را 77 درصد ارزان تر می کند.

مثال 2 (PT)	ml.p3.2xl	ml.c5.9xl	قیمت هر ساعت*	میانگین زمان گام	هزینه هر مرحله	بهبود عملکرد قیمت
همگن	1	0	$3.825	MS 1193	$0.127	.
ناهمگون	1	1	$5.661	MS 184	$0.029	٪۱۰۰

* قیمت هر ساعت بر اساس us-east-1 است قیمت گذاری بر اساس تقاضای SageMaker

این امکان پذیر است زیرا با تعداد CPU بالاتر، می‌توانیم از 32 کارگر بارگذار داده (در مقایسه با 8 با ml.p3.2xlarge) برای پیش‌پردازش داده‌ها استفاده کنیم و GPU را نزدیک به 100% در فواصل زمانی مکرر استفاده کنیم. را ببینید دفتر یادداشت برای جزئیات بیشتر و نمودارها

خوشه های ناهمگن در Mobileye

Mobileye، یک شرکت اینتل، سیستم‌های پیشرفته کمک راننده (ADAS) و فناوری‌های خودروهای خودران را با هدف ایجاد انقلابی در صنعت حمل‌ونقل، ایمن‌تر کردن جاده‌ها و نجات جان انسان‌ها توسعه می‌دهد. این فناوری‌ها با استفاده از مدل‌های پیچیده بینایی کامپیوتری (CV) فعال می‌شوند که با استفاده از SageMaker بر روی مقادیر زیادی از داده‌های ذخیره شده در سرویس ذخیره سازی ساده آمازون (Amazon S3). این مدل ها از پیشرفته ترین تکنیک های شبکه عصبی یادگیری عمیق استفاده می کنند.

ما متوجه شدیم که برای یکی از مدل‌های CV ما، گلوگاه CPU عمدتاً ناشی از پیش‌پردازش سنگین داده‌ها است که منجر به استفاده ناکافی از GPUها می‌شود. برای این حجم کاری خاص، ما شروع به جستجوی راه‌حل‌های جایگزین کردیم، فناوری‌های خط لوله داده توزیع‌شده را با خوشه‌های ناهمگن بر اساس نمونه‌های EC2 ارزیابی کردیم و به پیاده‌سازی‌های مرجع برای هر دو رسیدیم. TensorFlow و PyTorch. انتشار خوشه ناهمگن SageMaker به ما این امکان را می دهد که این و بارهای کاری مشابه را در SageMaker اجرا کنیم تا به مزایای عملکرد قیمت بهبود یافته دست یابیم.

ملاحظات

با راه‌اندازی ویژگی خوشه‌ای ناهمگن، SageMaker انعطاف‌پذیری بیشتری را در ترکیب و تطبیق انواع نمونه‌ها در شغل آموزشی شما ارائه می‌دهد. با این حال، هنگام استفاده از این ویژگی، موارد زیر را در نظر بگیرید:

ویژگی خوشه ناهمگن از طریق SageMaker در دسترس است PyTorch و TensorFlow کلاس های تخمینگر چارچوب فریمورک های پشتیبانی شده PyTorch نسخه 1.10 یا جدیدتر و TensorFlow نسخه 2.6 یا بالاتر هستند.
همه گروه‌های نمونه یک تصویر Docker را به اشتراک می‌گذارند.
همه گروه‌های نمونه یک اسکریپت آموزشی مشترک دارند. بنابراین، اسکریپت آموزشی شما باید برای تشخیص اینکه به کدام گروه نمونه تعلق دارد و فورک بر این اساس اجرا می شود، اصلاح شود.
نام‌های میزبان نمونه‌های آموزشی (به عنوان مثال، alog-1، algo-2 و غیره) به طور تصادفی اختصاص داده می‌شوند و نشان نمی‌دهند که به کدام گروه نمونه تعلق دارند. برای دریافت نقش نمونه، توصیه می‌کنیم عضویت گروه نمونه آن را در طول زمان اجرا دریافت کنید. این موضوع هنگام بررسی ورود به سیستم نیز مرتبط است CloudWatch، زیرا نام جریان ورود به سیستم [training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp] نام میزبان را دارد.
یک استراتژی آموزشی توزیع شده (معمولاً یک خوشه MPI) می تواند فقط برای یک گروه نمونه اعمال شود.
SageMaker استخرهای گرم مدیریت شده و SageMaker حالت محلی در حال حاضر نمی توان با آموزش خوشه ای ناهمگن استفاده کرد.

نتیجه

در این پست درباره زمان و نحوه استفاده از ویژگی خوشه ناهمگن آموزش SageMaker بحث کردیم. ما 46٪ بهبود عملکرد قیمت را در مورد استفاده واقعی نشان دادیم و به شما کمک کردیم تا به سرعت با بارگذار داده توزیع شده (tf.data.service و gRPC مشتری-سرور) پیاده سازی. شما می توانید از این پیاده سازی ها با حداقل تغییرات کد در اسکریپت های آموزشی موجود خود استفاده کنید.

برای شروع، ما را امتحان کنید نمونه نوت بوک. برای آشنایی بیشتر با این ویژگی به ادامه مطلب مراجعه کنید آموزش با استفاده از یک خوشه ناهمگن.

درباره نویسندگان

گیلی ناچوم یک معمار ارشد راه حل های تخصصی AI/ML است که به عنوان بخشی از تیم یادگیری ماشین آمازون EMEA کار می کند. Gili مشتاق چالش‌های آموزش مدل‌های یادگیری عمیق است و اینکه چگونه یادگیری ماشینی جهان را آنطور که می‌شناسیم تغییر می‌دهد. گیلی در اوقات فراغت خود از بازی تنیس روی میز لذت می برد.

هروشیکش گنگور یک معمار اصلی راه حل برای استارتاپ های AI/ML با تخصص در آموزش ML و شبکه AWS است. او به استارت‌آپ‌هایی در زمینه خودروهای خودمختار، رباتیک، CV، NLP، MLOps، پلتفرم ML و اتوماسیون فرآیند رباتیک کمک می‌کند تا کسب‌وکار خود را به‌طور کارآمد و مؤثر در AWS اجرا کنند. قبل از پیوستن به AWS، Hrushikesh بیش از 20 سال تجربه در صنعت عمدتاً در پلتفرم‌های Cloud و Data کسب کرد.

گال عشری یک مدیر ارشد محصول در تیم آمازون SageMaker است. او 7 سال تجربه کار بر روی ابزارها، چارچوب ها و خدمات یادگیری ماشینی دارد.

چایم رند یک توسعه‌دهنده الگوریتم یادگیری ماشینی است که بر روی فناوری‌های یادگیری عمیق و بینایی کامپیوتری برای راه‌حل‌های خودروی خودمختار در Mobileye، یک شرکت اینتل کار می‌کند. او را بررسی کنید وبلاگ ها.

تمبر زمان: اکتبر 27، 2022اکتبر 27، 2022

تمبر زمان: فوریه 23، 2022

عملکرد قیمت آموزش مدل خود را با استفاده از خوشه های ناهمگن Amazon SageMaker بهبود بخشید

بازنشر افلاطون

چگونه خوشه های ناهمگن گلوگاه های پردازش داده را حذف می کنند

زمان استفاده از خوشه های ناهمگن و سایر گزینه ها

نحوه استفاده از خوشه های ناهمگن SageMaker

نمونه نوت بوک برای خوشه های ناهمگن SageMaker

خوشه ناهمگن با استفاده از بارگذار داده توزیع شده مبتنی بر tf.data.service (TensorFlow)

خوشه ناهمگن با استفاده از بارگذار داده توزیع شده مبتنی بر سرویس گیرنده-سرور gRPC (PyTorch)

خوشه های ناهمگن در Mobileye

ملاحظات

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

ورودی تماس گیرنده را با استفاده از انواع اسلات گرامری در آمازون لکس تفسیر کنید

با استفاده از خدمات هوش مصنوعی آمازون، دسترسی به محتوای خود را با تبدیل خودکار سند به گفتار افزایش دهید

نمونه آمازون EC2 DL2q برای استنتاج هوش مصنوعی مقرون به صرفه و با کارایی بالا اکنون به طور کلی در دسترس است | خدمات وب آمازون

کاهش ضایعات مواد غذایی برای بهبود پایداری و نتایج مالی در خرده فروشی با آمازون Forecast

ابهام زدایی از یادگیری ماشینی در لبه از طریق موارد استفاده واقعی

آموزش توزیع شده و مقیاس بندی کارآمد با کتابخانه های موازی و موازی داده Amazon SageMaker | خدمات وب آمازون

کانکتور به روز شده مایکروسافت OneDrive (V2) برای Amazon Kendra را اعلام کرد

زمان و هزینه آموزش عمیق را با MosaicML Composer در AWS کاهش دهید

پیش بینی آسان و دقیق با AutoGluon-TimeSeries

با استفاده از جعبه ابزار Python، مدل‌های Amazon Lookout for Equipment را بسازید، آموزش دهید و به کار ببرید

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب