چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون

برای چندین دهه، آمازون پیشگام و نوآوری در یادگیری ماشین (ML) بوده و تجربیات لذت بخشی را برای مشتریان خود به ارمغان می آورد. از همان روزهای اولیه، آمازون از ML برای موارد استفاده مختلف مانند توصیه کتاب، جستجو و کشف تقلب استفاده می کرد. مانند سایر بخش‌های صنعت، پیشرفت‌های سخت‌افزاری شتاب‌دهنده به تیم‌های آمازون اجازه داده است تا معماری‌های مدل را با استفاده از شبکه‌های عصبی و یادگیری عمیق (DL) دنبال کنند.

برنامه M5 در جستجوی آمازون دارای استراتژی یادگیری اکتشافی برای آمازون است و مدل‌های مقیاس بزرگ را در چند زبانه، چند محلی، چند نهادی، چند وظیفه‌ای و چندوجهی مانند متن، تصویر و ویدیو می‌سازد. برنامه M5 تعبیه‌های جهانی و مدل‌های پایه در مقیاس بزرگ را به صدها تیم ML در سراسر آمازون ارائه می‌کند و در عین حال کنترل‌های سخت‌گیرانه‌ای را بر بهینه‌سازی هزینه حفظ می‌کند. برای دستیابی به این هدف، تیم M5 به طور مرتب تکنیک های جدید را برای کاهش هزینه ارزیابی می کند.

مانند بسیاری از سازمان های ML، شتاب دهنده ها عمدتاً برای تسریع آموزش و استنتاج DL استفاده می شوند. هنگامی که AWS شتاب دهنده های هدفمند را با اولین انتشار راه اندازی کرد استنتاج AWS در سال 2020، تیم M5 به سرعت شروع به کار کرد از آنها برای استقرار کارآمدتر بارهای کاری تولید استفاده کنید، باعث صرفه جویی در هزینه و کاهش تاخیر می شود. سال گذشته، AWS خود را راه اندازی کرد AWS Trainium شتاب دهنده ها، که عملکرد را به ازای هر هزینه برای توسعه و ساخت مدل های نسل بعدی DL بهینه می کنند. در این پست، ما در مورد اینکه چگونه M5 توانسته هزینه آموزش مدل‌های خود را تا 30% کاهش دهد، بحث می‌کنیم و برخی از بهترین روش‌هایی را که در این مسیر آموخته‌ایم به اشتراک می‌گذاریم.

موارد Trainium

با پیشرفت در شتاب دهنده های هدفمند، آمازون همچنین شتاب دهنده های قانع کننده ای را در قالب AWS Inferentia و Trainium ارائه می دهد. همانطور که از نام آنها پیداست، این تراشه ها به ترتیب برای فراتر از نیازهای استنتاج و حجم کار آموزشی بهینه شده اند. برای آموزش در مقیاس بزرگ مدل های فونداسیون که اندازه آنها به میلیاردها پارامتر می رسد، Trainium نمونه های Trn1 و Trn1n با توجه به ویژگی هایی که دارند گزینه های ایده آلی هستند. نمونه‌های Trn1 توسط پیشرفته‌ترین فناوری‌ها ارائه می‌شوند NeuronCore-v2، و مقدار زیادی از محاسبات شتاب دهنده و حافظه دارند. نمونه‌های Trn1n همچنین می‌توانند برای مقدار بیشتری از پهنای باند شبکه (1,600 گیگابیت) انتخاب شوند، بنابراین با در نظر گرفتن بهینه‌سازی هزینه، برای آموزش عملکرد مناسب هستند.

برای استفاده از شتاب دهنده ها به یک لایه نرم افزاری برای پشتیبانی از آنها نیاز دارید. با تراشه های Trn و Inf، AWS Neuron SDK شتاب دهنده های هدف آمازون را با کمک PyTorch XLA باز می کند. PyTorch XLA حالت مشتاق PyTorch را به پیاده سازی مبتنی بر گراف حالت تنبل تبدیل می کند. سپس این نمودارها مورد استفاده قرار می گیرند و بیشتر برای استفاده با شتاب دهنده جمع آوری می شوند. PyTorch Neuron (بخشی از Neuron SDK) کاربران PyTorch را قادر می سازد تا مدل های خود را در Trainium NeuronCores با چند خط کد آموزش دهند.

مدل و حجم کار

تیم M5 مدل‌های اساسی و بازنمایی‌های جهانی را آموزش می‌دهد و به کار می‌گیرد تا به تیم‌های مختلف در سراسر آمازون کمک کند تا لذت را به ارمغان بیاورند. Amazon.com مشتریان یکی از این مدل‌ها یک مدل رمزگذار متنی است که به دنبال آن یک پرسپترون چند لایه (MLP) با برهمکنش‌های مشخصه یا ضمنی تعریف شده توسط معماری شبکه عصبی با صدها میلیون پارامتر قابل آموزش است. این مدل بر روی میلیاردها توکن آموزش داده شده است و برای ایجاد میلیون‌ها جاسازی در یک تنظیم استنتاج دسته‌ای آفلاین استفاده می‌شود. این تعبیه‌ها ورودی‌های یک سرویس آمازون ردیف 1 با مشتری هستند.

زیرساخت برای خط لوله تولید استفاده می کند دسته AWS با استراتژی های صف بندی سهم منصفانه، با استفاده از یک خوشه چند گره trn1.32xlarge با قابلیت EFA به عنوان محاسبات برای آموزش مدل. از نظر عملکردی، خط لوله تولید، آموزش مدل افزایشی، ارزیابی مدل آموزش دیده، و استنتاج دسته ای آفلاین را بر روی مدل آموزش دیده انجام می دهد، که همگی از PyTorch به عنوان کتابخانه DL زیربنایی استفاده می کنند.

اهداف

خوشحال کردن مشتریان ما یک اصل اساسی است. با توجه به ماهیت مشتری مداری خط لوله، بسیار مهم است که همه قراردادهای سطح خدمات (SLA) بدون رگرسیون برآورده شوند. ما دو معیار پذیرش حیاتی را برای تطبیق خط لوله تولید GPU موجود و انتقال آن به Trainium شناسایی کردیم:

  • کیفیت مدل - کیفیت مدل های ما به طور مستقیم بر تجربه مشتری تأثیر می گذارد. ما نیاز داریم که کمتر از 0.1٪ تفاوت در کیفیت مدل بین GPU و Trainium وجود داشته باشد.
  • توان عملیاتی آموزشی - ما به طور مکرر مدل های خود را به صورت دوره ای آموزش می دهیم تا جدیدترین تجربه را به مشتریان خود ارائه دهیم. ما نیاز داریم که همگرایی مدل باید در یک بازه زمانی از پیش تعریف شده (مانند 1 هفته) به دست آید تا SLA های تولید ما برآورده شود.

در بخش‌های بعدی، ما سفر خود را به عقب‌تر از این معیارها و آموخته‌هایمان برای پشتیبانی از حجم کاری تولید در مقیاس آمازون به اشتراک می‌گذاریم.

اسکریپت آموزشی

قبل از شروع آموزش مدل، باید تغییراتی در اسکریپت آموزشی ایجاد کنیم تا آن را با XLA سازگار کنیم. با توجه به اندازه مدل، ما از داده های موازی توزیع شده (DDP) برای آموزش مدل استفاده می کنیم. DDP به ما این امکان را می دهد تا با افزایش تعداد ماشین های مورد استفاده برای اجرای آموزش مدل، بدون تغییر کد، توان عملیاتی آموزش مدل را افزایش دهیم. ما دستورالعمل های ارائه شده در را دنبال کردیم آموزش Neuron PyTorch MLP برای اضافه کردن ساختارهای خاص XLA در اسکریپت های آموزشی ما. اجرای این تغییرات کد ساده است. در زیر برخی از آموخته‌های فنی مهم از تمرین وجود دارد که توان عملیاتی مدل ما را تا حد زیادی بهبود بخشید:

  • قرار دادن xm.mark_step() - xm.mark_step() نمودارهای محاسباتی جمع آوری شده با تنبلی را کامپایل و اجرا می کند. استناد کردن mark_step دفعات زیاد منجر به تعداد بیشتر نمودارهای کوچک می شود، در حالی که فراخوانی بسیار کم آن منجر به نمودارهای کم، اما بزرگ می شود. بسته به برنامه شما، توان عملیاتی و اجرای آموزش مدل شما بر اساس محل قرارگیری شما متفاوت خواهد بود xm.mark_step(). پیاده سازی ما یکی را قرار می دهد xm.mark_step() بعد از یک پاس رو به جلو و عقب و یکی بعد از مرحله بهینه ساز.
  • بسته بندی بارگذار داده با بارگیر دستگاه چندپردازنده XLA - این یک مرحله حیاتی است که به راحتی می توان آن را از دست داد. لودر دستگاه چند پردازشی torch_xla.distributed.parallel_loader.MpDeviceLoader داده های آموزشی را بر روی هر دستگاه XLA با گزینه هایی برای بارگذاری پیش بارگذاری و همپوشانی بارگذاری داده با اجراهای دستگاه برای بهبود توان عملیاتی بارگذاری می کند. دستگاه لودر نیز فراخوانی می کند xm.mark_step() و بنابراین قادر به ساخت نمودارهایی برای بارگذاری داده ها به دستگاه از میزبان است.

تلفیقی برای Trainium

به طور سنتی، چرخه توسعه مدل با GPU شامل ایجاد تغییرات در مدل یا اسکریپت آموزشی و اجرای مستقیم آن بر روی دستگاه GPU است. شتاب‌دهنده‌هایی مانند Trainium که از XLA استفاده می‌کنند، قبل از اجرای آموزش مدل روی شتاب‌دهنده نیاز به یک مرحله اضافی دارند. نمودارهای محاسباتی XLA فقط پس از کامپایل شدن قابل اجرا هستند. به طور کلی، دو راه برای انجام این کامپایل وجود دارد: Ahead of Time (AOT)، که در آن ابتدا تمام نمودارها را ردیابی و کامپایل می‌کنید و سپس آنها را اجرا می‌کنید، یا Just In Time (JIT)، که در آن نمودارها ردیابی، کامپایل و اجرا می‌شوند. مواجه می شوند. Neuron SDK هر دوی اینها را در جعبه ارائه می کند. به طور معمول، کامپایل AOT ابتدا انجام می شود. سپس نمودارها پس از این کامپایل اجرا می شوند. اگر با نمودارهای جدیدی مواجه شد، زمان اجرا نورون قبل از اجرای آنها یک کامپایل JIT را فراخوانی می کند. برای انجام کامپایل AOT، Neuron SDK فراهم می کند neuron_parallel_compile، یک ابزار کامپایل که نمودارها را از اجرای آزمایشی اسکریپت آموزشی استخراج می کند و کامپایل AOT موازی را انجام می دهد.

یکی از جنبه های مهم کامپایل AOT این است که اطمینان حاصل شود که هیچ نمودار محاسباتی جدیدی در طول دوره آموزشی ایجاد نمی شود. یکی از منابع نمودارهای محاسباتی جدید (و در نتیجه کامپایل‌های مجدد) اشکال پویا دسته‌های آموزشی در طول آموزش مدل است. ما دریافتیم که استفاده از اشکال استاتیک و دسته‌های با اندازه ثابت، جمع‌آوری زمان آموزش را حذف می‌کند و توان عملیاتی آموزش را بدون هیچ تأثیری بر دقت مدل، به میزان زیادی بهبود می‌بخشد. با اعمال چنین محدودیت‌هایی در آموزش، مشاهده کردیم که تنها 4-5 مرحله آموزش مدل، یک مرحله اعتبارسنجی مدل، و یک بار بررسی مدل برای ردیابی همه نمودارها در طول تدوین AOT مورد نیاز است. توجه به این نکته مهم است که Neuron SDK دائما در حال تکامل است و در آینده از اشکال پویا نیز پشتیبانی خواهد کرد.

علاوه بر این، نمودارهای کامپایل شده در ذخیره می شوند حافظه پنهان نورون پایدار روی دیسک یا در یک سرویس ذخیره سازی ساده آمازون سطل (Amazon S3). این به ویژه برای بارهای کاری تولید که در آن معماری مدل و پیکربندی آموزش تغییر نمی کند مفید است. بنابراین، سربار تدوین فقط یک بار متحمل می شود. استفاده از کش به سادگی تنظیم یک پرچم محیط است:

export NEURON_COMPILE_CACHE_URL="s3://BUCKET/KEY"

کامپایلر Neuron نیز سه مورد را ارائه می دهد گزینه های بهینه سازی در سطح کامپایلر (O1، O2، O3) برای متعادل کردن زمان کامپایل و توان عملیاتی مدل. O1 بهینه‌سازی هسته را در نمودار محاسباتی امکان‌پذیر می‌کند و زمان کامپایل را به حداقل می‌رساند، O3 توان عملیاتی مدل بهبود یافته را با هزینه زمان کامپایل بالاتر ارائه می‌کند و O2 (گزینه پیش‌فرض) تعادلی بین این دو است. برای مورد استفاده خود، ما از بهینه‌سازی O1 استفاده کردیم و کاهش 86 درصدی در زمان کامپایل را بدون تغییر در معیارهای دقت مدل مشاهده کردیم، در حالی که تقریباً کاهش 5 تا 7 درصدی در توان عملیاتی را در مقایسه با بهینه‌سازی پیش‌فرض (O2) مشاهده کردیم. بسته به مورد استفاده، می توانید سطوح مختلف بهینه سازی را انتخاب کنید.

به طور خلاصه، ما از پرچم های زیر برای کامپایل استفاده کردیم:

NEURON_CC_FLAGS="--target trn1 --auto-cast all --auto-cast-type bf16 --model-type transformer --optlevel O1"

سازگاری ایست بازرسی

وقتی کامپایل با موفقیت کامل شد، می‌توانیم به آموزش مدل‌های خود در Trainium ادامه دهیم. همانطور که قبلاً ذکر شد، ما به صورت تدریجی مدل های خود را آموزش می دهیم، به این معنی که یک ایست بازرسی مدل قبلاً آموزش دیده را بارگذاری می کنیم و آموزش را با داده های جدید ادامه می دهیم. PyTorch و PyTorch XLA امکان انتقال یکپارچه بین شتاب دهنده ها را از طریق قابلیت همکاری در ایست بازرسی فراهم می کنند. داشتن انعطاف‌پذیری حرکت بین GPU و Trainium ما را قادر می‌سازد تا مدل قبلی GPU را به‌طور یکپارچه بارگیری کنیم و روی ماشین‌های Trainium آموزش ببینیم. این امر برای اطمینان از اینکه می‌توانیم مدل خود را با بهترین مدل آموزش‌دیده قبلی بدون هیچ گونه توقف تولید یا کاهش دقت مدل اولیه کنیم، بسیار مهم بود.

از آنجایی که مدل GPU با استفاده از ابزارهای استاندارد ذخیره سازی مدل PyTorch ذخیره شده بود، ما توانستیم از ابزار بارگیری PyTorch checkpoint برای بارگذاری مدل GPU در دستگاه های Trainium استفاده کنیم.

به عنوان مثال، در GPU/CPU، می توانید مدل را با کد زیر ذخیره کنید:

torch.save(model.state_dict(), PATH)

سپس مدل را دوباره در Trainium بارگذاری می کنید:

import torch_xla.core.xla_model as xm
xla_device = xm.xla_device()
model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(xla_device)

به همین ترتیب، می توانید مدل را در Trainium با کد زیر ذخیره کنید:

import torch_xla.core.xla_model as xm
# automatically moves the data to CPU for the master device
xm.save(model.state_dict(), PATH) 

و دوباره مدل را روی GPU/CPU بارگذاری کنید:

model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device) # can be any device

در واقع، از آنجایی که ما از DDP برای آموزش مدل استفاده می کنیم، بارگذاری مدل نسبت به تعداد ماشین هایی که برای آموزش نقطه بازرسی قبلی استفاده شده اند، آگنوستیک است. این به ما امکان می دهد تا ناوگان Trn1 را به صورت افقی بدون تغییر کد یا اثرات نامطلوب برای آموزش مدل مقیاس کنیم. این چک پوینت‌های مبتنی بر PyTorch را می‌توان مستقیماً برای موارد استفاده استنتاج در AWS Inferentia2 یا دیگر شتاب‌دهنده‌ها به‌طور مستقیم استفاده کرد یا حتی با مشعل اسکریپت کرد.

ثبات عملیاتی

نمی توان به اندازه کافی تاکید کرد که اجرای بارهای کاری در تولید نیازمند چندین SLA است. برای مورد استفاده ما، جدا از کیفیت مدل و SLA های توان عملیاتی آموزشی، ضروری است که خط لوله تولید از نظر عملیاتی پایدار باشد، به این معنی که حداقل زمان خرابی و اختلال در طول آموزش، ارزیابی و استنتاج مدل ایجاد شود.

مانند خط لوله مبتنی بر GPU موجود، ما مکانیسم های متعددی را برای پایدار کردن خط لوله از نظر عملیاتی اضافه کردیم. قبل از شروع آموزش مدل، ما چندین تست سلامت عقل را برای ارزیابی سلامت ماشین ها اجرا می کنیم. این آزمایش‌ها عموماً شامل عملیات تانسور ساده برای تأیید سلامت دستگاه‌های شتاب‌دهنده هستند. ما مشاهده کرده‌ایم که برای آموزش توزیع‌شده، اجرای آزمایش‌هایی برای تأیید ارتباط جمعی بین نمونه‌ها نیز مهم است. ما استفاده کردیم مجموعه تست NCCOM از Neuron SDK برای دستیابی به این هدف، اجرای انواع عملیات مانند all-gather، all-reduce و small-scatter.

حتی پس از پیروی از پیشنهاداتی که ذکر کردیم، مشاهده کردیم که مسائل گذرا در هر خط لوله، صرف نظر از شتاب دهنده اصلی، اجتناب ناپذیر است. برای ایجاد انعطاف‌پذیری در هر خط لوله آموزشی، توصیه می‌کنیم مکانیسم‌هایی را برای حل این مشکلات بالقوه ایجاد کنید. ما استفاده می کنیم AWS Batch دوباره خودکار برای دوباره امتحان کردن کارهایی که در طول آموزش مدل با یک شکست گذرا مواجه می شوند. اگر در پایان آموزش با شکست مواجه شد، این راه اندازی مجدد می تواند پرهزینه باشد. برای مقابله با این مشکل، ما اسکریپت های آموزشی خود را برای بارگذاری یک چک پوینت مدل آموزش دیده قبلی و ادامه آموزش از آن نقطه تطبیق داده ایم. با استفاده از این قابلیت، ما می‌توانیم کارهای آموزشی ناموفق را با حداقل هزینه سربار به‌طور تهاجمی دوباره راه‌اندازی کنیم.

با وجود این مکانیسم‌های انعطاف‌پذیری، ما توانستیم به 98.5 درصد میزان موفقیت برای بارهای کاری خود در Trn1 دست یابیم، که با نرخ موفقیت خط لوله GPU موجود قابل مقایسه است.

نتایج

برای تأیید صحت مدل‌هایمان، دو مدل را از یک نقطه بازرسی GPU راه‌اندازی کردیم و یکی را روی Trainium و دیگری را روی یک GPU مشابه آموزش دادیم. هر دو مدل با فراپارامترهای آموزشی مشابهی آموزش داده شدند. مجموعه داده مورد استفاده برای محاسبه متریک یک مجموعه داده نگهدارنده است، و ما دقت مدل را در هر N مرحله کلی ارزیابی می کنیم. محور X گام جهانی است و محور Y دقت مدل است. ما کمتر از 0.1٪ تفاوت را در دقت مدل در هر نقطه در نمودار زیر مشاهده کردیم.

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

علاوه بر این، برای ارزیابی مقرون به صرفه بودن آموزش مدل، ما ترجیح می دهیم زمان ساعت دیواری را که برای رسیدن به همگرایی مدل صرف می شود، مقایسه کنیم. ما معتقدیم که این دیدگاه عملی تری از صرفه جویی در هزینه در مقایسه با اقداماتی مانند هزینه هر توکن، FLOPS/دلار به دست آمده و سایر عوامل ارائه می دهد. با در نظر گرفتن زمان آموزش trn1.32xl و قابل مقایسه ابر محاسبه الاستیک آمازون در نمونه‌های (Amazon EC2)، مشاهده کرده‌ایم که Trainium تا 30٪ هزینه ارزان‌تری برای همگرایی مدل ارائه می‌کند.

نتیجه

هنگام ارزیابی شتاب‌دهنده‌های مختلف برای بار کاری DL، فاکتورهای زیادی باید در نظر گرفته شود. برخی از مهمترین آنها کیفیت مدل، توان عملیاتی، هزینه و در دسترس بودن است. بسیار مهم است که اطمینان حاصل شود که کیفیت مدل و توان عملیاتی شما بر اساس شتاب دهنده ای که انتخاب می کنید قربانی نمی شود.

به لطف مشارکت و همکاری ما با تیم Annapurna Neuron، تیم Amazon Search M5 با انتقال به Trainium توانسته است تا 30٪ در هزینه صرفه جویی کند. این تیم قادر به استفاده از Trainium و دستیابی به کیفیت مدل و برابری توان با شتاب دهنده های قابل مقایسه در بازار است. قابلیت همکاری ایست بازرسی و حداقل تغییرات کد با پشتیبانی از XLA به M5 این امکان را داده است که بین چندین شتاب دهنده برای بار کاری خود یکی را انتخاب کند. این امر به تیم M5 این امکان را داده است که از قدرت محاسباتی بزرگ Trainium بهره ببرند و راه حل های شتاب دهنده ای بسازند تا مشتریان Amazon.com را خوشحال کنند. از نقطه نظر عملیاتی، Trainium ثابت شده است که قادر به پشتیبانی از خدمات سطح 1 در مقیاس آمازون است. تیم M5 به انتقال بارهای کاری بیشتر به Trainium ادامه می دهد تا بهترین مدل ها را با کمترین هزینه برای آمازون ارائه دهد.

به طور خلاصه، تیم M5 با افزودن Trainium به ناوگان شتاب دهنده ها، توانسته است آموزش ML مقرون به صرفه و در حد تولید را انجام دهد. ما شما را تشویق می کنیم که نگاهی به Trainium و سایر دستگاه های Neuron مانند AWS Inferentia بیندازید تا از مزایای سیلیکون آمازون ساخته شده برای بارهای کاری ML بهره مند شوید. با یکی از آموزش های متعدد که مدل های مختلف را ارائه می دهد، به راحتی شروع کنید Llama 2، موجود در Trainium.


درباره نویسنده

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.آبیناندان پتنی یک مهندس نرم افزار ارشد در جستجوی آمازون است. او بر روی ساختن سیستم‌ها و ابزار برای آموزش یادگیری عمیق توزیع‌شده مقیاس‌پذیر و استنتاج بلادرنگ تمرکز دارد.

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.جیمز پارک یک معمار راه حل در خدمات وب آمازون است. او با Amazon.com برای طراحی، ساخت و استقرار راه حل های فناوری در AWS کار می کند و علاقه خاصی به هوش مصنوعی و یادگیری ماشین دارد. در اوقات فراغت او از جستجوی فرهنگ های جدید، تجربیات جدید و به روز ماندن با آخرین روندهای فناوری لذت می برد. می توانید او را در آن پیدا کنید لینک.

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.جری مانیل یک مهندس نرم افزار در جستجوی آمازون است. او روی بهبود کارایی، استحکام و مقیاس پذیری زیرساخت آموزشی توزیع شده کار می کند.

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.کن سو یک مهندس نرم افزار در جستجوی آمازون است. او روی بهبود کارایی آموزش و گردش کار آموزشی توزیع‌شده مقیاس‌پذیر کار می‌کند. در خارج از کار، کوهنوردی و تنیس را دوست دارد.

چگونه Amazon Search M5 با استفاده از AWS Trainium 30% در هزینه آموزش LLM صرفه جویی کرد خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.RJ یک مهندس در آمازون است. او سیستم‌هایی را برای سیستم‌های توزیع‌شده برای آموزش می‌سازد و بهینه می‌کند و روی بهینه‌سازی سیستم‌های اتخاذ شده برای کاهش تأخیر برای استنتاج ML کار می‌کند. در خارج از محل کار، او در حال بررسی استفاده از هوش مصنوعی Generative برای ساخت دستور العمل های غذایی است.

تمبر زمان:

بیشتر از آموزش ماشین AWS