با استفاده از AWS Inferentia2 و AWS Trainium در Amazon SageMaker به عملکرد بالا با کمترین هزینه برای استنتاج هوش مصنوعی مولد دست یابید.

بازنشر افلاطون

دنبال: 0

دنیای هوش مصنوعی (AI) و یادگیری ماشین (ML) با ظهور مدل‌های هوش مصنوعی مولد که می‌توانند متن، تصاویر، کد و صدا شبیه انسان ایجاد کنند، شاهد یک تغییر پارادایم بوده است. در مقایسه با مدل‌های کلاسیک ML، مدل‌های هوش مصنوعی مولد به طور قابل‌توجهی بزرگ‌تر و پیچیده‌تر هستند. با این حال، پیچیدگی فزاینده آنها همچنین با هزینه های بالا برای استنتاج و نیاز روزافزون به منابع محاسباتی قدرتمند همراه است. هزینه بالای استنتاج برای مدل‌های هوش مصنوعی مولد می‌تواند مانعی برای ورود کسب‌وکارها و محققان با منابع محدود باشد و نیاز به راه‌حل‌های کارآمدتر و مقرون‌به‌صرفه‌تر را ضروری می‌کند. علاوه بر این، اکثر موارد استفاده از هوش مصنوعی مولد شامل تعامل انسانی یا سناریوهای دنیای واقعی است که نیاز به سخت‌افزاری دارد که بتواند عملکرد با تأخیر پایین ارائه دهد. AWS با تراشه های هدفمند نوآوری کرده است تا نیاز روزافزون به سخت افزار محاسباتی قدرتمند، کارآمد و مقرون به صرفه را برطرف کند.

امروز، ما مشتاقیم که اعلام کنیم آمازون SageMaker پشتیبانی از AWS Inferentia2 (ml.inf2) و AWS Trainium (ml.trn1) نمونه‌های مبتنی بر SageMaker برای میزبانی مدل‌های هوش مصنوعی مولد برای استنتاج بلادرنگ و ناهمزمان. نمونه‌های ml.inf2 برای استقرار مدل در SageMaker در شرق ایالات متحده (اوهایو) و نمونه‌های ml.trn1 در شرق ایالات متحده (N. Virginia) در دسترس هستند.

می‌توانید از این نمونه‌ها در SageMaker برای دستیابی به عملکرد بالا با هزینه کم برای مدل‌های AI مولد، از جمله مدل‌های زبان بزرگ (LLM)، Stable Diffusion و ترانسفورماتورهای بینایی استفاده کنید. علاوه بر این، می توانید استفاده کنید توصیه کننده استنباط آمازون SageMaker برای کمک به شما در اجرای تست های بارگذاری و ارزیابی مزایای قیمت-عملکرد استقرار مدل خود در این نمونه ها.

می‌توانید از نمونه‌های ml.inf2 و ml.trn1 برای اجرای برنامه‌های ML خود در SageMaker برای خلاصه‌سازی متن، تولید کد، تولید ویدیو و تصویر، تشخیص گفتار، شخصی‌سازی، تشخیص تقلب و موارد دیگر استفاده کنید. هنگام پیکربندی نقطه پایانی SageMaker، می‌توانید به راحتی با مشخص کردن نمونه‌های ml.trn1 یا ml.inf2 شروع کنید. برای شروع آسان می توانید از ظروف یادگیری عمیق AWS (DLC) سازگار با ml.trn1 و ml.inf2 برای PyTorch، TensorFlow، Hugging Face و مدل بزرگ (LMI) استفاده کنید. برای لیست کامل با نسخه ها، نگاه کنید تصاویر ظروف یادگیری عمیق موجود.

در این پست، فرآیند استقرار یک مدل زبان بزرگ در AWS Inferentia2 با استفاده از SageMaker، بدون نیاز به کدگذاری اضافی، با بهره‌گیری از ظرف LMI را نشان می‌دهیم. ما استفاده می کنیم GPT4ALL-J، یک مدل GPT-J 7B با تنظیم دقیق که یک تعامل سبک چت بات را فراهم می کند.

مروری بر موارد ml.trn1 و ml.inf2

نمونه‌های ml.trn1 توسط شتاب‌دهنده Trainium نیرو می‌گیرند که عمدتاً برای آموزش یادگیری عمیق با کارایی بالا مدل‌های مولد هوش مصنوعی، از جمله LLM ساخته شده است. با این حال، این نمونه‌ها از حجم کار استنتاج برای مدل‌هایی که حتی بزرگ‌تر از آنچه در Inf2 قرار می‌گیرند نیز پشتیبانی می‌کنند. بزرگترین اندازه نمونه، trn1.32xlarge instances، دارای 16 است شتاب دهنده های Trainium با 512 گیگابایت حافظه شتاب دهنده در یک نمونه که حداکثر 3.4 پتافلاپ توان محاسباتی FP16/BF16 را ارائه می کند. 16 شتاب دهنده Trainium به NeuronLinkv2 بسیار سریع برای ارتباطات جمعی کارآمد متصل شده اند.

نمونه های ml.Inf2 توسط شتاب دهنده AWS Inferentia2، یک شتاب دهنده هدفمند برای استنتاج. در مقایسه با نسل اول AWS Inferentia سه برابر عملکرد محاسباتی بالاتر، تا چهار برابر توان عملیاتی بالاتر و تا 10 برابر تاخیر کمتری ارائه می دهد. بزرگترین اندازه نمونه، Inf2.48xlarge، دارای 12 شتاب دهنده AWS Inferentia2 با 384 گیگابایت حافظه شتاب دهنده در یک نمونه برای قدرت محاسباتی ترکیبی 2.3 پتافلاپ برای BF16/FP16 است. این به شما امکان می دهد تا یک مدل با پارامتر 175 میلیارد را در یک نمونه پیاده سازی کنید. Inf2 تنها نمونه استنتاج بهینه شده برای ارائه این اتصال است، ویژگی که فقط در نمونه های آموزشی گران تر در دسترس است. برای مدل‌های بسیار بزرگ که در یک شتاب‌دهنده قرار نمی‌گیرند، داده‌ها مستقیماً بین شتاب‌دهنده‌ها با NeuronLink جریان می‌یابند و CPU را به طور کامل دور می‌زنند. با NeuronLink، Inf2 از استنتاج توزیع شده سریعتر پشتیبانی می کند و توان عملیاتی و تأخیر را بهبود می بخشد.

هر دو شتاب دهنده AWS Inferentia2 و Trainium دو دارند NeuronCores-v2، پشته های حافظه 32 گیگابایتی HBM و موتورهای محاسبات جمعی اختصاصی که به طور خودکار زمان اجرا را با همپوشانی محاسبات و ارتباطات هنگام استنتاج چند شتاب دهنده بهینه می کنند. برای جزئیات بیشتر در مورد معماری به ادامه مطلب مراجعه کنید دستگاه های Trainium و Inferentia.

نمودار زیر نمونه ای از معماری را با استفاده از AWS Inferentia2 نشان می دهد.

AWS Neuron SDK

نورون AWS SDK است که برای اجرای بارهای کاری یادگیری عمیق در نمونه های مبتنی بر AWS Inferentia و Trainium استفاده می شود. AWS Neuron شامل یک کامپایلر یادگیری عمیق، زمان اجرا و ابزارهایی است که به صورت بومی در TensorFlow و PyTorch ادغام شده‌اند. با Neuron، می‌توانید بارهای کاری ML را با کارایی بالا در ml.trn1 و ml.inf2 توسعه دهید، نمایه کنید و به کار ببرید.

La کامپایلر نورون مدل‌های ML را در قالب‌های مختلف (TensorFlow، PyTorch، XLA HLO) می‌پذیرد و آنها را برای اجرا بر روی دستگاه‌های Neuron بهینه می‌کند. کامپایلر Neuron در چارچوب ML فراخوانی می شود، جایی که مدل های ML توسط افزونه فریمورک Neuron به کامپایلر ارسال می شوند. مصنوع کامپایلر به دست آمده یک فایل NEFF (فرمت فایل اجرایی نورون) نامیده می شود که به نوبه خود توسط زمان اجرا نورون در دستگاه نورون بارگذاری می شود.

La زمان اجرا نورون شامل درایور هسته و کتابخانه های C/C++ است که API هایی را برای دسترسی به دستگاه های AWS Inferentia و Trainium Neuron ارائه می کنند. افزونه‌های فریمورک‌های Neuron ML برای TensorFlow و PyTorch از زمان اجرا Neuron برای بارگذاری و اجرای مدل‌ها در NeuronCores استفاده می‌کنند. Neuron زمان اجرا، مدل‌های یادگیری عمیق (NEFF) را در دستگاه‌های Neuron بارگذاری می‌کند و برای توان عملیاتی بالا و تأخیر کم بهینه‌سازی شده است.

میزبانی مدل‌های NLP با استفاده از نمونه‌های SageMaker ml.inf2

قبل از اینکه عمیقاً در خدمت به LLM ها با آن غوطه ور شویم ترانسفورماتور - نورونکس، که یک کتابخانه منبع باز برای خرد کردن ماتریس های وزن بزرگ مدل بر روی هسته های عصبی متعدد است، اجازه دهید به طور خلاصه جریان استقرار معمولی را برای مدلی که می تواند روی یک NeuronCore قرار گیرد مرور کنیم.

را بررسی کنید لیست مدل های پشتیبانی شده برای اطمینان از پشتیبانی مدل در AWS Inferentia2. سپس، مدل باید توسط Neuron Compiler از قبل کامپایل شود. می توانید از یک نوت بوک SageMaker یا یک دفترچه یادداشت استفاده کنید ابر محاسبه الاستیک آمازون (Amazon EC2) نمونه برای کامپایل مدل. همانطور که در کد زیر نشان داده شده است، می توانید از SageMaker Python SDK برای استقرار مدل ها با استفاده از چارچوب های یادگیری عمیق محبوب مانند PyTorch استفاده کنید. می توانید مدل خود را در سرویس های میزبانی SageMaker مستقر کنید و یک نقطه پایانی دریافت کنید که می تواند برای استنتاج استفاده شود. این نقاط پایانی به طور کامل مدیریت می شوند و از مقیاس خودکار پشتیبانی می کنند.

from sagemaker.pytorch.model import PyTorchModel pytorch_model = PyTorchModel( model_data=s3_model_uri, role=role, source_dir="code", entry_point="inference.py", image_uri=ecr_image
) predictor = pytorch_model.deploy( initial_instance_count=1, instance_type="ml.inf2.xlarge"
)

به مراجعه جریان های توسعه دهنده برای جزئیات بیشتر در مورد جریان های توسعه معمولی Inf2 در SageMaker با اسکریپت های نمونه.

LLM ها را با استفاده از نمونه های SageMaker ml.inf2 میزبانی کنید

مدل‌های زبان بزرگ با میلیاردها پارامتر اغلب برای جا دادن در یک شتاب‌دهنده بسیار بزرگ هستند. این امر مستلزم استفاده از تکنیک های موازی مدل برای میزبانی LLM در چندین شتاب دهنده است. یکی دیگر از نیازهای حیاتی برای میزبانی LLM، اجرای یک راه حل ارائه مدل با کارایی بالا است. این راه حل باید به طور موثر مدل را بارگیری کند، پارتیشن بندی را مدیریت کند و درخواست ها را از طریق نقاط پایانی HTTP به طور یکپارچه ارائه دهد.

SageMaker شامل ظروف یادگیری عمیق تخصصی (DLC)، کتابخانه ها و ابزارهایی برای موازی سازی مدل و استنتاج مدل های بزرگ است. برای منابعی برای شروع کار با LMI در SageMaker، مراجعه کنید توازی مدل و استنتاج مدل بزرگ. SageMaker DLC ها را با کتابخانه های منبع باز محبوب برای میزبانی مدل های بزرگ مانند GPT، T5، OPT، BLOOM و Stable Diffusion در زیرساخت AWS نگهداری می کند. این DLC های تخصصی به عنوان ظروف SageMaker LMI شناخته می شوند.

ظروف LMI SageMaker از DJLServing استفاده کنید، یک سرور مدل که با کتابخانه ترانسفورماتور-نرونکس یکپارچه شده است تا از موازی سازی تانسور در سراسر NeuronCores پشتیبانی کند. برای کسب اطلاعات بیشتر در مورد نحوه عملکرد DJLServing به ادامه مطلب مراجعه کنید استقرار مدل های بزرگ در Amazon SageMaker با استفاده از استنتاج موازی مدل DJLServing و DeepSpeed. سرور مدل DJL و کتابخانه transformers-neuronx به عنوان اجزای اصلی کانتینر عمل می کنند که شامل Neuron SDK نیز می شود. این راه‌اندازی بارگذاری مدل‌ها را در شتاب‌دهنده‌های AWS Inferentia2 تسهیل می‌کند، مدل را در چند هسته‌ی عصبی موازی می‌کند، و سرویس‌دهی از طریق نقاط پایانی HTTP را امکان‌پذیر می‌سازد.

ظرف LMI از مدل های بارگیری پشتیبانی می کند سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) یا Hugging Face Hub. اسکریپت پیش‌فرض کنترل‌کننده مدل را بارگیری می‌کند، آن را کامپایل می‌کند و آن را به یک فرمت بهینه‌سازی نورون تبدیل می‌کند و آن را بارگذاری می‌کند. برای استفاده از کانتینر LMI برای میزبانی LLM ها، دو گزینه داریم:

بدون کد (ترجیحا) - این ساده ترین راه برای استقرار یک LLM با استفاده از یک ظرف LMI است. در این روش می توانید از موارد ارائه شده استفاده کنید کنترل کننده پیش فرض و فقط نام مدل و پارامترهای مورد نیاز را وارد کنید serving.properties فایل برای بارگذاری و میزبانی مدل. برای استفاده از کنترل کننده پیش فرض، ما آن را ارائه می کنیم entryPoint پارامتر به عنوان djl_python.transformers-neuronx.
اسکریپت خودت رو بیار – در این روش، شما این امکان را دارید که فایل model.py خود را بسازید که حاوی کدهای لازم برای بارگذاری و سرویس مدل است. این فایل به عنوان یک واسطه بین DJLServing API ها و transformers-neuronx API ها برای سفارشی کردن فرآیند بارگیری مدل، می توانید ارائه دهید serving.properties با پارامترهای قابل تنظیم برای یک لیست جامع از پارامترهای قابل تنظیم موجود، به مراجعه کنید تمام گزینه های پیکربندی DJL. در اینجا یک مثال از a است model.py فایل.

معماری زمان اجرا

La tensor_parallel_degree مقدار ویژگی توزیع ماژول های موازی تانسور را در چند هسته عصبی تعیین می کند. به عنوان مثال، inf2.24xlarge دارای شش شتاب دهنده AWS Inferentia2 است. هر شتاب دهنده AWS Inferentia2 دارای دو هسته عصبی است. هر NeuronCore دارای یک حافظه اختصاصی با پهنای باند بالا (HBM) با ظرفیت 16 گیگابایت است که ماژول های موازی تانسور را ذخیره می کند. با درجه موازی تانسور 4، LMI سه نسخه مدل از همان مدل را به خود اختصاص می دهد که هر کدام از چهار هسته عصبی استفاده می کند. همانطور که در نمودار زیر نشان داده شده است، هنگامی که محفظه LMI راه اندازی می شود، مدل ابتدا در حافظه آدرس پذیر CPU بارگذاری و ردیابی می شود. هنگامی که ردیابی کامل شد، مدل بر اساس درجه موازی تانسور در سراسر هسته‌های عصبی تقسیم می‌شود.

LMI از DJLServing به عنوان پشته سرویس مدل خود استفاده می کند. پس از بررسی سلامت کانتینر در SageMaker، کانتینر آماده ارائه درخواست استنتاج است. DJLServing چندین فرآیند پایتون را راه اندازی می کند TOTAL NUMBER OF NEURON CORES/TENSOR_PARALLEL_DEGREE. هر فرآیند پایتون حاوی رشته هایی به زبان C++ معادل آن است TENSOR_PARALLEL_DEGREE. هر نخ C++ یک قطعه از مدل را در یک NeuronCore نگه می دارد.

هنگامی که سرور با چندین درخواست مستقل فراخوانی می شود، بسیاری از متخصصان (فرایند پایتون) تمایل دارند استنتاج را به صورت متوالی اجرا کنند. اگرچه راه‌اندازی آن آسان‌تر است، اما معمولاً بهترین روش استفاده از توان محاسباتی شتاب‌دهنده نیست. برای رفع این مشکل، DJLServing بهینه‌سازی‌های داخلی دسته‌بندی پویا را برای ترکیب این درخواست‌های استنتاج مستقل در سمت سرور ارائه می‌کند تا یک دسته بزرگ‌تر به صورت پویا برای افزایش توان تولید تشکیل دهد. تمام درخواست‌ها قبل از ورود به صف‌های شغلی واقعی، ابتدا به دسته پویا می‌رسند تا منتظر استنتاج شوند. شما می توانید اندازه های دسته ای دلخواه خود را برای دسته بندی پویا با استفاده از batch_size تنظیمات در serving.properties. همچنین می توانید پیکربندی کنید max_batch_delay برای تعیین حداکثر زمان تاخیر در batcher برای منتظر ماندن سایر درخواست‌ها برای پیوستن به دسته بر اساس الزامات تاخیر شما. توان عملیاتی همچنین به تعداد نسخه‌های مدل و گروه‌های فرآیند پایتون راه‌اندازی شده در ظرف بستگی دارد. همانطور که در نمودار زیر نشان داده شده است، با تنظیم درجه موازی تانسور روی 4، ظرف LMI سه گروه فرآیند پایتون را راه‌اندازی می‌کند که هر کدام نسخه کامل مدل را در خود جای می‌دهند. این به شما امکان می دهد اندازه دسته را افزایش دهید و توان عملیاتی بالاتری داشته باشید.

Achieve high performance with lowest cost for generative AI inference using AWS Inferentia2 and AWS Trainium on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

نوت بوک SageMaker برای استقرار LLM

در این بخش، به طور گام به گام پیاده‌سازی GPT4All-J، یک مدل 6 میلیارد پارامتری که 24 گیگابایت در FP32 است، ارائه می‌کنیم. GPT4All-J یک ربات چت محبوب است که بر روی انواع مختلفی از محتوای تعاملی مانند مشکلات کلمه، دیالوگ ها، کدها، شعرها، آهنگ ها و داستان ها آموزش دیده است. GPT4all-J یک مدل GPT-J دقیق تنظیم شده است که پاسخ هایی شبیه به تعاملات انسانی ایجاد می کند.

دفترچه یادداشت کامل این مثال در ارائه شده است GitHub. ما می توانیم از SageMaker Python SDK برای استقرار مدل در یک نمونه Inf2 استفاده کنیم. ما از ارائه شده استفاده می کنیم کنترل کننده پیش فرض برای بارگذاری مدل با این، ما فقط نیاز به ارائه یک خدمات. خواص فایل. این فایل دارای تنظیمات لازم برای سرور مدل DJL برای دانلود و میزبانی مدل است. ما می توانیم نام مدل Hugging Face را با استفاده از عبارت مشخص کنیم model_id پارامتر برای دانلود مستقیم مدل از مخزن Hugging Face. همچنین، می‌توانید با ارائه آن، مدل را از آمازون S3 دانلود کنید s3url پارامتر. entryPoint پارامتر برای اشاره به کتابخانه برای بارگذاری مدل پیکربندی شده است. برای جزئیات بیشتر در djl_python.fastertransformer، مراجعه کنید کد GitHub.

La tensor_parallel_degree ارزش ویژگی توزیع ماژول های موازی تانسور را در چندین دستگاه تعیین می کند. به عنوان مثال، با 12 هسته عصبی و درجه موازی تانسور 4، LMI سه نسخه مدل را به خود اختصاص می دهد که هر کدام از چهار هسته عصبی استفاده می کند. شما همچنین می توانید نوع دقیق را با استفاده از ویژگی تعریف کنید dtype. n_position پارامتر مجموع حداکثر طول توالی ورودی و خروجی را برای مدل تعریف می کند. کد زیر را ببینید:

%%writefile serving.properties# Start writing content here
engine=Python
option.entryPoint=djl_python.transformers-neuronx
#option.model_id=nomic-ai/gpt4all-j
option.s3url = {{s3url}}
option.tensor_parallel_degree=2
option.model_loading_timeout=2400
option.n_positions=512

ساختن tarball حاوی serving.properties و آن را در یک سطل S3 آپلود کنید. اگرچه در این مثال از کنترل کننده پیش فرض استفاده شده است، شما می توانید a را توسعه دهید model.py فایل برای سفارشی کردن فرآیند بارگیری و سرویس دهی. اگر بسته هایی وجود دارد که نیاز به نصب دارند، آنها را در قسمت قرار دهید requirements.txt فایل. کد زیر را ببینید:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket() # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

تصویر ظرف DJL را بازیابی کنید و مدل SageMaker را ایجاد کنید:

##Retrieve djl container image
image_uri = image_uris.retrieve( framework="djl-deepspeed", region=sess.boto_session.region_name, version="0.21.0" )
image_uri = image_uri.split(":")[0] + ":" + "0.22.1-neuronx-sdk2.9.0" model = Model(image_uri=image_uri, model_data=code_artifact, env=env, role=role)

در مرحله بعد، نقطه پایانی SageMaker را با پیکربندی مدلی که قبلا تعریف شده بود ایجاد می کنیم. ظرف مدل را در داخل دانلود می کند /tmp فضا زیرا SageMaker نقشه‌برداری می‌کند /tmp به فروشگاه بلوک الاستیک آمازون (Amazon EBS). باید a اضافه کنیم volume_size پارامتر برای اطمینان از /tmp دایرکتوری فضای کافی برای دانلود و کامپایل مدل دارد. تنظیم کردیم container_startup_health_check_timeout به 3,600 ثانیه برای اطمینان از شروع بررسی سلامت پس از آماده شدن مدل. ما از نمونه ml.inf2.8xlarge استفاده می کنیم. کد زیر را ببینید:

instance_type = "ml.inf2.8xlarge"
endpoint_name = sagemaker.utils.name_from_base("lmi-model") model.deploy(initial_instance_count=1, instance_type=instance_type, endpoint_name=endpoint_name, container_startup_health_check_timeout=3600, volume_size=256 )

پس از ایجاد نقطه پایانی SageMaker، می‌توانیم با استفاده از Predictor هدف - شی:

# our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor( endpoint_name=endpoint_name, sagemaker_session=sess, serializer=serializers.JSONSerializer(), deserializer=deserializers.JSONDeserializer(),
) predictor.predict( {"inputs": "write a blog on new York", "parameters": {}}
)

پاک کردن

برای صرفه جویی در هزینه ها پس از اتمام آزمایشات، نقاط پایانی را حذف کنید:

# - Delete the end point
sess.delete_endpoint(endpoint_name)
sess.delete_endpoint_config(endpoint_name)
model.delete_model()

نتیجه

در این پست، ما قابلیت جدید SageMaker را به نمایش گذاشتیم که اکنون از نمونه‌های ml.inf2 و ml.trn1 برای میزبانی مدل‌های هوش مصنوعی مولد پشتیبانی می‌کند. ما نشان دادیم که چگونه GPT4ALL-J، یک مدل هوش مصنوعی مولد، را با استفاده از SageMaker و ظرف LMI، بدون نوشتن کد، روی AWS Inferentia2 استقرار دهیم. ما همچنین نحوه استفاده از DJLServing و را نشان دادیم transformers-neuronx برای بارگذاری یک مدل، پارتیشن بندی آن و سرویس دهی.

نمونه های Inf2 مقرون به صرفه ترین راه را برای اجرای مدل های هوش مصنوعی مولد در AWS ارائه می دهند. برای جزئیات عملکرد، مراجعه کنید عملکرد Inf2.

اتمام GitHub مخزن یک نوت بوک نمونه آن را امتحان کنید و اگر سوالی دارید با ما در میان بگذارید!

درباره نویسنده

ویوک گانگاسانی یک معمار ارشد راه حل های یادگیری ماشین در خدمات وب آمازون است. او با استارت‌آپ‌های یادگیری ماشینی برای ساخت و استقرار برنامه‌های AI/ML در AWS کار می‌کند. او در حال حاضر بر ارائه راه‌حل‌هایی برای MLOps، ML Inference و ML با کد پایین متمرکز است. او روی پروژه هایی در حوزه های مختلف از جمله پردازش زبان طبیعی و بینایی کامپیوتری کار کرده است.

هیروشی توکویو یک معمار راه حل در آزمایشگاه AWS Annapurna است. او که در ژاپن مستقر است، حتی قبل از خرید توسط AWS به آزمایشگاه‌های آناپورنا ملحق شد و به طور مداوم با فناوری آزمایشگاه‌های آناپورنا به مشتریان کمک کرده است. تمرکز اخیر او بر راه‌حل‌های یادگیری ماشین مبتنی بر سیلیکون ساخته‌شده، AWS Inferentia و Trainium است.

داوال پاتل یک معمار اصلی یادگیری ماشین در AWS است. او با سازمان‌هایی از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های متوسط در زمینه مشکلات مربوط به محاسبات توزیع‌شده و هوش مصنوعی کار کرده است. او بر روی یادگیری عمیق از جمله دامنه های NLP و Computer Vision تمرکز دارد. او به مشتریان کمک می کند تا به استنباط مدل با عملکرد بالا در SageMaker دست یابند.

چینگ لان مهندس توسعه نرم افزار در AWS است. او روی چندین محصول چالش برانگیز در آمازون کار کرده است، از جمله راه حل های استنتاج ML با کارایی بالا و سیستم ثبت گزارش با کارایی بالا. تیم Qing با موفقیت اولین مدل میلیارد پارامتر را در تبلیغات آمازون با تاخیر بسیار کم مورد نیاز راه اندازی کرد. Qing دانش عمیقی در مورد بهینه سازی زیرساخت و شتاب یادگیری عمیق دارد.

کینگوی لی یک متخصص یادگیری ماشین در خدمات وب آمازون است. او دکترای خود را دریافت کرد. در تحقیقات عملیات پس از اینکه حساب کمک هزینه تحقیقاتی مشاورش را شکست و نتوانست جایزه نوبل را که وعده داده بود تحویل دهد. در حال حاضر او به مشتریان در صنعت خدمات مالی و بیمه کمک می کند تا راه حل های یادگیری ماشینی را در AWS بسازند. در اوقات فراغت به مطالعه و تدریس علاقه دارد.

آلن تان یک مدیر ارشد محصول با تلاش های SageMaker در استنتاج مدل های بزرگ است. او علاقه زیادی به استفاده از یادگیری ماشینی در حوزه تجزیه و تحلیل دارد. خارج از محل کار، او از فضای باز لذت می برد.

Achieve high performance with lowest cost for generative AI inference using AWS Inferentia2 and AWS Trainium on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai. وارون سیال یک مهندس توسعه نرم‌افزار با AWS Sagemaker است که روی ویژگی‌های مهم مواجهه با مشتری برای پلتفرم ML Inference کار می‌کند. او مشتاق کار در سیستم های توزیع شده و فضای هوش مصنوعی است. در اوقات فراغت به مطالعه و باغبانی علاقه دارد.