میزبانی مدل های ML در Amazon SageMaker با استفاده از Triton: TensorRT Models

بازنشر افلاطون

دنبال: 0

گاهی اوقات استفاده از ابزارهایی مانند کامپایلرها که می توانند مدل های شما را برای عملکرد بهینه استنتاج تغییر داده و کامپایل کنند، می تواند بسیار سودمند باشد. در این پست به بررسی TensorRT و نحوه استفاده از آن می پردازیم آمازون SageMaker استنتاج با استفاده از سرور استنتاج تریتون NVIDIA. ما نحوه عملکرد TensorRT و نحوه میزبانی و بهینه‌سازی این مدل‌ها را برای عملکرد و کارایی هزینه در SageMaker بررسی می‌کنیم. SageMaker فراهم می کند نقاط پایانی تک مدل (SMEs)، که به شما امکان می دهد یک مدل ML واحد یا نقاط پایانی چند مدلی (MME)، که به شما امکان می دهد چندین مدل را برای میزبانی در پشت یک نقطه پایانی منطقی برای استفاده بیشتر از منابع مشخص کنید.

برای ارائه مدل‌ها، تریتون از پشتیبان‌های مختلف به عنوان موتور پشتیبانی می‌کند تا از اجرا و ارائه مدل‌های مختلف ML برای استنتاج پشتیبانی کند. برای هر استقرار Triton، بسیار مهم است که بدانید رفتار باطن چگونه بر حجم کاری شما تأثیر می‌گذارد و چه چیزی را باید انتظار داشت تا بتوانید موفق باشید. در این پست به شما کمک می کنیم تا این موضوع را درک کنید باطن TensorRT که توسط Triton در SageMaker پشتیبانی می شود تا بتوانید تصمیمی آگاهانه برای حجم کاری خود بگیرید و نتایج عالی بگیرید.

شیرجه عمیق به باطن TensorRT

TensorRT شما را قادر می‌سازد استنتاج را با استفاده از تکنیک‌هایی مانند کوانتیزاسیون، ترکیب لایه و تانسور، تنظیم هسته و موارد دیگر در پردازنده‌های گرافیکی NVIDIA بهینه کنید. با اتخاذ و کامپایل مدل‌هایی برای استفاده از TensorRT، می‌توانید عملکرد و استفاده را برای حجم کاری استنتاج خود بهینه کنید. در برخی موارد، معاوضه‌هایی وجود دارد که نمونه‌ای از تکنیک‌هایی مانند کوانتیزه‌سازی است، اما نتایج می‌تواند در بهره‌مندی از عملکرد، پرداختن به تأخیر و تعداد تراکنش‌های قابل پردازش چشمگیر باشد.

پشتیبان TensorRT برای اجرای مدل های TensorRT استفاده می شود. TensorRT یک SDK است که توسط NVIDIA توسعه یافته است که یک کتابخانه استنتاج یادگیری عمیق با کارایی بالا ارائه می دهد. این برای پردازنده‌های گرافیکی NVIDIA بهینه شده است و راهی برای تسریع استنتاج یادگیری عمیق در محیط‌های تولیدی ارائه می‌کند. TensorRT از چارچوب‌های اصلی یادگیری عمیق پشتیبانی می‌کند و شامل یک بهینه‌ساز استنتاج یادگیری عمیق با کارایی بالا و زمان اجرا است که تأخیر کم و استنتاج با توان بالا را برای برنامه‌های هوش مصنوعی ارائه می‌کند.

TensorRT قادر است با استفاده از تکنیکی به نام عملکرد مدل را تسریع بخشد بهینه سازی نمودار برای بهینه سازی نمودار محاسباتی تولید شده توسط یک مدل یادگیری عمیق. این نمودار را برای به حداقل رساندن ردپای حافظه با آزاد کردن حافظه غیر ضروری و استفاده مجدد کارآمد از آن بهینه می کند. کامپایل TensorRT عملیات پراکنده را در نمودار مدل ترکیب می کند تا یک هسته بزرگتر را تشکیل دهد تا از سربار راه اندازی چندین هسته کوچک جلوگیری کند. با تنظیم خودکار هسته، موتور بهترین الگوریتم را برای GPU هدف انتخاب می کند و استفاده از سخت افزار را به حداکثر می رساند. علاوه بر این، TensorRT از جریان‌های CUDA برای فعال کردن پردازش موازی مدل‌ها استفاده می‌کند و استفاده و عملکرد GPU را بیشتر بهبود می‌بخشد. در نهایت، از طریق کوانتیزه کردن، TensorRT می‌تواند از شتاب با دقت ترکیبی هسته‌های Tensor استفاده کند و مدل را قادر می‌سازد تا با دقت FP32، TF32، FP16 و INT8 برای بهترین عملکرد استنتاج اجرا شود. با این حال، اگرچه دقت کاهش یافته به طور کلی می تواند عملکرد تاخیر را بهبود بخشد، ممکن است با بی ثباتی و کاهش دقت مدل همراه باشد. به طور کلی، ترکیب تکنیک‌های TensorRT منجر به استنتاج سریع‌تر و تأخیر کمتر در مقایسه با سایر موتورهای استنتاج می‌شود.

پشتیبان TensorRT برای سرور استنتاج تریتون به گونه‌ای طراحی شده است که از قابلیت‌های استنتاج قدرتمند پردازنده‌های گرافیکی NVIDIA استفاده کند. برای استفاده از TensorRT به عنوان پشتیبان برای سرور استنتاج Triton، باید یک موتور TensorRT از مدل آموزش دیده خود با استفاده از TensorRT API ایجاد کنید. این موتور سپس در سرور استنتاج تریتون بارگذاری می شود و برای انجام استنتاج در درخواست های دریافتی استفاده می شود. مراحل زیر برای استفاده از TensorRT به عنوان پشتیبان برای سرور استنتاج Triton آمده است:

مدل آموزش دیده خود را به ONNX قالب سرور استنتاج تریتون از ONNX به عنوان یک قالب مدل پشتیبانی می کند. ONNX استانداردی برای نمایش مدل های یادگیری عمیق است که امکان انتقال آنها را بین چارچوب ها فراهم می کند. اگر مدل شما قبلاً در قالب ONNX نیست، باید آن را با استفاده از ابزار مناسب چارچوب خاص تبدیل کنید. به عنوان مثال، در PyTorch، این کار را می توان با استفاده از torch.onnx.export روش.
مدل ONNX را به TensorRT وارد کنید و موتور TensorRT را تولید کنید. برای TensorRT، چندین راه برای ساخت TensorRT از مدل ONNX شما وجود دارد. برای این پست از trtexec ابزار CLI. trtexec ابزاری برای استفاده سریع از TensorRT بدون نیاز به توسعه برنامه خود است. را trtexec ابزار سه هدف اصلی دارد:
1. محک زدن شبکه ها بر روی داده های ورودی تصادفی یا ارائه شده توسط کاربر.
2. تولید موتورهای سریالی از مدل ها.
3. ایجاد یک حافظه پنهان زمان بندی سریالی از سازنده.
موتور TensorRT را در سرور استنتاج تریتون بارگیری کنید. پس از تولید موتور TensorRT، می توان آن را با ایجاد یک در سرور استنتاج تریتون بارگذاری کرد پیکربندی مدل فایل. پیکربندی مدل (config.pbtxt) فایل باید شامل مسیر فایل موتور TensorRT و اشکال ورودی و خروجی مدل باشد.

هر مدل در یک مخزن مدل باید شامل یک پیکربندی مدل باشد که اطلاعات مورد نیاز و اختیاری را در مورد مدل ارائه دهد. به طور معمول، این پیکربندی در a ارائه می شود config.pbtxt فایل مشخص شده به عنوان Protobuf ModelConfig. چندین نکته کلیدی در این فایل پیکربندی وجود دارد که باید به آنها توجه کرد:

نام – این فیلد نام مدل را تعریف می کند و باید در مخزن مدل منحصر به فرد باشد.
سکو – این فیلد نوع مدل را مشخص می کند: موتور TensorRT، PyTorch یا چیز دیگری.
حداکثر_اندازه_دسته – این حداکثر اندازه دسته ای را که می توان به این مدل منتقل کرد مشخص می کند. اگر بعد دسته ای مدل، بعد اول باشد و همه ورودی ها و خروجی های مدل دارای این بعد دسته ای باشند، تریتون می تواند از آن استفاده کند. بچر پویا or سکانس باتچر برای استفاده خودکار از دسته بندی با مدل. در این مورد، max_batch_size باید روی مقداری بزرگتر یا مساوی 1 تنظیم شود که نشان دهنده حداکثر اندازه دسته ای است که تریتون باید با مدل استفاده کند. برای مدل‌هایی که از بچینگ پشتیبانی نمی‌کنند یا از بچینگ به روش‌های خاصی که توضیح دادیم پشتیبانی نمی‌کنند، max_batch_size باید روی 0 تنظیم شود.
ورودی و خروجی - این فیلدها ضروری هستند زیرا NVIDIA Triton به ابرداده در مورد مدل نیاز دارد. اساساً به نام لایه های ورودی و خروجی شبکه و شکل ورودی ها و خروجی های گفته شده نیاز دارد.
instance_group - این تعیین می کند که چند نمونه از این مدل ایجاد می شود و آیا آنها از GPU یا CPU استفاده خواهند کرد.
dynamic_batching - دسته بندی پویا یکی از ویژگی های Triton است که اجازه می دهد درخواست های استنتاج توسط سرور ترکیب شوند، به طوری که یک دسته به صورت پویا ایجاد شود. این preferred_batch_size ویژگی نشان دهنده اندازه های دسته ای است که باتجر پویا باید سعی کند ایجاد کند. برای اکثر مدل ها، preferred_batch_size نباید مشخص شود، همانطور که در فرآیند پیکربندی توصیه شده. یک استثنا مدل‌های TensorRT هستند که چندین پروفایل بهینه‌سازی را برای اندازه‌های دسته‌ای مختلف مشخص می‌کنند. در این مورد، از آنجا که برخی از پروفایل های بهینه سازی ممکن است عملکرد قابل توجهی را در مقایسه با دیگران بهبود بخشند، ممکن است استفاده از آن منطقی باشد preferred_batch_size برای اندازه های دسته ای پشتیبانی شده توسط آن پروفایل های بهینه سازی با عملکرد بالاتر. همچنین می توانید به اندازه دسته ای که قبلاً هنگام اجرا استفاده می شد اشاره کنید trtexec. همچنین می‌توانید زمان تأخیر را طوری پیکربندی کنید که درخواست‌ها برای مدت محدودی در زمان‌بندی به تأخیر بیفتند تا درخواست‌های دیگر به دسته پویا بپیوندند.

پشتیبان TensorRT بهبود یافته است تا عملکرد بسیار بهتری داشته باشد. بهبودها شامل کاهش اختلاف موضوعات، استفاده از حافظه پین شده برای انتقال سریعتر بین CPU و GPU، و افزایش همپوشانی محاسباتی و کپی حافظه در GPUها است. همچنین در بسیاری از موارد با به اشتراک گذاشتن وزن در چندین نمونه مدل، استفاده از حافظه مدل های TensorRT را کاهش می دهد. به طور کلی، پشتیبان TensorRT برای سرور استنتاج تریتون یک راه قدرتمند و انعطاف پذیر برای ارائه مدل های یادگیری عمیق با استنتاج TensorRT بهینه ارائه می کند. با تنظیم گزینه‌های پیکربندی، می‌توانید عملکرد و رفتار کنترل را متناسب با مورد خاص خود بهینه کنید.

SageMaker Triton را از طریق SMEs و MMEs فراهم می کند

SageMaker شما را قادر به استقرار می کند هر دو تنها و چند مدل نقاط پایانی با سرور استنتاج تریتون. تریتون از یک خوشه ناهمگن با پردازنده‌های گرافیکی و پردازنده‌های مرکزی پشتیبانی می‌کند، که به استانداردسازی استنتاج در پلتفرم‌ها کمک می‌کند و به صورت پویا به هر CPU یا GPU برای مدیریت بارهای اوج مقیاس می‌رسد. نمودار زیر معماری سرور استنتاج تریتون را نشان می دهد. درخواست‌های استنتاج از طریق هر یک به سرور می‌رسند HTTP/REST یا توسط C API، و سپس به زمانبندی مناسب برای هر مدل هدایت می شوند. تریتون اجرا می کند چندین الگوریتم زمانبندی و دسته بندی که می تواند بر اساس مدل به مدل پیکربندی شود. زمانبندی هر مدل به صورت اختیاری دسته بندی درخواست های استنتاج را انجام می دهد و سپس درخواست ها را به آن ارسال می کند باطن مطابق با نوع مدل چارچوب فریم ورک استنتاج را با استفاده از ورودی های ارائه شده در درخواست های دسته ای برای تولید خروجی های درخواستی انجام می دهد. سپس خروجی ها فرمت می شوند و در پاسخ بازگردانده می شوند. را مخزن مدل یک مخزن مبتنی بر سیستم فایل از مدل هایی است که تریتون برای استنتاج در دسترس قرار خواهد داد.

معماری تریتون

SageMaker از شکل‌دهی ترافیک به نقطه پایانی MME مراقبت می‌کند و نسخه‌های مدل بهینه را در نمونه‌های GPU برای بهترین عملکرد قیمت حفظ می‌کند. به مسیریابی ترافیک به نمونه ای که مدل بارگیری می شود ادامه می دهد. اگر منابع نمونه به دلیل استفاده زیاد به ظرفیت برسد، SageMaker مدل های کم استفاده را از کانتینر تخلیه می کند تا منابع را برای بارگیری مدل های پرکاربرد آزاد کند. SageMaker MME قابلیت‌هایی را برای اجرای چندین مدل یادگیری عمیق یا ML بر روی پردازنده گرافیکی، با سرور استنتاج تریتون، که برای پیاده‌سازی قرارداد MME API. MMEها اشتراک‌گذاری نمونه‌های GPU را در پشت یک نقطه پایانی در چندین مدل، و بارگیری و بارگیری پویا مدل‌ها بر اساس ترافیک ورودی را امکان‌پذیر می‌کنند. با این کار به راحتی می توانید به عملکرد قیمتی مطلوب دست پیدا کنید.

هنگامی که یک SageMaker MME یک درخواست فراخوانی HTTP برای یک مدل خاص با استفاده از آن دریافت می کند TargetModel در درخواست همراه با بار، ترافیک را به نمونه سمت راست در پشت نقطه پایانی که مدل هدف بارگذاری می‌شود، هدایت می‌کند. SageMaker از مدیریت مدل در پشت نقطه پایانی مراقبت می کند. به صورت پویا مدل ها را از سرویس ذخیره سازی ساده آمازون (Amazon S3) به حجم ذخیره سازی نمونه اگر مدل فراخوانی شده در حجم ذخیره سازی نمونه موجود نباشد. سپس SageMaker مدل را در حافظه کانتینر NVIDIA Triton روی یک نمونه شتاب‌دهنده GPU بارگذاری می‌کند و درخواست استنتاج را ارائه می‌کند. هسته GPU در یک نمونه توسط همه مدل ها مشترک است. برای اطلاعات بیشتر در مورد MME های SageMaker در GPU، رجوع کنید چندین مدل یادگیری عمیق را روی GPU با نقاط پایانی چند مدل Amazon SageMaker اجرا کنید.

SageMaker MME می‌تواند با استفاده از یک خط‌مشی مقیاس‌بندی خودکار مقیاس افقی داشته باشد و نمونه‌های محاسباتی GPU اضافی را بر اساس معیارهای مشخص شده ارائه دهد. هنگام پیکربندی گروه های مقیاس خودکار خود برای نقاط پایانی SageMaker، ممکن است بخواهید در نظر بگیرید SageMakerVariantInvocationsPerInstance به عنوان معیار اولیه برای تعیین ویژگی های مقیاس بندی گروه های مقیاس خودکار شما. علاوه بر این، بر اساس اینکه آیا مدل‌های شما روی GPU یا CPU اجرا می‌شوند، می‌توانید از آن استفاده کنید CPUUtilization or GPUUtilization به عنوان معیارهای اضافی برای نقاط پایانی تک مدل، از آنجایی که مدل‌های مستقر شده همه یکسان هستند، تنظیم خط‌مشی‌های مناسب برای مطابقت با SLA‌های خود نسبتاً ساده است. برای نقاط پایانی چند مدل، توصیه می‌کنیم مدل‌های مشابه را در پشت یک نقطه پایانی معین به کار ببرید تا عملکرد پایدارتر و قابل پیش‌بینی‌تری داشته باشید. در موارد استفاده که از مدل‌هایی با اندازه‌ها و الزامات مختلف استفاده می‌شود، ممکن است بخواهید آن حجم‌های کاری را در چندین نقطه پایانی چند مدل جدا کنید یا مدتی را صرف تنظیم دقیق خط‌مشی گروه مقیاس‌بندی خودکار خود کنید تا بهترین تعادل هزینه و عملکرد را به دست آورید.

بررسی اجمالی راه حل

با انویدیا تریتون تصویر کانتینر در SageMaker، اکنون می‌توانید از باطن TensorRT Triton استفاده کنید، که به شما امکان می‌دهد مدل‌های TensorRT را مستقر کنید. را TensorRT_backend مخزن حاوی اسناد و منبع برای باطن است. در بخش‌های بعدی، شما را با این موارد آشنا می‌کنیم نمونه دفترچه یادداشت که نحوه استفاده از NVIDIA Triton Inference Server در MME های SageMaker با ویژگی GPU برای استقرار مدل پردازش زبان طبیعی BERT (NLP) را نشان می دهد.

محیط را تنظیم کنید

ما با تنظیم محیط مورد نیاز شروع می کنیم. ما وابستگی های مورد نیاز برای بسته بندی خط لوله مدل خود را نصب می کنیم و استنتاج ها را با استفاده از سرور استنتاج تریتون اجرا می کنیم. ما نیز تعریف می کنیم هویت AWS و مدیریت دسترسی نقش (IAM) که به SageMaker امکان دسترسی به مصنوعات مدل و NVIDIA Triton را می دهد. رجیستری ظروف الاستیک آمازون تصویر (Amazon ECR). می توانید از مثال کد زیر برای بازیابی تصویر از پیش ساخته Triton ECR استفاده کنید:

import transformers
import boto3, json, sagemaker, time
from sagemaker import get_execution_role
sess = boto3.Session()
sm = sess.client("sagemaker")
sagemaker_session = sagemaker.Session(boto_session=sess)
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
bucket = sagemaker_session.default_bucket()
print(bucket) account_id_map = { "us-east-1": "785573368785", "us-east-2": "007439368137", "us-west-1": "710691900526", "us-west-2": "301217895009", "eu-west-1": "802834080501", "eu-west-2": "205493899709", "eu-west-3": "254080097072", "eu-north-1": "601324751636", "eu-south-1": "966458181534", "eu-central-1": "746233611703", "ap-east-1": "110948597952", "ap-south-1": "763008648453", "ap-northeast-1": "941853720454", "ap-northeast-2": "151534178276", "ap-southeast-1": "324986816169", "ap-southeast-2": "355873309152", "cn-northwest-1": "474822919863", "cn-north-1": "472730292857", "sa-east-1": "756306329178", "ca-central-1": "464438896020", "me-south-1": "836785723513", "af-south-1": "774647643957",
} region = boto3.Session().region_name
if region not in account_id_map.keys(): raise ("UNSUPPORTED REGION") base = "amazonaws.com.cn" if region.startswith("cn-") else "amazonaws.com"
triton_image_uri = "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
)

روش های ابزاری را برای آماده سازی بار درخواست اضافه کنید

ما توابعی را ایجاد می کنیم تا متن نمونه ای را که برای استنتاج استفاده می کنیم به محموله ای تبدیل کنیم که می تواند برای استنتاج به سرور استنتاج Triton ارسال شود. را tritonclient پکیج که در ابتدا نصب شد، روش‌های کاربردی را برای تولید بار بدون نیاز به دانستن جزئیات مشخصات ارائه می‌دهد. ما از روش های ایجاد شده برای تبدیل درخواست استنتاج خود به یک فرمت باینری استفاده می کنیم که تأخیر کمتری برای استنتاج فراهم می کند. این توابع در مرحله استنتاج استفاده می شوند.

مدل TensorRT را آماده کنید

در این مرحله، ما را بارگذاری می کنیم مدل BERT از پیش آموزش دیده و با استفاده از صادرکننده مشعل ONNX و به نمایندگی ONNX تبدیل کنید onnx_exporter.py اسکریپت پس از ایجاد مدل ONNX، از TensorRT استفاده می کنیم trtexec دستور ایجاد طرح مدل برای میزبانی با تریتون. این به عنوان بخشی از اجرا می شود generate_model.sh اسکریپت از سلول زیر توجه داشته باشید که سلول حدود 30 دقیقه طول می کشد تا تکمیل شود.

!docker run --gpus=all --rm -it -v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:23.02-py3 /bin/bash generate_models.sh

در حالی که منتظر پایان اجرای دستور هستید، می توانید اسکریپت های استفاده شده در این مرحله را بررسی کنید. در onnx_exporter.py اسکریپت، ما از torch.onnx.export تابع برای ایجاد مدل ONNX:

 torch.onnx.export( model, dummy_inputs, args.save, export_params=True, opset_version=10, input_names=["token_ids", "attn_mask"], output_names=["output","pooled_output"], dynamic_axes={"token_ids": [0, 1], "attn_mask": [0, 1], "output": [0]}, )

خط فرمان در فایل generate_model.sh طرح مدل TensorRT را ایجاد می کند. برای اطلاعات بیشتر به ابزار خط فرمان trtexec.

trtexec —onnx=model.onnx —saveEngine=model_bs16.plan —minShapes=token_ids:1x128,attn_mask:1x128 —optShapes=token_ids:16x128,attn_mask:16x128 —maxShapes=token_ids:128x128,attn_mask:128x128 —fp16 —verbose —workspace=14000 | tee conversion_bs16_dy.txt

یک مخزن مدل TensorRT NLP BERT بسازید

استفاده از Triton در SageMaker مستلزم آن است که ابتدا a را راه اندازی کنیم مخزن مدل پوشه حاوی مدل هایی که می خواهیم ارائه دهیم. برای هر مدل، باید یک پوشه مدل متشکل از مصنوع مدل ایجاد کنیم و آن را تعریف کنیم config.pbtxt فایل برای تعیین پیکربندی مدلی که تریتون برای بارگذاری و سرویس مدل استفاده می کند. برای کسب اطلاعات بیشتر در مورد تنظیمات پیکربندی، مراجعه کنید پیکربندی مدل. ساختار مخزن مدل برای مدل BERT به شرح زیر است:

ساختار پوشه برای مدل

توجه داشته باشید که تریتون الزامات خاصی برای چیدمان مخزن مدل دارد. در دایرکتوری مخزن مدل سطح بالا، هر مدل فهرست فرعی خود را دارد که حاوی اطلاعات مدل مربوطه است. هر دایرکتوری مدل در تریتون باید حداقل یک زیردایرکتوری عددی داشته باشد که نسخه ای از مدل را نشان می دهد. در اینجا، پوشه 1 نشان دهنده نسخه 1 مدل BERT است. هر مدل توسط یک باطن خاص اجرا می شود، بنابراین در زیر شاخه های هر نسخه باید آرتیفکت های مدل مورد نیاز آن باطن وجود داشته باشد. در اینجا، ما از باطن TensorRT استفاده می کنیم، که به فایل پلان TensorRT نیاز دارد که برای سرویس دهی استفاده می شود (برای مثال، model.plan). اگر از یک Backend PyTorch استفاده می کردیم، a model.pt فایل مورد نیاز خواهد بود. برای جزئیات بیشتر در مورد قراردادهای نامگذاری برای فایل های مدل، مراجعه کنید فایل های مدل.

هر مدل TensorRT باید a config.pbtxt فایلی که پیکربندی مدل را توصیف می کند. به منظور استفاده از این باطن، باید تنظیم کنید backend زمینه مدل شما config.pbtxt فایل به tensorrt_plan. بخش زیر کد نمونه ای از نحوه تعریف فایل پیکربندی برای مدل BERT را نشان می دهد که از طریق باطن TensorRT تریتون ارائه می شود:

name: "bert"
platform: "tensorrt_plan"
max_batch_size: 128
input [ { name: "token_ids" data_type: TYPE_INT32 dims: [128] }, { name: "attn_mask" data_type: TYPE_INT32 dims: [128] }
]
output [ { name: "output" data_type: TYPE_FP32 dims: [128, 768] }, { name: "pooled_output" data_type: TYPE_FP32 dims: [768] }
]
instance_group { count: 1 kind: KIND_GPU
}
dynamic_batching { preferred_batch_size: 16
}

SageMaker انتظار دارد که یک فایل tar.gz حاوی هر مخزن مدل Triton در نقطه پایانی چند مدل میزبانی شود. برای شبیه‌سازی چندین مدل مشابه که میزبانی می‌شوند، ممکن است فکر کنید تمام چیزی که لازم است این است که مخزن مدلی را که قبلاً ساخته‌ایم تار کنیم و سپس آن را با نام‌های فایل مختلف کپی کنیم. با این حال، تریتون به نام های مدل منحصر به فرد نیاز دارد. بنابراین، ابتدا مدل repo N بار کپی می کنیم و نام دایرکتوری مدل و متناظر آنها را تغییر می دهیم config.pbtxt فایل ها. می‌توانید تعداد N را تغییر دهید تا نسخه‌های بیشتری از مدل داشته باشید که می‌توانند به صورت پویا در نقطه پایانی میزبان بارگیری شوند تا عملکرد بارگیری/تخلیه مدل مدیریت شده توسط SageMaker شبیه‌سازی شود. کد زیر را ببینید:

import os
import shutil N = 5
prefix = 'bert-mme'
model_repo_base = 'model_repo' # Get model names from model_repo_0
model_names = [name for name in os.listdir(f'{model_repo_base}_0') if os.path.isdir(f'{model_repo_base}_0/{name}')] for i in range(N): # Make copy of previous model repo, increment # id shutil.copytree(f'{model_repo_base}_0', f'{model_repo_base}_{i+1}') time.sleep(5) for name in model_names: model_dirs_path = f'{model_repo_base}_{i+1}/{name}' # Open each model's config file to increment model # id there fin = open(f'{model_dirs_path}/config.pbtxt', "rt") data = fin.read() data = data.replace(name, name[:-1] + str(i+1)) fin.close() fin = open(f'{model_dirs_path}/config.pbtxt', "wt") fin.write(data) fin.close() # Change model directory name to match new config os.rename(model_dirs_path,model_dirs_path[:-1]+str(i+1)) time.sleep(2) if i == 0: tar_file_name = f'bert-{i}.tar.gz' model_repo_target = f'{model_repo_base}_{i}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) tar_file_name = f'bert-{i+1}.tar.gz' model_repo_target = f'{model_repo_base}_{i+1}/' !tar -C $model_repo_target -czf $tar_file_name . sagemaker_session.upload_data(path=tar_file_name, key_prefix=prefix) !sudo rm -r "$tar_file_name" "$model_repo_target"

یک نقطه پایانی SageMaker ایجاد کنید

اکنون که مصنوعات مدل را در آمازون S3 آپلود کرده‌ایم، می‌توانیم شی مدل SageMaker، پیکربندی نقطه پایانی و نقطه پایانی را ایجاد کنیم.

ابتدا باید ظرف سرو را تعریف کنیم. در تعریف ظرف، را تعریف کنید ModelDataUrl برای تعیین دایرکتوری S3 که شامل تمام مدل هایی است که نقطه پایانی چند مدل SageMaker برای بارگذاری و ارائه پیش بینی ها استفاده می کند. تنظیم Mode به MultiModel برای نشان دادن SageMaker نقطه پایانی را با مشخصات ظرف MME ایجاد می کند. کد زیر را ببینید:

container = { "Image": triton_image_uri, "ModelDataUrl": model_data_uri, "Mode": "MultiModel",
}

سپس شی مدل SageMaker را با استفاده از create_model boto3 API با مشخص کردن ModelName و تعریف ظرف:

create_model_response = sm.create_model(
ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

ما از این مدل برای ایجاد یک پیکربندی نقطه پایانی جایی که می توانیم نوع و تعداد نمونه های مورد نظر خود را در نقطه پایانی مشخص کنیم. در اینجا ما در حال استقرار یک نمونه GPU NVIDIA g5.xlarge هستیم:

create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g5.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

با این پیکربندی نقطه پایانی، یک نقطه پایانی جدید SageMaker ایجاد می کنیم و منتظر می مانیم تا استقرار به پایان برسد. وضعیت به تغییر خواهد کرد InService زمانی که استقرار موفقیت آمیز باشد.

endpoint_name = "triton-nlp-bert-trt-mme-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint(
EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

مدل خود را که در نقطه پایانی SageMaker میزبانی شده است فراخوانی کنید

هنگامی که نقطه پایانی در حال اجرا است، می‌توانیم از نمونه داده‌های خام برای انجام استنتاج با استفاده از JSON یا باینری+JSON به عنوان فرمت بار استفاده کنیم. برای فرمت درخواست استنتاج، تریتون از استاندارد جامعه KFServing استفاده می کند پروتکل های استنتاج. می‌توانیم درخواست استنتاج را به نقطه پایانی چند مدل ارسال کنیم invoke_enpoint API. را مشخص می کنیم TargetModel در فراخوانی فراخوانی و عبور در محموله برای هر نوع مدل. در اینجا ما نقطه پایانی را در یک حلقه for فراخوانی می کنیم تا نقطه پایانی را به آن درخواست کنیم بارگذاری یا تخلیه پویا مدل ها بر اساس درخواست ها:

text_triton = "Triton Inference Server provides a cloud and edge inferencing solution optimized for both CPUs and GPUs."
input_ids, attention_mask = tokenize_text(text_triton) payload = { "inputs": [ {"name": "token_ids", "shape": [1, 128], "datatype": "INT32", "data": input_ids}, {"name": "attn_mask", "shape": [1, 128], "datatype": "INT32", "data": attention_mask}, ]
} for i in range(N): response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel=f"bert-{i}.tar.gz", ) print(json.loads(response["Body"].read().decode("utf8")))

با استفاده از آن می توانید وضعیت بارگیری و تخلیه مدل را نظارت کنید CloudWatch آمازون متریک ها و لاگ ها نقاط پایانی چند مدلی SageMaker معیارهای سطح نمونه را برای نظارت فراهم می کند. برای جزئیات بیشتر مراجعه کنید Amazon SageMaker را با Amazon CloudWatch مانیتور کنید. LoadedModelCount متریک تعداد مدل های بارگذاری شده در ظروف را نشان می دهد. این ModelCacheHit متریک تعداد فراخوان‌هایی را برای مدل نشان می‌دهد که قبلاً در کانتینر بارگیری شده‌اند تا به شما کمک کند اطلاعات بینش در سطح دعوت مدل را دریافت کنید. برای بررسی اینکه آیا مدل‌ها از حافظه بارگیری شده‌اند، می‌توانید ورودی‌های گزارش بارگیری نشده موفق را در گزارش‌های CloudWatch نقطه پایانی جستجو کنید.

نوت بوک را می توان در مخزن GitHub.

بهترین شیوه

قبل از شروع هر گونه تلاش بهینه سازی با TensorRT، تعیین اینکه چه چیزی باید اندازه گیری شود ضروری است. بدون اندازه گیری، امکان پیشرفت قابل اعتماد یا اندازه گیری اینکه آیا موفقیت به دست آمده است، غیرممکن است. در اینجا برخی از بهترین روش‌ها وجود دارد که باید هنگام استفاده از پشتیبان TensorRT برای سرور استنتاج تریتون در نظر بگیرید:

مدل TensorRT خود را بهینه کنید – قبل از استقرار یک مدل در تریتون با باطن TensorRT، مطمئن شوید که مدل را به دنبال TensorRT بهینه کنید. بهترین شیوه راهنما. این به شما کمک می کند تا با کاهش زمان استنتاج و مصرف حافظه به عملکرد بهتری برسید.
در صورت امکان از TensorRT به جای سایر Backend های Triton استفاده کنید – TensorRT برای بهینه‌سازی مدل‌های یادگیری عمیق برای استقرار در پردازنده‌های گرافیکی NVIDIA طراحی شده است، بنابراین استفاده از آن می‌تواند عملکرد استنتاج را در مقایسه با استفاده از سایر پشتیبان‌های تریتون پشتیبانی‌شده به میزان قابل توجهی بهبود بخشد.
از دقت مناسب استفاده کنید – TensorRT از دقت های متعدد (FP32، FP16، INT8) پشتیبانی می کند و انتخاب دقت مناسب برای مدل شما می تواند تأثیر قابل توجهی بر عملکرد داشته باشد. در صورت امکان از دقت کمتری استفاده کنید.
از اندازه های دسته ای استفاده کنید که متناسب با سخت افزار شما باشد – مطمئن شوید که اندازه‌های دسته‌ای را انتخاب کنید که متناسب با حافظه و قابلیت‌های محاسباتی GPU شما باشد. استفاده از اندازه های دسته ای که خیلی بزرگ یا خیلی کوچک هستند می تواند بر عملکرد تأثیر منفی بگذارد.

نتیجه

در این پست، ما عمیقاً به پشتوانه TensorRT که سرور استنتاج Triton در SageMaker پشتیبانی می‌کند، نگاه می‌کنیم. این باطن شتاب CPU و GPU مدل های TensorRT شما را فراهم می کند. گزینه های زیادی برای به دست آوردن بهترین عملکرد برای استنباط وجود دارد، مانند اندازه های دسته ای، فرمت های ورودی داده و سایر عواملی که می توانند برای رفع نیازهای شما تنظیم شوند. SageMaker به شما امکان می دهد از این قابلیت با استفاده از نقاط پایانی تک مدل برای عملکرد تضمین شده و نقاط پایانی چند مدل برای به دست آوردن تعادل بهتر در عملکرد و صرفه جویی در هزینه استفاده کنید. برای شروع کار با پشتیبانی MME برای GPU، ببینید الگوریتم ها، چارچوب ها و نمونه های پشتیبانی شده.

ما از شما دعوت می کنیم تا ظروف سرور استنتاج Triton را در SageMaker امتحان کنید و نظرات و سوالات خود را در نظرات به اشتراک بگذارید.

درباره نویسنده

ملانی لی یک TAM متخصص ارشد AI/ML در AWS مستقر در سیدنی، استرالیا است. او به مشتریان سازمانی کمک می کند تا راه حل هایی را با استفاده از ابزارهای پیشرفته AI/ML در AWS ایجاد کنند و راهنمایی هایی را در مورد معماری و اجرای راه حل های یادگیری ماشین با بهترین شیوه ها ارائه می دهد. او در اوقات فراغت خود عاشق گشت و گذار در طبیعت در فضای باز و گذراندن وقت با خانواده و دوستان است.

جیمز پارک یک معمار راه حل در خدمات وب آمازون است. او با آمازون برای طراحی، ساخت و استقرار راه حل های فناوری در AWS کار می کند و علاقه خاصی به هوش مصنوعی و یادگیری ماشین دارد. در اوقات فراغت خود از جستجوی فرهنگ های جدید، تجربیات جدید و به روز ماندن با آخرین روندهای فناوری لذت می برد.

جیاهونگ لیو یک معمار راه حل در تیم ارائه دهنده خدمات ابری در NVIDIA است. او به مشتریان در اتخاذ راه‌حل‌های یادگیری ماشین و هوش مصنوعی کمک می‌کند که از محاسبات تسریع‌شده NVIDIA برای رسیدگی به چالش‌های آموزشی و استنتاج آنها استفاده می‌کند. او در اوقات فراغت خود از اوریگامی، پروژه های DIY و بازی بسکتبال لذت می برد.

کشیتیز گوپتا یک معمار راه حل در NVIDIA است. او از آموزش دادن به مشتریان ابری درباره فناوری‌های هوش مصنوعی GPU که NVIDIA ارائه می‌کند و کمک به آنها در تسریع یادگیری ماشینی و برنامه‌های یادگیری عمیق لذت می‌برد. خارج از محل کار، او از دویدن، پیاده روی و تماشای حیات وحش لذت می برد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
ضرب کردن آینده با آدرین اشلی. دسترسی به اینجا.
خرید و فروش سهام در شرکت های PRE-IPO با PREIPO®. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/host-ml-models-on-amazon-sagemaker-using-triton-tensorrt-models/

تمبر زمان: ممکن است 8، 2023

تمبر زمان: ممکن است 31، 2023

بازنشر افلاطون

داده های سری زمانی را با Amazon SageMaker Data Wrangler آماده کنید

طراحی شهرهای تاب‌آور در Arup با استفاده از قابلیت‌های جغرافیایی Amazon SageMaker | خدمات وب آمازون

با همان شخصیت صوتی TTS در آمازون پولی، صدا برای محتوا به چندین زبان ایجاد کنید

پلتفرم‌های SaaS را با Amazon SageMaker ادغام کنید تا برنامه‌های مبتنی بر ML را فعال کنید | خدمات وب آمازون

AWS Inferentia و AWS Trainium کمترین هزینه را برای استقرار مدل‌های Llama 3 در Amazon SageMaker JumpStart ارائه می‌کنند | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب