یک خط لوله CI/CD که به خوبی طراحی شده باشد، برای مقیاسبندی مؤثر گردش کار توسعه نرمافزار ضروری است. هنگام طراحی خطوط لوله CI/CD تولید، AWS توصیه میکند از چندین حساب برای جداسازی منابع، مهار تهدیدات امنیتی و سادهسازی صورتحساب استفاده کنید و خطوط لوله علم داده تفاوتی ندارند. در AWS، ما به نوآوری برای سادهسازی گردش کار MLOps ادامه میدهیم.
در این پست، برخی از ویژگی های جدیدتر اکانت متقابل را مورد بحث قرار می دهیم آمازون SageMaker که به شما امکان اشتراک گذاری و مدیریت بهتر گروه های مدل و همچنین مدیریت نسخه های مدل را می دهد. برای مثال ساختار حساب که باید دنبال شود بهترین شیوه های واحد سازمانی برای میزبانی مدلها با استفاده از نقاط پایانی SageMaker در سراسر حسابها، به MLOps بار کار ارکستراتور.
بررسی اجمالی راه حل
نمودار زیر معماری رجیستری مدل مشترک ما را نشان می دهد.
برخی از مواردی که در معماری قبلی باید به آنها توجه کرد:
مراحل زیر با نمودار مطابقت دارد:
- یک دانشمند داده، مدلی را از حساب علم داده در رجیستری مدل سرویسهای مشترک SageMaker ثبت میکند.
PendingManualApproval
حالت. مصنوع مدل در حساب سرویس های مشترک ایجاد می شود سرویس ذخیره سازی ساده آمازون سطل (Amazon S3). - پس از ثبت نسخه مدل جدید، شخصی که اختیار تأیید مدل را بر اساس معیارها دارد، باید مدل را تأیید یا رد کند.
- پس از تایید مدل، خط لوله CI/CD در حساب استقرار است برای استقرار فعال شد جزئیات مدل به روز شده در حساب QA و به روز رسانی مرحله به عنوان QA.
- پس از گذراندن مراحل آزمایش، می توانید انتخاب کنید که یک مرحله تأیید دستی در فرآیند CI/CD خود داشته باشید یا خط لوله CI/CD خود را مستقیماً مدل را برای تولید مستقر کرده و مرحله را به عنوان Prod به روز کنید.
- محیط تولید به مدل و کد تایید شده ارجاع می دهد، شاید این کار را انجام دهد تست A/B در تولید. در صورت ممیزی یا هر مشکلی در مدل می توانید استفاده کنید Amazon SageMaker ML Lineage Tracking. اطلاعات مربوط به مراحل یک گردش کار یادگیری ماشینی (ML) از آماده سازی داده تا استقرار مدل را ایجاد و ذخیره می کند. با اطلاعات ردیابی، میتوانید مراحل گردش کار را بازتولید کنید، مدل و مجموعه داده را ردیابی کنید، و استانداردهای حاکمیت و ممیزی مدل را ایجاد کنید.
در طول کل فرآیند، رجیستری مدل مشترک، نسخه های مدل قدیمی را حفظ می کند. این به تیم اجازه می دهد تا تغییرات را به عقب برگرداند یا حتی میزبانی کند انواع تولید.
پیش نیازها
مطمئن شوید که پیش نیازهای زیر را دارید:
- ساختار چند حسابی تدارک دیده شده - برای دستورالعمل، نگاه کنید بهترین روش ها برای واحدهای سازمانی با سازمان های AWS. برای اهداف این وبلاگ ما از حساب های زیر استفاده می کنیم:
- حساب علم داده - حسابی که در آن دانشمندان داده به داده های آموزشی دسترسی دارند و مدل ها را ایجاد می کنند.
- حساب خدمات مشترک - یک حساب مرکزی برای ذخیره سازی مصنوعات مدل (همانطور که در نمودار معماری نشان داده شده است) تا در حساب های بار کاری مختلف قابل دسترسی باشد.
- حساب استقرار - حسابی که مسئول اعمال تغییرات در حساب های مختلف است.
- حساب های حجم کاری – اینها معمولاً محیط های QA و prod هستند که در آن مهندسان نرم افزار قادر به ساخت برنامه های کاربردی برای مصرف مدل ML هستند.
- یک حساب استقرار با مجوزهای مناسب – برای کسب اطلاعات بیشتر در مورد بهترین شیوه ها با ساختار OU چند حسابی، مراجعه کنید استقرار OU. این حساب وظیفه دارد تا حساب های حجم کار را به مدل مورد نظر در رجیستری مدل حساب خدمات اشتراکی نشان دهد.
سیاست های بین حسابی را تعریف کنید
در پیروی از اصل حداقل امتیاز، ابتدا باید سیاستهای منابع بین حسابها را به منابع سرویسهای مشترک اضافه کنیم تا از حسابهای دیگر دسترسی داشته باشیم.
از آنجایی که مصنوعات مدل در سطل S3 حساب خدمات مشترک ذخیره میشوند، حساب علم داده نیاز به دسترسی خواندن/نوشتن Amazon S3 برای ارسال مدلهای آموزشدیده به Amazon S3 دارد. کد زیر این سیاست را نشان میدهد، اما هنوز آن را به حساب سرویسهای مشترک اضافه نکنید:
حساب استقرار فقط باید به سطل S3 دسترسی خواندن داشته باشد تا بتواند از مصنوعات مدل برای استقرار در نقاط پایانی SageMaker استفاده کند. همچنین باید خطمشی زیر را به سطل سرویسهای مشترک S3 پیوست کنیم:
ما هر دو سیاست را ترکیب می کنیم تا خط مشی نهایی زیر را بدست آوریم. پس از جایگزینی شناسههای حساب مناسب، این خطمشی را در حساب خدمات مشترک ایجاد کنید:
برای اینکه بتواند یک مدل ایجاد شده در یک حساب دیگر را مستقر کند، کاربر باید نقشی داشته باشد که به اقدامات SageMaker دسترسی داشته باشد، مانند نقشی با AmazonSageMakerFullAccess
سیاست مدیریت شده رجوع شود به یک نسخه مدل را از یک حساب دیگر مستقر کنید برای جزئیات بیشتر
ما باید گروه مدلی را تعریف کنیم که شامل نسخه های مدلی است که می خواهیم اجرا کنیم. همچنین، ما می خواهیم مجوزهایی را به حساب داده علم اعطا کنیم. این را می توان در مراحل زیر انجام داد. ما به حساب ها به شرح زیر اشاره می کنیم:
- shared_services_account_id – اکانتی که رجیستری مدل در آن قرار دارد و ما می خواهیم مدل کجا باشد
- data_science_account_id - حسابی که در آن آموزش خواهیم داد و بنابراین مصنوع مدل واقعی را ایجاد خواهیم کرد
- deployment_account_id – حسابی که می خواهیم نقطه پایانی این مدل را در آن میزبانی کنیم
ابتدا باید از وجود گروه های بسته مدل اطمینان حاصل کنیم. می توانید از API های Boto3 مانند مثال زیر استفاده کنید یا می توانید از آن استفاده کنید کنسول مدیریت AWS برای ایجاد پکیج مدل رجوع شود به گروه بسته مدل ایجاد کنید برای جزئیات بیشتر این فرض می کند که Boto3 را نصب کرده اید.
برای مجوزهای این گروه بسته مدل، می توانید یک سند JSON شبیه کد زیر ایجاد کنید. شناسههای حساب واقعی و نام گروه بسته مدل را با مقادیر خود جایگزین کنید.
در نهایت، سیاست را در گروه بسته مدل اعمال کنید. شما نمی توانید این خط مشی را از طریق کنسول با گروه بسته مرتبط کنید. شما به SDK یا نیاز دارید رابط خط فرمان AWS دسترسی (AWS CLI). به عنوان مثال، کد زیر از Boto3 استفاده می کند:
سفارشی هم نیاز داریم سرویس مدیریت کلید AWS کلید (AWS KMS) برای رمزگذاری مدل در حین ذخیره آن در آمازون S3. این باید با استفاده از حساب علم داده انجام شود. در کنسول AWS KMS، به مسیر بروید مجوزهای استفاده از کلید را تعریف کنید صفحه در سایر حساب های AWS بخش، را انتخاب کنید یک حساب AWS دیگر اضافه کنید. شماره حساب AWS را برای حساب استقرار وارد کنید. شما از این کلید KMS برای کار آموزش SageMaker استفاده می کنید. اگر کلید KMS را برای کار آموزشی مشخص نکنید، SageMaker به طور پیشفرض کلید رمزگذاری سمت سرور Amazon S3 را انتخاب میکند. یک کلید رمزگذاری پیشفرض سمت سرور Amazon S3 را نمیتوان با حساب AWS دیگری به اشتراک گذاشت یا از آن استفاده کرد.
خط مشی و مجوزها از این الگو پیروی می کنند:
- خط مشی Amazon S3 مشخص شده در
shared_services_account
به حساب داده علم و حساب استقرار مجوز می دهد - خط مشی کلید KMS مشخص شده در
shared_services_account
به حساب داده علم و حساب استقرار مجوز می دهد
ما باید اطمینان حاصل کنیم که حساب سرویس های مشترک و حساب استقرار به تصاویر Docker که برای آموزش مدل استفاده شده است دسترسی دارند. این تصاویر عموماً در حسابهای AWS میزبانی میشوند و اگر قبلاً دسترسی ندارید، سرپرست حساب شما میتواند به شما کمک کند تا دسترسی داشته باشید. برای این پست، پس از آموزش مدل، هیچ تصویر داکر سفارشی ایجاد نمی کنیم و بنابراین نیازی به سیاست های خاص آمازون ECR برای تصاویر نداریم.
در حساب های حجم کاری (QA یا prod)، باید دو مورد ایجاد کنیم هویت AWS و مدیریت دسترسی سیاستهای (IAM) مشابه موارد زیر. اینها هستند سیاست های درون خطی، به این معنی که آنها در یک هویت IAM جاسازی شده اند. این به این حساب ها دسترسی به رجیستری مدل می دهد.
اولین خط مشی درون خطی به نقش اجازه می دهد تا به منبع آمازون S3 در حساب خدمات مشترک که حاوی مصنوع مدل است دسترسی داشته باشد. نام سطل S3 و مدل خود را وارد کنید:
دومین خط مشی درون خطی به نقشی که بعداً ایجاد می کنیم، اجازه می دهد تا از کلید KMS در حساب خدمات مشترک استفاده کند. شناسه حساب برای حساب خدمات مشترک و شناسه کلید KMS را مشخص کنید:
در نهایت، ما نیاز داریم یک نقش IAM ایجاد کنید برای SageMaker. این نقش دارای AmazonSageMakerFullAccess
خط مشی پیوست سپس این دو خط مشی درونی را به نقشی که ایجاد کردیم متصل می کنیم. اگر از یک نقش اجرایی SageMaker موجود استفاده می کنید، این دو خط مشی را به آن نقش پیوست کنید. برای دستورالعمل، مراجعه کنید ایجاد نقش ها و پیوست کردن خط مشی ها (کنسول).
اکنون که خطمشیهای هر حساب را تعریف کردهایم، بیایید از یک مثال برای مشاهده عملکرد آن استفاده کنیم.
با استفاده از خط لوله SageMaker یک مدل بسازید و آموزش دهید
ما ابتدا یک خط لوله SageMaker در حساب علم داده برای انجام پردازش داده ها، آموزش مدل و ارزیابی ایجاد می کنیم. ما از مجموعه داده مسکن کالیفرنیا به دست آمده از کتابخانه StatLib استفاده می کنیم. در قطعه کد زیر از یک اسکریپت پیش پردازش سفارشی استفاده می کنیم preprocess.py
برای انجام برخی تبدیل ویژگی های ساده مانند مقیاس بندی ویژگی، که می تواند با استفاده از موارد زیر ایجاد شود دفتر یادداشت. این اسکریپت همچنین مجموعه داده را به مجموعه داده های آموزشی و آزمایشی تقسیم می کند.
ما ایجاد می کنیم SKLearnProcessor
شیء برای اجرای این اسکریپت پیش پردازش. در خط لوله SageMaker، ما یک مرحله پردازش ایجاد می کنیم (ProcessingStep
) برای اجرای کد پردازش با استفاده از SKLearnProcessor
. این کد پردازش زمانی فراخوانی می شود که خط لوله SageMaker مقداردهی اولیه شود. کد ایجاد SKLearnProcessor
و ProcessingStep
در کد زیر نشان داده شده اند. توجه داشته باشید که تمامی کدهای این قسمت در اکانت علم داده اجرا می شود.
ما به یک کلید KMS سفارشی برای رمزگذاری مدل در حین ذخیره آن در Amazon S3 نیاز داریم. کد زیر را ببینید:
برای آموزش مدل، یک شی برآوردگر TensorFlow ایجاد می کنیم. شناسه کلید KMS را به همراه اسکریپت آموزشی خود به آن ارسال می کنیم train.py
، نوع نمونه آموزشی و تعداد. ما همچنین یک را ایجاد می کنیم TrainingStep
به خط لوله ما اضافه شود و تخمینگر TensorFlow را به آن اضافه کنید. کد زیر را ببینید:
علاوه بر آموزش، ما نیاز به ارزیابی مدل داریم که برای آن از میانگین مربعات خطا (MSE) به عنوان معیار در این مثال استفاده می کنیم. را نوت بوک قبلی نیز تولید می کند evaluate.py
، که برای ارزیابی مدل خود با استفاده از MSE استفاده می کنیم. ما همچنین یک را ایجاد می کنیم ProcessingStep
برای مقداردهی اولیه اسکریپت ارزیابی مدل با استفاده از a SKLearnProcessor
هدف - شی. کد زیر این مرحله را ایجاد می کند:
پس از ارزیابی مدل، در صورتی که عملکرد مدل مطابق با الزامات باشد، به مرحله ای نیز نیاز داریم تا مدل خود را در رجیستری مدل ثبت کنیم. این در کد زیر با استفاده از نشان داده شده است RegisterModel
گام. در اینجا باید پکیج مدلی را که در حساب سرویس های اشتراکی اعلام کرده بودیم، مشخص کنیم. منطقه، حساب و بسته مدل را با مقادیر خود جایگزین کنید. نام مدل استفاده شده در اینجا این است modeltest
، اما می توانید از هر نام دلخواه خود استفاده کنید.
همچنین باید مصنوعات مدل را ایجاد کنیم تا بتوان آن را مستقر کرد (با استفاده از حساب دیگر). برای ایجاد مدل، a ایجاد می کنیم CreateModelStep
، همانطور که در کد زیر نشان داده شده است:
افزودن شرایط به خط لوله با a انجام می شود ConditionStep
. در این حالت، تنها در صورتی می خواهیم نسخه مدل جدید را در رجیستری مدل ثبت کنیم که مدل جدید دارای یک شرط دقت باشد. کد زیر را ببینید:
در نهایت، ما می خواهیم تمام مراحل خط لوله را به گونه ای هماهنگ کنیم که خط لوله بتواند مقداردهی اولیه شود:
یک نسخه مدل را از یک حساب دیگر مستقر کنید
اکنون که مدل در حساب خدمات مشترک ثبت شده است، باید با استفاده از خط لوله CI/CD در حساب استقرار، در حساب های حجم کاری خود مستقر شویم. ما قبلاً نقش و خط مشی را در مرحله قبلی پیکربندی کرده ایم. ما از بسته مدل ARN برای استقرار مدل از رجیستری مدل استفاده می کنیم. کد زیر در حساب استقرار اجرا می شود و برای استقرار مدل های تایید شده در QA و prod استفاده می شود:
نتیجه
در این پست، نحوه تنظیم خطمشیهای مورد نیاز برای راهاندازی چند حساب برای ML را بر اساس اصل حداقل امتیاز نشان دادیم. سپس روند ساخت و آموزش مدل ها را در حساب علم داده نشان دادیم. در نهایت، ما از خط لوله CI/CD در حساب استقرار برای استقرار آخرین نسخه مدلهای تایید شده در حسابهای QA و تولید استفاده کردیم. علاوه بر این، شما می توانید مشاهده تاریخچه استقرار مدل ها و ایجاد محرک ها in AWS CodeBuild.
می توانید مفاهیم موجود در این پست را برای میزبانی مدل ها در مقیاس بندی کنید ابر محاسبه الاستیک آمازون (Amazon EC2) یا سرویس الاستیک کوبرنتز آمازون (Amazon EKS)، و همچنین ساخت یک خط لوله استنتاج دسته ای.
برای کسب اطلاعات بیشتر در مورد داشتن حسابهای جداگانه که مدلهای ML را در AWS میسازند، رجوع کنید بهترین روش ها برای واحدهای سازمانی با سازمان های AWS و به روز رسانی ایمن مدل ها در تولید.
درباره نویسنده
ساندیپ ورما یک معمار نمونه اولیه با AWS است. او از غواصی عمیق در چالش های مشتری و ساختن نمونه های اولیه برای مشتریان برای سرعت بخشیدن به نوآوری لذت می برد. او پیشینه ای در AI/ML، بنیانگذار New Knowledge، و عموماً علاقه مند به فناوری دارد. او در اوقات فراغت خود عاشق سفر و اسکی با خانواده است.
مانی خانوجه یک متخصص هوش مصنوعی و یادگیری ماشین SA در خدمات وب آمازون (AWS) است. او به مشتریانی که از یادگیری ماشینی استفاده می کنند کمک می کند تا چالش های تجاری خود را با استفاده از AWS حل کنند. او بیشتر وقت خود را صرف غواصی عمیق و آموزش به مشتریان در پروژه های AI/ML مرتبط با بینایی کامپیوتر، پردازش زبان طبیعی، پیش بینی، ML در لبه و غیره می کند. او علاقه زیادی به ML در لبه دارد، بنابراین، او آزمایشگاه خود را با کیت خودران و خط تولید تولید نمونه اولیه ایجاد کرده است، جایی که زمان آزاد خود را در آن سپری می کند.
ساومیترا ویکرام یک توسعه دهنده نرم افزار در تیم آمازون SageMaker است و در چنای، هند مستقر است. خارج از محل کار، او عاشق دویدن، پیاده روی و موتور سواری در هیمالیا است.
سریدوی سرینیواسان یک رهبر مهندسی در AWS SageMaker است. او در مورد فعال کردن ML به عنوان پلتفرمی که قرار است زندگی روزمره را متحول کند، مشتاق و هیجان زده است. او در حال حاضر بر روی فروشگاه ویژگی SageMaker تمرکز دارد. او در اوقات فراغت خود دوست دارد با خانواده خود وقت بگذراند.
روپیند گروال یک معمار راه حل های تخصصی Sr Ai/ML با AWS است. او در حال حاضر روی ارائه مدل ها و MLO ها در SageMaker تمرکز دارد. قبل از این نقش، او به عنوان مهندس یادگیری ماشین، مدلهای ساخت و میزبانی کار کرده است. خارج از محل کار او از بازی تنیس و دوچرخه سواری در مسیرهای کوهستانی لذت می برد.
فاروق صابر یک معمار ارشد راه حل های متخصص هوش مصنوعی و یادگیری ماشین در AWS است. او دارای مدرک دکتری و کارشناسی ارشد در مهندسی برق از دانشگاه تگزاس در آستین و کارشناسی ارشد در علوم کامپیوتر از موسسه فناوری جورجیا است. او در AWS به مشتریان کمک می کند تا مشکلات تجاری خود را در علم داده، یادگیری ماشین، بینایی کامپیوتر، هوش مصنوعی، بهینه سازی عددی و حوزه های مرتبط فرموله و حل کنند. او بیش از 16 سال تجربه کاری دارد و همچنین یکی از اعضای هیئت علمی دانشگاه تگزاس در دالاس است، جایی که یک دوره تحصیلات تکمیلی در مورد یادگیری ماشین کاربردی تدریس می کند. او و خانواده اش که در دالاس، تگزاس مستقر هستند، عاشق سفر و سفرهای طولانی جاده ای هستند.
- پیشرفته (300)
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- آمازون SageMaker
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- آموزش ماشین AWS
- بهترین شیوه
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- مقیاس Ai
- نحو
- نحوه فنی
- زفیرنت