حاکم بر چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker

بازنشر افلاطون

دنبال: 0

مشتریان با هر اندازه و صنعتی در حال نوآوری در AWS با تزریق یادگیری ماشینی (ML) به محصولات و خدمات خود هستند. پیشرفت‌های اخیر در مدل‌های هوش مصنوعی مولد نیاز به پذیرش ML را در صنایع افزایش داده است. با این حال، پیاده‌سازی امنیت، حریم خصوصی داده‌ها و کنترل‌های حاکمیتی هنوز چالش‌های کلیدی مشتریان در هنگام اجرای بارهای کاری ML در مقیاس هستند. پرداختن به این چالش ها چارچوب و پایه هایی را برای کاهش ریسک و استفاده مسئولانه از محصولات مبتنی بر ML ایجاد می کند. اگرچه هوش مصنوعی مولد ممکن است به کنترل‌های بیشتری نیاز داشته باشد، مانند حذف سمیت و جلوگیری از فرار از زندان و توهم، اما همان مؤلفه‌های اساسی برای امنیت و حکمرانی ML سنتی را دارد.

ما از مشتریان می شنویم که آنها به دانش تخصصی و سرمایه گذاری حداکثر 12 ماهه برای ساخت سفارشی خود نیاز دارند آمازون SageMaker پیاده سازی پلت فرم ML برای اطمینان از محیط های مقیاس پذیر، قابل اعتماد، ایمن و کنترل شده ML برای خطوط کسب و کار (LOB) یا تیم های ML. اگر چارچوبی برای مدیریت چرخه عمر ML در مقیاس ندارید، ممکن است با چالش‌هایی مانند جداسازی منابع در سطح تیم، مقیاس‌بندی منابع آزمایشی، عملیاتی‌سازی گردش‌های کاری ML، مقیاس‌بندی حاکمیت مدل، و مدیریت امنیت و انطباق با حجم کاری ML مواجه شوید.

مدیریت چرخه حیات ML در مقیاس، چارچوبی است که به شما کمک می کند تا یک پلت فرم ML با کنترل های امنیتی و حاکمیتی تعبیه شده بر اساس بهترین شیوه های صنعت و استانداردهای سازمانی بسازید. این چارچوب با ارائه راهنمایی های تجویزی از طریق یک رویکرد چارچوب مدولار که توسعه آن را گسترش می دهد، به چالش ها می پردازد برج کنترل AWS محیط AWS چند حسابی و رویکرد مورد بحث در پست راه‌اندازی محیط‌های یادگیری ماشینی ایمن و تحت کنترل در AWS.

این دستورالعمل برای توابع پلت فرم ML زیر ارائه می دهد:

مبانی چند حساب، امنیت و شبکه – این تابع از برج کنترل AWS و اصولی که به خوبی طراحی شده اند برای راه اندازی و راه اندازی محیط چند حساب، امنیت و خدمات شبکه.
داده ها و مبانی حکمرانی – این تابع از a استفاده می کند معماری مش داده برای راه‌اندازی و راه‌اندازی دریاچه داده، ذخیره‌سازی ویژگی‌های مرکزی و پایه‌های حاکمیت داده برای فعال کردن دسترسی به داده‌های ریز.
پلت فرم ML مشترک و خدمات حاکمیتی – این عملکرد راه اندازی و راه اندازی سرویس های رایج مانند CI/CD را امکان پذیر می کند، کاتالوگ خدمات AWS برای فراهم کردن محیط‌ها، و یک رجیستری مدل مرکزی برای ارتقای مدل و اصل و نسب.
محیط های تیم ML - این عملکرد، راه اندازی و عملیات محیطی را برای تیم های ML برای توسعه مدل، آزمایش، و به کارگیری موارد استفاده آنها برای تعبیه کنترل های امنیتی و حاکمیتی امکان پذیر می کند.
قابلیت مشاهده پلت فرم ML - این تابع به عیب یابی و شناسایی علت اصلی مشکلات در مدل های ML از طریق متمرکز کردن گزارش ها و ارائه ابزارهایی برای تجسم تجزیه و تحلیل گزارش کمک می کند. همچنین راهنمایی برای تولید گزارش‌های هزینه و استفاده برای موارد استفاده ML ارائه می‌کند.

اگرچه این چارچوب می‌تواند مزایایی را برای همه مشتریان فراهم کند، اما برای مشتریان شرکت‌های بزرگ، بالغ، تنظیم‌شده یا جهانی که می‌خواهند استراتژی‌های ML خود را در یک رویکرد کنترل‌شده، سازگار و هماهنگ در سراسر سازمان مقیاس‌بندی کنند، بسیار سودمند است. این کمک می کند تا همزمان با کاهش خطرات، پذیرش ML فعال شود. این چارچوب برای مشتریان زیر مفید است:

مشتریان سازمانی بزرگ که دارای LOB ها یا بخش های زیادی هستند که علاقه مند به استفاده از ML هستند. این چارچوب به تیم های مختلف اجازه می دهد تا مدل های ML را به طور مستقل بسازند و در عین حال حاکمیت مرکزی را ارائه دهند.
مشتریان سازمانی با بلوغ متوسط تا بالا در ML. آنها قبلاً برخی از مدل‌های اولیه ML را به کار گرفته‌اند و به دنبال افزایش تلاش‌های خود برای ML هستند. این چارچوب می تواند به تسریع پذیرش ML در سراسر سازمان کمک کند. این شرکت ها همچنین نیاز به حاکمیت را برای مدیریت مواردی مانند کنترل دسترسی، استفاده از داده، عملکرد مدل و تعصب ناعادلانه تشخیص می دهند.
شرکت هایی در صنایع تحت نظارت مانند خدمات مالی، مراقبت های بهداشتی، شیمی و بخش خصوصی. این شرکت ها برای هر مدل ML مورد استفاده در فرآیندهای تجاری خود نیاز به حاکمیت و قابلیت شنیدن قوی دارند. اتخاذ این چارچوب می تواند به تسهیل انطباق کمک کند و در عین حال امکان توسعه مدل محلی را فراهم کند.
سازمان های جهانی که نیاز به تعادل کنترل متمرکز و محلی دارند. رویکرد فدرال این چارچوب به تیم مهندسی سکوی مرکزی اجازه می‌دهد تا برخی از سیاست‌ها و استانداردهای سطح بالا را تعیین کند، اما به تیم‌های LOB نیز انعطاف‌پذیری می‌دهد تا بر اساس نیازهای محلی سازگار شوند.

در قسمت اول این مجموعه به بررسی معماری مرجع برای راه اندازی پلت فرم ML می پردازیم. در پست بعدی، راهنمایی های تجویزی برای نحوه پیاده سازی ماژول های مختلف در معماری مرجع در سازمان شما ارائه خواهیم کرد.

قابلیت های پلت فرم ML در چهار دسته دسته بندی شده است که در شکل زیر نشان داده شده است. این قابلیت ها شالوده معماری مرجع را تشکیل می دهند که بعداً در این پست مورد بحث قرار می گیرد:

پایه های ML را بسازید
مقیاس عملیات ML
ML قابل مشاهده
امن ML

بررسی اجمالی راه حل

چارچوب حاکم بر چرخه حیات ML در چارچوب مقیاس، سازمان‌ها را قادر می‌سازد تا کنترل‌های امنیتی و حاکمیتی را در طول چرخه حیات ML تعبیه کنند که به نوبه خود به سازمان‌ها کمک می‌کند تا ریسک را کاهش دهند و تسریع در تزریق ML به محصولات و خدمات خود داشته باشند. این چارچوب به بهینه‌سازی راه‌اندازی و مدیریت محیط‌های امن، مقیاس‌پذیر و قابل اعتماد ML کمک می‌کند که می‌توانند برای پشتیبانی از تعداد فزاینده‌ای از مدل‌ها و پروژه‌ها مقیاس شوند. چارچوب ویژگی های زیر را فعال می کند:

تامین حساب و زیرساخت با منابع زیرساختی مطابق با خط مشی سازمان
استقرار سلف سرویس محیط های علم داده و الگوهای عملیات ML سرتاسر (MLOps) برای موارد استفاده ML
جداسازی منابع در سطح LOB یا در سطح تیم برای رعایت امنیت و حریم خصوصی
دسترسی کنترل شده به داده های درجه تولید برای آزمایش و گردش کار آماده تولید
مدیریت و حاکمیت برای مخازن کد، خطوط لوله کد، مدل های مستقر و ویژگی های داده
یک مدل رجیستری و فروشگاه ویژگی (قطعات محلی و مرکزی) برای بهبود حاکمیت
کنترل های امنیتی و حاکمیتی برای فرآیند توسعه و استقرار مدل انتها به انتها

در این بخش، ما یک نمای کلی از راهنمایی های تجویزی ارائه می کنیم تا به شما در ساختن این پلت فرم ML بر روی AWS با کنترل های امنیتی و حاکمیتی تعبیه شده کمک کنیم.

معماری عملکردی مرتبط با پلت فرم ML در نمودار زیر نشان داده شده است. این معماری قابلیت های مختلف پلت فرم ML را به حساب های AWS ترسیم می کند.

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

معماری عملکردی با قابلیت های مختلف با استفاده از تعدادی سرویس AWS از جمله پیاده سازی شده است سازمانهای AWS، SageMaker، خدمات AWS DevOps و یک دریاچه داده. معماری مرجع برای پلتفرم ML با خدمات مختلف AWS در نمودار زیر نشان داده شده است.

این چارچوب چندین شخصیت و خدمات را برای کنترل چرخه حیات ML در مقیاس در نظر می گیرد. ما مراحل زیر را برای سازماندهی تیم ها و خدمات خود توصیه می کنیم:

با استفاده از برج کنترل AWS و ابزار اتوماسیون، سرپرست ابر شما پایه های چند حسابی مانند سازمان ها و مرکز هویت AWS IAM (جانشین AWS Single Sign-On) و خدمات امنیتی و حاکمیتی مانند سرویس مدیریت کلید AWS (AWS KMS) و کاتالوگ خدمات. علاوه بر این، مدیر واحدهای سازمانی (OU) و حساب‌های اولیه را برای پشتیبانی از گردش کار ML و تجزیه و تحلیل شما راه‌اندازی می‌کند.
مدیران دریاچه داده، دریاچه داده و کاتالوگ داده شما را راه‌اندازی می‌کنند و فروشگاه ویژگی مرکزی را راه‌اندازی می‌کنند که با سرپرست پلتفرم ML کار می‌کند.
ادمین پلتفرم ML خدمات مشترک ML مانند AWS CodeCommit, AWS CodePipeline, رجیستری ظروف الاستیک آمازون (Amazon ECR)، یک رجیستری مدل مرکزی، کارت های مدل SageMaker, داشبورد مدل SageMakerو محصولات کاتالوگ خدمات برای تیم های ML.
رهبری تیم ML از طریق IAM Identity Center، از محصولات کاتالوگ خدمات استفاده می کند و منابع را در محیط توسعه تیم ML فراهم می کند.
دانشمندان داده از تیم‌های ML در واحدهای مختلف تجاری با محیط توسعه تیم خود متحد می‌شوند تا خط لوله مدل را بسازند.
دانشمندان داده ویژگی‌ها را از کاتالوگ فروشگاه ویژگی‌های مرکزی جستجو می‌کنند، مدل‌هایی را از طریق آزمایش می‌سازند، و بهترین مدل را برای ارتقاء انتخاب می‌کنند.
دانشمندان داده ویژگی های جدیدی را برای استفاده مجدد در کاتالوگ فروشگاه ویژگی های مرکزی ایجاد کرده و به اشتراک می گذارند.
یک مهندس ML خط لوله مدل را با استفاده از فرآیند CI/CD خدمات مشترک در محیط آزمایش تیم ML مستقر می کند.
پس از اعتبارسنجی ذینفعان، مدل ML در محیط تولید تیم مستقر می شود.
کنترل های امنیتی و حاکمیتی در هر لایه از این معماری با استفاده از خدماتی مانند هاب امنیتی AWS, وظیفه گارد آمازون, آمازون میسی، و بیشتر.
کنترل‌های امنیتی به‌طور مرکزی از حساب ابزار امنیتی با استفاده از Security Hub مدیریت می‌شوند.
قابلیت‌های مدیریت پلتفرم ML مانند کارت‌های مدل SageMaker و داشبورد مدل SageMaker به‌طور مرکزی از حساب خدمات حاکمیتی مدیریت می‌شوند.
CloudWatch آمازون و AWS CloudTrail گزارش های مربوط به هر حساب عضو به طور مرکزی از یک حساب مشاهده پذیری با استفاده از خدمات بومی AWS قابل دسترسی هستند.

در مرحله بعد، ما به عمق ماژول های معماری مرجع برای این چارچوب می پردازیم.

ماژول های معماری مرجع

معماری مرجع شامل هشت ماژول است که هر کدام برای حل مجموعه خاصی از مسائل طراحی شده اند. در مجموع، این ماژول ها به حاکمیت در ابعاد مختلف مانند زیرساخت، داده، مدل و هزینه می پردازند. هر ماژول مجموعه ای متمایز از عملکردها را ارائه می دهد و با ماژول های دیگر تعامل می کند تا یک پلت فرم یکپارچه ML سرتاسر با کنترل های امنیتی و حاکمیتی تعبیه شده ارائه کند. در این بخش، خلاصه ای کوتاه از قابلیت های هر ماژول ارائه می کنیم.

مبانی چند حسابی

این ماژول به مدیران ابر کمک می کند تا یک منطقه فرود برج کنترل AWS به عنوان یک چارچوب اساسی این شامل ساخت یک ساختار چند حساب، احراز هویت و مجوز از طریق IAM Identity Center، طراحی هاب و اسپیک شبکه، خدمات ثبت مرکزی، و حساب‌های جدید اعضای AWS با خطوط پایه امنیتی و حاکمیتی استاندارد است.

علاوه بر این، این ماژول بهترین راهنمای عملی را در مورد ساختارهای OU و حساب ارائه می دهد که برای پشتیبانی از گردش کار ML و تجزیه و تحلیل شما مناسب است. مدیران Cloud هدف حساب‌ها و OUهای مورد نیاز، نحوه استقرار آن‌ها، و سرویس‌های امنیتی کلیدی و انطباق را که باید برای مدیریت مرکزی بارهای کاری ML و تجزیه و تحلیل خود استفاده کنند، درک خواهند کرد.

چارچوبی برای فروش حساب‌های جدید نیز پوشش داده شده است، که از اتوماسیون برای پایه‌گذاری حساب‌های جدید هنگام تهیه استفاده می‌کند. با راه‌اندازی فرآیند تأمین حساب خودکار، مدیران ابری می‌توانند حساب‌هایی را که برای انجام سریع‌تر کارشان نیاز دارند، به تیم‌های ML و تجزیه و تحلیل ارائه کنند، بدون اینکه پایه‌ای قوی برای حاکمیت را قربانی کنند.

بنیاد دریاچه داده

این ماژول به مدیران دریاچه داده کمک می کند تا یک دریاچه داده راه اندازی کنند تا داده ها را جذب کند، مجموعه های داده را مدیریت کند و از سازند دریاچه AWS مدل حاکمیتی برای مدیریت دسترسی به داده های ریز دانه در میان حساب ها و کاربران با استفاده از کاتالوگ داده متمرکز، سیاست های دسترسی به داده ها و کنترل های دسترسی مبتنی بر برچسب. شما می توانید با یک حساب کاربری برای پایه های پلت فرم داده خود برای اثبات مفهوم یا چند بار کاری کوچک شروع کنید. برای اجرای حجم کاری تولید در مقیاس متوسط تا بزرگ، توصیه می کنیم یک استراتژی چند حسابی اتخاذ کنید. در چنین تنظیماتی، LOB ها می توانند نقش تولیدکنندگان داده و مصرف کنندگان داده را با استفاده از حساب های مختلف AWS بر عهده بگیرند، و حاکمیت دریاچه داده از یک حساب مشترک AWS مرکزی اداره می شود. تولید کننده داده ها علاوه بر نظارت و اطمینان از کیفیت دارایی های داده خود، داده ها را از دامنه داده خود جمع آوری، پردازش و ذخیره می کند. مصرف کنندگان داده پس از اینکه کاتالوگ متمرکز آن را با استفاده از Lake Formation به اشتراک می گذارد، داده های تولید کننده داده را مصرف می کنند. کاتالوگ متمرکز کاتالوگ داده های مشترک را برای حساب های تولید کننده داده ذخیره و مدیریت می کند.

خدمات پلت فرم ML

این ماژول به تیم مهندسی پلت فرم ML کمک می کند تا سرویس های مشترکی را راه اندازی کند که توسط تیم های علم داده در حساب های تیم خود استفاده می شود. خدمات شامل مجموعه خدمات کاتالوگ با محصولات برای دامنه SageMaker گسترش، پروفایل کاربری دامنه SageMaker استقرار، الگوهای مدل علم داده برای ساخت و استقرار مدل. این ماژول دارای قابلیت‌هایی برای یک رجیستری مدل متمرکز، کارت‌های مدل، داشبورد مدل، و خطوط لوله CI/CD است که برای هماهنگ‌سازی و خودکارسازی گردش‌های کاری توسعه و استقرار مدل استفاده می‌شوند.

علاوه بر این، این ماژول نحوه پیاده‌سازی کنترل‌ها و حاکمیت مورد نیاز برای فعال کردن قابلیت‌های سلف‌سرویس مبتنی بر شخص را شرح می‌دهد و به تیم‌های علم داده اجازه می‌دهد تا به طور مستقل زیرساخت‌های ابری و قالب‌های ML مورد نیاز خود را مستقر کنند.

توسعه مورد استفاده ML

این ماژول به LOB ها و دانشمندان داده کمک می کند تا به دامنه SageMaker تیم خود در یک محیط توسعه دسترسی پیدا کنند و یک الگوی ساخت مدل را برای توسعه مدل های خود نمونه سازی کنند. در این ماژول، دانشمندان داده بر روی یک نمونه حساب توسعه‌دهنده الگو کار می‌کنند تا با داده‌های موجود در دریاچه داده متمرکز، استفاده مجدد و اشتراک‌گذاری ویژگی‌های یک فروشگاه ویژگی مرکزی، ایجاد و اجرای آزمایش‌های ML، ساخت و آزمایش گردش‌های کاری ML خود، کار می‌کنند. و مدل های خود را در یک رجیستری مدل حساب توسعه دهنده در محیط های توسعه خود ثبت کنند.

قابلیت‌هایی مانند ردیابی آزمایش، گزارش‌های توضیح‌پذیری مدل، نظارت بر تعصب داده‌ها و مدل، و ثبت مدل نیز در قالب‌ها پیاده‌سازی شده‌اند که امکان تطبیق سریع راه‌حل‌ها با مدل‌های توسعه‌یافته دانشمندان داده را فراهم می‌کند.

عملیات ML

این ماژول به LOB ها و مهندسان ML کمک می کند تا روی نمونه های توسعه دهنده خود از الگوی استقرار مدل کار کنند. پس از ثبت و تایید مدل کاندید، آنها خطوط لوله CI/CD را راه‌اندازی می‌کنند و گردش‌های کاری ML را در محیط آزمایشی تیم اجرا می‌کنند، که مدل را در رجیستری مدل مرکزی در حال اجرا در حساب خدمات مشترک پلت فرم ثبت می‌کند. هنگامی که یک مدل در رجیستری مدل مرکزی تأیید می شود، یک خط لوله CI/CD برای استقرار مدل در محیط تولید تیم راه اندازی می شود.

فروشگاه ویژگی متمرکز

پس از اینکه اولین مدل‌ها در تولید مستقر شدند و موارد استفاده چندگانه شروع به اشتراک‌گذاری ویژگی‌های ایجاد شده از داده‌های یکسان کردند، ذخیره ویژگی برای اطمینان از همکاری در موارد استفاده و کاهش کارهای تکراری ضروری می‌شود. این ماژول به تیم مهندسی پلتفرم ML کمک می‌کند تا یک فروشگاه ویژگی متمرکز را راه‌اندازی کند تا برای ویژگی‌های ML ایجاد شده توسط موارد استفاده ML، ذخیره‌سازی و مدیریت فراهم کند و امکان استفاده مجدد از ویژگی‌ها را در پروژه‌ها فراهم کند.

ثبت و مشاهده

این ماژول به LOB ها و پزشکان ML کمک می کند تا از طریق متمرکز کردن فعالیت های گزارش مانند CloudTrail، CloudWatch، گزارش های جریان VPC، و گزارش های بار کاری ML، وضعیت بارهای کاری ML را در محیط های ML مشاهده کنند. تیم‌ها می‌توانند گزارش‌ها را برای تجزیه و تحلیل فیلتر، پرس و جو و تجسم کنند، که می‌تواند به بهبود وضعیت امنیتی نیز کمک کند.

هزینه و گزارش

این ماژول به ذینفعان مختلف (مدیر ابر، مدیر پلتفرم، دفتر کسب و کار ابری) کمک می کند تا گزارش ها و داشبوردهایی را برای تجزیه هزینه ها در سطح کاربر ML، تیم ML و محصولات ML ایجاد کنند و استفاده از آن مانند تعداد کاربران، انواع نمونه و ردیابی شود. نقاط پایانی

مشتریان از ما خواسته‌اند تا راهنمایی‌هایی در مورد تعداد حساب‌ها برای ایجاد و نحوه ساختار آن حساب‌ها ارائه دهیم. در بخش بعدی، راهنمایی‌هایی در مورد ساختار حساب به عنوان مرجع ارائه می‌کنیم که می‌توانید آن را مطابق با نیازهای خود مطابق با الزامات حاکمیت سازمانی خود تغییر دهید.

در این بخش، توصیه خود را برای سازماندهی ساختار حساب شما مورد بحث قرار می دهیم. ما یک ساختار حساب مرجع پایه را به اشتراک می گذاریم. با این حال، ما به مدیران ML و داده توصیه می‌کنیم که از نزدیک با سرپرست ابر خود کار کنند تا این ساختار حساب را بر اساس کنترل‌های سازمان خود سفارشی کنند.

توصیه می‌کنیم حساب‌ها را توسط OU برای امنیت، زیرساخت، بار کاری و استقرار سازماندهی کنید. علاوه بر این، در هر OU، سازماندهی شده توسط OU غیر تولیدی و تولیدی، زیرا حساب ها و بارهای کاری مستقر در آنها دارای کنترل های متفاوتی هستند. در مرحله بعد، به طور خلاصه به آن OU ها می پردازیم.

امنیت OU

حساب‌های موجود در این OU توسط ادمین ابری سازمان یا تیم امنیتی برای نظارت، شناسایی، محافظت، شناسایی و پاسخ به رویدادهای امنیتی مدیریت می‌شوند.

زیرساخت OU

حساب‌های موجود در این OU توسط مدیر ابری سازمان یا تیم شبکه برای مدیریت منابع و شبکه‌های مشترک زیرساخت در سطح سازمانی مدیریت می‌شوند.

توصیه می‌کنیم حساب‌های زیر را در زیرساخت OU داشته باشید:

شبکه ارتباطی – راه اندازی یک زیرساخت شبکه متمرکز مانند AWS Transit Gateway
خدمات به اشتراک گذاشته شده – سرویس های AD متمرکز و نقاط پایانی VPC را راه اندازی کنید

بارهای کاری OU

حساب‌های موجود در این OU توسط ادمین‌های تیم پلتفرم سازمان مدیریت می‌شوند. اگر به کنترل‌های متفاوتی نیاز دارید که برای هر تیم پلتفرم پیاده‌سازی شود، می‌توانید سطوح دیگری از OU را برای این منظور، مانند OU بارهای کاری ML، OU بارهای کاری داده و غیره، لانه کنید.

ما حساب های زیر را تحت بارهای کاری OU توصیه می کنیم:

حساب‌های توسعه‌دهنده، آزمایشی و تولیدی ML در سطح تیم - این را بر اساس الزامات جداسازی حجم کاری خود تنظیم کنید
حساب های دریاچه داده - حساب ها را بر اساس دامنه داده خود تقسیم کنید
حساب حاکمیت داده مرکزی - سیاست های دسترسی به داده های خود را متمرکز کنید
حساب فروشگاه ویژگی مرکزی - متمرکز کردن ویژگی ها برای اشتراک گذاری در بین تیم ها

استقرار OU

حساب‌های موجود در این OU توسط ادمین‌های تیم پلتفرم سازمان برای استقرار بارهای کاری و قابلیت مشاهده مدیریت می‌شوند.

ما حساب‌های زیر را تحت OU استقرارها توصیه می‌کنیم زیرا تیم پلتفرم ML می‌تواند مجموعه‌های مختلفی از کنترل‌ها را در این سطح OU برای مدیریت و کنترل استقرارها تنظیم کند:

حساب‌های خدمات مشترک ML برای آزمایش و تولید – خدمات مشترک پلت فرم CI/CD و رجیستری مدل را میزبانی می کند
مشاهده پذیری ML برای آزمایش و تولید حساب می کند - گزارش‌های CloudWatch، گزارش‌های CloudTrail و سایر گزارش‌ها را در صورت نیاز میزبانی می‌کند

در مرحله بعد، به طور خلاصه در مورد کنترل‌های سازمانی بحث می‌کنیم که باید برای جاسازی در حساب‌های اعضا برای نظارت بر منابع زیرساخت در نظر گرفته شوند.

کنترل های محیطی AWS

یک کنترل یک قانون سطح بالا است که حاکمیت مداوم را برای محیط کلی AWS شما فراهم می کند. به زبان ساده بیان شده است. در این چارچوب، ما از AWS Control Tower برای پیاده‌سازی کنترل‌های زیر استفاده می‌کنیم که به شما کمک می‌کند منابع خود را مدیریت کنید و انطباق بین گروه‌های حساب‌های AWS را نظارت کنید:

کنترل های پیشگیرانه – یک کنترل پیشگیرانه تضمین می‌کند که حساب‌های شما مطابقت دارند زیرا اقداماتی را که منجر به نقض خط‌مشی می‌شوند و با استفاده از یک خط‌مشی کنترل سرویس (SCP) اجرا می‌شوند، مجاز نمی‌داند. برای مثال، می‌توانید یک کنترل پیشگیرانه تنظیم کنید که اطمینان حاصل کند که CloudTrail در حساب‌های AWS یا Regions حذف یا متوقف نمی‌شود.
کنترل های کارآگاهی - یک کنترل کارآگاهی عدم انطباق منابع در حساب های شما، مانند نقض خط مشی ها را تشخیص می دهد، هشدارهایی را از طریق داشبورد ارائه می دهد و با استفاده از آن اجرا می شود. پیکربندی AWS قوانین. به عنوان مثال، می توانید یک کنترل کارآگاهی ایجاد کنید تا تشخیص دهد که آیا دسترسی خواندن عمومی به آن فعال است یا خیر سرویس ذخیره سازی ساده آمازون (Amazon S3) در حساب مشترک بایگانی گزارش.
کنترل های پیشگیرانه - یک کنترل فعال منابع شما را قبل از تهیه اسکن می کند و مطمئن می شود که منابع با آن کنترل مطابقت دارند و با استفاده از آنها اجرا می شوند. AWS CloudFormation قلاب ها منابعی که مطابقت ندارند ارائه نمی شوند. به عنوان مثال، می توانید یک کنترل فعال تنظیم کنید که بررسی می کند که دسترسی مستقیم به اینترنت برای نمونه نوت بوک SageMaker مجاز نیست.

تعاملات بین خدمات پلت فرم ML، موارد استفاده ML و عملیات ML

شخصیت های مختلف، مانند رئیس علوم داده (دانشمند ارشد داده)، دانشمند داده و مهندس ML، ماژول های 2-6 را همانطور که در نمودار زیر برای مراحل مختلف خدمات پلت فرم ML، توسعه مورد استفاده ML و عملیات ML نشان داده شده است، اجرا می کنند. همراه با پایه های دریاچه داده و فروشگاه ویژگی های مرکزی.

جدول زیر خلاصه‌ای از فعالیت‌های جریان عملیات و مراحل جریان راه‌اندازی برای شخصیت‌های مختلف است. هنگامی که یک پرسونا یک فعالیت ML را به عنوان بخشی از جریان عملیات آغاز می کند، سرویس ها همانطور که در مراحل جریان راه اندازی ذکر شد اجرا می شوند.

شخص	فعالیت جریان عملیات - شماره	فعالیت جریان عملیات - توضیحات	مرحله جریان تنظیم - شماره	مرحله راه اندازی جریان - توضیحات
Lead Data Science یا سرپرست تیم ML	1	از کاتالوگ خدمات در حساب خدمات پلت فرم ML استفاده می کند و موارد زیر را به کار می گیرد: زیرساخت ML پروژه های SageMaker رجیستری مدل SageMaker	1-A	محیط‌های توسعه‌دهنده، آزمایشی و پرود را برای LOB‌ها تنظیم می‌کند SageMaker Studio را در حساب خدمات پلتفرم ML راه اندازی می کند
Lead Data Science یا سرپرست تیم ML	1		1-B	SageMaker Studio را با پیکربندی مورد نیاز راه اندازی می کند
دانشمند داده ها	2	آزمایش‌های ML را در نوت‌بوک‌های SageMaker انجام و ردیابی می‌کند	2-A	از داده های سازند دریاچه استفاده می کند ویژگی ها را در فروشگاه ویژگی مرکزی ذخیره می کند
	3	آزمایش‌های موفق ML را با پروژه‌ها و خطوط لوله SageMaker خودکار می‌کند	3-A	خطوط لوله SageMaker (پیش پردازش، آموزش، ارزیابی) را در حساب توسعه دهنده راه اندازی می کند فرآیند ساخت CI/CD را با CodePipeline در حساب توسعه دهنده آغاز می کند
	3		3-B	پس از اجرای خطوط لوله SageMaker، مدل را در رجیستری مدل محلی (dev) ذخیره می کند
دانشمند ارشد داده یا سرپرست تیم ML	4	مدل را در رجیستری مدل محلی (dev) تأیید می کند	4-A	ابرداده مدل و بسته مدل از رجیستری مدل محلی (dev) به رجیستری مدل مرکزی می نویسد.
	5	مدل را در رجیستری مدل مرکزی تأیید می کند	5-A	فرآیند استقرار CI/CD را برای ایجاد نقاط پایانی SageMaker در محیط آزمایش آغاز می کند
	5	مدل را در رجیستری مدل مرکزی تأیید می کند	5-B	اطلاعات مدل و ابرداده را در ماژول حاکمیت ML (کارت مدل، داشبورد مدل) در حساب خدمات پلت فرم ML از حساب محلی (dev) می‌نویسد.
مهندس ML	6	پس از CI/CD، نقطه پایانی SageMaker را در محیط آزمایشی آزمایش و نظارت می کند	.
	7	استقرار نقاط پایانی SageMaker را در محیط prod تأیید می کند	7-A	فرآیند استقرار CI/CD را برای ایجاد نقاط پایانی SageMaker در محیط prod آغاز می کند
	8	پس از CI/CD، نقطه پایانی SageMaker را در محیط آزمایشی آزمایش و نظارت می کند	.

شخصیت ها و تعامل با ماژول های مختلف پلت فرم ML

هر ماژول به شخصیت‌های هدف خاصی در بخش‌های خاص که اغلب از ماژول استفاده می‌کنند پاسخ می‌دهد و به آنها دسترسی اولیه را می‌دهد. سپس دسترسی ثانویه به بخش های دیگری که نیاز به استفاده گاه به گاه از ماژول ها دارند مجاز است. ماژول ها متناسب با نیازهای نقش های شغلی خاص یا شخصیت ها برای بهینه سازی عملکرد طراحی شده اند.

در مورد تیم های زیر بحث می کنیم:

مهندسی ابر مرکزی - این تیم در سطح ابر سازمانی در تمام بارهای کاری برای راه اندازی خدمات زیرساخت ابری مشترک مانند راه اندازی شبکه در سطح سازمانی، هویت، مجوزها و مدیریت حساب فعالیت می کند.
مهندسی پلتفرم داده - این تیم دریاچه‌های داده سازمانی، جمع‌آوری داده‌ها، مدیریت داده‌ها و حاکمیت داده را مدیریت می‌کند
مهندسی پلت فرم ML - این تیم در سطح پلت فرم ML در سراسر LOB ها برای ارائه خدمات زیرساخت ML مشترک مانند تهیه زیرساخت ML، ردیابی آزمایش، حاکمیت مدل، استقرار، و قابلیت مشاهده فعالیت می کند.

جدول زیر جزئیاتی را نشان می دهد که کدام بخش ها دارای دسترسی اولیه و ثانویه برای هر ماژول با توجه به شخصیت های هدف ماژول هستند.

شماره ماژول	ماژول ها	دسترسی اولیه	دسترسی ثانویه	پرسوناها را هدف قرار دهید	تعداد حساب ها
1	مبانی چند حسابی	مهندسی ابر مرکزی	LOB های فردی	مدیر ابر مهندسین ابر	تعداد کمی
2	بنیاد دریاچه داده	ابر مرکزی یا مهندسی پلت فرم داده	LOB های فردی	مدیر دریاچه داده مهندسان داده	چندین
3	خدمات پلت فرم ML	مهندسی پلتفرم ابر مرکزی یا ML	LOB های فردی	ادمین پلتفرم ML رهبری تیم ML مهندسان ML رهبری حاکمیت ML	یک
4	توسعه مورد استفاده ML	LOB های فردی	مهندسی پلتفرم ابر مرکزی یا ML	دانشمندان داده مهندسان داده سرپرست تیم ML مهندسان ML	چندین
5	عملیات ML	مهندسی ابر مرکزی یا ML	LOB های فردی	مهندسین ML تیم ML رهبری می کند دانشمندان داده	چندین
6	فروشگاه ویژگی متمرکز	ابر مرکزی یا مهندسی داده	LOB های فردی	مهندس داده دانشمندان داده	یک
7	ثبت و مشاهده	مهندسی ابر مرکزی	LOB های فردی	مدیر ابر حسابرسان فناوری اطلاعات	یک
8	هزینه و گزارش	LOB های فردی	مهندسی سکوی مرکزی	مدیران LOB مدیران ML	یک

نتیجه

در این پست، چارچوبی را برای مدیریت چرخه حیات ML در مقیاس معرفی کردیم که به شما کمک می‌کند تا حجم‌های کاری ML را که به خوبی معماری شده‌اند، با تعبیه کنترل‌های امنیتی و حاکمیتی پیاده‌سازی کنید. ما بحث کردیم که چگونه این چارچوب یک رویکرد جامع را برای ایجاد یک پلتفرم ML با در نظر گرفتن حاکمیت داده، حاکمیت مدل، و کنترل‌های سطح سازمانی اتخاذ می‌کند. ما شما را تشویق می کنیم که چارچوب و مفاهیم معرفی شده در این پست را آزمایش کنید و نظرات خود را به اشتراک بگذارید.

درباره نویسندگان

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. رام ویتال یک معمار اصلی ML Solutions در AWS است. او بیش از 3 دهه تجربه معماری و ساخت برنامه های کاربردی توزیع شده، ترکیبی و ابری دارد. او مشتاق ساختن راه‌حل‌های AI/ML ایمن، مقیاس‌پذیر، قابل اعتماد و کلان داده است تا به مشتریان سازمانی در پذیرش و سفر بهینه‌سازی ابری برای بهبود نتایج کسب‌وکارشان کمک کند. او در اوقات فراغتش موتور سواری می کند و با گوسفند سه ساله اش راه می رود!

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. سوویک کومار نات یک معمار راه حل AI/ML با AWS است. او تجربه گسترده ای در طراحی راه حل های یادگیری ماشینی و تجزیه و تحلیل کسب و کار سرتاسر در امور مالی، عملیات، بازاریابی، مراقبت های بهداشتی، مدیریت زنجیره تامین و اینترنت اشیا دارد. Sovik مقالاتی منتشر کرده است و دارای حق ثبت اختراع در نظارت بر مدل ML است. او دارای دو مدرک کارشناسی ارشد از دانشگاه فلوریدا جنوبی، دانشگاه فریبورگ، سوئیس، و مدرک لیسانس از موسسه فناوری هند، خاراگپور است. سوویک خارج از محل کار، از مسافرت، کشتی سواری و تماشای فیلم لذت می برد.

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. مایرا لادیرا تانکه یک متخصص ارشد داده در AWS است. او به عنوان یک رهبر فنی، به مشتریان کمک می کند تا از طریق فناوری های نوظهور و راه حل های نوآورانه، دستیابی به ارزش تجاری خود را تسریع بخشند. مایرا از ژانویه 2020 با AWS کار کرده است. قبل از آن، او به عنوان دانشمند داده در صنایع مختلف با تمرکز بر دستیابی به ارزش تجاری از داده ها کار می کرد. مایرا در اوقات فراغت خود از مسافرت و گذراندن وقت با خانواده در مکانی گرم لذت می برد.

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. رایان لمپکا یک معمار ارشد راه حل در خدمات وب آمازون است، جایی که به مشتریان خود کمک می کند تا از اهداف تجاری عقب مانده برای توسعه راه حل ها در AWS کار کنند. او تجربه عمیقی در استراتژی کسب و کار، مدیریت سیستم های فناوری اطلاعات و علم داده دارد. رایان به یک یادگیرنده مادام العمر اختصاص داده است و از اینکه هر روز خود را برای یادگیری چیزهای جدید به چالش بکشد لذت می برد.

مدیریت چرخه حیات ML در مقیاس، قسمت 1: چارچوبی برای معماری بارهای کاری ML با استفاده از Amazon SageMaker | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. سریهرش آداری یک معمار ارشد راه حل در خدمات وب آمازون (AWS) است، جایی که او به مشتریان کمک می کند تا نسبت به نتایج کسب و کار عقب مانده برای توسعه راه حل های نوآورانه در AWS کار کنند. در طول سال‌ها، او به چندین مشتری در تحولات پلتفرم داده در سراسر صنعت کمک کرده است. حوزه اصلی تخصص او شامل استراتژی فناوری، تجزیه و تحلیل داده ها و علم داده است. در اوقات فراغت از ورزش، تماشای برنامه های تلویزیونی و بازی تبلا لذت می برد.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/governing-the-ml-lifecycle-at-scale-part-1-a-framework-for-architecting-ml-workloads-using-amazon-sagemaker/

تمبر زمان: اکتبر 20، 2023

تمبر زمان: ممکن است 12، 2022

بازنشر افلاطون

قوانین تجاری را برای پردازش هوشمند اسناد با بررسی انسانی و تجسم BI سفارشی کنید

Amazon SageMaker Automatic Model Tuning اکنون از جستجوی شبکه پشتیبانی می کند

AWS Panorama اکنون از NVIDIA JetPack SDK 4.6.2 پشتیبانی می کند

معرفی برنامه مدل سفارشی مرکز نوآوری هوش مصنوعی AWS Generative برای Anthropic Claude | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب