یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

یک گردش کار یادگیری ماشین مدیریت ریسک در Amazon SageMaker بدون کد بسازید

از زمان بحران مالی جهانی، مدیریت ریسک نقش مهمی در شکل‌دهی تصمیم‌گیری بانک‌ها، از جمله پیش‌بینی وضعیت وام برای مشتریان بالقوه، ایفا کرده است. این اغلب یک تمرین فشرده داده است که به یادگیری ماشینی (ML) نیاز دارد. با این حال، همه سازمان ها منابع علمی داده و تخصص لازم برای ایجاد یک گردش کار مدیریت ریسک ML را ندارند.

آمازون SageMaker یک پلت فرم کاملا مدیریت شده ML است که به مهندسان داده و تحلیلگران کسب و کار اجازه می دهد تا به سرعت و به راحتی مدل های ML را بسازند، آموزش دهند و به کار گیرند. مهندسان داده و تحلیلگران کسب و کار می توانند با استفاده از قابلیت های بدون کد/کد پایین SageMaker همکاری کنند. مهندسان داده می توانند استفاده کنند Amazon SageMaker Data Rangler برای تجمیع و آماده سازی سریع داده ها برای ساخت مدل بدون نوشتن کد. سپس تحلیلگران تجاری می توانند از رابط بصری نقطه و کلیک استفاده کنند آمازون SageMaker Canvas برای تولید پیش بینی های دقیق ML به تنهایی.

در این پست، ما نشان می‌دهیم که همکاری مهندسان داده و تحلیلگران کسب‌وکار برای ایجاد یک گردش کار ML شامل آماده‌سازی داده، ساخت مدل و استنتاج بدون نوشتن کد چقدر ساده است.

بررسی اجمالی راه حل

اگرچه توسعه ML یک فرآیند پیچیده و تکراری است، شما می توانید یک گردش کار ML را به مراحل آماده سازی داده، توسعه مدل و استقرار مدل تعمیم دهید.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

Data Wrangler و Canvas پیچیدگی‌های آماده‌سازی داده و توسعه مدل را انتزاعی می‌کنند، بنابراین می‌توانید بدون اینکه در توسعه کد متخصص باشید، بر ارائه ارزش به کسب‌وکار خود تمرکز کنید. نمودار معماری زیر اجزای سازنده را در یک راه حل بدون کد/کد نشان می دهد.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

سرویس ذخیره سازی ساده آمازون (Amazon S3) به عنوان مخزن داده ما برای داده های خام، داده های مهندسی شده و مصنوعات مدل عمل می کند. همچنین می توانید انتخاب کنید که داده ها را وارد کنید آمازون Redshift, آمازون آتنا، Databricks و Snowflake.

به عنوان دانشمندان داده، ما سپس از Data Wrangler برای تجزیه و تحلیل داده های اکتشافی و مهندسی ویژگی استفاده می کنیم. اگرچه Canvas می تواند وظایف مهندسی ویژگی را اجرا کند، مهندسی ویژگی معمولاً به دانش آماری و دامنه نیاز دارد تا مجموعه داده را به شکل مناسب برای توسعه مدل غنی کند. بنابراین، ما این مسئولیت را به مهندسان داده می دهیم تا بتوانند داده ها را بدون نوشتن کد با Data Wrangler تبدیل کنند.

پس از آماده‌سازی داده‌ها، ما مسئولیت‌های ساخت مدل را به تحلیل‌گران داده واگذار می‌کنیم، که می‌توانند از Canvas برای آموزش یک مدل بدون نیاز به نوشتن کد استفاده کنند.

در نهایت، پیش‌بینی‌های تکی و دسته‌ای را مستقیماً در Canvas از مدل حاصل انجام می‌دهیم بدون اینکه نیازی به استقرار نقاط انتهایی مدل خودمان باشد.

نمای کلی مجموعه داده

ما از ویژگی های SageMaker برای پیش بینی وضعیت وام با استفاده از نسخه اصلاح شده Lending Club استفاده می کنیم مجموعه داده های تحلیل وام در دسترس عموم. مجموعه داده شامل داده های وام برای وام های صادر شده از 2007-2011 است. ستون هایی که وام و وام گیرنده را توصیف می کنند ویژگی های ما هستند. ستون loan_status متغیر هدف است، چیزی که ما سعی در پیش بینی آن داریم.

برای نشان دادن در Data Wrangler، مجموعه داده را به دو فایل CSV تقسیم کردیم: بخش اول و بخش دوم. برای ساده‌سازی نسخه نمایشی، برخی از ستون‌ها را از مجموعه داده اصلی Lending Club حذف کرده‌ایم. مجموعه داده ما شامل بیش از 37,000 ردیف و 21 ستون ویژگی است که در جدول زیر توضیح داده شده است.

نام ستون توضیحات:
loan_status وضعیت فعلی وام (متغیر هدف).
loan_amount مبلغ فهرست شده وام درخواست شده توسط وام گیرنده. اگر بخش اعتبار مبلغ وام را کاهش دهد، در این مقدار منعکس می شود.
funded_amount_by_investors کل مبلغ تعهد شده توسط سرمایه گذاران برای آن وام در آن زمان.
term تعداد پرداخت های وام. مقادیر در ماه هستند و می توانند 36 یا 60 باشند.
interest_rate نرخ بهره وام.
installment پرداخت ماهانه بدهی وام گیرنده در صورت منشاء وام.
grade درجه وام به LC اختصاص داده شد.
sub_grade LC زیربنای وام اختصاص داده است.
employment_length طول مدت اشتغال به سال مقادیر ممکن بین 0 تا 10 است که 0 به معنای کمتر از یک سال و 10 به معنای ده سال یا بیشتر است.
home_ownership وضعیت مالکیت خانه ارائه شده توسط وام گیرنده در هنگام ثبت نام. ارزش های ما اجاره، مالکیت، رهن و سایر موارد است.
annual_income درآمد سالانه خود گزارش شده توسط وام گیرنده در هنگام ثبت نام.
verification_status نشان می دهد که آیا درآمد توسط LC تأیید شده است یا خیر.
issued_amount ماهی که در آن وام تامین شده است.
purpose دسته ای که توسط وام گیرنده برای درخواست وام ارائه شده است.
dti نسبتی که با استفاده از کل پرداخت های ماهانه بدهی وام گیرنده به کل تعهدات بدهی، به استثنای وام مسکن و وام LC درخواستی، تقسیم بر درآمد ماهانه خود گزارش شده وام گیرنده محاسبه می شود.
earliest_credit_line ماهی که اولین خط اعتباری گزارش شده وام گیرنده باز شد.
inquiries_last_6_months تعداد استعلامات در 6 ماه گذشته (به استثنای استعلام خودرو و رهن).
open_credit_lines تعداد خطوط اعتباری باز در پرونده اعتباری وام گیرنده.
derogatory_public_records تعداد سوابق عمومی موهن.
revolving_line_utilization_rate نرخ بهره برداری از خط گردان یا میزان اعتباری که وام گیرنده از آن استفاده می کند نسبت به تمام اعتبارات گردان موجود.
total_credit_lines تعداد کل خطوط اعتباری موجود در پرونده اعتباری وام گیرنده.

ما از این مجموعه داده برای آماده سازی داده ها و آموزش مدل استفاده می کنیم.

پیش نیازها

مراحل پیش نیاز زیر را کامل کنید:

  1. هر دو فایل وام را آپلود کنید به یک سطل S3 به انتخاب شما.
  2. مطمئن شوید که مجوزهای لازم را دارید. برای اطلاعات بیشتر مراجعه کنید با Data Wrangler شروع کنید.
  3. دامنه SageMaker را برای استفاده از Data Wrangler تنظیم کنید. برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker.

داده ها را وارد کنید

یک جریان داده جدید Data Wrangler ایجاد کنید از رابط کاربری Amazon SageMaker Studio.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

با انتخاب فایل‌های CSV از سطل S3 که مجموعه داده‌های خود را در آن قرار داده‌اید، داده‌ها را از آمازون S3 وارد کنید. پس از وارد کردن هر دو فایل، می توانید دو گردش کار مجزا را در فایل مشاهده کنید گردش داده ها چشم انداز.

هنگام وارد کردن داده‌های خود در جریان داده‌ها، می‌توانید چندین گزینه نمونه‌گیری را انتخاب کنید. زمانی که مجموعه داده‌ای دارید که برای آماده‌سازی تعاملی بسیار بزرگ است، یا زمانی که می‌خواهید نسبت رویدادهای نادر را در مجموعه داده‌های نمونه‌گیری شده خود حفظ کنید، نمونه‌گیری می‌تواند کمک کند. از آنجایی که مجموعه داده ما کوچک است، از نمونه برداری استفاده نمی کنیم.

داده ها را آماده کنید

برای مورد استفاده ما، دو مجموعه داده با یک ستون مشترک داریم: id. به عنوان اولین قدم در آماده سازی داده ها، می خواهیم این فایل ها را با پیوستن به آنها ترکیب کنیم. برای دستورالعمل، مراجعه کنید تبدیل داده ها.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

ما با استفاده از پیوستن مرحله تبدیل داده و استفاده از داخلی نوع join در id ستون.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

در نتیجه تبدیل اتصال ما، Data Wrangler دو ستون اضافی ایجاد می کند: id_0 و id_1. با این حال، این ستون ها برای اهداف ساخت مدل ما غیر ضروری هستند. ما این ستون های اضافی را با استفاده از ستون ها را مدیریت کنید مرحله تبدیل

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.
یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

ما مجموعه داده های خود را وارد کرده ایم، به آنها ملحق شده ایم و ستون های غیر ضروری را حذف کرده ایم. ما اکنون آماده ایم تا داده های خود را از طریق مهندسی ویژگی ها غنی کنیم و برای ساخت مدل آماده شویم.

مهندسی ویژگی را انجام دهید

ما از Data Wrangler برای تهیه داده ها استفاده کردیم. شما همچنین می توانید استفاده کنید ویژگی گزارش کیفیت داده و بینش در Data Wrangler برای تأیید کیفیت داده‌های شما و تشخیص ناهنجاری‌ها در داده‌های شما. دانشمندان داده اغلب نیاز به استفاده از این بینش های داده ای دارند تا دانش دامنه مناسب را به طور موثر در ویژگی های مهندسی به کار ببرند. برای این پست، فرض می‌کنیم که این ارزیابی‌های کیفیت را تکمیل کرده‌ایم و می‌توانیم به مهندسی ویژگی‌ها برویم.

در این مرحله، چند تبدیل به ستون های عددی، دسته بندی و متن اعمال می کنیم.

ابتدا نرخ بهره را عادی می کنیم تا مقادیر بین 0-1 را مقیاس کنیم. ما این کار را با استفاده از پردازش عددی تبدیل به مقیاس interest_rate ستون با استفاده از مقیاس‌کننده حداقل حداکثر. هدف از عادی سازی (یا استانداردسازی) حذف سوگیری از مدل ما است. متغیرهایی که در مقیاس‌های مختلف اندازه‌گیری می‌شوند به طور یکسان در فرآیند یادگیری مدل نقش ندارند. بنابراین، یک تابع تبدیل مانند تبدیل مقیاس‌کننده حداقل حداکثر به عادی‌سازی ویژگی‌ها کمک می‌کند.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

برای تبدیل یک متغیر دسته‌بندی به مقدار عددی، از رمزگذاری تک داغ استفاده می‌کنیم. ما انتخاب می کنیم کدگذاری طبقه بندی شده تبدیل کنید، سپس انتخاب کنید یک کدگذاری داغ. رمزگذاری یکباره توانایی پیش بینی مدل ML را بهبود می بخشد. این فرآیند با اختصاص مقدار باینری 1 یا 0 به ویژگی، یک مقدار طبقه بندی را به یک ویژگی جدید تبدیل می کند. به عنوان یک مثال ساده، اگر یک ستون داشتید که مقدار هر یک از آنها را داشت yes or no، رمزگذاری یک داغ آن ستون را به دو ستون تبدیل می کند: الف Yes ستون و الف No ستون مقدار بله دارای 1 خواهد بود Yes ستون و 0 در No ستون رمزگذاری یکباره داده های ما را مفیدتر می کند زیرا مقادیر عددی به راحتی می توانند احتمال پیش بینی های ما را تعیین کنند.

در نهایت، ما را برجسته می کنیم employer_title ستون تا مقادیر رشته خود را به یک بردار عددی تبدیل کند. ما اعمال می کنیم شمارش بردار و یک توکنایزر استاندارد در داخل بردار تبدیل. Tokenization یک جمله یا یک سری از متن را به کلمات تجزیه می کند، در حالی که یک vectorizer داده های متن را به یک فرم قابل خواندن توسط ماشین تبدیل می کند. این کلمات به صورت بردار نمایش داده می شوند.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

با تکمیل تمام مراحل مهندسی ویژگی، می‌توانیم داده‌ها را صادر کرده و نتایج را در سطل S3 خود خارج کنیم. از طرف دیگر، می توانید جریان خود را به عنوان کد پایتون یا یک نوت بوک Jupyter برای ایجاد خط لوله با نمای خود با استفاده از خطوط لوله آمازون SageMaker. زمانی که می خواهید مراحل مهندسی ویژگی خود را در مقیاس یا به عنوان بخشی از خط لوله ML اجرا کنید، این را در نظر بگیرید.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

اکنون می توانیم از فایل خروجی Data Wrangler به عنوان ورودی Canvas استفاده کنیم. ما این را به عنوان یک مجموعه داده در Canvas برای ساخت مدل ML خود ارجاع می دهیم.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

در مورد ما، ما مجموعه داده آماده شده خود را با یک به سطل پیش فرض Studio صادر کردیم output پیشوند هنگام بارگیری داده ها در Canvas برای ساخت مدل بعدی، به این مکان مجموعه داده اشاره می کنیم.

مدل ML خود را با Canvas بسازید و آموزش دهید

در کنسول SageMaker، برنامه Canvas را اجرا کنید. برای ساخت یک مدل ML از داده های آماده شده در قسمت قبل، مراحل زیر را انجام می دهیم:

  1. مجموعه داده آماده شده را از سطل S3 به Canvas وارد کنید.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

ما به همان مسیر S3 اشاره می کنیم که در آن نتایج Data Wrangler را از بخش قبل صادر کردیم.

  1. یک مدل جدید در Canvas ایجاد کنید و نام آن را بگذارید loan_prediction_model.
  2. مجموعه داده وارد شده را انتخاب کرده و به شی مدل اضافه کنید.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

برای اینکه Canvas یک مدل بسازد، باید ستون هدف را انتخاب کنیم.

  1. از آنجا که هدف ما پیش بینی احتمال توانایی وام دهنده برای بازپرداخت وام است، ما loan_status ستون.

Canvas به طور خودکار نوع بیانیه مشکل ML را شناسایی می کند. در زمان نگارش، Canvas از مشکلات پیش‌بینی رگرسیون، طبقه‌بندی و سری زمانی پشتیبانی می‌کند. می‌توانید نوع مشکل را مشخص کنید یا از Canvas به‌طور خودکار مشکل را از داده‌های شما استنتاج کنید.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

  1. گزینه خود را برای شروع فرآیند ساخت مدل انتخاب کنید: ساخت سریع or ساخت استاندارد.

La ساخت سریع گزینه از مجموعه داده شما برای آموزش یک مدل در عرض 2 تا 15 دقیقه استفاده می کند. این زمانی مفید است که با یک مجموعه داده جدید آزمایش می کنید تا مشخص کنید آیا مجموعه داده ای که دارید برای پیش بینی کافی است یا خیر. ما از این گزینه برای این پست استفاده می کنیم.

La ساخت استاندارد گزینه دقت را به سرعت انتخاب می کند و از تقریباً 250 مدل کاندید برای آموزش مدل استفاده می کند. این فرآیند معمولاً 1 تا 2 ساعت طول می کشد.

پس از ساخت مدل، می توانید نتایج مدل را بررسی کنید. Canvas تخمین می زند که مدل شما قادر است نتیجه درست را در 82.9٪ مواقع پیش بینی کند. نتایج خود شما ممکن است به دلیل تنوع در مدل های آموزشی متفاوت باشد.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

علاوه بر این، می‌توانید عمیقاً در تجزیه و تحلیل جزئیات مدل غوطه‌ور شوید تا در مورد مدل بیشتر بدانید.

اهمیت ویژگی نشان دهنده اهمیت تخمینی هر ویژگی در پیش بینی ستون هدف است. در این حالت، ستون خط اعتباری بیشترین تأثیر را در پیش‌بینی بازپرداخت مبلغ وام توسط مشتری دارد و به دنبال آن نرخ بهره و درآمد سالانه قرار می‌گیرد.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

ماتریس سردرگمی در معیارهای پیشرفته بخش حاوی اطلاعاتی برای کاربرانی است که می خواهند درک عمیق تری از عملکرد مدل خود داشته باشند.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

قبل از اینکه بتوانید مدل خود را برای بارهای کاری تولید مستقر کنید، از Canvas برای آزمایش مدل استفاده کنید. Canvas نقطه پایانی مدل ما را مدیریت می کند و به ما امکان می دهد مستقیماً در رابط کاربری Canvas پیش بینی کنیم.

  1. را انتخاب کنید پیش بینی و یافته ها را در هر دو مورد بررسی کنید پیش بینی دسته ای or پیش بینی واحد تب.

در مثال زیر، با تغییر مقادیر برای پیش‌بینی متغیر هدف، یک پیش‌بینی واحد انجام می‌دهیم loan_status در زمان واقعی

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

همچنین می‌توانیم مجموعه داده بزرگ‌تری را انتخاب کنیم و Canvas از طرف ما پیش‌بینی‌های دسته‌ای ایجاد کند.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.

نتیجه

یادگیری ماشینی انتها به انتها پیچیده و تکراری است و اغلب شامل چندین شخصیت، فناوری و فرآیند می شود. Data Wrangler و Canvas امکان همکاری بین تیم ها را بدون نیاز به این تیم ها برای نوشتن هیچ کدی فراهم می کند.

یک مهندس داده می تواند به راحتی داده ها را با استفاده از Data Wrangler بدون نوشتن هیچ کدی آماده کند و مجموعه داده آماده شده را به یک تحلیلگر تجاری ارسال کند. سپس یک تحلیلگر تجاری می تواند به راحتی مدل های ML دقیق را تنها با چند کلیک با استفاده از Canvas بسازد و پیش بینی های دقیق را در زمان واقعی یا دسته ای دریافت کند.

با Data Wrangler شروع کنید با استفاده از این ابزارها بدون نیاز به مدیریت هیچ زیرساختی. تو می توانی بوم را راه اندازی کنید به سرعت و بلافاصله شروع به ایجاد مدل های ML برای پشتیبانی از نیازهای کسب و کار خود کنید.


درباره نویسنده

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.پیتر چانگ یک معمار راه حل برای AWS است و علاقه زیادی به کمک به مشتریان برای کشف بینش از داده های خود دارد. او راه‌حل‌هایی برای کمک به سازمان‌ها در تصمیم‌گیری داده‌محور در بخش‌های دولتی و خصوصی ایجاد کرده است. او دارای تمام گواهینامه های AWS و همچنین دو گواهینامه GCP است.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai. میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با AWS است. او به حساب های استراتژیک پیشرفته در سفر هوش مصنوعی و ML کمک می کند. او علاقه زیادی به هوش مصنوعی مبتنی بر داده دارد.

یک گردش کار یادگیری ماشینی مدیریت ریسک را در Amazon SageMaker بدون کد PlatoBlockchain Data Intelligence بسازید. جستجوی عمودی Ai.دن فرگوسن یک معمار راه حل در AWS، مستقر در نیویورک، ایالات متحده است. به عنوان یک متخصص خدمات یادگیری ماشینی، دن برای حمایت از مشتریان در سفر آنها به سمت یکپارچه‌سازی جریان‌های کاری ML کارآمد، مؤثر و پایدار کار می‌کند.

تمبر زمان:

بیشتر از آموزش ماشین AWS