از زمان بحران مالی جهانی، مدیریت ریسک نقش مهمی در شکلدهی تصمیمگیری بانکها، از جمله پیشبینی وضعیت وام برای مشتریان بالقوه، ایفا کرده است. این اغلب یک تمرین فشرده داده است که به یادگیری ماشینی (ML) نیاز دارد. با این حال، همه سازمان ها منابع علمی داده و تخصص لازم برای ایجاد یک گردش کار مدیریت ریسک ML را ندارند.
آمازون SageMaker یک پلت فرم کاملا مدیریت شده ML است که به مهندسان داده و تحلیلگران کسب و کار اجازه می دهد تا به سرعت و به راحتی مدل های ML را بسازند، آموزش دهند و به کار گیرند. مهندسان داده و تحلیلگران کسب و کار می توانند با استفاده از قابلیت های بدون کد/کد پایین SageMaker همکاری کنند. مهندسان داده می توانند استفاده کنند Amazon SageMaker Data Rangler برای تجمیع و آماده سازی سریع داده ها برای ساخت مدل بدون نوشتن کد. سپس تحلیلگران تجاری می توانند از رابط بصری نقطه و کلیک استفاده کنند آمازون SageMaker Canvas برای تولید پیش بینی های دقیق ML به تنهایی.
در این پست، ما نشان میدهیم که همکاری مهندسان داده و تحلیلگران کسبوکار برای ایجاد یک گردش کار ML شامل آمادهسازی داده، ساخت مدل و استنتاج بدون نوشتن کد چقدر ساده است.
بررسی اجمالی راه حل
اگرچه توسعه ML یک فرآیند پیچیده و تکراری است، شما می توانید یک گردش کار ML را به مراحل آماده سازی داده، توسعه مدل و استقرار مدل تعمیم دهید.
Data Wrangler و Canvas پیچیدگیهای آمادهسازی داده و توسعه مدل را انتزاعی میکنند، بنابراین میتوانید بدون اینکه در توسعه کد متخصص باشید، بر ارائه ارزش به کسبوکار خود تمرکز کنید. نمودار معماری زیر اجزای سازنده را در یک راه حل بدون کد/کد نشان می دهد.
سرویس ذخیره سازی ساده آمازون (Amazon S3) به عنوان مخزن داده ما برای داده های خام، داده های مهندسی شده و مصنوعات مدل عمل می کند. همچنین می توانید انتخاب کنید که داده ها را وارد کنید آمازون Redshift, آمازون آتنا، Databricks و Snowflake.
به عنوان دانشمندان داده، ما سپس از Data Wrangler برای تجزیه و تحلیل داده های اکتشافی و مهندسی ویژگی استفاده می کنیم. اگرچه Canvas می تواند وظایف مهندسی ویژگی را اجرا کند، مهندسی ویژگی معمولاً به دانش آماری و دامنه نیاز دارد تا مجموعه داده را به شکل مناسب برای توسعه مدل غنی کند. بنابراین، ما این مسئولیت را به مهندسان داده می دهیم تا بتوانند داده ها را بدون نوشتن کد با Data Wrangler تبدیل کنند.
پس از آمادهسازی دادهها، ما مسئولیتهای ساخت مدل را به تحلیلگران داده واگذار میکنیم، که میتوانند از Canvas برای آموزش یک مدل بدون نیاز به نوشتن کد استفاده کنند.
در نهایت، پیشبینیهای تکی و دستهای را مستقیماً در Canvas از مدل حاصل انجام میدهیم بدون اینکه نیازی به استقرار نقاط انتهایی مدل خودمان باشد.
نمای کلی مجموعه داده
ما از ویژگی های SageMaker برای پیش بینی وضعیت وام با استفاده از نسخه اصلاح شده Lending Club استفاده می کنیم مجموعه داده های تحلیل وام در دسترس عموم. مجموعه داده شامل داده های وام برای وام های صادر شده از 2007-2011 است. ستون هایی که وام و وام گیرنده را توصیف می کنند ویژگی های ما هستند. ستون loan_status متغیر هدف است، چیزی که ما سعی در پیش بینی آن داریم.
برای نشان دادن در Data Wrangler، مجموعه داده را به دو فایل CSV تقسیم کردیم: بخش اول و بخش دوم. برای سادهسازی نسخه نمایشی، برخی از ستونها را از مجموعه داده اصلی Lending Club حذف کردهایم. مجموعه داده ما شامل بیش از 37,000 ردیف و 21 ستون ویژگی است که در جدول زیر توضیح داده شده است.
نام ستون | توضیحات: |
loan_status |
وضعیت فعلی وام (متغیر هدف). |
loan_amount |
مبلغ فهرست شده وام درخواست شده توسط وام گیرنده. اگر بخش اعتبار مبلغ وام را کاهش دهد، در این مقدار منعکس می شود. |
funded_amount_by_investors |
کل مبلغ تعهد شده توسط سرمایه گذاران برای آن وام در آن زمان. |
term |
تعداد پرداخت های وام. مقادیر در ماه هستند و می توانند 36 یا 60 باشند. |
interest_rate |
نرخ بهره وام. |
installment |
پرداخت ماهانه بدهی وام گیرنده در صورت منشاء وام. |
grade |
درجه وام به LC اختصاص داده شد. |
sub_grade |
LC زیربنای وام اختصاص داده است. |
employment_length |
طول مدت اشتغال به سال مقادیر ممکن بین 0 تا 10 است که 0 به معنای کمتر از یک سال و 10 به معنای ده سال یا بیشتر است. |
home_ownership |
وضعیت مالکیت خانه ارائه شده توسط وام گیرنده در هنگام ثبت نام. ارزش های ما اجاره، مالکیت، رهن و سایر موارد است. |
annual_income |
درآمد سالانه خود گزارش شده توسط وام گیرنده در هنگام ثبت نام. |
verification_status |
نشان می دهد که آیا درآمد توسط LC تأیید شده است یا خیر. |
issued_amount |
ماهی که در آن وام تامین شده است. |
purpose |
دسته ای که توسط وام گیرنده برای درخواست وام ارائه شده است. |
dti |
نسبتی که با استفاده از کل پرداخت های ماهانه بدهی وام گیرنده به کل تعهدات بدهی، به استثنای وام مسکن و وام LC درخواستی، تقسیم بر درآمد ماهانه خود گزارش شده وام گیرنده محاسبه می شود. |
earliest_credit_line |
ماهی که اولین خط اعتباری گزارش شده وام گیرنده باز شد. |
inquiries_last_6_months |
تعداد استعلامات در 6 ماه گذشته (به استثنای استعلام خودرو و رهن). |
open_credit_lines |
تعداد خطوط اعتباری باز در پرونده اعتباری وام گیرنده. |
derogatory_public_records |
تعداد سوابق عمومی موهن. |
revolving_line_utilization_rate |
نرخ بهره برداری از خط گردان یا میزان اعتباری که وام گیرنده از آن استفاده می کند نسبت به تمام اعتبارات گردان موجود. |
total_credit_lines |
تعداد کل خطوط اعتباری موجود در پرونده اعتباری وام گیرنده. |
ما از این مجموعه داده برای آماده سازی داده ها و آموزش مدل استفاده می کنیم.
پیش نیازها
مراحل پیش نیاز زیر را کامل کنید:
- هر دو فایل وام را آپلود کنید به یک سطل S3 به انتخاب شما.
- مطمئن شوید که مجوزهای لازم را دارید. برای اطلاعات بیشتر مراجعه کنید با Data Wrangler شروع کنید.
- دامنه SageMaker را برای استفاده از Data Wrangler تنظیم کنید. برای دستورالعمل، مراجعه کنید ورود به دامنه Amazon SageMaker.
داده ها را وارد کنید
یک جریان داده جدید Data Wrangler ایجاد کنید از رابط کاربری Amazon SageMaker Studio.
با انتخاب فایلهای CSV از سطل S3 که مجموعه دادههای خود را در آن قرار دادهاید، دادهها را از آمازون S3 وارد کنید. پس از وارد کردن هر دو فایل، می توانید دو گردش کار مجزا را در فایل مشاهده کنید گردش داده ها چشم انداز.
هنگام وارد کردن دادههای خود در جریان دادهها، میتوانید چندین گزینه نمونهگیری را انتخاب کنید. زمانی که مجموعه دادهای دارید که برای آمادهسازی تعاملی بسیار بزرگ است، یا زمانی که میخواهید نسبت رویدادهای نادر را در مجموعه دادههای نمونهگیری شده خود حفظ کنید، نمونهگیری میتواند کمک کند. از آنجایی که مجموعه داده ما کوچک است، از نمونه برداری استفاده نمی کنیم.
داده ها را آماده کنید
برای مورد استفاده ما، دو مجموعه داده با یک ستون مشترک داریم: id
. به عنوان اولین قدم در آماده سازی داده ها، می خواهیم این فایل ها را با پیوستن به آنها ترکیب کنیم. برای دستورالعمل، مراجعه کنید تبدیل داده ها.
ما با استفاده از پیوستن مرحله تبدیل داده و استفاده از داخلی نوع join در id
ستون.
در نتیجه تبدیل اتصال ما، Data Wrangler دو ستون اضافی ایجاد می کند: id_0
و id_1
. با این حال، این ستون ها برای اهداف ساخت مدل ما غیر ضروری هستند. ما این ستون های اضافی را با استفاده از ستون ها را مدیریت کنید مرحله تبدیل
ما مجموعه داده های خود را وارد کرده ایم، به آنها ملحق شده ایم و ستون های غیر ضروری را حذف کرده ایم. ما اکنون آماده ایم تا داده های خود را از طریق مهندسی ویژگی ها غنی کنیم و برای ساخت مدل آماده شویم.
مهندسی ویژگی را انجام دهید
ما از Data Wrangler برای تهیه داده ها استفاده کردیم. شما همچنین می توانید استفاده کنید ویژگی گزارش کیفیت داده و بینش در Data Wrangler برای تأیید کیفیت دادههای شما و تشخیص ناهنجاریها در دادههای شما. دانشمندان داده اغلب نیاز به استفاده از این بینش های داده ای دارند تا دانش دامنه مناسب را به طور موثر در ویژگی های مهندسی به کار ببرند. برای این پست، فرض میکنیم که این ارزیابیهای کیفیت را تکمیل کردهایم و میتوانیم به مهندسی ویژگیها برویم.
در این مرحله، چند تبدیل به ستون های عددی، دسته بندی و متن اعمال می کنیم.
ابتدا نرخ بهره را عادی می کنیم تا مقادیر بین 0-1 را مقیاس کنیم. ما این کار را با استفاده از پردازش عددی تبدیل به مقیاس interest_rate
ستون با استفاده از مقیاسکننده حداقل حداکثر. هدف از عادی سازی (یا استانداردسازی) حذف سوگیری از مدل ما است. متغیرهایی که در مقیاسهای مختلف اندازهگیری میشوند به طور یکسان در فرآیند یادگیری مدل نقش ندارند. بنابراین، یک تابع تبدیل مانند تبدیل مقیاسکننده حداقل حداکثر به عادیسازی ویژگیها کمک میکند.
برای تبدیل یک متغیر دستهبندی به مقدار عددی، از رمزگذاری تک داغ استفاده میکنیم. ما انتخاب می کنیم کدگذاری طبقه بندی شده تبدیل کنید، سپس انتخاب کنید یک کدگذاری داغ. رمزگذاری یکباره توانایی پیش بینی مدل ML را بهبود می بخشد. این فرآیند با اختصاص مقدار باینری 1 یا 0 به ویژگی، یک مقدار طبقه بندی را به یک ویژگی جدید تبدیل می کند. به عنوان یک مثال ساده، اگر یک ستون داشتید که مقدار هر یک از آنها را داشت yes
or no
، رمزگذاری یک داغ آن ستون را به دو ستون تبدیل می کند: الف Yes
ستون و الف No
ستون مقدار بله دارای 1 خواهد بود Yes
ستون و 0 در No
ستون رمزگذاری یکباره داده های ما را مفیدتر می کند زیرا مقادیر عددی به راحتی می توانند احتمال پیش بینی های ما را تعیین کنند.
در نهایت، ما را برجسته می کنیم employer_title
ستون تا مقادیر رشته خود را به یک بردار عددی تبدیل کند. ما اعمال می کنیم شمارش بردار و یک توکنایزر استاندارد در داخل بردار تبدیل. Tokenization یک جمله یا یک سری از متن را به کلمات تجزیه می کند، در حالی که یک vectorizer داده های متن را به یک فرم قابل خواندن توسط ماشین تبدیل می کند. این کلمات به صورت بردار نمایش داده می شوند.
با تکمیل تمام مراحل مهندسی ویژگی، میتوانیم دادهها را صادر کرده و نتایج را در سطل S3 خود خارج کنیم. از طرف دیگر، می توانید جریان خود را به عنوان کد پایتون یا یک نوت بوک Jupyter برای ایجاد خط لوله با نمای خود با استفاده از خطوط لوله آمازون SageMaker. زمانی که می خواهید مراحل مهندسی ویژگی خود را در مقیاس یا به عنوان بخشی از خط لوله ML اجرا کنید، این را در نظر بگیرید.
اکنون می توانیم از فایل خروجی Data Wrangler به عنوان ورودی Canvas استفاده کنیم. ما این را به عنوان یک مجموعه داده در Canvas برای ساخت مدل ML خود ارجاع می دهیم.
در مورد ما، ما مجموعه داده آماده شده خود را با یک به سطل پیش فرض Studio صادر کردیم output
پیشوند هنگام بارگیری داده ها در Canvas برای ساخت مدل بعدی، به این مکان مجموعه داده اشاره می کنیم.
مدل ML خود را با Canvas بسازید و آموزش دهید
در کنسول SageMaker، برنامه Canvas را اجرا کنید. برای ساخت یک مدل ML از داده های آماده شده در قسمت قبل، مراحل زیر را انجام می دهیم:
- مجموعه داده آماده شده را از سطل S3 به Canvas وارد کنید.
ما به همان مسیر S3 اشاره می کنیم که در آن نتایج Data Wrangler را از بخش قبل صادر کردیم.
- یک مدل جدید در Canvas ایجاد کنید و نام آن را بگذارید
loan_prediction_model
. - مجموعه داده وارد شده را انتخاب کرده و به شی مدل اضافه کنید.
برای اینکه Canvas یک مدل بسازد، باید ستون هدف را انتخاب کنیم.
- از آنجا که هدف ما پیش بینی احتمال توانایی وام دهنده برای بازپرداخت وام است، ما
loan_status
ستون.
Canvas به طور خودکار نوع بیانیه مشکل ML را شناسایی می کند. در زمان نگارش، Canvas از مشکلات پیشبینی رگرسیون، طبقهبندی و سری زمانی پشتیبانی میکند. میتوانید نوع مشکل را مشخص کنید یا از Canvas بهطور خودکار مشکل را از دادههای شما استنتاج کنید.
- گزینه خود را برای شروع فرآیند ساخت مدل انتخاب کنید: ساخت سریع or ساخت استاندارد.
La ساخت سریع گزینه از مجموعه داده شما برای آموزش یک مدل در عرض 2 تا 15 دقیقه استفاده می کند. این زمانی مفید است که با یک مجموعه داده جدید آزمایش می کنید تا مشخص کنید آیا مجموعه داده ای که دارید برای پیش بینی کافی است یا خیر. ما از این گزینه برای این پست استفاده می کنیم.
La ساخت استاندارد گزینه دقت را به سرعت انتخاب می کند و از تقریباً 250 مدل کاندید برای آموزش مدل استفاده می کند. این فرآیند معمولاً 1 تا 2 ساعت طول می کشد.
پس از ساخت مدل، می توانید نتایج مدل را بررسی کنید. Canvas تخمین می زند که مدل شما قادر است نتیجه درست را در 82.9٪ مواقع پیش بینی کند. نتایج خود شما ممکن است به دلیل تنوع در مدل های آموزشی متفاوت باشد.
علاوه بر این، میتوانید عمیقاً در تجزیه و تحلیل جزئیات مدل غوطهور شوید تا در مورد مدل بیشتر بدانید.
اهمیت ویژگی نشان دهنده اهمیت تخمینی هر ویژگی در پیش بینی ستون هدف است. در این حالت، ستون خط اعتباری بیشترین تأثیر را در پیشبینی بازپرداخت مبلغ وام توسط مشتری دارد و به دنبال آن نرخ بهره و درآمد سالانه قرار میگیرد.
ماتریس سردرگمی در معیارهای پیشرفته بخش حاوی اطلاعاتی برای کاربرانی است که می خواهند درک عمیق تری از عملکرد مدل خود داشته باشند.
قبل از اینکه بتوانید مدل خود را برای بارهای کاری تولید مستقر کنید، از Canvas برای آزمایش مدل استفاده کنید. Canvas نقطه پایانی مدل ما را مدیریت می کند و به ما امکان می دهد مستقیماً در رابط کاربری Canvas پیش بینی کنیم.
- را انتخاب کنید پیش بینی و یافته ها را در هر دو مورد بررسی کنید پیش بینی دسته ای or پیش بینی واحد تب.
در مثال زیر، با تغییر مقادیر برای پیشبینی متغیر هدف، یک پیشبینی واحد انجام میدهیم loan_status
در زمان واقعی
همچنین میتوانیم مجموعه داده بزرگتری را انتخاب کنیم و Canvas از طرف ما پیشبینیهای دستهای ایجاد کند.
نتیجه
یادگیری ماشینی انتها به انتها پیچیده و تکراری است و اغلب شامل چندین شخصیت، فناوری و فرآیند می شود. Data Wrangler و Canvas امکان همکاری بین تیم ها را بدون نیاز به این تیم ها برای نوشتن هیچ کدی فراهم می کند.
یک مهندس داده می تواند به راحتی داده ها را با استفاده از Data Wrangler بدون نوشتن هیچ کدی آماده کند و مجموعه داده آماده شده را به یک تحلیلگر تجاری ارسال کند. سپس یک تحلیلگر تجاری می تواند به راحتی مدل های ML دقیق را تنها با چند کلیک با استفاده از Canvas بسازد و پیش بینی های دقیق را در زمان واقعی یا دسته ای دریافت کند.
با Data Wrangler شروع کنید با استفاده از این ابزارها بدون نیاز به مدیریت هیچ زیرساختی. تو می توانی بوم را راه اندازی کنید به سرعت و بلافاصله شروع به ایجاد مدل های ML برای پشتیبانی از نیازهای کسب و کار خود کنید.
درباره نویسنده
پیتر چانگ یک معمار راه حل برای AWS است و علاقه زیادی به کمک به مشتریان برای کشف بینش از داده های خود دارد. او راهحلهایی برای کمک به سازمانها در تصمیمگیری دادهمحور در بخشهای دولتی و خصوصی ایجاد کرده است. او دارای تمام گواهینامه های AWS و همچنین دو گواهینامه GCP است.
میناکشیسوندارام تانداوارایان یک متخصص ارشد AI/ML با AWS است. او به حساب های استراتژیک پیشرفته در سفر هوش مصنوعی و ML کمک می کند. او علاقه زیادی به هوش مصنوعی مبتنی بر داده دارد.
دن فرگوسن یک معمار راه حل در AWS، مستقر در نیویورک، ایالات متحده است. به عنوان یک متخصص خدمات یادگیری ماشینی، دن برای حمایت از مشتریان در سفر آنها به سمت یکپارچهسازی جریانهای کاری ML کارآمد، مؤثر و پایدار کار میکند.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- درباره ما
- چکیده
- دقیق
- اضافه
- اضافی
- AI
- معرفی
- هر چند
- آمازون
- مقدار
- تحلیل
- روانکاو
- سالیانه
- کاربرد
- درخواست
- تقریبا
- معماری
- اختصاص داده
- خودکار
- در دسترس
- AWS
- بانک
- بودن
- مرز
- می شکند
- ساختن
- بنا
- کسب و کار
- نامزد
- نقاشی
- قابلیت های
- دسته بندی
- انتخاب
- را انتخاب کنید
- طبقه بندی
- رمز
- همکاری
- همکاری
- ستون
- مرتکب شده
- مشترک
- پیچیده
- پیچیدگی ها
- گیجی
- کنسول
- شامل
- کمک
- ایجاد
- ایجاد
- ایجاد
- اعتبار
- بحران
- در حال حاضر
- مشتری
- مشتریان
- داده ها
- تحلیل داده ها
- علم اطلاعات
- بدهی
- تصمیم گیری
- عمیق تر
- تحویل
- نشان دادن
- گسترش
- گسترش
- شرح داده شده
- جزئیات
- مشخص کردن
- پروژه
- مختلف
- مستقیما
- دامنه
- پایین
- رسم
- قطره
- در طی
- به آسانی
- موثر
- از بین بردن
- قادر ساختن
- نقطه پایانی
- مهندس
- مهندسی
- مورد تأیید
- برآورد
- تخمین می زند
- حوادث
- مثال
- ورزش
- کارشناس
- تخصص
- ویژگی
- امکانات
- مالی
- بحران مالی
- نام خانوادگی
- جریان
- تمرکز
- پیروی
- فرم
- تابع
- بودجه
- تولید می کنند
- جهانی
- هدف
- داشتن
- ارتفاع
- کمک
- کمک
- کمک می کند
- دارای
- صفحه اصلی
- چگونه
- اما
- HTTPS
- تأثیر
- اهمیت
- واردات
- از جمله
- درآمد
- اطلاعات
- شالوده
- ورودی
- بینش
- علاقه
- رابط
- سرمایه گذاران
- IT
- پیوستن
- پیوست
- سفر
- دانش
- بزرگ
- بزرگتر
- راه اندازی
- یاد گرفتن
- یادگیری
- امانت دادن
- لاین
- ذکر شده
- بارگیری
- وام
- محل
- دستگاه
- فراگیری ماشین
- عمده
- باعث می شود
- مدیریت
- اداره می شود
- مدیریت
- ماتریس
- به معنی
- ML
- مدل
- مدل
- ماه
- ماه
- بیش
- اکثر
- حرکت
- چندگانه
- لازم
- نیازهای
- نیویورک
- دفتر یادداشت
- عدد
- اوراق قرضه
- باز کن
- گزینه
- گزینه
- سازمان های
- دیگر
- خود
- مالکیت
- بخش
- احساساتی
- پرداخت
- پرداخت
- مبلغ پرداختی
- کارایی
- سکو
- ممکن
- پتانسیل
- پیش بینی
- پیش گویی
- پیش بینی
- آماده
- قبلی
- خصوصی
- مشکل
- مشکلات
- روند
- فرآیندهای
- تولید
- عمومی
- هدف
- اهداف
- کیفیت
- سریع
- به سرعت
- خام
- سوابق
- ثبت
- اجاره
- گزارش
- مخزن
- نمایندگی
- نشان دهنده
- درخواست
- نیاز
- منابع
- مسئولیت
- مسئوليت
- نتایج
- این فایل نقد می نویسید:
- خطر
- مدیریت ریسک
- دویدن
- مقیاس
- علم
- دانشمندان
- بخش ها
- سلسله
- خدمات
- چند
- قابل توجه
- ساده
- کوچک
- So
- جامد
- راه حل
- مزایا
- برخی از
- متخصص
- سرعت
- انشعاب
- مراحل
- استاندارد
- شروع
- آغاز شده
- بیانیه
- آماری
- وضعیت
- ذخیره سازی
- استراتژیک
- استودیو
- پشتیبانی
- پشتیبانی از
- هدف
- وظایف
- فن آوری
- آزمون
- از این رو
- از طریق
- زمان
- از Tokenization
- ابزار
- آموزش
- دگرگون کردن
- دگرگونی
- درک
- us
- ایالات متحده
- استفاده کنید
- کاربران
- معمولا
- ارزش
- بررسی
- نسخه
- چشم انداز
- چی
- WHO
- در داخل
- بدون
- کلمات
- با این نسخهها کار
- خواهد بود
- نوشته
- سال
- سال