10 تجسم شگفت انگیز یادگیری ماشینی که باید در سال 2023 بدانید

آجر زرد برای ایجاد نمودارهای یادگیری ماشینی با کد کمتر

عکس دیوید پیسنوی on می Unsplash

تجسم داده ها نقش مهمی در یادگیری ماشین ایفا می کند.

موارد استفاده از تجسم داده در یادگیری ماشین عبارتند از:

  • تنظیم فراپارامتر
  • ارزیابی عملکرد مدل
  • اعتبار سنجی مفروضات مدل
  • یافتن موارد پرت
  • انتخاب مهمترین ویژگی ها
  • شناسایی الگوها و همبستگی بین ویژگی ها

تجسم هایی که مستقیماً با موارد کلیدی بالا در یادگیری ماشین مرتبط هستند نامیده می شوند تجسم های یادگیری ماشینی.

ایجاد تجسم های یادگیری ماشینی گاهی اوقات یک فرآیند پیچیده است زیرا برای نوشتن حتی در پایتون به کد زیادی نیاز دارد. اما، به لطف منبع باز پایتون آجر زرد کتابخانه، حتی تجسم های پیچیده یادگیری ماشینی را می توان با کد کمتر ایجاد کرد. آن کتابخانه Scikit-learn API را گسترش می دهد و عملکردهای سطح بالایی را برای تشخیص بصری ارائه می دهد که توسط Scikit-learn ارائه نمی شود.

امروز، من انواع زیر از تجسم یادگیری ماشین، موارد استفاده از آنها و اجرای Yellowbrick را به تفصیل مورد بحث قرار خواهم داد.

تجسم ML آجر زرد
-----------------------------
01. طرح مولفه اصلی
02. منحنی اعتبارسنجی
03. منحنی یادگیری
04. طرح آرنج
05. طرح سیلوئت
06. طرح عدم تعادل طبقاتی
07. قطعه باقیمانده
08. نمودار خطای پیش بینی
09. طرح فاصله کوک
10. طرح اهمیت ویژگی

نصب و راه اندازی

نصب Yellowbrick را می توان با اجرای یکی از دستورات زیر انجام داد.

  • شکستن نصب کننده بسته:
پیپ نصب آجر زرد
  • کوندا نصب کننده بسته:
conda install -c regiondatalabs yellowbrick

با استفاده از آجر زرد

تجسم‌کننده‌های آجر زرد دارای دستور Scikit-learn هستند. ویژوالایزر شی ای است که از داده ها برای ایجاد تصویرسازی یاد می گیرد. اغلب با یک برآوردگر Scikit-learn استفاده می شود. برای آموزش ویژوالایزر، متد fit() آن را فراخوانی می کنیم.

ذخیره طرح

برای ذخیره نمودار ایجاد شده با استفاده از تصویرساز Yellowbrick، متد show() را به صورت زیر فراخوانی می کنیم. این نمودار را به عنوان یک فایل PNG روی دیسک ذخیره می کند.

visualizer.show(outpath="name_of_the_plot.png")

استفاده

نمودار مؤلفه اصلی داده های با ابعاد بالا را در یک نمودار پراکنده دو بعدی یا سه بعدی به تصویر می کشد. بنابراین، این نمودار برای شناسایی الگوهای مهم در داده های با ابعاد بالا بسیار مفید است.

اجرای آجر زرد

ایجاد این طرح با روش سنتی پیچیده و زمان بر است. ابتدا باید PCA را روی مجموعه داده اعمال کنیم و سپس از کتابخانه matplotlib برای ایجاد نمودار پراکندگی استفاده کنیم.

در عوض، ما می‌توانیم از کلاس تصویرسازی PCA Yellowbrick برای دستیابی به عملکرد مشابه استفاده کنیم. از روش تجزیه و تحلیل مؤلفه اصلی استفاده می کند، ابعاد مجموعه داده را کاهش می دهد و نمودار پراکندگی را با 2 یا 3 خط کد ایجاد می کند! تنها کاری که باید انجام دهیم این است که چند آرگومان کلیدواژه را در کلاس PCA() مشخص کنیم.

برای درک بیشتر این موضوع مثالی می زنیم. در اینجا، ما از سرطان پستان مجموعه داده (نگاه کنید به نقل قول در پایان) که دارای 30 ویژگی و 569 نمونه از دو کلاس (بدخیم و خوش خیم). به دلیل ابعاد بالا (30 ویژگی) در داده‌ها، رسم داده‌های اصلی در یک نمودار پراکنده 2 بعدی یا سه بعدی غیرممکن است مگر اینکه PCA را روی مجموعه داده اعمال کنیم.

کد زیر توضیح می دهد که چگونه می توانیم از تجسم کننده PCA Yellowbrick برای ایجاد یک نمودار پراکندگی دوبعدی از یک مجموعه داده 2 بعدی استفاده کنیم.

(کد توسط نویسنده)
طرح مولفه اصلی - دو بعدی (تصویر توسط autr)

همچنین می توانیم با تنظیم یک نمودار پراکندگی سه بعدی ایجاد کنیم projection=3در کلاس PCA()

(کد توسط نویسنده)
طرح مولفه اصلی - دو بعدی (تصویر توسط نویسنده)

مهمترین پارامترهای تصویرساز PCA عبارتند از:

  • مقیاس: bool، پیش فرض True. این نشان می دهد که آیا داده ها باید مقیاس شوند یا خیر. قبل از اجرای PCA باید داده ها را مقیاس بندی کنیم. بیشتر بدانید اینجا کلیک نمایید.
  • طرح ریزی: int، پیش فرض 2 است. When projection=2، یک نمودار پراکندگی دو بعدی ایجاد می شود. چه زمانی projection=3، یک نمودار پراکندگی سه بعدی ایجاد می شود.
  • کلاس ها: لیست، پیش فرض None. این نشان‌دهنده برچسب‌های کلاس برای هر کلاس در y است. نام کلاس ها برچسب افسانه خواهند بود.

استفاده

منحنی اعتبار سنجی تأثیر a را ترسیم می کند تنها هایپرپارامتر در قطار و مجموعه اعتبار سنجی با نگاه کردن به منحنی، می‌توانیم اضافه برازش، عدم تناسب و شرایط درست مدل را برای مقادیر مشخص‌شده ابرپارامتر معین تعیین کنیم. هنگامی که چندین فراپارامتر برای تنظیم همزمان وجود دارد، منحنی اعتبار سنجی قابل استفاده نیست. با نصب، می توانید از جستجوی شبکه ای یا جستجوی تصادفی استفاده کنید.

اجرای آجر زرد

ایجاد منحنی اعتبار سنجی با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تجسم‌کننده ValidationCurve از Yellowbrick استفاده کنیم.

برای رسم منحنی اعتبارسنجی در Yellowbirck، یک طبقه‌بندی جنگل تصادفی با استفاده از همان می‌سازیم. سرطان پستان مجموعه داده (نگاه کنید به نقل قول در پایان). ما تأثیر آن را ترسیم خواهیم کرد بیشترین عمق هایپرپارامتر در مدل جنگل تصادفی

کد زیر توضیح می‌دهد که چگونه می‌توانیم از Visualizer ValidationCurve از Yellowbrick برای ایجاد یک منحنی اعتبارسنجی با استفاده از سرطان پستان مجموعه داده

(کد توسط نویسنده)
منحنی اعتبارسنجی (تصویر توسط نویسنده)

مدل بعد از این شروع به اضافه کردن می کند بیشترین عمق مقدار 6. وقتی max_depth=6، مدل به خوبی با داده های آموزشی مطابقت دارد و همچنین به خوبی روی داده های دیده نشده جدید تعمیم می یابد.

مهمترین پارامترهای Visualizer ValidationCurve عبارتند از:

  • برآوردگر: این می تواند هر مدل ML یادگیری Scikit مانند درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبانی و غیره باشد.
  • param_name: این نام هایپرپارامتری است که می خواهیم نظارت کنیم.
  • محدوده_پارام: این شامل مقادیر ممکن برای param_name.
  • رزومه: int، تعداد فولدها را برای اعتبارسنجی متقاطع تعریف می کند.
  • امتیاز دهی: رشته، شامل روش امتیازدهی مدل می باشد. برای طبقه بندی، دقت ترجیح داده شده است

استفاده

منحنی یادگیری، خطاها یا دقت های آموزشی و اعتبارسنجی را در برابر تعداد دوره ها یا تعداد نمونه های آموزشی ترسیم می کند. ممکن است فکر کنید که هر دو منحنی یادگیری و اعتبارسنجی یکسان به نظر می رسند، اما تعداد تکرارها در محور x منحنی یادگیری ترسیم می شود در حالی که مقادیر فراپارامتر در محور x منحنی اعتبار سنجی رسم می شود.

موارد استفاده از منحنی یادگیری عبارتند از:

  • منحنی یادگیری برای تشخیص استفاده می شود کم تناسب, پوشش بیش از حد و درست است شرایط مدل
  • منحنی یادگیری برای شناسایی استفاده می شود sهمگرایی کم, نوسان, در حال نوسان با واگرایی و همگرایی مناسب سناریوها هنگام یافتن نرخ یادگیری بهینه یک شبکه عصبی یا مدل ML.
  • منحنی یادگیری برای مشاهده اینکه مدل ما از افزودن داده های آموزشی بیشتر چقدر سود می برد استفاده می شود. هنگامی که به این روش استفاده می شود، محور x تعداد نمونه های آموزشی را نشان می دهد.

اجرای آجر زرد

ایجاد منحنی یادگیری با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تجسم‌کننده LearningCurve از Yellowbrick استفاده کنیم.

برای ترسیم منحنی یادگیری در Yellowbirck، یک طبقه‌بندی بردار پشتیبان با استفاده از همان می‌سازیم سرطان پستان مجموعه داده (نگاه کنید به نقل قول در پایان).

کد زیر توضیح می دهد که چگونه می توانیم از تجسم کننده LearningCurve Yellowbrick برای ایجاد یک منحنی اعتبار سنجی با استفاده از سرطان پستان مجموعه داده

(کد توسط نویسنده)
منحنی یادگیری (تصویر توسط نویسنده)

این مدل از افزودن نمونه های آموزشی بیشتر سودی نخواهد برد. این مدل قبلاً با 569 نمونه آموزشی آموزش دیده است. دقت اعتبار سنجی پس از 175 دوره آموزشی بهبود نمی یابد.

مهمترین پارامترهای Visualizer LearningCurve عبارتند از:

  • برآوردگر: این می تواند هر مدل ML یادگیری Scikit مانند درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبانی و غیره باشد.
  • رزومه: int، تعداد فولدها را برای اعتبارسنجی متقاطع تعریف می کند.
  • امتیاز دهی: رشته، شامل روش امتیازدهی مدل می باشد. برای طبقه بندی، دقت ترجیح داده شده است

استفاده

نمودار Elbow برای انتخاب تعداد بهینه خوشه ها در خوشه بندی K-Means استفاده می شود. مدل به بهترین وجه در نقطه ای که آرنج در نمودار خط قرار می گیرد، مناسب است. آرنج نقطه عطف روی نمودار است.

اجرای آجر زرد

ایجاد طرح آرنج با روش سنتی پیچیده و زمان بر است. در عوض، می توانیم از KElbowVisualizer یلوبریک استفاده کنیم.

برای ترسیم منحنی یادگیری در Yellowbirck، یک مدل خوشه‌بندی K-Means با استفاده از جنس زنبق و سوسن مجموعه داده (نگاه کنید به نقل قول در پایان).

کد زیر توضیح می دهد که چگونه می توانیم از KElbowVisualizer Yellowbrick برای ایجاد نمودار Elbow با استفاده از جنس زنبق و سوسن مجموعه داده

(کد توسط نویسنده)
طرح آرنج (تصویر توسط نویسنده)

La زانو در k=4 رخ می دهد (با یک خط چین حاشیه نویسی شده است). نمودار نشان می دهد که تعداد بهینه خوشه برای مدل 4 است. به عبارت دیگر، مدل به خوبی با 4 خوشه برازش دارد.

مهمترین پارامترهای KElbowVisualizer عبارتند از:

  • برآوردگر: نمونه مدل K-Means
  • k: int یا تاپل. اگر یک عدد صحیح باشد، امتیازات خوشه‌ها را در محدوده (2، k) محاسبه می‌کند. اگر یک تاپل باشد، امتیازات را برای خوشه‌های محدوده داده شده محاسبه می‌کند، به عنوان مثال، (3، 11).

استفاده

نمودار silhouette برای انتخاب تعداد بهینه خوشه ها در خوشه بندی K-Means و همچنین برای تشخیص عدم تعادل خوشه استفاده می شود. این نمودار نتایج بسیار دقیقی را نسبت به نمودار زانو ارائه می دهد.

اجرای آجر زرد

ایجاد طرح سیلوئت با روش سنتی پیچیده و زمان بر است. در عوض، می توانیم از SilhouetteVisualizer از Yellowbrick استفاده کنیم.

برای ایجاد یک طرح شبح در Yellowbirck، یک مدل خوشه‌بندی K-Means با استفاده از جنس زنبق و سوسن مجموعه داده (نگاه کنید به نقل قول در پایان).

بلوک‌های کد زیر توضیح می‌دهند که چگونه می‌توانیم از Yellowbrick's SilhouetteVisualizer برای ایجاد نمودارهای silhouette با استفاده از جنس زنبق و سوسن مجموعه داده با k (تعداد خوشه) مقادیر مختلف.

k = 2

(کد توسط نویسنده)
طرح سیلوئت با 2 خوشه (k=2)، (تصویر توسط نویسنده)

با تغییر تعداد خوشه‌ها در کلاس KMeans() می‌توانیم کد بالا را در زمان‌های مختلف برای ایجاد نمودارهای silhouette اجرا کنیم که k=3، k=4 و k=5 باشند.

k = 3

طرح سیلوئت با 3 خوشه (k=3)، (تصویر توسط نویسنده)

k = 4

طرح سیلوئت با 4 خوشه (k=4)، (تصویر توسط نویسنده)

k = 5

طرح سیلوئت با 4 خوشه (k=5)، (تصویر توسط نویسنده)

طرح شبح شامل یک شکل چاقو در هر خوشه است. هر شکل چاقو توسط میله هایی ایجاد می شود که نشان دهنده تمام نقاط داده در خوشه است. بنابراین، عرض یک شکل چاقو نشان‌دهنده تعداد تمام نمونه‌ها در خوشه است. طول میله نشان دهنده ضریب Silhouette برای هر نمونه است. خط چین نشان دهنده امتیاز شبح است - منبع: خوشه‌بندی Hands-On K-Means (نوشته شده توسط من).

نموداری با عرض تقریباً مساوی از اشکال چاقو به ما می گوید که خوشه ها به خوبی متعادل هستند و تقریباً تعداد نمونه های مشابهی در هر خوشه دارند - یکی از مهم ترین فرضیات در خوشه بندی K-Means.

هنگامی که میله‌ها به شکل چاقویی خط چین را گسترش می‌دهند، خوشه‌ها به خوبی از هم جدا می‌شوند - یک فرض مهم دیگر در خوشه‌بندی K-Means.

وقتی k=3، خوشه ها به خوبی متعادل و به خوبی از هم جدا می شوند. بنابراین، تعداد بهینه خوشه ها در مثال ما 3 است.

مهمترین پارامترهای SilhouetteVisualizer عبارتند از:

  • برآوردگر: نمونه مدل K-Means
  • رنگ: رشته، مجموعه ای از رنگ های مورد استفاده برای هر شکل چاقو. «آجر زرد» یا یکی از رشته‌های نقشه رنگی Matplotlib مانند «Accent»، «Set1» و غیره.

استفاده

نمودار عدم تعادل کلاس عدم تعادل کلاس ها را در ستون هدف در مجموعه داده های طبقه بندی تشخیص می دهد.

عدم تعادل کلاس زمانی اتفاق می افتد که یک کلاس به طور قابل توجهی نمونه های بیشتری نسبت به کلاس دیگر داشته باشد. به عنوان مثال، مجموعه داده‌ای مربوط به شناسایی ایمیل‌های هرزنامه دارای 9900 نمونه برای دسته «نه هرزنامه» و فقط 100 نمونه برای دسته «هرزنامه» است. این مدل نمی تواند کلاس اقلیت (the هرزنامه ها دسته بندی). در نتیجه، مدل در پیش‌بینی کلاس اقلیت زمانی که عدم تعادل کلاس رخ می‌دهد دقیق نخواهد بود - منبع: 20 اشتباه برتر یادگیری ماشینی و یادگیری عمیق که مخفیانه در پشت صحنه اتفاق می افتد (نوشته شده توسط من).

اجرای آجر زرد

ایجاد نمودار عدم تعادل کلاس با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تجسم‌کننده ClassBalance Yellowbrick استفاده کنیم.

برای ترسیم نمودار عدم تعادل کلاس در Yellowbirck، از عبارت استفاده می کنیم سرطان پستان مجموعه داده (مجموعه داده طبقه بندی، نگاه کنید به نقل قول در پایان).

کد زیر توضیح می‌دهد که چگونه می‌توانیم از تجسم‌کننده ClassBalance Yellowbrick برای ایجاد نمودار عدم تعادل کلاس با استفاده از سرطان پستان مجموعه داده

(کد توسط نویسنده)
طرح عدم تعادل طبقاتی (تصویر توسط نویسنده)

بیش از 200 مورد در آن وجود دارد بدخیم کلاس و بیش از 350 نمونه در خوش خیم کلاس بنابراین، ما نمی‌توانیم عدم تعادل طبقاتی زیادی را در اینجا ببینیم، اگرچه نمونه‌ها به طور مساوی بین دو طبقه توزیع نشده‌اند.

مهمترین پارامترهای ویژوالایزر ClassBalance عبارتند از:

  • برچسب ها: لیست، نام کلاس های منحصر به فرد در ستون هدف.

استفاده

نمودار باقیمانده در رگرسیون خطی برای تعیین اینکه آیا باقیمانده ها (مقادیر مشاهده شده-مقادیر پیش بینی شده) با تجزیه و تحلیل واریانس خطاها در یک مدل رگرسیونی همبسته نیستند (مستقل) استفاده می شود.

نمودار باقیمانده با رسم باقیمانده ها در برابر پیش بینی ها ایجاد می شود. اگر هر نوع الگوی بین پیش‌بینی‌ها و باقیمانده‌ها وجود داشته باشد، تأیید می‌کند که مدل رگرسیون برازش کامل نیست. اگر نقاط به طور تصادفی حول محور x پراکنده شوند، مدل رگرسیون به خوبی با داده ها برازش می یابد.

اجرای آجر زرد

ایجاد پلات باقیمانده با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تجسم‌کننده ResidualsPlot از Yellowbrick استفاده کنیم.

برای رسم نمودار باقیمانده در Yellowbirck، از آن استفاده می کنیم تبلیغات (Advertising.csv، نگاه کنید به نقل قول در پایان) مجموعه داده.

کد زیر توضیح می‌دهد که چگونه می‌توانیم از تجسم‌کننده ResidualsPlot از Yellowbrick برای ایجاد نمودار باقیمانده با استفاده از تبلیغات مجموعه داده

(کد توسط نویسنده)
قطعه باقیمانده (تصویر توسط نویسنده)

ما به وضوح می‌توانیم نوعی الگوی غیرخطی بین پیش‌بینی‌ها و باقیمانده‌ها در نمودار باقیمانده ببینیم. مدل رگرسیون برازش کامل نیست، اما به اندازه کافی خوب است.

مهمترین پارامترهای ویژوالایزر ResidualsPlot عبارتند از:

  • برآوردگر: این می تواند هر رگرسیور Scikit-learn باشد.
  • تاریخچه: bool، پیش فرض True. آیا برای رسم هیستوگرام باقیمانده ها، که برای بررسی یک فرض دیگر استفاده می شود - باقیمانده ها تقریباً به طور معمول با میانگین 0 و یک انحراف استاندارد ثابت توزیع می شوند.

استفاده

نمودار خطای پیش بینی در رگرسیون خطی یک روش گرافیکی است که برای ارزیابی مدل رگرسیون استفاده می شود.

نمودار خطای پیش بینی با ترسیم پیش بینی ها در برابر مقادیر هدف واقعی ایجاد می شود.

اگر مدل پیش بینی های بسیار دقیقی انجام می دهد، نقاط باید روی خط 45 درجه باشند. در غیر این صورت، نقاط در اطراف آن خط پراکنده می شوند.

اجرای آجر زرد

ایجاد نمودار خطای پیش بینی با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از پیش‌بینی‌کننده خطای Yellowbrick استفاده کنیم.

برای ترسیم نمودار خطای پیش‌بینی در Yellowbirck، از عبارت استفاده می‌کنیم تبلیغات (Advertising.csv، نگاه کنید به نقل قول در پایان) مجموعه داده.

کد زیر توضیح می‌دهد که چگونه می‌توانیم از تصویرساز پیش‌بینی خطای Yellowbrick برای ایجاد یک نمودار باقیمانده با استفاده از تبلیغات مجموعه داده

(کد توسط نویسنده)
نمودار خطای پیش بینی (تصویر توسط نویسنده)

نقاط دقیقا روی خط 45 درجه نیستند، اما مدل به اندازه کافی خوب است.

مهمترین پارامترهای Visualizer PredictionError عبارتند از:

  • برآوردگر: این می تواند هر رگرسیور Scikit-learn باشد.
  • هویت: bool، پیش فرض True. خط 45 درجه را بکشیم یا نه.

استفاده

فاصله کوک تأثیر نمونه ها را بر رگرسیون خطی اندازه گیری می کند. نمونه هایی با تأثیرات زیاد به عنوان موارد پرت در نظر گرفته می شوند. مجموعه داده ای با تعداد زیاد پرت برای رگرسیون خطی بدون پیش پردازش مناسب نیست. به سادگی، نمودار فاصله کوک برای تشخیص نقاط پرت در مجموعه داده استفاده می شود.

اجرای آجر زرد

ایجاد نمودار فاصله کوک با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تصویرسازی‌کننده CooksDistance از Yellowbrick استفاده کنیم.

برای ترسیم نمودار فاصله کوک در Yellowbirck، از آن استفاده می کنیم تبلیغات (Advertising.csv، نگاه کنید به نقل قول در پایان) مجموعه داده.

کد زیر توضیح می‌دهد که چگونه می‌توانیم از تصویرساز Yellowbrick's CooksDistance برای ایجاد نمودار فاصله کوک با استفاده از تبلیغات مجموعه داده

(کد توسط نویسنده)
طرح فاصله کوک (تصویر توسط نویسنده)

مشاهداتی وجود دارد که خط آستانه (افقی قرمز) را گسترش می دهد. آنها پرت هستند. بنابراین، قبل از ایجاد هر مدل رگرسیونی، باید داده ها را آماده کنیم.

مهمترین پارامترهای بصری CooksDistance عبارتند از:

  • Draw_threshold: bool، پیش فرض True. خط آستانه رسم شود.

استفاده

نمودار اهمیت ویژگی برای انتخاب حداقل ویژگی های مهم مورد نیاز برای تولید یک مدل ML استفاده می شود. از آنجایی که همه ویژگی ها یکسان به مدل کمک نمی کنند، می توانیم ویژگی های کمتر مهم را از مدل حذف کنیم. که پیچیدگی مدل را کاهش می دهد. آموزش و تفسیر مدل های ساده آسان است.

طرح اهمیت ویژگی، اهمیت نسبی هر ویژگی را به تصویر می کشد.

اجرای آجر زرد

ایجاد نمودار اهمیت ویژگی با روش سنتی پیچیده و زمان بر است. در عوض، می‌توانیم از تجسم‌کننده FeatureImportances Yellowbrick استفاده کنیم.

برای ترسیم نمودار اهمیت ویژگی در Yellowbirck، از آن استفاده می کنیم سرطان پستان مجموعه داده (نگاه کنید به نقل قول در پایان) که شامل 30 ویژگی است.

کد زیر توضیح می‌دهد که چگونه می‌توانیم از تجسم‌کننده FeatureImportances Yellowbrick برای ایجاد یک نمودار اهمیت ویژگی با استفاده از سرطان پستان مجموعه داده

(کد توسط نویسنده)
طرح اهمیت ویژگی (تصویر توسط نویسنده)

همه 30 ویژگی در مجموعه داده چندان به مدل کمک نمی کنند. می‌توانیم ویژگی‌ها را با نوارهای کوچک از مجموعه داده حذف کنیم و مدل را با ویژگی‌های انتخاب‌شده دوباره جاسازی کنیم.

مهمترین پارامترهای تصویرسازی FeatureImportances عبارتند از:

  • برآوردگر: هر برآوردگر Scikit-Learn که از هر دو پشتیبانی می کند feature_importances_ صفت یا coef_ ویژگی.
  • نسبت فامیلی: bool، پیش فرض True. اینکه آیا اهمیت نسبی را به صورت درصد ترسیم کنیم. اگر False، امتیاز عددی خام اهمیت ویژگی نشان داده شده است.
  • مطلق: bool، پیش فرض False. آیا با اجتناب از علائم منفی فقط مقدار ضرایب را در نظر بگیریم.
  1. طرح مولفه اصلی: PCA(), استفاده - داده های با ابعاد بالا را در یک نمودار پراکندگی دو بعدی یا سه بعدی به تصویر می کشد که می تواند برای شناسایی الگوهای مهم در داده های با ابعاد بالا استفاده شود.
  2. منحنی اعتبارسنجی: اعتبار سنجی (), استفاده - تأثیر a را ترسیم می کند تنها هایپرپارامتر در قطار و مجموعه اعتبار سنجی
  3. منحنی یادگیری: منحنی یادگیری(), استفاده - تشخیص می دهد کم تناسب, پوشش بیش از حد و درست است شرایط یک مدل، شناسایی می کند sهمگرایی کم, نوسان, در حال نوسان با واگرایی و همگرایی مناسب سناریوها هنگام یافتن نرخ یادگیری بهینه یک شبکه عصبی، نشان می دهد که مدل ما چقدر از افزودن داده های آموزشی بیشتر سود می برد.
  4. طرح آرنج: KElbowVisualizer()، استفاده - تعداد بهینه خوشه ها را در خوشه بندی K-Means انتخاب می کند.
  5. طرح سیلوئت: silhouettevisualizer ()، استفاده — تعداد بهینه خوشه ها را در خوشه بندی K-Means انتخاب می کند، عدم تعادل خوشه را در خوشه بندی K-Means تشخیص می دهد.
  6. طرح عدم تعادل طبقاتی: ClassBalance()، استفاده - عدم تعادل کلاس ها را در ستون هدف در مجموعه داده های طبقه بندی تشخیص می دهد.
  7. قطعه باقیمانده: ResidualsPlot()، استفاده - با تجزیه و تحلیل واریانس خطاها در یک مدل رگرسیونی، تعیین می کند که آیا باقیمانده ها (مقادیر مشاهده شده-مقادیر پیش بینی شده) همبسته (مستقل) هستند یا خیر.
  8. نمودار خطای پیش بینی: PredictionError()، استفاده - یک روش گرافیکی که برای ارزیابی یک مدل رگرسیون استفاده می شود.
  9. طرح فاصله آشپز: Cooks Distance()، استفاده - بر اساس فواصل نمونه های کوک، نقاط پرت را در مجموعه داده تشخیص می دهد.
  10. طرح اهمیت ویژگی: FeatureImportances()، استفاده - حداقل ویژگی های مهم مورد نیاز را بر اساس اهمیت نسبی هر ویژگی برای تولید یک مدل ML انتخاب می کند.

این پایان پست امروز است.

لطفاً اگر سؤال یا بازخوردی دارید به من اطلاع دهید.

بعدی را بخوانید (توصیه می شود)

  • آجر زرد برای تجسم اهمیت ویژگی ها با استفاده از یک خط کد
  • منحنی اعتبار سنجی توضیح داده شد - تأثیر یک فراپارامتر منفرد را رسم کنید
  • ترسیم منحنی یادگیری برای تجزیه و تحلیل عملکرد آموزشی یک شبکه عصبی
  • خوشه‌بندی Hands-On K-Means

از من به عنوان یک نویسنده حمایت کنید

امیدوارم از خواندن این مقاله لذت برده باشید. اگر می خواهید از من به عنوان یک نویسنده حمایت کنید، لطفاً در نظر بگیرید ثبت نام برای عضویت برای دسترسی نامحدود به Medium. هزینه آن فقط 5 دلار در ماه است و من بخشی از حق عضویت شما را دریافت خواهم کرد.

از حمایت مستمر شما بسیار سپاسگزارم! شما را در مقاله بعدی می بینیم. یادگیری برای همه مبارک!

اطلاعات مجموعه داده سرطان پستان

  • ارجاع: Dua, D. and Graff, C. (2019). مخزن یادگیری ماشین UCI [http://archive.ics.uci.edu/ml]. ایروین، کالیفرنیا: دانشگاه کالیفرنیا، دانشکده اطلاعات و علوم کامپیوتر.
  • منبع: https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)
  • مجوز: دکتر ویلیام اچ ولبرگ (بخش جراحی عمومی
    دانشگاه ویسکانسین) دبلیو نیک استریت (گروه علوم کامپیوتر
    دانشگاه ویسکانسین) و اولوی ال منگاساریان (بخش علوم کامپیوتر دانشگاه ویسکانسین) حق چاپ این مجموعه داده را دارد. نیک استریت این مجموعه داده را به عموم مردم تحت عنوان اهدا کرد مجوز بین المللی Creative Commons Attribution 4.0 (CC BY 4.0). می‌توانید درباره انواع مختلف مجوز داده اطلاعات بیشتری کسب کنید اینجا کلیک نمایید.

اطلاعات مجموعه داده عنبیه

  • ارجاع: Dua, D. and Graff, C. (2019). مخزن یادگیری ماشین UCI [http://archive.ics.uci.edu/ml]. ایروین، کالیفرنیا: دانشگاه کالیفرنیا، دانشکده اطلاعات و علوم کامپیوتر.
  • منبع: https://archive.ics.uci.edu/ml/datasets/iris
  • مجوز: RA فیشر حق چاپ این مجموعه داده را دارد. مایکل مارشال این مجموعه داده را به عموم مردم تحت عنوان اهدا کرد مجوز اختصاص دامنه عمومی Creative Commons (CC0). می‌توانید درباره انواع مختلف مجوز داده اطلاعات بیشتری کسب کنید اینجا کلیک نمایید.

اطلاعات مجموعه داده های تبلیغاتی

منابع

10 تجسم شگفت انگیز یادگیری ماشین شما باید در سال 2023 مجدداً از منبع https://towardsdatascience.com/10-amazing-machine-learning-visualizations-you-s2023-528282940582؟source=rss—-7F60CF5620C9— 4 از طریق https://towardsdatascience.com/feed

<!–

->

تمبر زمان:

بیشتر از مشاوران بلاک چین