10 حیرت انگیز مشین لرننگ ویژولائزیشنز جو آپ کو 2023 میں معلوم ہونے چاہئیں

Yellowbrick for creating machine learning plots with less code

کی طرف سے تصویر ڈیوڈ پسنائے on Unsplash سے

ڈیٹا ویژولائزیشن مشین لرننگ میں اہم کردار ادا کرتی ہے۔

مشین لرننگ میں ڈیٹا ویژولائزیشن کے استعمال کے معاملات میں شامل ہیں:

  • ہائپر پیرامیٹر ٹیوننگ
  • ماڈل کی کارکردگی کا جائزہ
  • ماڈل کے مفروضوں کی توثیق کرنا
  • باہر والوں کو تلاش کرنا
  • سب سے اہم خصوصیات کا انتخاب
  • خصوصیات کے مابین پیٹرن اور ارتباط کی نشاندہی کرنا

مشین لرننگ میں مندرجہ بالا کلیدی چیزوں سے براہ راست تعلق رکھنے والے تصورات کو کہا جاتا ہے۔ مشین لرننگ تصورات.

مشین لرننگ ویژولائزیشن بنانا بعض اوقات ایک پیچیدہ عمل ہوتا ہے کیونکہ اسے Python میں بھی لکھنے کے لیے بہت سارے کوڈ کی ضرورت ہوتی ہے۔ لیکن، ازگر کے اوپن سورس کا شکریہ پیلی برک لائبریری، یہاں تک کہ پیچیدہ مشین لرننگ تصورات بھی کم کوڈ کے ساتھ بنائے جا سکتے ہیں۔ وہ لائبریری Scikit-learn API میں توسیع کرتی ہے اور بصری تشخیص کے لیے اعلیٰ سطحی افعال فراہم کرتی ہے جو Scikit-learn کے ذریعے فراہم نہیں کیے جاتے ہیں۔

آج، میں مندرجہ ذیل قسم کی مشین لرننگ ویژولائزیشنز، ان کے استعمال کے کیسز اور ییلو برک کے نفاذ پر تفصیل سے بات کروں گا۔

Yellowbrick ML Visualizations
-----------------------------
01. Priniciapal Component Plot
02. Validation Curve
03. سیکھنے یا جاننے کے مراحل کی خمدار لکیر
04. Elbow Plot
05. Silhouette Plot
06. Class Imbalance Plot
07. Residuals Plot
08. Prediction Error Plot
09. Cook’s Distance Plot
10. Feature Importances Plot

تنصیب

ییلو برک کی تنصیب درج ذیل میں سے کسی ایک کمانڈ کو چلا کر کی جا سکتی ہے۔

  • PIP پیکیج انسٹالر:
pip install yellowbrick
  • کانڈا پیکیج انسٹالر:
conda install -c districtdatalabs yellowbrick

ییلو برک کا استعمال

ییلو برک ویژولائزرز میں سکِٹ لرن جیسا نحو ہوتا ہے۔ ایک ویژولائزر ایک ایسی چیز ہے جو اعداد و شمار سے سیکھتا ہے تاکہ تصور پیدا کیا جاسکے۔ یہ اکثر اسکِٹ سیکھنے کے تخمینہ لگانے والے کے ساتھ استعمال ہوتا ہے۔ ویژولائزر کو تربیت دینے کے لیے، ہم اسے fit() طریقہ کہتے ہیں۔

پلاٹ بچانا

Yellowbrick visualizer کے استعمال سے بنائے گئے پلاٹ کو بچانے کے لیے، ہم show() طریقہ کو مندرجہ ذیل کہتے ہیں۔ یہ پلاٹ کو ڈسک پر PNG فائل کے طور پر محفوظ کر دے گا۔

visualizer.show(outpath="name_of_the_plot.png")

استعمال

پرنسپل جزو پلاٹ 2D یا 3D سکیٹر پلاٹ میں اعلی جہتی ڈیٹا کا تصور کرتا ہے۔ لہذا، یہ پلاٹ اعلی جہتی ڈیٹا میں اہم نمونوں کی شناخت کے لیے انتہائی مفید ہے۔

ییلو برک کا نفاذ

روایتی طریقے سے اس پلاٹ کو بنانا پیچیدہ اور وقت طلب ہے۔ ہمیں پہلے ڈیٹاسیٹ پر PCA لاگو کرنے کی ضرورت ہے اور پھر سکیٹر پلاٹ بنانے کے لیے matplotlib لائبریری کا استعمال کریں۔

اس کے بجائے، ہم اسی فعالیت کو حاصل کرنے کے لیے Yellowbrick کی PCA visualizer کلاس کا استعمال کر سکتے ہیں۔ یہ بنیادی اجزاء کے تجزیہ کا طریقہ استعمال کرتا ہے، ڈیٹاسیٹ کی جہت کو کم کرتا ہے اور کوڈ کی 2 یا 3 لائنوں کے ساتھ سکیٹر پلاٹ بناتا ہے! ہمیں صرف PCA() کلاس میں کچھ کلیدی الفاظ کے دلائل بتانے کی ضرورت ہے۔

آئیے اس کو مزید سمجھنے کے لیے ایک مثال لیتے ہیں۔ یہاں، ہم استعمال کرتے ہیں چھاتی کا سرطان ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں) جس میں 30 خصوصیات اور دو کلاسوں کے 569 نمونے ہیں (مہلک اور مہربان)۔ ڈیٹا میں اعلی جہت (30 خصوصیات) کی وجہ سے، اصل ڈیٹا کو 2D یا 3D سکیٹر پلاٹ میں پلاٹ کرنا ناممکن ہے جب تک کہ ہم ڈیٹاسیٹ پر PCA لاگو نہ کریں۔

درج ذیل کوڈ بتاتا ہے کہ ہم 2 جہتی ڈیٹاسیٹ کا 30D سکیٹر پلاٹ بنانے کے لیے Yellowbrick کے PCA ویزولائزر کو کس طرح استعمال کر سکتے ہیں۔

(Code by author)
Principal Component Plot — 2D (Image by autr)

ہم ترتیب دے کر 3D سکیٹر پلاٹ بھی بنا سکتے ہیں۔ projection=3PCA() کلاس میں۔

(Code by author)
Principal Component Plot — 3D (Image by author)

PCA visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • پیمانہ: bool، ڈیفالٹ True. یہ بتاتا ہے کہ آیا ڈیٹا کو چھوٹا کیا جانا چاہیے یا نہیں۔ ہمیں پی سی اے چلانے سے پہلے ڈیٹا کی پیمائش کرنی چاہیے۔ متعلق مزید پڑھئے یہاں.
  • پروجیکشن: int، ڈیفالٹ 2 ہے. کب projection=2، ایک 2D سکیٹر پلاٹ بنایا گیا ہے۔ کب projection=3، ایک 3D سکیٹر پلاٹ بنایا گیا ہے۔
  • کلاسز: فہرست، طے شدہ None. یہ y میں ہر کلاس کے لیے کلاس لیبل کی نشاندہی کرتا ہے۔ کلاس کے نام لیجنڈ کے لیبل ہوں گے۔

استعمال

توثیق کا منحنی خطوط a کے اثر کو مرتب کرتا ہے۔ ایک ٹرین اور توثیق سیٹ پر hyperparameter. وکر کو دیکھ کر، ہم دیے گئے ہائپر پیرامیٹر کی مخصوص اقدار کے لیے ماڈل کی اوور فٹنگ، کم فٹنگ اور بالکل صحیح حالات کا تعین کر سکتے ہیں۔ جب ایک ساتھ ٹیون کرنے کے لیے متعدد ہائپرپیرامیٹر ہوتے ہیں تو توثیق کا منحنی خطوط استعمال نہیں کیا جا سکتا۔ انسٹیٹڈ، آپ گرڈ سرچ یا بے ترتیب تلاش استعمال کر سکتے ہیں۔

ییلو برک کا نفاذ

روایتی طریقہ کے ساتھ توثیق کا منحنی خطوط بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's ValidationCurve visualizer استعمال کر سکتے ہیں۔

ییلو برک میں توثیقی وکر کی منصوبہ بندی کرنے کے لیے، ہم اسی کا استعمال کرتے ہوئے ایک بے ترتیب جنگل کا درجہ بندی کریں گے چھاتی کا سرطان ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں). ہم کے اثر و رسوخ کی سازش کریں گے۔ زیادہ سے زیادہ_گہرائی بے ترتیب جنگل کے ماڈل میں ہائپر پیرامیٹر۔

مندرجہ ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح ییلو برک کے ویلیڈیشن کریو ویژولائزر کو استعمال کر کے ایک توثیق کریو بنانے کے لیے استعمال کر سکتے ہیں۔ چھاتی کا سرطان ڈیٹاسیٹ

(Code by author)
Validation Curve (Image by author)

ماڈل کے بعد overfit کرنے کے لئے شروع ہوتا ہے زیادہ سے زیادہ_گہرائی 6 کی قدر۔ کب max_depth=6، ماڈل ٹریننگ ڈیٹا پر بہت اچھی طرح سے فٹ بیٹھتا ہے اور نئے ان دیکھے ڈیٹا کو بھی اچھی طرح سے عام کرتا ہے۔

ValidationCurve visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: یہ کوئی بھی Scikit-learn ML ماڈل ہو سکتا ہے جیسے کہ فیصلہ ٹری، رینڈم فاریسٹ، سپورٹ ویکٹر مشین وغیرہ۔
  • param_name: یہ اس ہائپر پیرامیٹر کا نام ہے جس کی ہم نگرانی کرنا چاہتے ہیں۔
  • param_range: اس میں ممکنہ قدریں شامل ہیں۔ param_name.
  • سی وی: int، کراس توثیق کے لیے فولڈز کی تعداد کی وضاحت کرتا ہے۔
  • سکورنگ: تار، ماڈل کے اسکورنگ کے طریقہ کار پر مشتمل ہے۔ درجہ بندی کے لیے، درستگی ترجیح دی ہے

استعمال

سیکھنے کا منحنی خطوط تربیت اور توثیق کی غلطیوں یا درستگیوں کو دوروں کی تعداد یا تربیتی مثالوں کی تعداد کے خلاف پیش کرتا ہے۔ آپ سوچ سکتے ہیں کہ سیکھنے اور توثیق کے منحنی خطوط دونوں ایک جیسے دکھائی دیتے ہیں، لیکن تکرار کی تعداد کو سیکھنے کے منحنی خطوط کے ایکس محور میں پلاٹ کیا جاتا ہے جبکہ ہائپر پیرامیٹر کی قدریں توثیق کے منحنی خطوط کے ایکس محور میں پلاٹ کی جاتی ہیں۔

سیکھنے کے منحنی خطوط کے استعمال میں شامل ہیں:

  • سیکھنے کی وکر کا پتہ لگانے کے لیے استعمال کیا جاتا ہے۔ انڈر فٹنگ, اوور فٹنگ اور بالکل صحیح ماڈل کی شرائط.
  • سیکھنے کی وکر کو شناخت کرنے کے لیے استعمال کیا جاتا ہے۔ slow convergence, اوسکیلیٹنگ, انحراف کے ساتھ oscillating اور مناسب ہم آہنگی منظرنامے جب کسی عصبی نیٹ ورک یا ایم ایل ماڈل کی سیکھنے کی بہترین شرح تلاش کرتے ہیں۔
  • سیکھنے کے منحنی خطوط کا استعمال یہ دیکھنے کے لیے کیا جاتا ہے کہ ہمارے ماڈل کو مزید تربیتی ڈیٹا شامل کرنے سے کتنا فائدہ ہوتا ہے۔ اس طرح استعمال ہونے پر، ایکس محور تربیتی مثالوں کی تعداد دکھاتا ہے۔

ییلو برک کا نفاذ

روایتی طریقہ کے ساتھ سیکھنے کا منحنی خطوط پیدا کرنا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's LearningCurve visualizer استعمال کر سکتے ہیں۔

ییلو برک میں سیکھنے کے منحنی خطوط کی منصوبہ بندی کرنے کے لیے، ہم اسی کا استعمال کرتے ہوئے ایک سپورٹ ویکٹر کلاسیفائر بنائیں گے۔ چھاتی کا سرطان ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں).

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح ییلو برک کے لرننگ کرو ویژولائزر کو استعمال کر کے ایک توثیق کریو بنانے کے لیے استعمال کر سکتے ہیں۔ چھاتی کا سرطان ڈیٹاسیٹ

(Code by author)
سیکھنے یا جاننے کے مراحل کی خمدار لکیر (Image by author)

ماڈل کو مزید تربیتی مثالیں شامل کرنے سے کوئی فائدہ نہیں ہوگا۔ ماڈل کو پہلے ہی 569 ٹریننگ مثالوں کے ساتھ تربیت دی جا چکی ہے۔ تربیت کی 175 مثالوں کے بعد توثیق کی درستگی بہتر نہیں ہو رہی ہے۔

LearningCurve visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: یہ کوئی بھی Scikit-learn ML ماڈل ہو سکتا ہے جیسے کہ فیصلہ ٹری، رینڈم فاریسٹ، سپورٹ ویکٹر مشین وغیرہ۔
  • سی وی: int، کراس توثیق کے لیے فولڈز کی تعداد کی وضاحت کرتا ہے۔
  • سکورنگ: تار، ماڈل کے اسکورنگ کے طریقہ کار پر مشتمل ہے۔ درجہ بندی کے لیے، درستگی ترجیح دی ہے

استعمال

K-Means کلسٹرنگ میں کلسٹرز کی زیادہ سے زیادہ تعداد کو منتخب کرنے کے لیے کہنی کا پلاٹ استعمال کیا جاتا ہے۔ ماڈل اس مقام پر بہترین فٹ بیٹھتا ہے جہاں لائن چارٹ میں کہنی واقع ہوتی ہے۔ کہنی چارٹ پر موڑنے کا نقطہ ہے۔

ییلو برک کا نفاذ

روایتی طریقہ کے ساتھ ایلبو پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's KelbowVisualizer استعمال کر سکتے ہیں۔

ییلو برک میں سیکھنے کے منحنی خطوط کی منصوبہ بندی کرنے کے لیے، ہم اس کا استعمال کرتے ہوئے K-Means کلسٹرنگ ماڈل بنائیں گے۔ iris ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں).

مندرجہ ذیل کوڈ کی وضاحت کرتا ہے کہ ہم کس طرح Yellowbrick's KElbowVisualizer کو استعمال کر کے ایلبو پلاٹ بنانے کے لیے استعمال کر سکتے ہیں۔ iris ڈیٹاسیٹ

(Code by author)
Elbow Plot (Image by author)

۔ کہنی k=4 پر ہوتا ہے (ایک ڈیشڈ لائن کے ساتھ تشریح شدہ)۔ پلاٹ بتاتا ہے کہ ماڈل کے لیے کلسٹرز کی زیادہ سے زیادہ تعداد 4 ہے۔ دوسرے لفظوں میں، ماڈل 4 کلسٹرز کے ساتھ اچھی طرح سے فٹ ہے۔

KelbowVisualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: K- کا مطلب ماڈل مثال ہے۔
  • k: int یا tuple. اگر ایک عددی ہے، تو یہ (2، k) کی حد میں کلسٹرز کے سکور کی گنتی کرے گا۔ اگر ایک ٹوپل، یہ دی گئی رینج میں کلسٹرز کے لیے اسکورز کی گنتی کرے گا، مثال کے طور پر، (3، 11)۔

استعمال

سلہیٹ پلاٹ کا استعمال K-Means کلسٹرنگ میں کلسٹرز کی زیادہ سے زیادہ تعداد کو منتخب کرنے اور کلسٹر کے عدم توازن کا پتہ لگانے کے لیے کیا جاتا ہے۔ یہ پلاٹ ایلبو پلاٹ کے مقابلے میں بہت درست نتائج فراہم کرتا ہے۔

ییلو برک کا نفاذ

روایتی طریقہ کے ساتھ سلیویٹ پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's SilhouetteVisualizer استعمال کر سکتے ہیں۔

ییلو برک میں ایک سلیویٹ پلاٹ بنانے کے لیے، ہم اس کا استعمال کرتے ہوئے K-Means کلسٹرنگ ماڈل بنائیں گے۔ iris ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں).

مندرجہ ذیل کوڈ بلاکس اس بات کی وضاحت کرتے ہیں کہ ہم کس طرح ییلو برک کے سلہوٹ ویزوئلائزر کو استعمال کرتے ہوئے سلہیٹ پلاٹ بنانے کے لیے استعمال کر سکتے ہیں۔ iris مختلف k (کلسٹرز کی تعداد) اقدار کے ساتھ ڈیٹا سیٹ۔

k = 2

(Code by author)
Silhouette Plot with 2 Clusters (k=2), (Image by author)

KMeans() کلاس میں کلسٹرز کی تعداد کو تبدیل کرکے، ہم k=3، k=4 اور k=5 ہونے پر سلائیٹ پلاٹ بنانے کے لیے اوپر کوڈ کو مختلف اوقات میں عمل میں لا سکتے ہیں۔

k = 3

Silhouette Plot with 3 Clusters (k=3), (Image by author)

k = 4

Silhouette Plot with 4 Clusters (k=4), (Image by author)

k = 5

Silhouette Plot with 4 Clusters (k=5), (Image by author)

سلہیٹ پلاٹ میں فی کلسٹر ایک چاقو کی شکل ہوتی ہے۔ ہر چاقو کی شکل سلاخوں کے ذریعہ بنائی گئی ہے جو کلسٹر میں موجود تمام ڈیٹا پوائنٹس کی نمائندگی کرتی ہے۔ لہذا، چاقو کی شکل کی چوڑائی کلسٹر میں تمام مثالوں کی تعداد کی نمائندگی کرتی ہے۔ بار کی لمبائی ہر ایک مثال کے لئے سلہیٹ کوفیسینٹ کی نمائندگی کرتی ہے۔ ڈیشڈ لائن سلہیٹ سکور کی نشاندہی کرتی ہے — ماخذ: ہینڈز آن K- کا مطلب کلسٹرنگ (میرے ذریعہ لکھا گیا)۔

چاقو کی شکلوں کی تقریباً مساوی چوڑائی والا پلاٹ ہمیں بتاتا ہے کہ کلسٹرز اچھی طرح سے متوازن ہیں اور ہر کلسٹر کے اندر تقریباً ایک جیسی مثالیں ہیں — K-Means کلسٹرنگ میں سب سے اہم مفروضوں میں سے ایک۔

جب چاقو کی شکل میں سلاخیں ڈیشڈ لائن کو بڑھاتی ہیں، تو کلسٹر اچھی طرح سے الگ ہوجاتے ہیں - K-Means کلسٹرنگ میں ایک اور اہم مفروضہ۔

جب k=3، کلسٹرز اچھی طرح سے متوازن اور اچھی طرح سے الگ ہوتے ہیں۔ لہذا، ہماری مثال میں کلسٹرز کی بہترین تعداد 3 ہے۔

SilhouetteVisualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: K- کا مطلب ماڈل مثال ہے۔
  • رنگ: سٹرنگ، ہر چاقو کی شکل کے لیے استعمال ہونے والے رنگوں کا مجموعہ۔ 'yellowbrick' یا Matplotlib رنگین نقشہ کے تاروں میں سے ایک جیسے 'Accent'، 'Set1'، وغیرہ۔

استعمال

کلاس عدم توازن کا پلاٹ درجہ بندی ڈیٹاسیٹس میں ہدف کالم میں کلاسوں کے عدم توازن کا پتہ لگاتا ہے۔

طبقاتی عدم توازن اس وقت ہوتا ہے جب ایک طبقے میں دوسرے طبقے کے مقابلے میں نمایاں طور پر زیادہ واقعات ہوتے ہیں۔ مثال کے طور پر، اسپام ای میل کا پتہ لگانے سے متعلق ڈیٹا سیٹ میں "اسپام نہیں" زمرے کے لیے 9900 مثالیں ہیں اور "اسپام" زمرے کے لیے صرف 100 مثالیں ہیں۔ ماڈل اقلیتی طبقے کو حاصل کرنے میں ناکام رہے گا۔ سپیم قسم). اس کے نتیجے میں، ماڈل اقلیتی طبقے کی پیشین گوئی کرنے میں درست نہیں ہوگا جب طبقاتی عدم توازن پیدا ہوتا ہے — ماخذ: ٹاپ 20 مشین لرننگ اور گہری سیکھنے کی غلطیاں جو پردے کے پیچھے خفیہ طور پر ہوتی ہیں۔ (میرے ذریعہ لکھا گیا)۔

ییلو برک کا نفاذ

روایتی طریقہ کار کے ساتھ طبقاتی عدم توازن کا منصوبہ پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's ClassBalance visualizer استعمال کر سکتے ہیں۔

ییلو برک میں طبقاتی عدم توازن کا پلاٹ بنانے کے لیے، ہم استعمال کریں گے۔ چھاتی کا سرطان ڈیٹاسیٹ (درجہ بندی ڈیٹاسیٹ، دیکھیں نظیر آخر میں).

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح ییلو برک کے کلاس بیلنس ویژولائزر کو استعمال کر کے طبقاتی عدم توازن کا پلاٹ بنا سکتے ہیں۔ چھاتی کا سرطان ڈیٹاسیٹ

(Code by author)
Class Imbalance Plot (Image by author)

میں 200 سے زیادہ واقعات ہیں۔ مہلک کلاس اور میں 350 سے زیادہ واقعات مہربان کلاس لہذا، ہم یہاں زیادہ طبقاتی عدم توازن نہیں دیکھ سکتے ہیں حالانکہ مثالیں دو طبقوں میں یکساں طور پر تقسیم نہیں کی گئی ہیں۔

ClassBalance visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • لیبلز: فہرست، ہدف کے کالم میں منفرد کلاسوں کے نام۔

استعمال

لکیری رجعت میں بقایا پلاٹ کا استعمال اس بات کا تعین کرنے کے لیے کیا جاتا ہے کہ آیا ریگریشن ماڈل میں غلطیوں کے تغیر کا تجزیہ کرکے باقیات (مشاہدہ اقدار کی پیش گوئی شدہ اقدار) غیر مربوط (آزاد) ہیں۔

بقایا پلاٹ بقایا کو پیشین گوئیوں کے خلاف سازش کرکے تخلیق کیا جاتا ہے۔ اگر پیشین گوئیوں اور بقایا جات کے درمیان کسی قسم کا نمونہ ہے، تو یہ اس بات کی تصدیق کرتا ہے کہ نصب شدہ ریگریشن ماڈل کامل نہیں ہے۔ اگر پوائنٹس کو تصادفی طور پر ایکس محور کے گرد منتشر کیا جاتا ہے، تو ریگریشن ماڈل ڈیٹا کے ساتھ اچھی طرح سے فٹ ہوجاتا ہے۔

ییلو برک کا نفاذ

روایتی طریقہ سے بقایا پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's ResidualsPlot visualizer استعمال کر سکتے ہیں۔

ییلو برک میں بقایا پلاٹ بنانے کے لیے، ہم استعمال کریں گے۔ اشتہار. (Advertising.csvدیکھ، نظیر آخر میں) ڈیٹا سیٹ۔

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح یلو برک کے بقایا پلاٹ ویژولائزر کو استعمال کر کے بقایا پلاٹ بنانے کے لیے استعمال کر سکتے ہیں۔ اشتہار. ڈیٹاسیٹ

(Code by author)
Residuals Plot (Image by author)

ہم بقایا پلاٹ میں پیشین گوئیوں اور بقایا کے درمیان واضح طور پر کسی قسم کا غیر لکیری نمونہ دیکھ سکتے ہیں۔ فٹ شدہ ریگریشن ماڈل کامل نہیں ہے، لیکن یہ کافی اچھا ہے۔

ResidualsPlot visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: یہ کوئی بھی سکِٹ لرن ریگریسر ہو سکتا ہے۔
  • ہسٹ: bool، ڈیفالٹ True. آیا باقیات کے ہسٹوگرام کو پلاٹ کرنا ہے، جو کسی دوسرے مفروضے کو جانچنے کے لیے استعمال کیا جاتا ہے — باقیات کو تقریباً عام طور پر اوسط 0 اور ایک مقررہ معیاری انحراف کے ساتھ تقسیم کیا جاتا ہے۔

استعمال

لکیری رجعت میں پیشن گوئی کی غلطی کا پلاٹ ایک گرافیکل طریقہ ہے جو ریگریشن ماڈل کا اندازہ کرنے کے لیے استعمال ہوتا ہے۔

پیشین گوئی کی غلطی کا پلاٹ اصل ہدف اقدار کے خلاف پیشین گوئیوں کو پلاٹ کرکے بنایا جاتا ہے۔

اگر ماڈل بہت درست پیشین گوئیاں کرتا ہے تو پوائنٹس 45 ڈگری لائن پر ہونے چاہئیں۔ دوسری صورت میں، پوائنٹس اس لائن کے ارد گرد منتشر ہیں.

ییلو برک کا نفاذ

روایتی طریقہ کے ساتھ پیشین گوئی کی غلطی کا پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's PredictionError visualizer استعمال کر سکتے ہیں۔

ییلو برک میں پیشین گوئی کی غلطی کا پلاٹ بنانے کے لیے، ہم استعمال کریں گے۔ اشتہار. (Advertising.csvدیکھ، نظیر آخر میں) ڈیٹا سیٹ۔

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح یلو برک کے پیشن گوئی ایرر ویژولائزر کو استعمال کر کے بقایا پلاٹ بنانے کے لیے استعمال کر سکتے ہیں۔ اشتہار. ڈیٹاسیٹ

(Code by author)
Prediction Error Plot (Image by author)

پوائنٹس بالکل 45 ڈگری لائن پر نہیں ہیں، لیکن ماڈل کافی اچھا ہے۔

PredictionError visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: یہ کوئی بھی سکِٹ لرن ریگریسر ہو سکتا ہے۔
  • شناخت: bool، ڈیفالٹ True. آیا 45 ڈگری لائن کھینچنی ہے۔

استعمال

کک کا فاصلہ لکیری رجعت پر واقعات کے اثرات کی پیمائش کرتا ہے۔ بڑے اثرات والی مثالوں کو آؤٹ لیئر سمجھا جاتا ہے۔ آؤٹ لیرز کی ایک بڑی تعداد والا ڈیٹاسیٹ پری پروسیسنگ کے بغیر لکیری ریگریشن کے لیے موزوں نہیں ہے۔ بس، کُک کے فاصلے کا پلاٹ ڈیٹاسیٹ میں باہر جانے والوں کا پتہ لگانے کے لیے استعمال ہوتا ہے۔

ییلو برک کا نفاذ

روایتی طریقہ کار کے ساتھ کک کے فاصلے کا پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's CooksDistance visualizer استعمال کر سکتے ہیں۔

یلو برک میں کک کے فاصلے کا پلاٹ بنانے کے لیے، ہم استعمال کریں گے۔ اشتہار. (Advertising.csvدیکھ، نظیر آخر میں) ڈیٹا سیٹ۔

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح یلو برک کے کُکس ڈسٹنس ویژولائزر کو استعمال کر کے کُک کا فاصلہ بنانے کے لیے استعمال کر سکتے ہیں۔ اشتہار. ڈیٹاسیٹ

(Code by author)
Cook’s Distance Plot (Image by author)

کچھ مشاہدات ہیں جو دہلیز (افقی سرخ) لائن کو بڑھاتے ہیں۔ وہ باہر والے ہیں۔ لہذا، ہمیں کوئی بھی ریگریشن ماڈل بنانے سے پہلے ڈیٹا تیار کرنا چاہیے۔

CooksDistance visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • ڈرا_تھریشولڈ: bool، ڈیفالٹ True. آیا دہلیز کی لکیر کھینچنی ہے۔

استعمال

خصوصیت کی اہمیت کا پلاٹ ML ماڈل تیار کرنے کے لیے کم از کم مطلوبہ اہم خصوصیات کو منتخب کرنے کے لیے استعمال کیا جاتا ہے۔ چونکہ تمام خصوصیات ماڈل میں یکساں تعاون نہیں کرتی ہیں، اس لیے ہم ماڈل سے کم اہم خصوصیات کو ہٹا سکتے ہیں۔ اس سے ماڈل کی پیچیدگی کم ہو جائے گی۔ سادہ ماڈلز کی تربیت اور تشریح کرنا آسان ہے۔

خصوصیت کی اہمیت کا پلاٹ ہر خصوصیت کی نسبتی اہمیت کا تصور کرتا ہے۔

ییلو برک کا نفاذ

روایتی طریقہ کار کے ساتھ خصوصیت کی اہمیت کا پلاٹ بنانا پیچیدہ اور وقت طلب ہے۔ اس کے بجائے، ہم Yellowbrick's Feature Importances visualizer استعمال کر سکتے ہیں۔

یلو برک میں خصوصیت کی اہمیت کا پلاٹ بنانے کے لیے، ہم استعمال کریں گے۔ چھاتی کا سرطان ڈیٹا سیٹ (دیکھیں۔ نظیر آخر میں) جس میں 30 خصوصیات ہیں۔

درج ذیل کوڈ میں بتایا گیا ہے کہ ہم کس طرح یلو برک کے فیچر امپورٹنس ویزولائزر کو استعمال کر کے فیچر اہمیت کا پلاٹ بنا سکتے ہیں۔ چھاتی کا سرطان ڈیٹاسیٹ

(Code by author)
Feature Importances Plot (Image by author)

ڈیٹاسیٹ میں موجود تمام 30 خصوصیات ماڈل میں زیادہ تعاون نہیں کرتی ہیں۔ ہم ڈیٹاسیٹ سے چھوٹی سلاخوں والی خصوصیات کو ہٹا سکتے ہیں اور منتخب خصوصیات کے ساتھ ماڈل کو ریفٹ کر سکتے ہیں۔

Feature Importances visualizer کے سب سے اہم پیرامیٹرز میں شامل ہیں:

  • تخمینہ لگانے والا: کوئی اسکِٹ لرن کا تخمینہ لگانے والا جو یا تو سپورٹ کرتا ہے۔ feature_importances_ وصف یا coef_ وصف.
  • رشتہ دار: bool، ڈیفالٹ True. چاہے فیصد کے طور پر متعلقہ اہمیت کو پلاٹ کیا جائے۔ اگر False، خصوصیت کی اہمیت کا خام عددی سکور دکھایا گیا ہے۔
  • مطلق: bool، ڈیفالٹ False. آیا منفی علامات سے گریز کرتے ہوئے صرف گتانک کی وسعت پر غور کیا جائے۔
  1. پرنسپل اجزاء پلاٹ: PCA(), استعمال — 2D یا 3D سکیٹر پلاٹ میں اعلی جہتی ڈیٹا کو تصور کرتا ہے جسے اعلی جہتی ڈیٹا میں اہم نمونوں کی شناخت کے لیے استعمال کیا جا سکتا ہے۔
  2. توثیق وکر: ValidationCurve(), استعمال - پلاٹ کا اثر و رسوخ a ایک ٹرین اور توثیق سیٹ پر hyperparameter.
  3. سیکھنے یا جاننے کے مراحل کی خمدار لکیر: سیکھنے یا جاننے کے مراحل کی خمدار لکیر(), استعمال - پتہ لگاتا ہے انڈر فٹنگ, اوور فٹنگ اور بالکل صحیح ماڈل کی شرائط، شناخت کرتا ہے۔ slow convergence, اوسکیلیٹنگ, انحراف کے ساتھ oscillating اور مناسب ہم آہنگی منظرنامے جب کسی عصبی نیٹ ورک کی سیکھنے کی بہترین شرح تلاش کرتے ہیں، یہ ظاہر کرتا ہے کہ ہمارے ماڈل کو مزید تربیتی ڈیٹا شامل کرنے سے کتنا فائدہ ہوتا ہے۔
  4. کہنی کا پلاٹ: Kelbowvisualizer(), استعمال — K-Means کلسٹرنگ میں کلسٹرز کی بہترین تعداد کا انتخاب کرتا ہے۔
  5. سلہیٹ پلاٹ: SilhouetteVisualizer(), استعمال — K-Means کلسٹرنگ میں کلسٹرز کی بہترین تعداد کا انتخاب کرتا ہے، K-Means کلسٹرنگ میں کلسٹر کے عدم توازن کا پتہ لگاتا ہے۔
  6. طبقاتی عدم توازن کا پلاٹ: کلاس بیلنس (), استعمال — درجہ بندی ڈیٹاسیٹس میں ہدف کالم میں کلاسوں کے عدم توازن کا پتہ لگاتا ہے۔
  7. بقایا پلاٹ: بقایا پلاٹ(), استعمال — ریگریشن ماڈل میں غلطیوں کے تغیر کا تجزیہ کرکے اس بات کا تعین کرتا ہے کہ آیا باقیات (مشاہدہ اقدار کی پیش گوئی شدہ اقدار) غیر مربوط (آزاد) ہیں۔
  8. پیشین گوئی کی غلطی کا پلاٹ: پیشین گوئی کی خرابی (), استعمال — ایک گرافیکل طریقہ جو کہ ریگریشن ماڈل کا جائزہ لینے کے لیے استعمال ہوتا ہے۔
  9. کک کا فاصلہ پلاٹ: باورچی فاصلہ (), استعمال — کک کی مثالوں کی دوری کی بنیاد پر ڈیٹاسیٹ میں آؤٹ لیرز کا پتہ لگاتا ہے۔
  10. خصوصیت کی اہمیت پلاٹ: خصوصیت کی اہمیت (), استعمال — ML ماڈل تیار کرنے کے لیے ہر خصوصیت کی متعلقہ اہمیت کی بنیاد پر کم از کم مطلوبہ اہم خصوصیات کا انتخاب کرتا ہے۔

یہ آج کی پوسٹ کا اختتام ہے۔

اگر آپ کا کوئی سوال یا رائے ہے تو براہ کرم مجھے بتائیں۔

Read next (Recommended)

  • Yellowbrick for Visualizing Features’ Importances Using a Single Line of Code
  • Validation Curve Explained — Plot the influence of a single hyperparameter
  • Plotting the Learning Curve to Analyze the Training Performance of a Neural Network
  • ہینڈز آن K- کا مطلب کلسٹرنگ

Support me as a writer

I hope you enjoyed reading this article. If you’d like to support me as a writer, kindly consider signing up for a membership to get unlimited access to Medium. It only costs $5 per month and I will receive a portion of your membership fee.

Thank you so much for your continuous support! See you in the next article. Happy learning to everyone!

چھاتی کے کینسر کے ڈیٹاسیٹ کی معلومات

  • حوالہ جات: دعا، ڈی اور گراف، سی. (2019)۔ UCI مشین لرننگ ریپوزٹری [http://archive.ics.uci.edu/ml]۔ اروائن، CA: یونیورسٹی آف کیلیفورنیا، سکول آف انفارمیشن اینڈ کمپیوٹر سائنس۔
  • ماخذ: https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)
  • اجازت نامے: ڈاکٹر ولیم ایچ وولبرگ (جنرل سرجری ڈیپارٹمنٹ
    یونیورسٹی آف وسکونسن) ڈبلیو نک اسٹریٹ (کمپیوٹر سائنسز ڈیپارٹمنٹ
    یونیورسٹی آف وسکونسن) اور اولوی ایل منگاسارین (کمپیوٹر سائنسز ڈپارٹمنٹ یونیورسٹی آف وسکونسن) کے پاس اس ڈیٹاسیٹ کے کاپی رائٹ ہیں۔ نک اسٹریٹ نے اس ڈیٹاسیٹ کو عوام کے لیے عطیہ کیا تخلیقی العام انتساب 4.0 بین الاقوامی لائسنس (CC BY 4.0)۔ آپ مختلف ڈیٹا سیٹ لائسنس کی اقسام کے بارے میں مزید جان سکتے ہیں۔ یہاں.

Iris ڈیٹاسیٹ کی معلومات

  • حوالہ جات: دعا، ڈی اور گراف، سی. (2019)۔ UCI مشین لرننگ ریپوزٹری [http://archive.ics.uci.edu/ml]۔ اروائن، CA: یونیورسٹی آف کیلیفورنیا، سکول آف انفارمیشن اینڈ کمپیوٹر سائنس۔
  • ماخذ: https://archive.ics.uci.edu/ml/datasets/iris
  • اجازت نامے: آر اے فشر اس ڈیٹاسیٹ کا کاپی رائٹ رکھتا ہے۔ مائیکل مارشل نے اس ڈیٹاسیٹ کو عوام کے لیے عطیہ کیا۔ کریٹیو کامنز پبلک ڈومین ڈیڈیکیشن لائسنس (CC0)۔ آپ مختلف ڈیٹا سیٹ لائسنس کی اقسام کے بارے میں مزید جان سکتے ہیں۔ یہاں.

ایڈورٹائزنگ ڈیٹاسیٹ کی معلومات

حوالہ جات

10 Amazing Machine Learning Visualizations You Should Know in 2023 Republished from Source https://towardsdatascience.com/10-amazing-machine-learning-visualizations-you-should-know-in-2023-528282940582?source=rss—-7f60cf5620c9—4 via https://towardsdatascience.com/feed

<!–

->

ٹائم اسٹیمپ:

سے زیادہ بلاکچین کنسلٹنٹس