متن کی درجہ بندی میں فیچر سلیکشن کے طریقے استعمال کرنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

جنوری۳۱، ۲۰۱۹
Vasilis Vryniotis
. 5 تبصرے

متن کی درجہ بندی میں، خصوصیت کا انتخاب تربیتی سیٹ کی شرائط کے مخصوص ذیلی سیٹ کو منتخب کرنے اور درجہ بندی الگورتھم میں صرف ان کا استعمال کرنے کا عمل ہے۔ خصوصیت کے انتخاب کا عمل درجہ بندی کرنے والے کی تربیت سے پہلے ہوتا ہے۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Chi-square اور Mutual Information Feature سلیکشن کے طریقوں کے نفاذ کو دیکھنے کے لیے پیکیج com.datumbox.framework.machinelearning.featureselection کو دیکھیں۔

فیچر سلیکشن الگورتھم استعمال کرنے کے اہم فوائد یہ ہیں کہ یہ ہمارے ڈیٹا کے طول و عرض کو کم کرتا ہے، یہ تربیت کو تیز تر بناتا ہے اور یہ شور والی خصوصیات کو ہٹا کر درستگی کو بہتر بنا سکتا ہے۔ نتیجے کے طور پر خصوصیت کا انتخاب ہمیں اوور فٹنگ سے بچنے میں مدد کر سکتا ہے۔

k بہترین خصوصیات کو منتخب کرنے کے لیے بنیادی سلیکشن الگورتھم ذیل میں پیش کیا گیا ہے (میننگ ایٹ ال، 2008):

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی

اگلے حصوں میں ہم دو مختلف فیچر سلیکشن الگورتھم پیش کرتے ہیں: باہمی معلومات اور چی اسکوائر۔

باہمی معلومات

سب سے عام خصوصیت کے انتخاب کے طریقوں میں سے ایک کلاس c میں اصطلاح t کی باہمی معلومات ہے (میننگ ایٹ ال، 2008)۔ یہ پیمائش کرتا ہے کہ کسی خاص اصطلاح کی موجودگی یا غیر موجودگی c پر درست درجہ بندی کا فیصلہ کرنے میں کتنی معلومات کا حصہ ہے۔ باہمی معلومات کا حساب درج ذیل فارمولے سے کیا جا سکتا ہے۔

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی ہے [1]

ہمارے حسابات میں، چونکہ ہم امکانات کے زیادہ سے زیادہ امکانات کا تخمینہ استعمال کرتے ہیں، ہم درج ذیل مساوات کو استعمال کر سکتے ہیں:

ہے [2]

جہاں N دستاویزات کی کل تعداد ہے، N_tcوہ دستاویزات کی گنتی ہیں جن کی قدریں e ہیں۔_t(دستاویز میں اصطلاح t کی موجودگی؛ یہ قدر 1 یا 0 لیتا ہے) اور e_c(کلاس c میں دستاویز کی موجودگی؛ یہ 1 یا 0 کی قدر لیتا ہے) جس کی نشاندہی دو سبسکرپٹس سے ہوتی ہے، اور . آخر میں ہمیں نوٹ کرنا چاہیے کہ تمام مذکورہ بالا متغیرات غیر منفی قدریں لیتے ہیں۔

چی اسکوائر

ایک اور عام خصوصیت کے انتخاب کا طریقہ ہے۔ چی اسکوائر. ایکس² ٹیسٹ کا استعمال اعداد و شمار میں، دوسری چیزوں کے علاوہ، دو واقعات کی آزادی کو جانچنے کے لیے کیا جاتا ہے۔ خاص طور پر خصوصیت کے انتخاب میں ہم اسے جانچنے کے لیے استعمال کرتے ہیں کہ آیا کسی مخصوص اصطلاح کی موجودگی اور مخصوص طبقے کی موجودگی آزاد ہے۔ اس طرح ہم ہر اصطلاح کے لیے درج ذیل مقدار کا تخمینہ لگاتے ہیں اور ہم ان کے اسکور کے حساب سے درجہ بندی کرتے ہیں:

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی ہے [3]

ایکس پر اعلی اسکور² اس بات کی نشاندہی کریں کہ null hypothesis (H₀) کی آزادی کو مسترد کر دینا چاہیے اور اس طرح اصطلاح اور طبقے کی موجودگی پر منحصر ہے۔ اگر وہ منحصر ہیں تو ہم متن کی درجہ بندی کے لیے خصوصیت کا انتخاب کرتے ہیں۔

مندرجہ بالا فارمولے کو اس طرح دوبارہ لکھا جا سکتا ہے:

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی ہے [4]

اگر ہم چی اسکوائر کا طریقہ استعمال کرتے ہیں، تو ہمیں صرف ایک پہلے سے طے شدہ خصوصیات کا انتخاب کرنا چاہیے جس میں کلہاڑی ہو۔² ٹیسٹ اسکور 10.83 سے بڑا ہے جو 0.001 کی سطح پر شماریاتی اہمیت کی نشاندہی کرتا ہے۔

آخر میں لیکن کم از کم ہمیں یہ نوٹ کرنا چاہئے کہ شماریاتی نقطہ نظر سے چی اسکوائر کی خصوصیت کا انتخاب غلط ہے، ایک ڈگری کی آزادی اور یٹس کی اصلاح اس کے بجائے استعمال کیا جانا چاہئے (جس سے شماریاتی اہمیت تک پہنچنا مشکل ہو جائے گا)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے۔ بہر حال جیسے میننگ ایٹ ال (2008) ظاہر ہوا، یہ شور والی خصوصیات ہمارے درجہ بندی کی مجموعی درستگی کو سنجیدگی سے متاثر نہیں کرتی ہیں۔

شور / نایاب خصوصیات کو ہٹانا

ایک اور تکنیک جو ضرورت سے زیادہ فٹنگ سے بچنے، یادداشت کی کھپت کو کم کرنے اور رفتار کو بہتر بنانے میں ہماری مدد کر سکتی ہے، وہ ہے الفاظ سے تمام نایاب اصطلاحات کو ہٹانا۔ مثال کے طور پر کوئی ان تمام اصطلاحات کو ختم کر سکتا ہے جو تمام زمروں میں صرف ایک بار آئی ہیں۔ ان شرائط کو ہٹانے سے میموری کا استعمال ایک اہم عنصر سے کم ہو سکتا ہے اور تجزیہ کی رفتار کو بہتر بنایا جا سکتا ہے۔ آخر میں ہمیں یہ نہیں کرنا چاہئے کہ اس تکنیک کو مندرجہ بالا خصوصیت کے انتخاب کے الگورتھم کے ساتھ مل کر استعمال کیا جاسکتا ہے۔

کیا آپ کو مضمون پسند آیا؟ براہ کرم اسے ٹویٹر پر شیئر کرنے کے لیے ایک منٹ نکالیں۔ 🙂

ٹائم اسٹیمپ: جنوری۳۱، ۲۰۱۹نومبر 6، 2022

ٹائم اسٹیمپ: اگست 21، 2021

متن کی درجہ بندی میں فیچر سلیکشن کے طریقے استعمال کرنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

باہمی معلومات

چی اسکوائر

شور / نایاب خصوصیات کو ہٹانا

سے زیادہ ڈیٹا باکس

ٹارچ ویژن کو جدید بنانے کا سفر – ٹارچ ویژن ڈویلپر کی یادداشتیں – 3

ڈیریچلیٹ پروسیس مکسچر ماڈل

جاوا میں لکھا ہوا نیا اوپن سورس مشین لرننگ فریم ورک

ڈیریچلیٹ پروسیس مکسچر ماڈلز کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا

Ubuntu 3 پر DejaDup کے ساتھ S20.10 بیک اپ کیسے لیں۔

ڈیٹام باکس مشین لرننگ فریم ورک ورژن 0.8.0 جاری کر دیا گیا۔

اپنا فیس بک جذباتی تجزیہ کا ٹول کیسے بنائیں

لینکس پر ڈراپ باکس کی سملنک حدود کو کیسے حاصل کیا جائے۔

کیراس کے ساتھ ملٹی جی پی یو ٹریننگ کے لیے 5 نکات

اسپارک کے ALS سفارشی الگورتھم میں سوراخ کرنا

ڈیٹا لفافہ تجزیہ ٹیوٹوریل

نئی بلاگ سیریز - ٹارچ ویژن ڈویلپر کی یادداشتیں۔

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ