متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی

متن کی درجہ بندی میں فیچر سلیکشن کے طریقے استعمال کرنا

متن کی درجہ بندی میں، خصوصیت کا انتخاب تربیتی سیٹ کی شرائط کے مخصوص ذیلی سیٹ کو منتخب کرنے اور درجہ بندی الگورتھم میں صرف ان کا استعمال کرنے کا عمل ہے۔ خصوصیت کے انتخاب کا عمل درجہ بندی کرنے والے کی تربیت سے پہلے ہوتا ہے۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Chi-square اور Mutual Information Feature سلیکشن کے طریقوں کے نفاذ کو دیکھنے کے لیے پیکیج com.datumbox.framework.machinelearning.featureselection کو دیکھیں۔

فیچر سلیکشن الگورتھم استعمال کرنے کے اہم فوائد یہ ہیں کہ یہ ہمارے ڈیٹا کے طول و عرض کو کم کرتا ہے، یہ تربیت کو تیز تر بناتا ہے اور یہ شور والی خصوصیات کو ہٹا کر درستگی کو بہتر بنا سکتا ہے۔ نتیجے کے طور پر خصوصیت کا انتخاب ہمیں اوور فٹنگ سے بچنے میں مدد کر سکتا ہے۔

k بہترین خصوصیات کو منتخب کرنے کے لیے بنیادی سلیکشن الگورتھم ذیل میں پیش کیا گیا ہے (میننگ ایٹ ال، 2008):

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی

اگلے حصوں میں ہم دو مختلف فیچر سلیکشن الگورتھم پیش کرتے ہیں: باہمی معلومات اور چی اسکوائر۔

باہمی معلومات

سب سے عام خصوصیت کے انتخاب کے طریقوں میں سے ایک کلاس c میں اصطلاح t کی باہمی معلومات ہے (میننگ ایٹ ال، 2008)۔ یہ پیمائش کرتا ہے کہ کسی خاص اصطلاح کی موجودگی یا غیر موجودگی c پر درست درجہ بندی کا فیصلہ کرنے میں کتنی معلومات کا حصہ ہے۔ باہمی معلومات کا حساب درج ذیل فارمولے سے کیا جا سکتا ہے۔

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عیہے [1]

ہمارے حسابات میں، چونکہ ہم امکانات کے زیادہ سے زیادہ امکانات کا تخمینہ استعمال کرتے ہیں، ہم درج ذیل مساوات کو استعمال کر سکتے ہیں:

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عیہے [2]

جہاں N دستاویزات کی کل تعداد ہے، Ntcوہ دستاویزات کی گنتی ہیں جن کی قدریں e ہیں۔t (دستاویز میں اصطلاح t کی موجودگی؛ یہ قدر 1 یا 0 لیتا ہے) اور ec(کلاس c میں دستاویز کی موجودگی؛ یہ 1 یا 0 کی قدر لیتا ہے) جس کی نشاندہی دو سبسکرپٹس سے ہوتی ہے، متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی اور متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عی. آخر میں ہمیں نوٹ کرنا چاہیے کہ تمام مذکورہ بالا متغیرات غیر منفی قدریں لیتے ہیں۔

چی اسکوائر

ایک اور عام خصوصیت کے انتخاب کا طریقہ ہے۔ چی اسکوائر. ایکس2 ٹیسٹ کا استعمال اعداد و شمار میں، دوسری چیزوں کے علاوہ، دو واقعات کی آزادی کو جانچنے کے لیے کیا جاتا ہے۔ خاص طور پر خصوصیت کے انتخاب میں ہم اسے جانچنے کے لیے استعمال کرتے ہیں کہ آیا کسی مخصوص اصطلاح کی موجودگی اور مخصوص طبقے کی موجودگی آزاد ہے۔ اس طرح ہم ہر اصطلاح کے لیے درج ذیل مقدار کا تخمینہ لگاتے ہیں اور ہم ان کے اسکور کے حساب سے درجہ بندی کرتے ہیں:

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عیہے [3]

ایکس پر اعلی اسکور2 اس بات کی نشاندہی کریں کہ null hypothesis (H0) کی آزادی کو مسترد کر دینا چاہیے اور اس طرح اصطلاح اور طبقے کی موجودگی پر منحصر ہے۔ اگر وہ منحصر ہیں تو ہم متن کی درجہ بندی کے لیے خصوصیت کا انتخاب کرتے ہیں۔

مندرجہ بالا فارمولے کو اس طرح دوبارہ لکھا جا سکتا ہے:

متن کی درجہ بندی PlatoBlockchain ڈیٹا انٹیلی جنس میں فیچر سلیکشن کے طریقوں کا استعمال۔ عمودی تلاش۔ عیہے [4]

اگر ہم چی اسکوائر کا طریقہ استعمال کرتے ہیں، تو ہمیں صرف ایک پہلے سے طے شدہ خصوصیات کا انتخاب کرنا چاہیے جس میں کلہاڑی ہو۔2 ٹیسٹ اسکور 10.83 سے بڑا ہے جو 0.001 کی سطح پر شماریاتی اہمیت کی نشاندہی کرتا ہے۔

آخر میں لیکن کم از کم ہمیں یہ نوٹ کرنا چاہئے کہ شماریاتی نقطہ نظر سے چی اسکوائر کی خصوصیت کا انتخاب غلط ہے، ایک ڈگری کی آزادی اور یٹس کی اصلاح اس کے بجائے استعمال کیا جانا چاہئے (جس سے شماریاتی اہمیت تک پہنچنا مشکل ہو جائے گا)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے۔ بہر حال جیسے میننگ ایٹ ال (2008) ظاہر ہوا، یہ شور والی خصوصیات ہمارے درجہ بندی کی مجموعی درستگی کو سنجیدگی سے متاثر نہیں کرتی ہیں۔

شور / نایاب خصوصیات کو ہٹانا

ایک اور تکنیک جو ضرورت سے زیادہ فٹنگ سے بچنے، یادداشت کی کھپت کو کم کرنے اور رفتار کو بہتر بنانے میں ہماری مدد کر سکتی ہے، وہ ہے الفاظ سے تمام نایاب اصطلاحات کو ہٹانا۔ مثال کے طور پر کوئی ان تمام اصطلاحات کو ختم کر سکتا ہے جو تمام زمروں میں صرف ایک بار آئی ہیں۔ ان شرائط کو ہٹانے سے میموری کا استعمال ایک اہم عنصر سے کم ہو سکتا ہے اور تجزیہ کی رفتار کو بہتر بنایا جا سکتا ہے۔ آخر میں ہمیں یہ نہیں کرنا چاہئے کہ اس تکنیک کو مندرجہ بالا خصوصیت کے انتخاب کے الگورتھم کے ساتھ مل کر استعمال کیا جاسکتا ہے۔

کیا آپ کو مضمون پسند آیا؟ براہ کرم اسے ٹویٹر پر شیئر کرنے کے لیے ایک منٹ نکالیں۔ 🙂

ٹائم اسٹیمپ:

سے زیادہ ڈیٹا باکس