- جنوری۳۱، ۲۰۱۹
- Vasilis Vryniotis
- . 5 تبصرے
متن کی درجہ بندی میں، خصوصیت کا انتخاب تربیتی سیٹ کی شرائط کے مخصوص ذیلی سیٹ کو منتخب کرنے اور درجہ بندی الگورتھم میں صرف ان کا استعمال کرنے کا عمل ہے۔ خصوصیت کے انتخاب کا عمل درجہ بندی کرنے والے کی تربیت سے پہلے ہوتا ہے۔
اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Chi-square اور Mutual Information Feature سلیکشن کے طریقوں کے نفاذ کو دیکھنے کے لیے پیکیج com.datumbox.framework.machinelearning.featureselection کو دیکھیں۔
فیچر سلیکشن الگورتھم استعمال کرنے کے اہم فوائد یہ ہیں کہ یہ ہمارے ڈیٹا کے طول و عرض کو کم کرتا ہے، یہ تربیت کو تیز تر بناتا ہے اور یہ شور والی خصوصیات کو ہٹا کر درستگی کو بہتر بنا سکتا ہے۔ نتیجے کے طور پر خصوصیت کا انتخاب ہمیں اوور فٹنگ سے بچنے میں مدد کر سکتا ہے۔
k بہترین خصوصیات کو منتخب کرنے کے لیے بنیادی سلیکشن الگورتھم ذیل میں پیش کیا گیا ہے (میننگ ایٹ ال، 2008):
اگلے حصوں میں ہم دو مختلف فیچر سلیکشن الگورتھم پیش کرتے ہیں: باہمی معلومات اور چی اسکوائر۔
باہمی معلومات
سب سے عام خصوصیت کے انتخاب کے طریقوں میں سے ایک کلاس c میں اصطلاح t کی باہمی معلومات ہے (میننگ ایٹ ال، 2008)۔ یہ پیمائش کرتا ہے کہ کسی خاص اصطلاح کی موجودگی یا غیر موجودگی c پر درست درجہ بندی کا فیصلہ کرنے میں کتنی معلومات کا حصہ ہے۔ باہمی معلومات کا حساب درج ذیل فارمولے سے کیا جا سکتا ہے۔
ہے [1]
ہمارے حسابات میں، چونکہ ہم امکانات کے زیادہ سے زیادہ امکانات کا تخمینہ استعمال کرتے ہیں، ہم درج ذیل مساوات کو استعمال کر سکتے ہیں:
ہے [2]
جہاں N دستاویزات کی کل تعداد ہے، Ntcوہ دستاویزات کی گنتی ہیں جن کی قدریں e ہیں۔t (دستاویز میں اصطلاح t کی موجودگی؛ یہ قدر 1 یا 0 لیتا ہے) اور ec(کلاس c میں دستاویز کی موجودگی؛ یہ 1 یا 0 کی قدر لیتا ہے) جس کی نشاندہی دو سبسکرپٹس سے ہوتی ہے، اور . آخر میں ہمیں نوٹ کرنا چاہیے کہ تمام مذکورہ بالا متغیرات غیر منفی قدریں لیتے ہیں۔
چی اسکوائر
ایک اور عام خصوصیت کے انتخاب کا طریقہ ہے۔ چی اسکوائر. ایکس2 ٹیسٹ کا استعمال اعداد و شمار میں، دوسری چیزوں کے علاوہ، دو واقعات کی آزادی کو جانچنے کے لیے کیا جاتا ہے۔ خاص طور پر خصوصیت کے انتخاب میں ہم اسے جانچنے کے لیے استعمال کرتے ہیں کہ آیا کسی مخصوص اصطلاح کی موجودگی اور مخصوص طبقے کی موجودگی آزاد ہے۔ اس طرح ہم ہر اصطلاح کے لیے درج ذیل مقدار کا تخمینہ لگاتے ہیں اور ہم ان کے اسکور کے حساب سے درجہ بندی کرتے ہیں:
ہے [3]
ایکس پر اعلی اسکور2 اس بات کی نشاندہی کریں کہ null hypothesis (H0) کی آزادی کو مسترد کر دینا چاہیے اور اس طرح اصطلاح اور طبقے کی موجودگی پر منحصر ہے۔ اگر وہ منحصر ہیں تو ہم متن کی درجہ بندی کے لیے خصوصیت کا انتخاب کرتے ہیں۔
مندرجہ بالا فارمولے کو اس طرح دوبارہ لکھا جا سکتا ہے:
ہے [4]
اگر ہم چی اسکوائر کا طریقہ استعمال کرتے ہیں، تو ہمیں صرف ایک پہلے سے طے شدہ خصوصیات کا انتخاب کرنا چاہیے جس میں کلہاڑی ہو۔2 ٹیسٹ اسکور 10.83 سے بڑا ہے جو 0.001 کی سطح پر شماریاتی اہمیت کی نشاندہی کرتا ہے۔
آخر میں لیکن کم از کم ہمیں یہ نوٹ کرنا چاہئے کہ شماریاتی نقطہ نظر سے چی اسکوائر کی خصوصیت کا انتخاب غلط ہے، ایک ڈگری کی آزادی اور یٹس کی اصلاح اس کے بجائے استعمال کیا جانا چاہئے (جس سے شماریاتی اہمیت تک پہنچنا مشکل ہو جائے گا)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے)۔ اس طرح ہمیں توقع کرنی چاہئے کہ کل منتخب خصوصیات میں سے، ان کا ایک چھوٹا حصہ کلاس سے آزاد ہے۔ بہر حال جیسے میننگ ایٹ ال (2008) ظاہر ہوا، یہ شور والی خصوصیات ہمارے درجہ بندی کی مجموعی درستگی کو سنجیدگی سے متاثر نہیں کرتی ہیں۔
شور / نایاب خصوصیات کو ہٹانا
ایک اور تکنیک جو ضرورت سے زیادہ فٹنگ سے بچنے، یادداشت کی کھپت کو کم کرنے اور رفتار کو بہتر بنانے میں ہماری مدد کر سکتی ہے، وہ ہے الفاظ سے تمام نایاب اصطلاحات کو ہٹانا۔ مثال کے طور پر کوئی ان تمام اصطلاحات کو ختم کر سکتا ہے جو تمام زمروں میں صرف ایک بار آئی ہیں۔ ان شرائط کو ہٹانے سے میموری کا استعمال ایک اہم عنصر سے کم ہو سکتا ہے اور تجزیہ کی رفتار کو بہتر بنایا جا سکتا ہے۔ آخر میں ہمیں یہ نہیں کرنا چاہئے کہ اس تکنیک کو مندرجہ بالا خصوصیت کے انتخاب کے الگورتھم کے ساتھ مل کر استعمال کیا جاسکتا ہے۔
کیا آپ کو مضمون پسند آیا؟ براہ کرم اسے ٹویٹر پر شیئر کرنے کے لیے ایک منٹ نکالیں۔ 🙂
- AI
- ai آرٹ
- AI آرٹ جنریٹر
- عی روبوٹ
- مصنوعی ذہانت
- مصنوعی ذہانت کا سرٹیفیکیشن
- مصنوعی ذہانت والا روبوٹ
- مصنوعی ذہانت والے روبوٹ
- مصنوعی ذہانت سافٹ ویئر
- blockchain
- بلاکچین کانفرنس
- coingenius
- بات چیت مصنوعی ذہانت
- crypto کانفرنس ai
- dall-e
- ڈیٹا باکس
- گہری سیکھنے
- گوگل عی
- مشین لرننگ
- مشین لرننگ اور شماریات
- پلاٹا
- افلاطون اے
- افلاطون ڈیٹا انٹیلی جنس
- افلاطون گیم
- پلیٹو ڈیٹا
- پلیٹو گیمنگ
- پیمانہ ai
- نحو
- زیفیرنیٹ