টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.

পাঠ্য শ্রেণীবিভাগে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা

টেক্সট শ্রেণীবিভাগে, বৈশিষ্ট্য নির্বাচন হল প্রশিক্ষণ সেটের শর্তাবলীর একটি নির্দিষ্ট উপসেট নির্বাচন করার এবং শ্রেণীবিভাগ অ্যালগরিদমে শুধুমাত্র সেগুলি ব্যবহার করার প্রক্রিয়া। বৈশিষ্ট্য নির্বাচন প্রক্রিয়া ক্লাসিফায়ার প্রশিক্ষণের আগে সঞ্চালিত হয়.

আপডেট: Datumbox মেশিন লার্নিং ফ্রেমওয়ার্ক এখন ওপেন সোর্স এবং বিনামূল্যে ডাউনলোড. জাভাতে চি-স্কয়ার এবং পারস্পরিক তথ্য বৈশিষ্ট্য নির্বাচন পদ্ধতির বাস্তবায়ন দেখতে com.datumbox.framework.machinelearning.featureselection প্যাকেজটি দেখুন।

বৈশিষ্ট্য নির্বাচন অ্যালগরিদমগুলি ব্যবহার করার জন্য প্রধান সুবিধাগুলি হল যে এটি আমাদের ডেটার মাত্রা হ্রাস করে, এটি প্রশিক্ষণকে দ্রুততর করে এবং এটি শোরগোলযুক্ত বৈশিষ্ট্যগুলি সরিয়ে নির্ভুলতা উন্নত করতে পারে৷ ফলস্বরূপ বৈশিষ্ট্য নির্বাচন আমাদের ওভারফিটিং এড়াতে সাহায্য করতে পারে।

k সেরা বৈশিষ্ট্যগুলি নির্বাচন করার জন্য মৌলিক নির্বাচন অ্যালগরিদম নীচে উপস্থাপন করা হয়েছে (ম্যানিং এট আল, 2008):

টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.

পরবর্তী বিভাগে আমরা দুটি ভিন্ন বৈশিষ্ট্য নির্বাচন অ্যালগরিদম উপস্থাপন করি: পারস্পরিক তথ্য এবং চি স্কোয়ার।

পারস্পরিক তথ্য

সবচেয়ে সাধারণ বৈশিষ্ট্য নির্বাচন পদ্ধতিগুলির মধ্যে একটি হল ক্লাস c-এ টি শব্দের পারস্পরিক তথ্য (ম্যানিং এট আল, 2008) এটি পরিমাপ করে যে কতটা তথ্য একটি নির্দিষ্ট শব্দের উপস্থিতি বা অনুপস্থিতি গ-তে সঠিক শ্রেণিবিন্যাসের সিদ্ধান্ত নিতে অবদান রাখে। পারস্পরিক তথ্য নিম্নলিখিত সূত্র ব্যবহার করে গণনা করা যেতে পারে:

টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.[1]

আমাদের গণনায়, যেহেতু আমরা সম্ভাব্যতার সর্বাধিক সম্ভাবনা অনুমান ব্যবহার করি আমরা নিম্নলিখিত সমীকরণটি ব্যবহার করতে পারি:

টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.[2]

যেখানে N হল নথির মোট সংখ্যা, Ntcনথির গণনা হল যেগুলির মান রয়েছে et (নথিতে t শব্দের সংঘটন; এটি 1 বা 0 মান নেয়) এবং ec(c ক্লাসে নথির সংঘটন; এটি 1 বা 0 মান নেয়) যা দুটি সাবস্ক্রিপ্ট দ্বারা নির্দেশিত, টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ. এবং টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.. পরিশেষে আমাদের অবশ্যই লক্ষ্য রাখতে হবে যে সমস্ত পূর্বোক্ত ভেরিয়েবল অ-নেতিবাচক মান গ্রহণ করে।

চি স্কোয়ার

আরেকটি সাধারণ বৈশিষ্ট্য নির্বাচন পদ্ধতি হল চি স্কোয়ার. এক্স2 পরীক্ষাটি পরিসংখ্যানে ব্যবহৃত হয়, অন্যান্য জিনিসগুলির মধ্যে, দুটি ঘটনার স্বাধীনতা পরীক্ষা করতে। আরও বিশেষভাবে বৈশিষ্ট্য নির্বাচনে আমরা এটি ব্যবহার করি একটি নির্দিষ্ট শব্দের সংঘটন এবং একটি নির্দিষ্ট শ্রেণীর সংঘটন স্বাধীন কিনা তা পরীক্ষা করতে। এইভাবে আমরা প্রতিটি পদের জন্য নিম্নলিখিত পরিমাণ অনুমান করি এবং আমরা তাদের স্কোর দ্বারা তাদের র‌্যাঙ্ক করি:

টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.[3]

এক্সে উচ্চ স্কোর2 নির্দেশ করে যে শূন্য অনুমান (এইচ0স্বাধীনতার ) প্রত্যাখ্যান করা উচিত এবং এইভাবে শব্দ এবং শ্রেণির ঘটনা নির্ভরশীল। যদি তারা নির্ভরশীল হয় তবে আমরা পাঠ্য শ্রেণিবিন্যাসের জন্য বৈশিষ্ট্যটি নির্বাচন করি।

উপরের সূত্রটি নিম্নরূপ পুনর্লিখন করা যেতে পারে:

টেক্সট ক্লাসিফিকেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সে বৈশিষ্ট্য নির্বাচন পদ্ধতি ব্যবহার করা। উল্লম্ব অনুসন্ধান. আ.[4]

যদি আমরা চি স্কোয়ার পদ্ধতি ব্যবহার করি, তাহলে আমাদের শুধুমাত্র একটি পূর্বনির্ধারিত সংখ্যক বৈশিষ্ট্য নির্বাচন করা উচিত যাতে কুঠার রয়েছে2 পরীক্ষার স্কোর 10.83 এর চেয়ে বড় যা 0.001 স্তরে পরিসংখ্যানগত তাত্পর্য নির্দেশ করে।

শেষ কিন্তু অন্তত আমাদের মনে রাখা উচিত যে পরিসংখ্যানগত দিক থেকে চি স্কোয়ার বৈশিষ্ট্য নির্বাচন ভুল, এক ডিগ্রি স্বাধীনতার কারণে এবং ইয়েটস সংশোধন পরিবর্তে ব্যবহার করা উচিত (যা পরিসংখ্যানগত তাত্পর্য পৌঁছানো কঠিন করে তুলবে)। সুতরাং আমাদের আশা করা উচিত যে মোট নির্বাচিত বৈশিষ্ট্যগুলির মধ্যে, তাদের একটি ছোট অংশ ক্লাস থেকে স্বাধীন)। এইভাবে আমাদের আশা করা উচিত যে মোট নির্বাচিত বৈশিষ্ট্যগুলির মধ্যে, তাদের একটি ছোট অংশ ক্লাস থেকে স্বাধীন। তবুও হিসাবে ম্যানিং এট আল (2008) দেখিয়েছে, এই গোলমাল বৈশিষ্ট্যগুলি আমাদের শ্রেণীবদ্ধকারীর সামগ্রিক নির্ভুলতাকে গুরুত্বের সাথে প্রভাবিত করে না।

শোরগোল/বিরল বৈশিষ্ট্য অপসারণ

আরেকটি কৌশল যা আমাদের অতিরিক্ত ফিটিং এড়াতে, মেমরির খরচ কমাতে এবং গতি উন্নত করতে সাহায্য করতে পারে, তা হল শব্দভাণ্ডার থেকে সমস্ত বিরল পদ অপসারণ করা। উদাহরণ স্বরূপ যে কেউ সমস্ত শ্রেণীতে শুধুমাত্র একবার ঘটে যাওয়া সমস্ত পদগুলিকে বাদ দিতে পারে৷ এই পদগুলি সরানো একটি উল্লেখযোগ্য ফ্যাক্টর দ্বারা মেমরি ব্যবহার কমাতে পারে এবং বিশ্লেষণের গতি উন্নত করতে পারে। অবশেষে আমাদের উচিত নয় যে এই কৌশলটি উপরের বৈশিষ্ট্য নির্বাচন অ্যালগরিদমের সাথে একত্রে ব্যবহার করা যেতে পারে।

আপনি নিবন্ধটি পছন্দ করেছেন? টুইটারে শেয়ার করার জন্য একটি মিনিট সময় নিন। 🙂

সময় স্ট্যাম্প:

থেকে আরো ডেটাবক্স