ডিরিচলেট ডিস্ট্রিবিউশন প্ল্যাটোব্লকচেন ডেটা ইন্টেলিজেন্সের উপর ভিত্তি করে সসীম মিশ্রণ মডেল। উল্লম্ব অনুসন্ধান. আ.

ডিরিচলেট ডিস্ট্রিবিউশনের উপর ভিত্তি করে সসীম মিশ্রণ মডেল

এই ব্লগ পোস্টটি Dirichlet প্রক্রিয়া মিশ্রণ মডেলের একটি নিবন্ধ সিরিজের দ্বিতীয় অংশ। আগের নিবন্ধে আমরা একটি ছিল কয়েকটি ক্লাস্টার বিশ্লেষণ কৌশলের ওভারভিউ এবং আমরা কিছু সমস্যা/সীমাবদ্ধতা নিয়ে আলোচনা করেছি যা সেগুলি ব্যবহার করে বেড়ে যায়। তাছাড়া আমরা সংক্ষেপে ডিরিচলেট প্রসেস মিশ্রণের মডেলগুলি উপস্থাপন করেছি, কেন তারা দরকারী সে সম্পর্কে আমরা কথা বলেছি এবং আমরা তাদের কিছু অ্যাপ্লিকেশন উপস্থাপন করেছি।

আপডেট: Datumbox মেশিন লার্নিং ফ্রেমওয়ার্ক এখন ওপেন সোর্স এবং বিনামূল্যে ডাউনলোড. জাভাতে ডিরিচলেট প্রসেস মিক্সচার মডেলের বাস্তবায়ন দেখতে com.datumbox.framework.machinelearning.clustering প্যাকেজটি দেখুন।

ডিরিচলেট প্রসেস মিশ্রণ মডেলগুলি প্রাথমিকভাবে গ্রাস করা কিছুটা কঠিন হতে পারে কারণ সেগুলি বিভিন্ন উপস্থাপনা সহ অসীম মিশ্রণের মডেল। সৌভাগ্যবশত বিষয়ের কাছে যাওয়ার একটি ভাল উপায় হল ডিরিচলেট ডিস্ট্রিবিউশনের সাথে সীমাবদ্ধ মিশ্রণ মডেলগুলি থেকে শুরু করা এবং তারপরে অসীমগুলির দিকে যাওয়া।

ফলস্বরূপ এই নিবন্ধে আমি সংক্ষিপ্তভাবে কিছু গুরুত্বপূর্ণ বিতরণ উপস্থাপন করব যা আমাদের প্রয়োজন হবে, আমরা সেগুলিকে বহুপদ সম্ভাবনা মডেলের সাথে ডিরিচলেট প্রার নির্মাণ করতে ব্যবহার করব এবং তারপরে আমরা ডিরিচলেট ডিস্ট্রিবিউশনের উপর ভিত্তি করে সসীম মিশ্রণ মডেলে চলে যাব।

1. বিটা বিতরণ

সার্জারির বিটা বিতরণ ক্রমাগত বিতরণের একটি পরিবার যা [0,1] এর ব্যবধানে সংজ্ঞায়িত করা হয়। এটি দুটি ইতিবাচক পরামিতি a এবং b দ্বারা প্যারামিটারাইজ করা হয়েছে এবং এর ফর্মটি এই দুটি প্যারামিটারের নির্বাচনের উপর নির্ভর করে।

ভাবমূর্তি

চিত্র 1: বিভিন্ন a, b প্যারামিটারের জন্য বিটা বিতরণ

বিটা ডিস্ট্রিবিউশন সাধারণত সম্ভাব্যতার উপর ডিস্ট্রিবিউশন মডেল করতে ব্যবহৃত হয় এবং নিম্নলিখিত সম্ভাবনার ঘনত্ব রয়েছে:

ভাবমূর্তি

সমীকরণ 1: বিটা পিডিএফ

যেখানে Γ(x) হল গামা ফাংশন এবং a, b ডিস্ট্রিবিউশনের প্যারামিটার। বিটা সাধারণত সম্ভাব্যতার মানের বন্টন হিসাবে ব্যবহৃত হয় এবং এটি আমাদের সম্ভাবনা দেয় যে মডেল করা সম্ভাব্যতা একটি নির্দিষ্ট মানের P = p0 এর সমান। এর সংজ্ঞা অনুসারে বিটা ডিস্ট্রিবিউশন বাইনারি ফলাফলের সম্ভাব্যতা মডেল করতে সক্ষম যা সত্য বা মিথ্যা মান নেয়। পরামিতি a এবং b যথাক্রমে সাফল্য এবং ব্যর্থতার ছদ্ম হিসাব হিসাবে বিবেচনা করা যেতে পারে। এইভাবে বিটা ডিস্ট্রিবিউশন একটি সফলতা এবং বি ব্যর্থতার জন্য সাফল্যের সম্ভাবনাকে মডেল করে।

2. ডিরিচলেট বিতরণ

সার্জারির ডিরিচলেট ডিস্ট্রিবিউশন একাধিক ফলাফলের জন্য বিটা ডিস্ট্রিবিউশনের সাধারণীকরণ (বা অন্য কথায় এটি একাধিক ফলাফল সহ ইভেন্টের জন্য ব্যবহৃত হয়)। এটি k পরামিতি a দিয়ে প্যারামিটারাইজ করা হয়i যা ইতিবাচক হতে হবে। ডিরিচলেট ডিস্ট্রিবিউশন বিটা ডিস্ট্রিবিউশনের সমান হয় যখন ভেরিয়েবলের সংখ্যা k = 2।

ভাবমূর্তি

চিত্র 2: বিভিন্ন a এর জন্য ডিরিচলেট বিতরণi পরামিতি

ডিরিচলেট ডিস্ট্রিবিউশন সাধারণত সম্ভাব্যতার উপর একটি বন্টন মডেল করতে ব্যবহৃত হয় এবং নিম্নলিখিত সম্ভাব্যতার ঘনত্ব রয়েছে:

ভাবমূর্তি

সমীকরণ 2: ডিরিচলেট পিডিএফ

যেখানে Γ(x) হল গামা ফাংশন, pi [0,1] এবং Σp-এ মান নিনi=1। ডিরিচলেট ডিস্ট্রিবিউশন মডেল পি এর যৌথ বন্টনi এবং P এর সম্ভাবনা দেয়1=p1,P2=p2,….,পিK-1=pK-1 পি সহk=1 – ΣPi. বেটার ক্ষেত্রে যেমন, কi পরামিতি প্রতিটি i ইভেন্টের উপস্থিতির pseudocounts হিসাবে বিবেচনা করা যেতে পারে। ডিরিচলেট ডিস্ট্রিবিউশনটি k প্রতিদ্বন্দ্বী ঘটনা ঘটার সম্ভাবনার মডেল করতে ব্যবহৃত হয় এবং প্রায়শই ডিরিচলেট(a) হিসাবে চিহ্নিত করা হয়।

3. বহুপদ সম্ভাবনা সহ ডিরিচলেট প্রার

আগেই উল্লেখ করা হয়েছে ডিরিচলেট ডিস্ট্রিবিউশনকে সম্ভাব্যতার ডিস্ট্রিবিউশনের উপর ডিস্ট্রিবিউশন হিসেবে দেখা যেতে পারে। যেসব ক্ষেত্রে আমরা k ঘটনা ঘটার সম্ভাবনার মডেল করতে চাই, সেখানে একটি Bayesian পদ্ধতি ব্যবহার করা হবে মাল্টিনমিয়াল লাইকলিহুড এবং ডিরিচলেট প্রিয়ারস .

নীচে আমরা এই ধরনের একটি মডেলের গ্রাফিক্যাল মডেল দেখতে পারি।

ভাবমূর্তি

চিত্র 3: বহুপদ সম্ভাবনা সহ ডিরিচলেট প্রিয়ারের গ্রাফিকাল মডেল

উপরের গ্রাফিকাল মডেলে, α হল AK ডাইমেনশনাল ভেক্টর যার সাথে Dirichlet priors-এর হাইপারপ্যারামিটার, p হল ak ডাইমেনশনাল ভেক্টর যার সম্ভাব্যতা মান এবং xi 1 থেকে k পর্যন্ত একটি স্কেলার মান যা আমাদের বলে যে কোন ঘটনা ঘটেছে। অবশেষে আমাদের লক্ষ্য করা উচিত যে P ভেক্টর α দিয়ে ডিরিচলেট ডিস্ট্রিবিউশন প্যারামিটারাইজড অনুসরণ করে এবং এইভাবে P ~ ডিরিচলেট(α), যখন xi ভেরিয়েবলগুলি সম্ভাব্যতার p ভেক্টরের সাথে বিযুক্ত ডিস্ট্রিবিউশন (মাল্টিনমিয়াল) প্যারামিটারাইজড অনুসরণ করে। অনুরূপ শ্রেণীবিন্যাস মডেল বিভিন্ন বিষয়ের জন্য কীওয়ার্ড ফ্রিকোয়েন্সি বিতরণের প্রতিনিধিত্ব করতে নথি শ্রেণীবিভাগে ব্যবহার করা যেতে পারে।

4. ডিরিচলেট ডিস্ট্রিবিউশন সহ সীমিত মিশ্রণ মডেল

ডিরিচলেট ডিস্ট্রিবিউশন ব্যবহার করে আমরা একটি নির্মাণ করতে পারি সসীম মিশ্রণ মডেল যা ক্লাস্টারিং সঞ্চালন করতে ব্যবহার করা যেতে পারে। আসুন আমরা অনুমান করি যে আমাদের নিম্নলিখিত মডেল রয়েছে:

ভাবমূর্তি

ভাবমূর্তি

ভাবমূর্তি

ভাবমূর্তি

সমীকরণ 3: ডিরিচলেট ডিস্ট্রিবিউশন সহ সসীম মিশ্রণ মডেল

উপরের মডেলটি নিম্নলিখিতটি অনুমান করে: আমাদের কাছে n পর্যবেক্ষণ সহ একটি ডেটাসেট X রয়েছে এবং আমরা এটিতে ক্লাস্টার বিশ্লেষণ করতে চাই। k হল একটি ধ্রুবক সসীম সংখ্যা যা আমরা ব্যবহার করব এমন ক্লাস্টার/কম্পোনেন্টের সংখ্যা দেখায়। গi ভেরিয়েবলগুলি X পর্যবেক্ষণের ক্লাস্টার অ্যাসাইনমেন্ট সংরক্ষণ করেi, তারা 1 থেকে k পর্যন্ত মান নেয় এবং প্যারামিটার p সহ বিচ্ছিন্ন ডিস্ট্রিবিউশন অনুসরণ করে যা উপাদানগুলির মিশ্রণের সম্ভাব্যতা। F হল আমাদের X এর জেনারেটিভ ডিস্ট্রিবিউশন এবং এটি একটি প্যারামিটার দিয়ে প্যারামিটারাইজ করা হয় ভাবমূর্তি যা প্রতিটি পর্যবেক্ষণের ক্লাস্টার অ্যাসাইনমেন্টের উপর নির্ভর করে। মোট আমরা k অনন্য আছে ভাবমূর্তি আমাদের ক্লাস্টার সংখ্যার সমান পরামিতি। দ্য ভাবমূর্তি ভেরিয়েবল সেই প্যারামিটারগুলি সঞ্চয় করে যা জেনারেটিভ F ডিস্ট্রিবিউশনকে প্যারামিটারাইজ করে এবং আমরা ধরে নিই যে এটি একটি বেস G অনুসরণ করে0 বিতরণ p ভেরিয়েবল k ক্লাস্টারগুলির প্রত্যেকটির জন্য মিশ্রণের শতাংশ সংরক্ষণ করে এবং α/k পরামিতি সহ ডিরিচলেট অনুসরণ করে। অবশেষে α হল ডিরিচলেট ডিস্ট্রিবিউশনের হাইপারপ্যারামিটার (সিউডোকাউন্টস) সহ AK ডাইমেনশনাল ভেক্টর [2]।

ভাবমূর্তি

চিত্র 4: ডিরিচলেট ডিস্ট্রিবিউশন সহ সসীম মিশ্রণ মডেলের গ্রাফিক্যাল মডেল

মডেল ব্যাখ্যা করার জন্য একটি সহজ এবং কম গাণিতিক উপায় নিম্নলিখিত. আমরা অনুমান করি যে আমাদের ডেটা কে ক্লাস্টারে গোষ্ঠীভুক্ত করা যেতে পারে। প্রতিটি ক্লাস্টারের নিজস্ব পরামিতি রয়েছে ভাবমূর্তি এবং সেই প্যারামিটারগুলি আমাদের ডেটা তৈরি করতে ব্যবহৃত হয়। পরামিতি ভাবমূর্তি অনুমান করা হয় কিছু ডিস্ট্রিবিউশন জি অনুসরণ করে0. প্রতিটি পর্যবেক্ষণকে একটি ভেক্টর x দিয়ে উপস্থাপন করা হয়i এবং এসিi মান যা ক্লাস্টারকে নির্দেশ করে যেটি এটি অন্তর্গত। ফলস্বরূপ গi একটি পরিবর্তনশীল হিসাবে দেখা যেতে পারে যা একটি পরামিতি p সহ বিচ্ছিন্ন বন্টন অনুসরণ করে যা মিশ্রণের সম্ভাব্যতা ছাড়া কিছুই নয়, অর্থাৎ প্রতিটি ক্লাস্টারের সংঘটনের সম্ভাবনা। প্রদত্ত যে আমরা আমাদের সমস্যাকে একটি বায়েসিয়ান উপায়ে পরিচালনা করি, আমরা প্যারামিটার p কে একটি ধ্রুবক অজানা ভেক্টর হিসাবে বিবেচনা করি না। পরিবর্তে আমরা অনুমান করি যে P ডিরিচলেটকে অনুসরণ করে যা হাইপারপ্যারামিটার α/k দ্বারা পরামিতিযুক্ত।

5. অসীম k ক্লাস্টারগুলির সাথে কাজ করা

পূর্ববর্তী মিশ্রণ মডেলটি আমাদেরকে তত্ত্বাবধানহীন শিক্ষা সম্পাদন করতে দেয়, একটি বায়েসিয়ান পদ্ধতি অনুসরণ করে এবং একটি শ্রেণিবদ্ধ কাঠামোর জন্য প্রসারিত করা যেতে পারে। তবুও এটি একটি সীমিত মডেল কারণ এটি একটি ধ্রুবক পূর্বনির্ধারিত k সংখ্যা ক্লাস্টার ব্যবহার করে। ফলস্বরূপ, ক্লাস্টার বিশ্লেষণ সম্পাদন করার আগে আমাদেরকে উপাদানগুলির সংখ্যা নির্ধারণ করতে হবে এবং বেশিরভাগ অ্যাপ্লিকেশনে আমরা আগে আলোচনা করেছি এটি অজানা এবং সহজেই অনুমান করা যায় না।

এটি সমাধান করার একটি উপায় হল কল্পনা করা যে k-এর একটি খুব বড় মান রয়েছে যা অসীমতার দিকে ঝোঁক। অন্য কথায় আমরা এই মডেলের সীমা কল্পনা করতে পারি যখন k অনন্তের দিকে ঝোঁক। যদি এটি হয়, তবে আমরা দেখতে পাব যে ক্লাস্টারগুলির সংখ্যা অসীম হওয়া সত্ত্বেও, সক্রিয় ক্লাস্টারগুলির প্রকৃত সংখ্যা (যেগুলিতে অন্তত একটি পর্যবেক্ষণ রয়েছে), n এর চেয়ে বড় হতে পারে না (যা আমাদের ডেটাসেটে পর্যবেক্ষণের মোট সংখ্যা)। প্রকৃতপক্ষে আমরা পরে দেখব, সক্রিয় ক্লাস্টারের সংখ্যা n-এর তুলনায় উল্লেখযোগ্যভাবে কম হবে এবং তারা সমানুপাতিক হবে ভাবমূর্তি.

অবশ্যই k-এর সীমাকে অনন্তে নিয়ে যাওয়া অ-তুচ্ছ। এই ধরনের একটি সীমা নেওয়া সম্ভব কিনা, এই মডেলটি কেমন হবে এবং এর মতো বেশ কয়েকটি প্রশ্ন উঠেছে কিভাবে আমরা নির্মাণ করতে পারেন এবং এই ধরনের একটি মডেল ব্যবহার করুন।

পরবর্তী প্রবন্ধে আমরা ঠিক এই প্রশ্নগুলির উপর ফোকাস করব: আমরা ডিরিচলেট প্রক্রিয়াকে সংজ্ঞায়িত করব, আমরা ডিপির বিভিন্ন উপস্থাপনা উপস্থাপন করব এবং অবশেষে আমরা চাইনিজ রেস্তোরাঁ প্রক্রিয়ার উপর ফোকাস করব যা একটি ডিরিচলেট প্রক্রিয়া তৈরি করার একটি স্বজ্ঞাত এবং কার্যকর উপায়।

আমি আশা করি আপনি এই পোস্টটি দরকারী খুঁজে পেয়েছেন. আপনি যদি করে থাকেন তবে অনুগ্রহ করে নিবন্ধটি ফেসবুক এবং টুইটারে শেয়ার করার জন্য একটু সময় নিন। 🙂

সময় স্ট্যাম্প:

থেকে আরো ডেটাবক্স