ডিরিচলেট ডিস্ট্রিবিউশনের উপর ভিত্তি করে সসীম মিশ্রণ মডেল

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

এই ব্লগ পোস্টটি Dirichlet প্রক্রিয়া মিশ্রণ মডেলের একটি নিবন্ধ সিরিজের দ্বিতীয় অংশ। আগের নিবন্ধে আমরা একটি ছিল কয়েকটি ক্লাস্টার বিশ্লেষণ কৌশলের ওভারভিউ এবং আমরা কিছু সমস্যা/সীমাবদ্ধতা নিয়ে আলোচনা করেছি যা সেগুলি ব্যবহার করে বেড়ে যায়। তাছাড়া আমরা সংক্ষেপে ডিরিচলেট প্রসেস মিশ্রণের মডেলগুলি উপস্থাপন করেছি, কেন তারা দরকারী সে সম্পর্কে আমরা কথা বলেছি এবং আমরা তাদের কিছু অ্যাপ্লিকেশন উপস্থাপন করেছি।

আপডেট: Datumbox মেশিন লার্নিং ফ্রেমওয়ার্ক এখন ওপেন সোর্স এবং বিনামূল্যে ডাউনলোড. জাভাতে ডিরিচলেট প্রসেস মিক্সচার মডেলের বাস্তবায়ন দেখতে com.datumbox.framework.machinelearning.clustering প্যাকেজটি দেখুন।

ডিরিচলেট প্রসেস মিশ্রণ মডেলগুলি প্রাথমিকভাবে গ্রাস করা কিছুটা কঠিন হতে পারে কারণ সেগুলি বিভিন্ন উপস্থাপনা সহ অসীম মিশ্রণের মডেল। সৌভাগ্যবশত বিষয়ের কাছে যাওয়ার একটি ভাল উপায় হল ডিরিচলেট ডিস্ট্রিবিউশনের সাথে সীমাবদ্ধ মিশ্রণ মডেলগুলি থেকে শুরু করা এবং তারপরে অসীমগুলির দিকে যাওয়া।

ফলস্বরূপ এই নিবন্ধে আমি সংক্ষিপ্তভাবে কিছু গুরুত্বপূর্ণ বিতরণ উপস্থাপন করব যা আমাদের প্রয়োজন হবে, আমরা সেগুলিকে বহুপদ সম্ভাবনা মডেলের সাথে ডিরিচলেট প্রার নির্মাণ করতে ব্যবহার করব এবং তারপরে আমরা ডিরিচলেট ডিস্ট্রিবিউশনের উপর ভিত্তি করে সসীম মিশ্রণ মডেলে চলে যাব।

1. বিটা বিতরণ

সার্জারির বিটা বিতরণ ক্রমাগত বিতরণের একটি পরিবার যা [0,1] এর ব্যবধানে সংজ্ঞায়িত করা হয়। এটি দুটি ইতিবাচক পরামিতি a এবং b দ্বারা প্যারামিটারাইজ করা হয়েছে এবং এর ফর্মটি এই দুটি প্যারামিটারের নির্বাচনের উপর নির্ভর করে।

ভাবমূর্তি

চিত্র 1: বিভিন্ন a, b প্যারামিটারের জন্য বিটা বিতরণ

বিটা ডিস্ট্রিবিউশন সাধারণত সম্ভাব্যতার উপর ডিস্ট্রিবিউশন মডেল করতে ব্যবহৃত হয় এবং নিম্নলিখিত সম্ভাবনার ঘনত্ব রয়েছে:

সমীকরণ 1: বিটা পিডিএফ

যেখানে Γ(x) হল গামা ফাংশন এবং a, b ডিস্ট্রিবিউশনের প্যারামিটার। বিটা সাধারণত সম্ভাব্যতার মানের বন্টন হিসাবে ব্যবহৃত হয় এবং এটি আমাদের সম্ভাবনা দেয় যে মডেল করা সম্ভাব্যতা একটি নির্দিষ্ট মানের P = p0 এর সমান। এর সংজ্ঞা অনুসারে বিটা ডিস্ট্রিবিউশন বাইনারি ফলাফলের সম্ভাব্যতা মডেল করতে সক্ষম যা সত্য বা মিথ্যা মান নেয়। পরামিতি a এবং b যথাক্রমে সাফল্য এবং ব্যর্থতার ছদ্ম হিসাব হিসাবে বিবেচনা করা যেতে পারে। এইভাবে বিটা ডিস্ট্রিবিউশন একটি সফলতা এবং বি ব্যর্থতার জন্য সাফল্যের সম্ভাবনাকে মডেল করে।

2. ডিরিচলেট বিতরণ

সার্জারির ডিরিচলেট ডিস্ট্রিবিউশন একাধিক ফলাফলের জন্য বিটা ডিস্ট্রিবিউশনের সাধারণীকরণ (বা অন্য কথায় এটি একাধিক ফলাফল সহ ইভেন্টের জন্য ব্যবহৃত হয়)। এটি k পরামিতি a দিয়ে প্যারামিটারাইজ করা হয়_i যা ইতিবাচক হতে হবে। ডিরিচলেট ডিস্ট্রিবিউশন বিটা ডিস্ট্রিবিউশনের সমান হয় যখন ভেরিয়েবলের সংখ্যা k = 2।

ভাবমূর্তি

চিত্র 2: বিভিন্ন a এর জন্য ডিরিচলেট বিতরণ_i পরামিতি

ডিরিচলেট ডিস্ট্রিবিউশন সাধারণত সম্ভাব্যতার উপর একটি বন্টন মডেল করতে ব্যবহৃত হয় এবং নিম্নলিখিত সম্ভাব্যতার ঘনত্ব রয়েছে:

সমীকরণ 2: ডিরিচলেট পিডিএফ

যেখানে Γ(x) হল গামা ফাংশন, p_i [0,1] এবং Σp-এ মান নিন_i=1। ডিরিচলেট ডিস্ট্রিবিউশন মডেল পি এর যৌথ বন্টন_i এবং P এর সম্ভাবনা দেয়₁=p₁,P₂=p₂,….,পি_K-1=p_K-1 পি সহ_k=1 – ΣP_i. বেটার ক্ষেত্রে যেমন, ক_i পরামিতি প্রতিটি i ইভেন্টের উপস্থিতির pseudocounts হিসাবে বিবেচনা করা যেতে পারে। ডিরিচলেট ডিস্ট্রিবিউশনটি k প্রতিদ্বন্দ্বী ঘটনা ঘটার সম্ভাবনার মডেল করতে ব্যবহৃত হয় এবং প্রায়শই ডিরিচলেট(a) হিসাবে চিহ্নিত করা হয়।

3. বহুপদ সম্ভাবনা সহ ডিরিচলেট প্রার

আগেই উল্লেখ করা হয়েছে ডিরিচলেট ডিস্ট্রিবিউশনকে সম্ভাব্যতার ডিস্ট্রিবিউশনের উপর ডিস্ট্রিবিউশন হিসেবে দেখা যেতে পারে। যেসব ক্ষেত্রে আমরা k ঘটনা ঘটার সম্ভাবনার মডেল করতে চাই, সেখানে একটি Bayesian পদ্ধতি ব্যবহার করা হবে মাল্টিনমিয়াল লাইকলিহুড এবং ডিরিচলেট প্রিয়ারস .

নীচে আমরা এই ধরনের একটি মডেলের গ্রাফিক্যাল মডেল দেখতে পারি।

ভাবমূর্তি

চিত্র 3: বহুপদ সম্ভাবনা সহ ডিরিচলেট প্রিয়ারের গ্রাফিকাল মডেল

উপরের গ্রাফিকাল মডেলে, α হল AK ডাইমেনশনাল ভেক্টর যার সাথে Dirichlet priors-এর হাইপারপ্যারামিটার, p হল ak ডাইমেনশনাল ভেক্টর যার সম্ভাব্যতা মান এবং x_i 1 থেকে k পর্যন্ত একটি স্কেলার মান যা আমাদের বলে যে কোন ঘটনা ঘটেছে। অবশেষে আমাদের লক্ষ্য করা উচিত যে P ভেক্টর α দিয়ে ডিরিচলেট ডিস্ট্রিবিউশন প্যারামিটারাইজড অনুসরণ করে এবং এইভাবে P ~ ডিরিচলেট(α), যখন x_i ভেরিয়েবলগুলি সম্ভাব্যতার p ভেক্টরের সাথে বিযুক্ত ডিস্ট্রিবিউশন (মাল্টিনমিয়াল) প্যারামিটারাইজড অনুসরণ করে। অনুরূপ শ্রেণীবিন্যাস মডেল বিভিন্ন বিষয়ের জন্য কীওয়ার্ড ফ্রিকোয়েন্সি বিতরণের প্রতিনিধিত্ব করতে নথি শ্রেণীবিভাগে ব্যবহার করা যেতে পারে।

4. ডিরিচলেট ডিস্ট্রিবিউশন সহ সীমিত মিশ্রণ মডেল

ডিরিচলেট ডিস্ট্রিবিউশন ব্যবহার করে আমরা একটি নির্মাণ করতে পারি সসীম মিশ্রণ মডেল যা ক্লাস্টারিং সঞ্চালন করতে ব্যবহার করা যেতে পারে। আসুন আমরা অনুমান করি যে আমাদের নিম্নলিখিত মডেল রয়েছে:

সমীকরণ 3: ডিরিচলেট ডিস্ট্রিবিউশন সহ সসীম মিশ্রণ মডেল

উপরের মডেলটি নিম্নলিখিতটি অনুমান করে: আমাদের কাছে n পর্যবেক্ষণ সহ একটি ডেটাসেট X রয়েছে এবং আমরা এটিতে ক্লাস্টার বিশ্লেষণ করতে চাই। k হল একটি ধ্রুবক সসীম সংখ্যা যা আমরা ব্যবহার করব এমন ক্লাস্টার/কম্পোনেন্টের সংখ্যা দেখায়। গ_i ভেরিয়েবলগুলি X পর্যবেক্ষণের ক্লাস্টার অ্যাসাইনমেন্ট সংরক্ষণ করে_i, তারা 1 থেকে k পর্যন্ত মান নেয় এবং প্যারামিটার p সহ বিচ্ছিন্ন ডিস্ট্রিবিউশন অনুসরণ করে যা উপাদানগুলির মিশ্রণের সম্ভাব্যতা। F হল আমাদের X এর জেনারেটিভ ডিস্ট্রিবিউশন এবং এটি একটি প্যারামিটার দিয়ে প্যারামিটারাইজ করা হয় যা প্রতিটি পর্যবেক্ষণের ক্লাস্টার অ্যাসাইনমেন্টের উপর নির্ভর করে। মোট আমরা k অনন্য আছে আমাদের ক্লাস্টার সংখ্যার সমান পরামিতি। দ্য ভেরিয়েবল সেই প্যারামিটারগুলি সঞ্চয় করে যা জেনারেটিভ F ডিস্ট্রিবিউশনকে প্যারামিটারাইজ করে এবং আমরা ধরে নিই যে এটি একটি বেস G অনুসরণ করে₀ বিতরণ p ভেরিয়েবল k ক্লাস্টারগুলির প্রত্যেকটির জন্য মিশ্রণের শতাংশ সংরক্ষণ করে এবং α/k পরামিতি সহ ডিরিচলেট অনুসরণ করে। অবশেষে α হল ডিরিচলেট ডিস্ট্রিবিউশনের হাইপারপ্যারামিটার (সিউডোকাউন্টস) সহ AK ডাইমেনশনাল ভেক্টর [2]।

ভাবমূর্তি

চিত্র 4: ডিরিচলেট ডিস্ট্রিবিউশন সহ সসীম মিশ্রণ মডেলের গ্রাফিক্যাল মডেল

মডেল ব্যাখ্যা করার জন্য একটি সহজ এবং কম গাণিতিক উপায় নিম্নলিখিত. আমরা অনুমান করি যে আমাদের ডেটা কে ক্লাস্টারে গোষ্ঠীভুক্ত করা যেতে পারে। প্রতিটি ক্লাস্টারের নিজস্ব পরামিতি রয়েছে এবং সেই প্যারামিটারগুলি আমাদের ডেটা তৈরি করতে ব্যবহৃত হয়। পরামিতি অনুমান করা হয় কিছু ডিস্ট্রিবিউশন জি অনুসরণ করে₀. প্রতিটি পর্যবেক্ষণকে একটি ভেক্টর x দিয়ে উপস্থাপন করা হয়_i এবং এসি_i মান যা ক্লাস্টারকে নির্দেশ করে যেটি এটি অন্তর্গত। ফলস্বরূপ গ_i একটি পরিবর্তনশীল হিসাবে দেখা যেতে পারে যা একটি পরামিতি p সহ বিচ্ছিন্ন বন্টন অনুসরণ করে যা মিশ্রণের সম্ভাব্যতা ছাড়া কিছুই নয়, অর্থাৎ প্রতিটি ক্লাস্টারের সংঘটনের সম্ভাবনা। প্রদত্ত যে আমরা আমাদের সমস্যাকে একটি বায়েসিয়ান উপায়ে পরিচালনা করি, আমরা প্যারামিটার p কে একটি ধ্রুবক অজানা ভেক্টর হিসাবে বিবেচনা করি না। পরিবর্তে আমরা অনুমান করি যে P ডিরিচলেটকে অনুসরণ করে যা হাইপারপ্যারামিটার α/k দ্বারা পরামিতিযুক্ত।

5. অসীম k ক্লাস্টারগুলির সাথে কাজ করা

পূর্ববর্তী মিশ্রণ মডেলটি আমাদেরকে তত্ত্বাবধানহীন শিক্ষা সম্পাদন করতে দেয়, একটি বায়েসিয়ান পদ্ধতি অনুসরণ করে এবং একটি শ্রেণিবদ্ধ কাঠামোর জন্য প্রসারিত করা যেতে পারে। তবুও এটি একটি সীমিত মডেল কারণ এটি একটি ধ্রুবক পূর্বনির্ধারিত k সংখ্যা ক্লাস্টার ব্যবহার করে। ফলস্বরূপ, ক্লাস্টার বিশ্লেষণ সম্পাদন করার আগে আমাদেরকে উপাদানগুলির সংখ্যা নির্ধারণ করতে হবে এবং বেশিরভাগ অ্যাপ্লিকেশনে আমরা আগে আলোচনা করেছি এটি অজানা এবং সহজেই অনুমান করা যায় না।

এটি সমাধান করার একটি উপায় হল কল্পনা করা যে k-এর একটি খুব বড় মান রয়েছে যা অসীমতার দিকে ঝোঁক। অন্য কথায় আমরা এই মডেলের সীমা কল্পনা করতে পারি যখন k অনন্তের দিকে ঝোঁক। যদি এটি হয়, তবে আমরা দেখতে পাব যে ক্লাস্টারগুলির সংখ্যা অসীম হওয়া সত্ত্বেও, সক্রিয় ক্লাস্টারগুলির প্রকৃত সংখ্যা (যেগুলিতে অন্তত একটি পর্যবেক্ষণ রয়েছে), n এর চেয়ে বড় হতে পারে না (যা আমাদের ডেটাসেটে পর্যবেক্ষণের মোট সংখ্যা)। প্রকৃতপক্ষে আমরা পরে দেখব, সক্রিয় ক্লাস্টারের সংখ্যা n-এর তুলনায় উল্লেখযোগ্যভাবে কম হবে এবং তারা সমানুপাতিক হবে .

অবশ্যই k-এর সীমাকে অনন্তে নিয়ে যাওয়া অ-তুচ্ছ। এই ধরনের একটি সীমা নেওয়া সম্ভব কিনা, এই মডেলটি কেমন হবে এবং এর মতো বেশ কয়েকটি প্রশ্ন উঠেছে কিভাবে আমরা নির্মাণ করতে পারেন এবং এই ধরনের একটি মডেল ব্যবহার করুন।

পরবর্তী প্রবন্ধে আমরা ঠিক এই প্রশ্নগুলির উপর ফোকাস করব: আমরা ডিরিচলেট প্রক্রিয়াকে সংজ্ঞায়িত করব, আমরা ডিপির বিভিন্ন উপস্থাপনা উপস্থাপন করব এবং অবশেষে আমরা চাইনিজ রেস্তোরাঁ প্রক্রিয়ার উপর ফোকাস করব যা একটি ডিরিচলেট প্রক্রিয়া তৈরি করার একটি স্বজ্ঞাত এবং কার্যকর উপায়।

আমি আশা করি আপনি এই পোস্টটি দরকারী খুঁজে পেয়েছেন. আপনি যদি করে থাকেন তবে অনুগ্রহ করে নিবন্ধটি ফেসবুক এবং টুইটারে শেয়ার করার জন্য একটু সময় নিন। 🙂

সময় স্ট্যাম্প: 12 পারে, 2014জুলাই 17, 2022

সময় স্ট্যাম্প: নভেম্বর 9, 2014

ডিরিচলেট ডিস্ট্রিবিউশনের উপর ভিত্তি করে সসীম মিশ্রণ মডেল

প্লেটো দ্বারা প্রকাশিত

1. বিটা বিতরণ

2. ডিরিচলেট বিতরণ

3. বহুপদ সম্ভাবনা সহ ডিরিচলেট প্রার

4. ডিরিচলেট ডিস্ট্রিবিউশন সহ সীমিত মিশ্রণ মডেল

5. অসীম k ক্লাস্টারগুলির সাথে কাজ করা

থেকে আরো ডেটাবক্স

লিনাক্স ডিস্ট্যাট সরঞ্জাম দিয়ে এনভিআইডিআইএ কার্ডগুলির জিপিইউ ব্যবহার করা

JAVA-তে DEA দিয়ে পেজের সোশ্যাল মিডিয়া জনপ্রিয়তা পরিমাপ করা

জাভাতে লেখা নতুন ওপেন সোর্স মেশিন লার্নিং ফ্রেমওয়ার্ক

JAVA-তে একটি Naive Bayes Text Classifier তৈরি করা

ডেটাবক্স মেশিন লার্নিং ফ্রেমওয়ার্ক 0.6.0 প্রকাশিত

কীভাবে আপনার নিজের ফেসবুক সেন্টিমেন্ট বিশ্লেষণ টুল তৈরি করবেন

ডেটাবক্স মেশিন লার্নিং ফ্রেমওয়ার্ক সংস্করণ 0.8.0 প্রকাশিত হয়েছে

নতুন ব্লগ সিরিজ - টর্চভিশন বিকাশকারীর স্মৃতি

কেরাসের ব্যাচ নরমালাইজেশন স্তরটি নষ্ট হয়ে গেছে

স্পার্কের এএলএসের প্রস্তাবনা অ্যালগরিদমে ড্রিলিং

টর্চভিশনের আধুনিকীকরণের যাত্রা – টর্চভিশন বিকাশকারীর স্মৃতি – ৩

ডেটাুমবক্স মেশিন লার্নিং ফ্রেমওয়ার্ক কীভাবে ইনস্টল ও ব্যবহার করবেন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব