ডেটা এনভেলপমেন্ট অ্যানালাইসিস টিউটোরিয়াল প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ডেটা এনভেলপমেন্ট অ্যানালাইসিস টিউটোরিয়াল

ডেটা এনভেলপমেন্ট অ্যানালাইসিস, যা ডিইএ নামেও পরিচিত, সীমান্ত বিশ্লেষণ করার জন্য একটি নন-প্যারামেট্রিক পদ্ধতি। এটি একাধিক সিদ্ধান্ত গ্রহণকারী ইউনিটের দক্ষতা অনুমান করতে লিনিয়ার প্রোগ্রামিং ব্যবহার করে এবং এটি সাধারণত উত্পাদন, ব্যবস্থাপনা এবং অর্থনীতিতে ব্যবহৃত হয়। কৌশলটি প্রথম দ্বারা প্রস্তাবিত হয়েছিল চার্নেস, কুপার এবং রোডস 1978 সালে এবং তারপর থেকে এটি উত্পাদন সীমান্ত অনুমান করার জন্য একটি মূল্যবান হাতিয়ার হয়ে ওঠে।

আপডেট: Datumbox মেশিন লার্নিং ফ্রেমওয়ার্ক এখন ওপেন সোর্স এবং বিনামূল্যে ডাউনলোড. জাভাতে ডেটা এনভেলপমেন্ট বিশ্লেষণের বাস্তবায়ন দেখতে com.datumbox.framework.algorithms.dea প্যাকেজটি দেখুন।

5-6 বছর আগে যখন আমি প্রথম পদ্ধতির মুখোমুখি হয়েছিলাম, তখন আমি অ্যালগরিদমের মৌলিকতা, এর সরলতা এবং এটি ব্যবহার করা ধারণাগুলির চতুরতা দ্বারা বিস্মিত হয়েছিলাম। আমি আরও অবাক হয়েছিলাম যে কৌশলটি তার সাধারণ অ্যাপ্লিকেশনগুলির (আর্থিক, অপারেশন গবেষণা ইত্যাদি) বাইরে ভাল কাজ করেছে কারণ এটি অনলাইন মার্কেটিং, সার্চ ইঞ্জিন র‌্যাঙ্কিং এবং যৌগিক মেট্রিক্স তৈরিতে সফলভাবে প্রয়োগ করা যেতে পারে। তা সত্ত্বেও, আজ ডিইএ প্রায় একচেটিয়াভাবে ব্যবসার প্রসঙ্গে আলোচনা করা হয়। এই কারণেই, এই নিবন্ধে, আমি DEA এর পিছনে মৌলিক ধারণা এবং গাণিতিক কাঠামো কভার করব এবং পরবর্তী পোস্টে আমি আপনাকে ওয়েব অ্যাপ্লিকেশনগুলিতে অ্যালগরিদমের কিছু অভিনব অ্যাপ্লিকেশন দেখাব।

কেন ডেটা এনভেলপমেন্ট বিশ্লেষণ আকর্ষণীয়?

ডেটা এনভেলপমেন্ট অ্যানালাইসিস এমন একটি পদ্ধতি যা আমাদেরকে তাদের বৈশিষ্ট্যগুলির (ওজন, আকার, খরচ, রাজস্ব এবং অন্যান্য মেট্রিক্স বা KPIs) উপর ভিত্তি করে রেকর্ডগুলি (স্টোর, কর্মচারী, কারখানা, ওয়েবপেজ, বিপণন প্রচার ইত্যাদি) তুলনা এবং র‌্যাঙ্ক করতে সক্ষম করে। বৈশিষ্ট্যের গুরুত্ব বা ওজন। এই কৌশলটির সবচেয়ে আকর্ষণীয় অংশ হল এটি আমাদেরকে একাধিক বৈশিষ্ট্য নিয়ে গঠিত রেকর্ড তুলনা করতে দেয় যার পরিমাপের সম্পূর্ণ ভিন্ন একক রয়েছে। এর মানে হল যে আমাদের কাছে কিলোমিটার, কিলোগ্রাম বা আর্থিক ইউনিটে পরিমাপ করা বৈশিষ্ট্যগুলির সাথে রেকর্ড থাকতে পারে এবং এখনও তুলনা করতে, তাদের র‌্যাঙ্ক করতে এবং সেরা/নিকৃষ্ট এবং গড় পারফরম্যান্স রেকর্ডগুলি খুঁজে পেতে সক্ষম হতে পারি। আকর্ষণীয় শোনাচ্ছে? পড়তে থাকুন।

ডেটা এনভেলপমেন্ট বিশ্লেষণের বর্ণনা এবং অনুমান

ডেটা-এনভেলপমেন্ট-বিশ্লেষণ-গ্রাফ
যেমনটি আমরা আগে আলোচনা করেছি, ডিইএ একটি পদ্ধতি যা ব্যবসায় উত্পাদনশীলতা পরিমাপ করার জন্য উদ্ভাবিত হয়েছিল। এইভাবে এর বেশ কয়েকটি ধারণা এই প্রেক্ষাপটে উত্পাদনশীলতা পরিমাপ করার উপায় থেকে আসে। পদ্ধতির মূল বৈশিষ্ট্যগুলির মধ্যে একটি হল রেকর্ড বৈশিষ্ট্যগুলিকে দুটি বিভাগে বিভক্ত করা: ইনপুট এবং আউটপুট। উদাহরণস্বরূপ, যদি আমরা একটি গাড়ির দক্ষতা পরিমাপ করি, আমরা বলতে পারি যে ইনপুট হল লিটার পেট্রোল এবং আউটপুট হল এটি যে কিলোমিটার ভ্রমণ করে তার সংখ্যা।

ডিইএ-তে, সমস্ত বৈশিষ্ট্য অবশ্যই ইতিবাচক হতে হবে এবং এটি ধরে নেওয়া হয় যে তাদের মান যত বেশি, তাদের ইনপুট/আউটপুট তত বেশি। অতিরিক্তভাবে ডেটা এনভেলপমেন্ট বিশ্লেষণ অনুমান করে যে বৈশিষ্ট্যগুলিকে রৈখিকভাবে অ-ঋণাত্মক ওজনের ওজনযুক্ত যোগফল হিসাবে একত্রিত করা যেতে পারে এবং ইনপুট এবং আউটপুটের মধ্যে একটি অনুপাত তৈরি করে যা প্রতিটি রেকর্ডের দক্ষতা পরিমাপ করবে। একটি রেকর্ড দক্ষ হওয়ার জন্য এটি অবশ্যই আমাদের প্রদত্ত ইনপুটের সাথে সম্পর্কিত একটি "ভাল" আউটপুট দিতে হবে। আউটপুট এবং ইনপুটের মধ্যে অনুপাত দ্বারা দক্ষতা পরিমাপ করা হয় এবং তারপরে অন্যান্য রেকর্ডের অনুপাতের সাথে তুলনা করা হয়।

DEA পিছনে বুদ্ধিমান ধারণা

আমরা এখন পর্যন্ত যা কভার করেছি তা হল একটি সাধারণ জ্ঞান/অভ্যাস। আমরা আমাদের রেকর্ড র্যাঙ্ক করতে ইনপুট এবং আউটপুট, ওজনযুক্ত যোগফল এবং অনুপাত ব্যবহার করি। DEA এর চতুর ধারণা হল বৈশিষ্ট্যগুলির ওজন গণনা করার উপায়ে। আমরা বিশ্লেষণ চালানোর আগে বৈশিষ্ট্যগুলির ওজন নির্ধারণ এবং তাদের গুরুত্ব সম্পর্কে সিদ্ধান্ত নেওয়ার পরিবর্তে, ডেটা এনভেলপমেন্ট বিশ্লেষণ ডেটা থেকে তাদের গণনা করে। তাছাড়া ওজন প্রতিটি রেকর্ডের জন্য একই নয়!

এখানে DEA কিভাবে ওজন নির্বাচন করে: আমরা উপযুক্ত বৈশিষ্ট্য ওজন নির্বাচন করে প্রতিটি রেকর্ডের অনুপাত সর্বাধিক করার চেষ্টা করি; একই সময়ে, যদিও আমাদের অবশ্যই নিশ্চিত করতে হবে যে আমরা যদি অন্য সমস্ত রেকর্ডের অনুপাত গণনা করতে একই ওজন ব্যবহার করি, তবে সেগুলির কোনওটিই 1 এর থেকে বড় হবে না।

ধারণাটি শুরুতে কিছুটা অদ্ভুত শোনায়। এটি কি ভিন্নভাবে ওজনযুক্ত অনুপাতের গণনার দিকে পরিচালিত করবে না? উত্তরটি হল হ্যাঁ. এর মানে কি এই নয় যে আমরা আসলে প্রতিটি রেকর্ডের অনুপাত ভিন্নভাবে গণনা করি? উত্তর আবার হ্যাঁ। তাহলে এটা কিভাবে কাজ করে? উত্তরটি সহজ: প্রতিটি রেকর্ডের জন্য, এর বৈশিষ্ট্যের ভিত্তিতে আমরা "আদর্শ পরিস্থিতি" (ওজন) খুঁজে বের করার চেষ্টা করি যেখানে এটির অনুপাত যতটা সম্ভব বেশি হবে এবং এইভাবে এটিকে যতটা সম্ভব কার্যকর করে তোলা হবে। কিন্তু একই সময়ে, এই "আদর্শ পরিস্থিতি" দেওয়া হলে অন্যান্য রেকর্ডের আউটপুট/ইনপুট অনুপাতের কোনোটিই 1-এর চেয়ে বড় হওয়া উচিত নয়, যার অর্থ হল সেগুলি 100%-এর বেশি কার্যকর হতে পারে না! একবার আমরা প্রতিটি "আদর্শ পরিস্থিতি" এর অধীনে সমস্ত রেকর্ডের অনুপাত গণনা করি, আমরা তাদের র্যাঙ্ক করতে তাদের অনুপাত ব্যবহার করি।

সুতরাং DEA এর মূল ধারণাটি নিম্নলিখিতটিতে সংক্ষিপ্ত করা যেতে পারে: “আদর্শ পরিস্থিতি খুঁজুন যেখানে আমরা প্রতিটি রেকর্ডের বৈশিষ্ট্যের উপর ভিত্তি করে সেরা অনুপাত স্কোর অর্জন করতে পারি। তারপর প্রতিটি রেকর্ডের এই আদর্শ অনুপাতটি গণনা করুন এবং তাদের কার্যকারিতা তুলনা করতে এটি ব্যবহার করুন”।

আসুন একটি উদাহরণ দেখুন

আসুন একটি উদাহরণ দেখি যেখানে আমরা DEA ব্যবহার করতে পারি।

ধরুন যে আমরা বেশ কয়েকটি বৈশিষ্ট্যের উপর ভিত্তি করে একটি নির্দিষ্ট চেইনের সুপারমার্কেট স্টোরগুলির কার্যকারিতা মূল্যায়ন করতে আগ্রহী: মোট কর্মচারীর সংখ্যা, বর্গ মিটারে স্টোরের আকার, তারা যে পরিমাণ বিক্রি করে এবং গ্রাহকদের সংখ্যা যে তারা গড়ে প্রতি মাসে পরিবেশন করে। এটা সুস্পষ্ট হয়ে ওঠে যে সবচেয়ে দক্ষ স্টোর খুঁজে পেতে আমাদের একাধিক বৈশিষ্ট্যের সাথে রেকর্ড তুলনা করতে হবে।

DEA প্রয়োগ করার জন্য আমাদের অবশ্যই সংজ্ঞায়িত করতে হবে কোনটি আমাদের ইনপুট এবং আউটপুট। এই ক্ষেত্রে আউটপুট স্পষ্টতই বিক্রয়ের পরিমাণ এবং গ্রাহকদের সংখ্যা যা তারা পরিবেশন করে। ইনপুট হল কর্মচারীর সংখ্যা এবং দোকানের আকার। আমরা যদি DEA চালাই, আমরা আদর্শ ওজনের অধীনে প্রতিটি দোকানের জন্য আউটপুট থেকে ইনপুট অনুপাত অনুমান করব (উপরে আলোচনা করা হয়েছে)। একবার আমাদের অনুপাত পাওয়া গেলে আমরা তাদের দক্ষতা অনুযায়ী তাদের র‌্যাঙ্ক করব।

এটা গণিত সময়!

এখন যেহেতু আমরা ডিইএ কীভাবে কাজ করে তার একটি অন্তর্দৃষ্টি পেয়েছি, এটি গণিতের মধ্যে খনন করার সময়।

x ইনপুট এবং y আউটপুট সহ একটি নির্দিষ্ট রেকর্ড i এর কার্যকারিতা অনুপাত (উভয় ইতিবাচক মান সহ বৈশিষ্ট্য ভেক্টর) নিম্নলিখিত সূত্রটি ব্যবহার করে অনুমান করা হয়:

da2

যেখানে u এবং v হল রেকর্ডের প্রতিটি আউটপুট এবং ইনপুটের ওজন, s হল আউটপুট বৈশিষ্ট্যের সংখ্যা এবং m হল ইনপুট বৈশিষ্ট্যের সংখ্যা।

একটি নির্দিষ্ট রেকর্ডের জন্য সর্বোত্তম/আদর্শ ওজন খোঁজার সমস্যাটি নিম্নরূপ প্রণয়ন করা যেতে পারে:

da4
da6
da8

আবার উপরেরটি হল u এবং v ওজনগুলি খুঁজে বের করার গাণিতিক উপায় যা রেকর্ড i-এর কার্যকারিতা সর্বাধিক করে, তবে শর্ত থাকে যে এই ওজনগুলি অন্য কোনও রেকর্ডকে 100% এর চেয়ে বেশি দক্ষ করে তুলবে না।

এই সমস্যা সমাধানের জন্য আমাদের অবশ্যই লিনিয়ার প্রোগ্রামিং ব্যবহার করতে হবে। দুর্ভাগ্যবশত রৈখিক প্রোগ্রামিং আমাদের ভগ্নাংশ ব্যবহার করার অনুমতি দেয় না এবং এইভাবে আমাদের নিম্নলিখিত হিসাবে সমস্যার গঠন রূপান্তর করতে হবে:

da10
da12
da14
da8

আমাদের জোর দেওয়া উচিত যে উপরের রৈখিক প্রোগ্রামিং সমস্যাটি আমাদের রেকর্ড i এর জন্য সেরা ওজন দেবে এবং সেই সর্বোত্তম ওজনের অধীনে এর কার্যকারিতা গণনা করবে। আমাদের ডেটাসেটের প্রতিটি রেকর্ডের জন্য একই পুনরাবৃত্তি করা আবশ্যক। তাই যদি আমাদের n রেকর্ড থাকে তবে আমাদের n আলাদা লিনিয়ার সমস্যা সমাধান করতে হবে। DEA কীভাবে কাজ করে তার ছদ্মকোড এখানে রয়েছে:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

ডেটা এনভেলপমেন্ট বিশ্লেষণের সীমাবদ্ধতা

DEA একটি দুর্দান্ত কৌশল তবে এর সীমাবদ্ধতা রয়েছে। আপনাকে অবশ্যই বুঝতে হবে যে ডিইএ একটি কালো বাক্সের মতো। যেহেতু প্রতিটি রেকর্ডের কার্যকারিতা অনুপাতে ব্যবহৃত ওজনগুলি ভিন্ন, তাই প্রতিটি স্কোর কীভাবে এবং কেন গণনা করা হয়েছিল তা ব্যাখ্যা করার চেষ্টা করা অর্থহীন। সাধারণত আমরা কার্যকারিতা স্কোরের প্রকৃত মানগুলির পরিবর্তে রেকর্ডগুলির র‌্যাঙ্কিংয়ের উপর ফোকাস করি। এছাড়াও মনে রাখবেন যে চরমপন্থার অস্তিত্বের কারণে স্কোরের মান খুব কম হতে পারে।

মনে রাখবেন যে DEA অনুপাত অনুমান করতে বৈশিষ্ট্যগুলির রৈখিক সমন্বয় ব্যবহার করে। এইভাবে যদি তাদের রৈখিকভাবে একত্রিত করা আমাদের অ্যাপ্লিকেশনে উপযুক্ত না হয়, তাহলে আমাদের অবশ্যই বৈশিষ্ট্যগুলিতে রূপান্তর প্রয়োগ করতে হবে এবং তাদের রৈখিকভাবে একত্রিত করা সম্ভব করে তুলতে হবে। এই কৌশলটির আরেকটি ত্রুটি হল যে আমাদের রেকর্ডের সংখ্যার মতো অনেকগুলি লিনিয়ার প্রোগ্রামিং সমস্যা সমাধান করতে হবে, এমন কিছু যার জন্য প্রচুর গণনামূলক সংস্থান প্রয়োজন।

DEA এর মুখোমুখি আরেকটি সমস্যা হল এটি উচ্চমাত্রিক ডেটার সাথে ভালভাবে কাজ করে না। DEA ব্যবহার করার জন্য d = m + s মাত্রার সংখ্যা অবশ্যই পর্যবেক্ষণের সংখ্যার চেয়ে উল্লেখযোগ্য কম হতে হবে। যখন d খুব কাছাকাছি বা n এর চেয়ে বড় হয় তখন DEA চালানো দরকারী ফলাফল দেয় না কারণ সম্ভবত সব রেকর্ডই সর্বোত্তম বলে পাওয়া যাবে। মনে রাখবেন যে আপনি একটি নতুন আউটপুট ভেরিয়েবল (মাত্রা) যোগ করার সাথে সাথে এই মাত্রার সর্বাধিক মান সহ সমস্ত রেকর্ড সর্বোত্তম পাওয়া যাবে।

পরিশেষে আমাদের লক্ষ্য করা উচিত যে অ্যালগরিদমের সাধারণ আকারে, DEA-তে বৈশিষ্ট্যগুলির ওজন ডেটা থেকে অনুমান করা হয় এবং এইভাবে তারা আমাদের সমস্যায় থাকতে পারে এমন বৈশিষ্ট্যগুলির গুরুত্ব সম্পর্কে কোনও পূর্ব তথ্য ব্যবহার করে না (অবশ্যই আমাদের রৈখিক সমস্যায় সীমাবদ্ধতা হিসাবে এই তথ্যটি অন্তর্ভুক্ত করা সম্ভব)। অতিরিক্তভাবে যে দক্ষতার স্কোরগুলি গণনা করা হয় তা প্রকৃতপক্ষে প্রতিটি রেকর্ডের ঊর্ধ্ব সীমা দক্ষতা অনুপাত কারণ সেগুলি "আদর্শ পরিস্থিতিতে" হিসাবে গণনা করা হয়। এর মানে হল যে DEA একটি ভাল সমাধান হতে পারে যখন বৈশিষ্ট্যগুলির গুরুত্ব সম্পর্কে কোনও অনুমান করা সম্ভব না হয় তবে যদি আমাদের কাছে কোনও পূর্ব তথ্য থাকে বা আমরা তাদের গুরুত্ব পরিমাপ করতে পারি তবে বিকল্প কৌশলগুলি ব্যবহার করার পরামর্শ দেওয়া হয়৷

পরবর্তী প্রবন্ধে, আমি আপনাকে দেখাব কিভাবে একটি বাস্তবায়ন বিকাশ করতে হয় JAVA-তে ডেটা এনভেলপমেন্ট বিশ্লেষণ এবং আমরা সোশ্যাল মিডিয়া নেটওয়ার্কগুলিতে ওয়েব পেজ এবং নিবন্ধগুলির জনপ্রিয়তা অনুমান করার জন্য পদ্ধতিটি ব্যবহার করব৷

আপনি যদি নিবন্ধটি পছন্দ করেন তবে এটি টুইটার বা ফেসবুকে শেয়ার করার জন্য কিছুক্ষণ সময় নিন। 🙂

সময় স্ট্যাম্প:

থেকে আরো ডেটাবক্স