ڈیٹا انوولپمنٹ تجزیہ ٹیوٹوریل پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ڈیٹا لفافہ تجزیہ ٹیوٹوریل

ڈیٹا انوولپمنٹ تجزیہ، جسے DEA کے نام سے بھی جانا جاتا ہے، سرحدی تجزیہ کرنے کا ایک غیر پیرامیٹرک طریقہ ہے۔ یہ ایک سے زیادہ فیصلہ سازی کی اکائیوں کی کارکردگی کا اندازہ لگانے کے لیے لکیری پروگرامنگ کا استعمال کرتا ہے اور یہ عام طور پر پیداوار، انتظام اور معاشیات میں استعمال ہوتا ہے۔ تکنیک سب سے پہلے کی طرف سے تجویز کیا گیا تھا چارنس، کوپر اور روڈس 1978 میں اور تب سے یہ پیداواری سرحدوں کا تخمینہ لگانے کا ایک قیمتی ذریعہ بن گیا۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں ڈیٹا انوولپمنٹ تجزیہ کے نفاذ کو دیکھنے کے لیے پیکیج com.datumbox.framework.algorithms.dea کو دیکھیں۔

5-6 سال پہلے جب میں نے پہلی بار اس طریقہ کا سامنا کیا، تو میں الگورتھم کی اصلیت، اس کی سادگی اور اس کے استعمال کردہ خیالات کی ہوشیاری سے حیران رہ گیا۔ میں یہ دیکھ کر اور بھی حیران ہوا کہ یہ تکنیک اپنی معمول کی ایپلی کیشنز (مالی، آپریشن ریسرچ وغیرہ) سے ہٹ کر اچھی طرح کام کرتی ہے کیونکہ اسے آن لائن مارکیٹنگ، سرچ انجن رینکنگ اور جامع میٹرکس بنانے میں کامیابی کے ساتھ لاگو کیا جا سکتا ہے۔ اس کے باوجود، آج DEA تقریباً خصوصی طور پر کاروبار کے تناظر میں زیر بحث ہے۔ اسی لیے، اس مضمون میں، میں DEA کے پیچھے بنیادی نظریات اور ریاضیاتی فریم ورک کا احاطہ کروں گا اور اگلی پوسٹ میں میں آپ کو ویب ایپلیکیشنز پر الگورتھم کی کچھ نئی ایپلی کیشنز دکھاؤں گا۔

ڈیٹا انوولپمنٹ تجزیہ کیوں دلچسپ ہے؟

ڈیٹا انوولپمنٹ تجزیہ ایک ایسا طریقہ ہے جو ہمیں ان کی خصوصیات (وزن، سائز، لاگت، محصولات اور دیگر میٹرکس یا KPIs) کی بنیاد پر ریکارڈز (اسٹور، ملازمین، فیکٹریوں، ویب پیجز، مارکیٹنگ مہمات وغیرہ) کا موازنہ اور درجہ بندی کرنے کے قابل بناتا ہے، اس کے بارے میں کوئی پیشگی قیاس کیے بغیر۔ خصوصیات کی اہمیت یا وزن۔ اس تکنیک کا سب سے دلچسپ حصہ یہ ہے کہ یہ ہمیں متعدد خصوصیات پر مشتمل ریکارڈز کا موازنہ کرنے کی اجازت دیتا ہے جن کی پیمائش کی اکائیاں بالکل مختلف ہیں۔ اس کا مطلب یہ ہے کہ ہمارے پاس کلومیٹر، کلوگرام یا مانیٹری یونٹس میں ماپا جانے والی خصوصیات کے ساتھ ریکارڈز ہو سکتے ہیں اور پھر بھی ان کا موازنہ کرنے، درجہ بندی کرنے اور بہترین/بدترین اور اوسط کارکردگی کے ریکارڈ تلاش کرنے کے قابل ہو سکتے ہیں۔ دلچسپ معلوم ہونا؟ پڑھتے رہیں۔

ڈیٹا انوولپمنٹ تجزیہ کی تفصیل اور مفروضے۔

ڈیٹا-لفافہ-تجزیہ-گراف
جیسا کہ ہم نے پہلے بات کی ہے، ڈی ای اے ایک ایسا طریقہ ہے جو کاروبار میں پیداوری کی پیمائش کے لیے ایجاد کیا گیا تھا۔ اس طرح اس کے کئی خیالات اس تناظر میں پیدا ہونے والے طریقے سے آتے ہیں۔ طریقہ کار کی بنیادی خصوصیات میں سے ایک ریکارڈ کی خصوصیات کو دو قسموں میں الگ کرنا ہے: ان پٹ اور آؤٹ پٹ۔ مثال کے طور پر اگر ہم کسی کار کی کارکردگی کی پیمائش کرتے ہیں، تو ہم کہہ سکتے ہیں کہ ان پٹ پیٹرول کا لیٹر ہے اور آؤٹ پٹ ان کلومیٹرز کی تعداد ہے جو وہ سفر کرتی ہے۔

DEA میں، تمام خصوصیات مثبت ہونی چاہئیں اور یہ فرض کیا جاتا ہے کہ ان کی قدر جتنی زیادہ ہوگی، ان کا ان پٹ/آؤٹ پٹ اتنا ہی زیادہ ہوگا۔ اضافی طور پر ڈیٹا انوولپمنٹ تجزیہ یہ فرض کرتا ہے کہ خصوصیات کو خطی طور پر غیر منفی وزن کے وزنی مجموعہ کے طور پر جوڑا جاسکتا ہے اور ان پٹ اور آؤٹ پٹ کے درمیان ایک تناسب تشکیل دیتا ہے جو ہر ریکارڈ کی کارکردگی کی پیمائش کرے گا۔ کسی ریکارڈ کے موثر ہونے کے لیے اسے ہمیں فراہم کردہ ان پٹ کے مقابلے میں "اچھا" آؤٹ پٹ دینا چاہیے۔ کارکردگی کو آؤٹ پٹ اور ان پٹ کے درمیان تناسب سے ماپا جاتا ہے اور پھر دوسرے ریکارڈ کے تناسب سے موازنہ کیا جاتا ہے۔

DEA کے پیچھے ذہین خیال

ہم نے اب تک جس چیز کا احاطہ کیا ہے وہ ایک عام فہم/عمل ہے۔ ہم اپنے ریکارڈ کی درجہ بندی کرنے کے لیے ان پٹ اور آؤٹ پٹس، وزنی رقم اور تناسب کا استعمال کرتے ہیں۔ DEA کا ہوشیار خیال اس طرح ہے کہ خصوصیات کے وزن کا حساب لگایا جاتا ہے۔ تجزیہ کرنے سے پہلے خصوصیات کا وزن طے کرنے اور ان کی اہمیت کا فیصلہ کرنے کے بجائے، ڈیٹا انوولپمنٹ تجزیہ ڈیٹا سے ان کا حساب لگاتا ہے۔ مزید یہ کہ وزن ہر ریکارڈ کے لیے ایک جیسا نہیں ہوتا!

یہاں ہے کہ DEA کس طرح وزن کا انتخاب کرتا ہے: ہم مناسب خصوصیت کے وزن کو منتخب کرکے ہر ریکارڈ کے تناسب کو زیادہ سے زیادہ کرنے کی کوشش کرتے ہیں۔ ایک ہی وقت میں اگرچہ ہمیں اس بات کو یقینی بنانا چاہیے کہ اگر ہم دوسرے تمام ریکارڈوں کے تناسب کو شمار کرنے کے لیے ایک ہی وزن کا استعمال کرتے ہیں، تو ان میں سے کوئی بھی 1 سے بڑا نہیں ہوگا۔

یہ خیال شروع میں تھوڑا عجیب لگتا ہے۔ کیا یہ مختلف وزن والے تناسب کے حساب کتاب کی قیادت نہیں کرے گا؟ جواب ہاں میں ہے۔ کیا اس کا مطلب یہ نہیں ہے کہ ہم ہر ریکارڈ کے لیے مختلف تناسب کا حساب لگاتے ہیں؟ جواب پھر ہاں میں ہے۔ تو یہ کیسے کام کرتا ہے؟ جواب آسان ہے: ہر ریکارڈ کے لیے، اس کی خصوصیات کے پیش نظر ہم "مثالی صورت حال" (وزن) تلاش کرنے کی کوشش کرتے ہیں جس میں اس کا تناسب زیادہ سے زیادہ ہو اور اس طرح اسے زیادہ سے زیادہ موثر بنایا جائے۔ لیکن ایک ہی وقت میں، اس "مثالی صورت حال" کو دیکھتے ہوئے، دوسرے ریکارڈز کے آؤٹ پٹ/ان پٹ تناسب میں سے کوئی بھی 1 سے بڑا نہیں ہونا چاہیے، یعنی وہ 100% سے زیادہ موثر نہیں ہو سکتے! ایک بار جب ہم ہر ایک "مثالی صورتحال" کے تحت تمام ریکارڈز کے تناسب کا حساب لگاتے ہیں، تو ہم ان کے تناسب کو درجہ بندی کے لیے استعمال کرتے ہیں۔

لہذا DEA کے مرکزی خیال کا خلاصہ درج ذیل میں کیا جا سکتا ہے: "مثالی صورتحال تلاش کریں جس میں ہم ہر ریکارڈ کی خصوصیات کی بنیاد پر بہترین تناسب سکور حاصل کر سکتے ہیں۔ پھر ہر ریکارڈ کے اس مثالی تناسب کا حساب لگائیں اور ان کی تاثیر کا موازنہ کرنے کے لیے استعمال کریں۔

آئیے ایک مثال دیکھتے ہیں

آئیے ایک مثال دیکھتے ہیں جہاں ہم DEA استعمال کرسکتے ہیں۔

فرض کریں کہ ہم متعدد خصوصیات کی بنیاد پر کسی خاص سلسلہ کے سپر مارکیٹ اسٹورز کی کارکردگی کا جائزہ لینے میں دلچسپی رکھتے ہیں: ملازمین کی کل تعداد، مربع میٹر میں اسٹور کا سائز، ان سے پیدا ہونے والی فروخت کی مقدار اور صارفین کی تعداد کہ وہ اوسطاً ہر ماہ خدمت کرتے ہیں۔ یہ واضح ہو جاتا ہے کہ انتہائی موثر اسٹورز تلاش کرنے کے لیے ہمیں متعدد خصوصیات کے ساتھ ریکارڈ کا موازنہ کرنے کی ضرورت ہوتی ہے۔

DEA لاگو کرنے کے لیے ہمیں اس بات کی وضاحت کرنی چاہیے کہ ہمارا ان پٹ اور آؤٹ پٹ کون سا ہے۔ اس معاملے میں آؤٹ پٹ ظاہر ہے کہ فروخت کی مقدار اور صارفین کی تعداد جو وہ پیش کرتے ہیں۔ ان پٹ ملازمین کی تعداد اور اسٹور کا سائز ہے۔ اگر ہم DEA چلاتے ہیں، تو ہم مثالی وزن کے تحت ہر اسٹور کے لیے آؤٹ پٹ ٹو ان پٹ تناسب کا تخمینہ لگائیں گے (جیسا کہ اوپر بتایا گیا ہے)۔ ایک بار جب ہمارے پاس ان کے تناسب ہوں گے تو ہم ان کی کارکردگی کے مطابق درجہ بندی کریں گے۔

یہ ریاضی کا وقت ہے!

اب جب کہ ہمیں یہ معلوم ہو گیا ہے کہ DEA کیسے کام کرتا ہے، اب وقت آگیا ہے کہ ریاضی کو کھودیں۔

x ان پٹ اور y آؤٹ پٹ کے ساتھ کسی خاص ریکارڈ i کی کارکردگی کا تناسب (دونوں فیچر ویکٹر مثبت اقدار کے ساتھ) کا تخمینہ درج ذیل فارمولے سے لگایا جاتا ہے:

ڈی اے2

جہاں u اور v ریکارڈ کے ہر آؤٹ پٹ اور ان پٹ کا وزن ہیں، s آؤٹ پٹ فیچرز کا نمبر ہے اور m ان پٹ فیچرز کا نمبر ہے۔

کسی خاص ریکارڈ کے لیے بہترین/مثالی وزن تلاش کرنے کے مسئلے کو مندرجہ ذیل طریقے سے وضع کیا جا سکتا ہے۔

ڈی اے4
ڈی اے6
ڈی اے8

ایک بار پھر مندرجہ بالا صرف u اور v کے وزن کو تلاش کرنے کا ایک ریاضیاتی طریقہ ہے جو ریکارڈ i کی کارکردگی کو زیادہ سے زیادہ کرتا ہے، بشرطیکہ وہ وزن دیگر ریکارڈز میں سے کسی کو بھی 100٪ سے زیادہ موثر نہ بنائے۔

اس مسئلے کو حل کرنے کے لیے ہمیں لکیری پروگرامنگ کا استعمال کرنا چاہیے۔ بدقسمتی سے لکیری پروگرامنگ ہمیں فریکشن استعمال کرنے کی اجازت نہیں دیتی ہے اور اس طرح ہمیں مسئلہ کی تشکیل کو مندرجہ ذیل طور پر تبدیل کرنے کی ضرورت ہے:

ڈی اے10
ڈی اے12
ڈی اے14
ڈی اے8

ہمیں اس بات پر زور دینا چاہیے کہ مندرجہ بالا لکیری پروگرامنگ کا مسئلہ ہمیں ریکارڈ i کے لیے بہترین وزن فراہم کرے گا اور ان بہترین وزنوں کے تحت اس کی کارکردگی کا حساب لگائے گا۔ ہمارے ڈیٹاسیٹ میں ہر ریکارڈ کے لیے اسی کو دہرایا جانا چاہیے۔ لہذا اگر ہمارے پاس n ریکارڈز ہیں تو ہمیں n الگ لکیری مسائل کو حل کرنا ہوگا۔ ڈی ای اے کیسے کام کرتا ہے اس کا سیوڈو کوڈ یہ ہے:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

ڈیٹا انوولپمنٹ تجزیہ کی حدود

DEA ایک بہترین تکنیک ہے لیکن اس کی اپنی حدود ہیں۔ آپ کو سمجھنا چاہیے کہ DEA ایک بلیک باکس کی طرح ہے۔ چونکہ ہر ریکارڈ کی تاثیر کے تناسب میں استعمال ہونے والے وزن مختلف ہوتے ہیں، اس لیے یہ بتانے کی کوشش کرنا کہ ہر اسکور کو کیسے اور کیوں شمار کیا گیا بے معنی ہے۔ عام طور پر ہم تاثیر سکور کی اصل قدروں کے بجائے ریکارڈز کی درجہ بندی پر توجہ مرکوز کرتے ہیں۔ یہ بھی نوٹ کریں کہ انتہاپسندوں کا وجود اسکور کی قدروں کو بہت کم کرنے کا سبب بن سکتا ہے۔

ذہن میں رکھیں کہ DEA تناسب کا اندازہ لگانے کے لیے خصوصیات کے لکیری امتزاج کا استعمال کرتا ہے۔ اس طرح اگر ہماری درخواست میں ان کو خطی طور پر جوڑنا مناسب نہیں ہے، تو ہمیں فیچرز پر تبدیلیاں لاگو کرنی چاہئیں اور انہیں لکیری طور پر یکجا کرنا ممکن بنانا چاہیے۔ اس تکنیک کی ایک اور خرابی یہ ہے کہ ہمیں ریکارڈز کی تعداد کے برابر لکیری پروگرامنگ کے مسائل حل کرنے ہوتے ہیں، جس کے لیے بہت زیادہ کمپیوٹیشنل وسائل کی ضرورت ہوتی ہے۔

ایک اور مسئلہ جس کا DEA کا سامنا ہے وہ یہ ہے کہ یہ اعلی جہتی ڈیٹا کے ساتھ اچھی طرح سے کام نہیں کرتا ہے۔ DEA استعمال کرنے کے لیے d = m + s کے طول و عرض کی تعداد مشاہدات کی تعداد سے نمایاں کم ہونی چاہیے۔ جب d بہت قریب یا n سے بڑا ہو تو DEA کو چلانا مفید نتائج فراہم نہیں کرتا ہے کیونکہ غالباً تمام ریکارڈز بہترین پائے جائیں گے۔ نوٹ کریں کہ جیسے ہی آپ ایک نیا آؤٹ پٹ متغیر (طول و عرض) شامل کریں گے، اس طول و عرض میں زیادہ سے زیادہ قدر والے تمام ریکارڈز بہترین پائے جائیں گے۔

آخر میں ہمیں نوٹ کرنا چاہیے کہ الگورتھم کی عمومی شکل میں، ڈی ای اے میں موجود خصوصیات کے وزن کا اندازہ ڈیٹا سے لگایا جاتا ہے اور اس طرح وہ ان خصوصیات کی اہمیت کے بارے میں کوئی پیشگی معلومات استعمال نہیں کرتے جو ہمارے مسئلے میں ہو سکتی ہیں (یقیناً اس معلومات کو ہمارے خطی مسئلے میں رکاوٹوں کے طور پر شامل کرنا ممکن ہے)۔ مزید برآں کارکردگی کے اسکورز جن کا شمار کیا جاتا ہے وہ دراصل ہر ریکارڈ کی بالائی حد کی کارکردگی کا تناسب ہوتا ہے کیونکہ ان کا حساب "مثالی حالات" کے تحت کیا جاتا ہے۔ اس کا مطلب یہ ہے کہ جب خصوصیات کی اہمیت کے بارے میں کوئی قیاس کرنا ممکن نہ ہو تو DEA ایک اچھا حل ہو سکتا ہے لیکن اگر ہمارے پاس کوئی پیشگی معلومات ہیں یا ہم ان کی اہمیت کا اندازہ لگا سکتے ہیں تو متبادل تکنیک استعمال کرنے کا مشورہ دیا جاتا ہے۔

اگلے مضمون میں، میں آپ کو دکھاؤں گا کہ کس طرح کے نفاذ کو تیار کیا جائے۔ جاوا میں ڈیٹا لفافے کا تجزیہ اور ہم سوشل میڈیا نیٹ ورکس میں ویب صفحات اور مضامین کی مقبولیت کا اندازہ لگانے کے لیے طریقہ استعمال کریں گے۔

اگر آپ کو مضمون پسند ہے، تو اسے ٹویٹر یا فیس بک پر شیئر کرنے کے لیے تھوڑا وقت نکالیں۔ 🙂

ٹائم اسٹیمپ:

سے زیادہ ڈیٹا باکس