البرنامج التعليمي لتحليل مغلف البيانات وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

البرنامج التعليمي لتحليل تغليف البيانات

تحليل تغليف البيانات ، المعروف أيضًا باسم DEA ، هو طريقة غير معلمية لإجراء تحليل الحدود. يستخدم البرمجة الخطية لتقدير كفاءة وحدات صنع القرار المتعددة ويستخدم بشكل شائع في الإنتاج والإدارة والاقتصاد. تم اقتراح التقنية لأول مرة بواسطة تشارينز وكوبر ورودس في عام 1978 ومنذ ذلك الحين أصبحت أداة قيّمة لتقدير حدود الإنتاج.

تحديث: أصبح Datumbox Machine Learning Framework مفتوح المصدر ومجانيًا الآن بإمكانك تحميله. تحقق من الحزمة com.datumbox.framework.algorithms.dea لمعرفة تنفيذ تحليل تغليف البيانات في Java.

عندما واجهت الطريقة لأول مرة قبل 5-6 سنوات ، اندهشت من أصالة الخوارزمية وبساطتها وذكاء الأفكار التي استخدمتها. لقد كنت مندهشا أكثر لرؤية أن هذه التقنية عملت بشكل جيد خارج تطبيقاتها المعتادة (المالية ، بحوث العمليات ، إلخ) حيث يمكن تطبيقها بنجاح في التسويق عبر الإنترنت ، وتصنيف محرك البحث ولإنشاء مقاييس مركبة. على الرغم من ذلك ، تتم مناقشة إدارة مكافحة المخدرات اليوم بشكل حصري تقريبًا في سياق الأعمال. هذا هو السبب في أنني سأغطي في هذه المقالة الأفكار الأساسية والإطار الرياضي وراء DEA وفي المقالة التالية سأعرض لك بعض التطبيقات الجديدة للخوارزمية على تطبيقات الويب.

لماذا يعتبر تحليل تغليف البيانات مثيرًا للاهتمام؟

تحليل تغليف البيانات هي طريقة تمكننا من مقارنة وتصنيف السجلات (المتاجر والموظفين والمصانع وصفحات الويب والحملات التسويقية وما إلى ذلك) استنادًا إلى ميزاتها (الوزن والحجم والتكلفة والإيرادات وغيرها من المقاييس أو مؤشرات الأداء الرئيسية) دون إجراء أي افتراضات مسبقة حول أهمية أو أوزان الميزات. الجزء الأكثر إثارة للاهتمام في هذه التقنية هو أنها تسمح لنا بمقارنة السجلات التي تتكون من ميزات متعددة لها وحدات قياس مختلفة تمامًا. هذا يعني أنه يمكن أن يكون لدينا سجلات بميزات تقاس بالكيلومترات أو الكيلوغرامات أو الوحدات النقدية ولا يزال بإمكاننا مقارنتها وترتيبها والعثور على أفضل / أسوأ ومتوسط ​​أداء السجلات. مثير للاهتمام؟ تابع القراءة.

وصف وافتراضات تحليل تغليف البيانات

رسم بياني لتغليف البيانات
كما ناقشنا سابقًا ، فإن DEA هي طريقة تم اختراعها لقياس الإنتاجية في الأعمال. وهكذا تأتي العديد من أفكارها من طريقة قياس الإنتاجية في هذا السياق. واحدة من الخصائص الأساسية للطريقة هي فصل ميزات السجل إلى فئتين: المدخلات والمخرجات. على سبيل المثال ، إذا قمنا بقياس كفاءة السيارة ، فيمكننا القول أن المدخلات هي لترات البنزين وأن الناتج هو عدد الكيلومترات التي تقطعها.

في إدارة مكافحة المخدرات ، يجب أن تكون جميع الميزات إيجابية ويفترض أنه كلما زادت قيمتها ، زادت المدخلات / المخرجات. بالإضافة إلى ذلك ، يفترض تحليل تغليف البيانات أنه يمكن دمج الميزات خطيًا كمجموع مرجح للأوزان غير السلبية وتشكيل نسبة بين المدخلات والمخرجات التي ستقيس كفاءة كل سجل. لكي يكون السجل فعالاً ، يجب أن يعطينا مخرجات "جيدة" بالنسبة إلى المدخلات المقدمة. يتم قياس الكفاءة من خلال النسبة بين المخرجات والمدخلات ثم مقارنتها مع نسبة السجلات الأخرى.

الفكرة العبقرية وراء إدارة مكافحة المخدرات

ما غطينا حتى الآن هو الحس السليم / الممارسة. نستخدم المدخلات والمخرجات والمبالغ والنسب المرجحة لترتيب سجلاتنا. الفكرة الذكية لـ DEA هي الطريقة التي يتم بها حساب أوزان الميزات. بدلاً من الاضطرار إلى تعيين أوزان الميزات وتحديد أهميتها قبل تشغيل التحليل ، يقوم تحليل تغليف البيانات بحسابها من البيانات. علاوة على ذلك ، فإن الأوزان ليست هي نفسها لكل سجل!

إليك كيفية تحديد DEA للأوزان: نحاول زيادة نسبة كل سجل إلى أقصى حد من خلال تحديد أوزان الميزة المناسبة ؛ في نفس الوقت على الرغم من أنه يجب علينا التأكد من أنه إذا استخدمنا نفس الأوزان لحساب نسب جميع السجلات الأخرى ، فلن يصبح أي منها أكبر من 1.

تبدو الفكرة غريبة بعض الشيء في البداية. ألن يؤدي ذلك إلى حساب نسب مرجحة مختلفة؟ الجواب نعم. ألا يعني هذا أننا في الواقع نحسب بشكل مختلف النسب لكل سجل؟ الجواب مرة أخرى نعم. فكيف يعمل هذا؟ الجواب بسيط: لكل سجل ، نظرًا لخصائصه ، نحاول العثور على "الوضع المثالي" (الأوزان) حيث تكون نسبته عالية قدر الإمكان وبالتالي جعله فعالاً قدر الإمكان. ولكن في نفس الوقت ، وبالنظر إلى هذا "الوضع المثالي" ، يجب ألا تكون أي من نسب الإخراج / الإدخال للسجلات الأخرى أكبر من 1 ، مما يعني أنها لا يمكن أن تكون أكثر فعالية من 100٪! بمجرد أن نحسب نسب جميع السجلات تحت كل "حالة مثالية" ، نستخدم نسبها لترتيبها.

لذا ، يمكن تلخيص الفكرة الرئيسية لإدارة مكافحة المخدرات في ما يلي: "اعثر على الوضع المثالي الذي يمكننا من خلاله تحقيق أفضل نتيجة نسبة استنادًا إلى خصائص كل سجل. ثم احسب هذه النسبة المثالية لكل سجل واستخدمها لمقارنة فعاليتها ".

دعونا نرى مثالا

دعونا نرى مثالا حيث يمكننا استخدام DEA.

لنفترض أننا مهتمون بتقييم كفاءة متاجر السوبر ماركت لسلسلة معينة بناءً على عدد من الخصائص: إجمالي عدد الموظفين ، وحجم المتجر بالأمتار المربعة ، وكمية المبيعات التي يولدونها وعدد العملاء التي تخدمها كل شهر في المتوسط. أصبح من الواضح أن العثور على المتاجر الأكثر كفاءة يتطلب منا مقارنة السجلات بميزات متعددة.

لتطبيق DEA يجب أن نحدد المدخلات والمخرجات. في هذه الحالة ، من الواضح أن الناتج هو مقدار المبيعات وعدد العملاء الذين يخدمونهم. المدخلات هي عدد الموظفين وحجم المتجر. إذا قمنا بتشغيل DEA ، فسوف نقوم بتقدير نسبة المخرجات إلى المدخلات لكل متجر تحت الأوزان المثالية (كما هو موضح أعلاه). بمجرد أن نحصل على نسبهم ، سنصنفهم وفقًا لكفاءتهم.

حان الوقت الرياضيات!

الآن بعد أن حصلنا على حدس حول كيفية عمل DEA ، فقد حان الوقت للحفر في الرياضيات.

يتم تقدير نسبة الكفاءة لسجل معين i مع إدخال x وإخراج y (كلاهما مميزات ذات قيم موجبة) باستخدام الصيغة التالية:

dea2

حيث u و v هي أوزان كل ناتج وإدخال للسجل ، s هو عدد ميزات الإخراج و m هو عدد ميزات الإدخال.

يمكن صياغة مشكلة إيجاد الأوزان المثالية / المثالية لسجل معين على النحو التالي:

dea4
dea6
dea8

مرة أخرى ، ما سبق هو مجرد طريقة رياضية للعثور على الأوزان u و v التي تزيد من كفاءة السجل i ، بشرط ألا تجعل هذه الأوزان أي من السجلات الأخرى أكثر كفاءة من 100٪.

لحل هذه المشكلة يجب علينا استخدام البرمجة الخطية. لسوء الحظ ، لا تسمح لنا البرمجة الخطية باستخدام الكسور وبالتالي نحتاج إلى تحويل صياغة المشكلة على النحو التالي:

dea10
dea12
dea14
dea8

يجب أن نشدد على أن مشكلة البرمجة الخطية أعلاه ستعطينا أفضل أوزان للتسجيل i وحساب كفاءتها تحت تلك الأوزان المثلى. يجب تكرار نفس الشيء لكل سجل في مجموعة بياناتنا. لذا إذا كان لدينا سجلات n ، علينا حل n مشاكل خطية منفصلة. إليك الرمز الزائف لكيفية عمل إدارة مكافحة المخدرات:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

حدود تحليل تغليف البيانات

إدارة مكافحة المخدرات هي تقنية رائعة ولكن لها قيودها. يجب أن تفهم أن إدارة مكافحة المخدرات تشبه الصندوق الأسود. نظرًا لأن الأوزان المستخدمة في نسبة الفعالية لكل سجل مختلفة ، فإن محاولة شرح كيف ولماذا تم حساب كل درجة أمر لا معنى له. عادةً نركز على ترتيب السجلات بدلاً من القيم الفعلية لدرجات الفعالية. لاحظ أيضًا أن وجود النهايات المتطرفة يمكن أن يؤدي إلى الحصول على درجات منخفضة جدًا.

ضع في اعتبارك أن إدارة مكافحة المخدرات تستخدم مجموعات خطية من الميزات لتقدير النسب. وبالتالي ، إذا كان دمجها خطيًا غير مناسب في تطبيقنا ، فيجب علينا تطبيق التحولات على الميزات وجعلها ممكنة للدمج الخطي. عيب آخر لهذه التقنية هو أنه يتعين علينا حل العديد من مشاكل البرمجة الخطية مثل عدد السجلات ، وهو أمر يتطلب الكثير من الموارد الحسابية.

مشكلة أخرى تواجهها إدارة مكافحة المخدرات وهي أنها لا تعمل بشكل جيد مع البيانات عالية الأبعاد. لاستخدام DEA ، يجب أن يكون عدد الأبعاد d = m + s أقل بكثير من عدد الملاحظات. تشغيل DEA عندما يكون d قريبًا جدًا أو أكبر من n لا يوفر نتائج مفيدة لأنه على الأرجح سيتم العثور على جميع السجلات على أنها مثالية. لاحظ أنه عند إضافة متغير إخراج جديد (بُعد) ، سيتم العثور على أفضل السجلات ذات القيمة القصوى في هذا البعد.

أخيرًا ، يجب أن نلاحظ أنه في الشكل العام للخوارزمية ، يتم تقدير أوزان الميزات في DEA من البيانات وبالتالي لا يستخدمون أي معلومات سابقة حول أهمية الميزات التي قد تكون لدينا في مشكلتنا (بالطبع من الممكن دمج هذه المعلومات على أنها قيود في مشكلتنا الخطية). بالإضافة إلى ذلك ، فإن درجات الكفاءة المحسوبة هي في الواقع نسب الحد الأعلى لكل سجل حيث يتم حسابها تحت "المواقف المثالية". هذا يعني أن إدارة مكافحة المخدرات يمكن أن تكون حلاً جيدًا عندما لا يكون من الممكن وضع أي افتراضات حول أهمية الميزات ولكن إذا كان لدينا أي معلومات مسبقة أو يمكننا تحديد أهميتها ، فمن المستحسن استخدام تقنيات بديلة.

في المقالة التالية ، سأوضح لك كيفية تطوير تنفيذ تحليل تغليف البيانات في جافا وسنستخدم الطريقة لتقدير شعبية صفحات الويب والمقالات في شبكات التواصل الاجتماعي.

إذا أعجبك المقال ، خذ لحظة لمشاركته على Twitter أو Facebook. 🙂

الطابع الزمني:

اكثر من داتومبوكس