Tutorial Analisis Envelopment Data Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

Tutorial Analisis Envelopment Data

Analisis Envelopment Data, juga dikenal sebagai DEA, adalah metode non-parametrik untuk melakukan analisis frontier. Ini menggunakan pemrograman linier untuk memperkirakan efisiensi beberapa unit pengambilan keputusan dan biasanya digunakan dalam produksi, manajemen dan ekonomi. Teknik ini pertama kali diusulkan oleh Charnes, Cooper dan Rhodes pada tahun 1978 dan sejak saat itu menjadi alat yang berharga untuk memperkirakan batas produksi.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihatlah paket com.datumbox.framework.algorithms.dea untuk melihat implementasi Analisis Envelopment Data di Jawa.

Ketika saya pertama kali menemukan metode ini 5-6 tahun yang lalu, saya kagum dengan keaslian algoritme, kesederhanaannya, dan kecerdasan ide yang digunakannya. Saya bahkan lebih takjub melihat bahwa teknik ini bekerja dengan baik di luar aplikasi biasanya (keuangan, riset operasi, dll.) Karena dapat berhasil diterapkan dalam Pemasaran Online, Peringkat Mesin Pencari, dan untuk membuat metrik gabungan. Meskipun demikian, saat ini DEA hampir secara eksklusif dibahas dalam konteks bisnis. Itulah sebabnya, pada artikel ini, saya akan membahas ide-ide dasar dan kerangka kerja matematika di balik DEA dan di posting berikutnya saya akan menunjukkan kepada Anda beberapa aplikasi baru dari algoritma pada aplikasi web.

Mengapa Analisis Envelopment Data menarik?

Analisis Envelopment Data adalah metode yang memungkinkan kami membandingkan dan memeringkat catatan (toko, karyawan, pabrik, halaman web, kampanye pemasaran, dll.) Berdasarkan fitur mereka (berat, ukuran, biaya, pendapatan, dan metrik atau KPI lainnya) tanpa membuat asumsi sebelumnya tentang pentingnya atau bobot fitur. Bagian paling menarik dari teknik ini adalah memungkinkan kita untuk membandingkan rekaman yang terdiri dari beberapa fitur yang memiliki unit pengukuran yang sangat berbeda. Ini berarti bahwa kita dapat memiliki catatan dengan fitur yang diukur dalam kilometer, kilogram, atau unit moneter dan masih dapat membandingkan, memeringkatnya, dan menemukan catatan dengan kinerja terbaik / terburuk dan rata-rata. Kedengarannya menarik? Teruskan membaca.

Deskripsi dan asumsi Analisis Data Envelopment

Data-envelopment-analysis-grafik
Seperti yang telah kita bahas sebelumnya, DEA adalah metode yang ditemukan untuk mengukur produktivitas dalam bisnis. Jadi beberapa idenya berasal dari cara produktivitas diukur dalam konteks ini. Salah satu karakteristik inti dari metode ini adalah pemisahan fitur rekam menjadi dua kategori: masukan dan keluaran. Misalnya jika kita mengukur efisiensi sebuah mobil, kita dapat mengatakan bahwa inputnya adalah liter bensin dan outputnya adalah banyaknya kilometer yang ditempuh mobil tersebut.

Di DEA, semua fitur harus positif dan diasumsikan bahwa semakin tinggi nilainya, semakin banyak input / outputnya. Selain itu, Data Envelopment Analysis mengasumsikan bahwa fitur dapat digabungkan secara linier sebagai jumlah bobot non-negatif dan membentuk rasio antara input dan output yang akan mengukur efisiensi setiap record. Agar record menjadi efisien, record harus memberi kita output yang "baik" relatif terhadap input yang diberikan. Efisiensi diukur dengan rasio antara keluaran dan masukan kemudian dibandingkan dengan rasio catatan lainnya.

Ide cerdik di balik DEA

Apa yang kami bahas sejauh ini adalah akal sehat / praktik. Kami menggunakan input dan output, jumlah dan rasio tertimbang untuk menentukan peringkat catatan kami. Ide cerdas dari DEA adalah dalam cara penghitungan bobot fitur. Alih-alih harus menyetel bobot fitur dan memutuskan kepentingannya sebelum kita menjalankan analisis, Analisis Envelopment Data menghitungnya dari data. Selain itu, bobotnya TIDAK sama untuk setiap rekor!

Berikut adalah cara DEA memilih bobot: Kami mencoba memaksimalkan rasio setiap record dengan memilih bobot fitur yang sesuai; pada saat yang sama kita harus memastikan bahwa jika kita menggunakan bobot yang sama untuk menghitung rasio dari semua record lainnya, tidak ada satupun yang akan menjadi lebih besar dari 1.

Ide itu terdengar agak aneh di awal. Apakah ini tidak akan mengarah pada kalkulasi rasio tertimbang yang berbeda? Jawabannya iya. Bukankah ini berarti bahwa kita sebenarnya menghitung rasio yang berbeda untuk setiap record? Jawabannya sekali lagi ya. Jadi bagaimana cara kerjanya? Jawabannya sederhana: Untuk setiap record, mengingat karakteristiknya, kami mencoba menemukan "situasi ideal" (bobot) di mana rasionya akan setinggi mungkin dan membuatnya seefektif mungkin. TETAPI pada saat yang sama, mengingat "situasi ideal" ini, tidak ada rasio keluaran / masukan dari rekaman lain yang harus lebih besar dari 1, yang berarti bahwa mereka tidak bisa lebih efektif dari 100%! Setelah kami menghitung rasio semua rekaman dalam setiap "situasi ideal", kami menggunakan rasio mereka untuk memeringkatnya.

Jadi gagasan utama DEA dapat diringkas sebagai berikut: “Temukan situasi ideal di mana kita dapat mencapai skor rasio terbaik berdasarkan karakteristik masing-masing rekaman. Kemudian hitung rasio ideal dari setiap record dan gunakan untuk membandingkan keefektifannya ”.

Mari kita lihat contohnya

Mari kita lihat contoh di mana kita dapat menggunakan DEA.

Misalkan kita tertarik untuk mengevaluasi efisiensi toko supermarket dari suatu rantai tertentu berdasarkan sejumlah karakteristik: jumlah total karyawan, ukuran toko dalam meter persegi, jumlah penjualan yang mereka hasilkan dan jumlah pelanggan yang mereka layani rata-rata setiap bulan. Menjadi jelas bahwa menemukan penyimpanan yang paling efisien mengharuskan kita untuk membandingkan catatan dengan beberapa fitur.

Untuk menerapkan DEA kita harus mendefinisikan input dan output yang mana. Dalam hal ini outputnya jelas jumlah penjualan dan jumlah pelanggan yang mereka layani. Inputnya adalah jumlah karyawan dan ukuran toko. Jika kami menjalankan DEA, kami akan memperkirakan rasio output ke input untuk setiap toko di bawah bobot ideal (seperti dibahas di atas). Setelah kami memiliki rasionya, kami akan memeringkatnya sesuai dengan efisiensinya.

Saatnya matematika!

Sekarang setelah kita mendapatkan intuisi tentang cara kerja DEA, saatnya menggali matematika.

Rasio efisiensi dari record i tertentu dengan input x dan output y (keduanya vektor fitur dengan nilai positif) diperkirakan dengan menggunakan rumus berikut:

da2

Dimana u dan v adalah bobot tiap keluaran dan masukan dari record, s adalah jumlah fitur keluaran dan m adalah jumlah fitur masukan.

Masalah mencari bobot terbaik / ideal untuk rekor tertentu i dapat dirumuskan sebagai berikut:

da4
da6
da8

Sekali lagi di atas hanyalah cara matematis untuk menemukan bobot u dan v yang memaksimalkan efisiensi record i, asalkan bobot tersebut tidak akan membuat record lain lebih efisien dari 100%.

Untuk mengatasi masalah ini kita harus menggunakan pemrograman linier. Sayangnya pemrograman linier tidak mengizinkan kita untuk menggunakan pecahan dan oleh karena itu kita perlu mengubah rumusan masalah sebagai berikut:

da10
da12
da14
da8

Kami harus menekankan bahwa masalah pemrograman linier di atas akan memberi kita bobot terbaik untuk catatan i dan menghitung efisiensinya di bawah bobot optimal tersebut. Hal yang sama harus diulangi untuk setiap record dalam dataset kami. Jadi jika kita memiliki n record, kita harus menyelesaikan n masalah linier yang terpisah. Berikut adalah pseudocode cara kerja DEA:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Batasan Analisis Data Envelopment

DEA adalah teknik yang hebat tetapi memiliki keterbatasan. Anda harus memahami bahwa DEA seperti kotak hitam. Karena bobot yang digunakan dalam rasio efektivitas setiap catatan berbeda, mencoba menjelaskan bagaimana dan mengapa setiap skor dihitung tidak ada gunanya. Biasanya kami fokus pada peringkat catatan daripada nilai aktual dari skor efektivitas. Perhatikan juga bahwa keberadaan ekstrem dapat menyebabkan skor memiliki nilai yang sangat rendah.

Ingatlah bahwa DEA menggunakan kombinasi linier fitur untuk memperkirakan rasio. Jadi jika menggabungkannya secara linier tidak sesuai dalam aplikasi kita, kita harus menerapkan transformasi pada fitur dan memungkinkannya untuk digabungkan secara linier. Kelemahan lain dari teknik ini adalah kita harus menyelesaikan masalah pemrograman linier sebanyak jumlah record, sesuatu yang membutuhkan banyak sumber daya komputasi.

Masalah lain yang dihadapi DEA adalah tidak bekerja dengan baik dengan data berdimensi tinggi. Untuk menggunakan DEA jumlah dimensi d = m + s harus signifikan lebih rendah dari jumlah observasi. Menjalankan DEA ketika d sangat dekat atau lebih besar dari n tidak memberikan hasil yang berguna karena kemungkinan besar semua catatan akan ditemukan optimal. Perhatikan bahwa saat Anda menambahkan variabel keluaran baru (dimensi), semua catatan dengan nilai maksimum dalam dimensi ini akan dianggap optimal.

Terakhir, kami harus mencatat bahwa dalam bentuk umum algoritme, bobot fitur di DEA diperkirakan dari data dan karenanya mereka tidak menggunakan informasi sebelumnya tentang pentingnya fitur yang mungkin kami miliki dalam masalah kami (tentu saja adalah mungkin untuk memasukkan informasi ini sebagai kendala dalam masalah linier kita). Selain itu, skor efisiensi yang dihitung sebenarnya adalah rasio efisiensi batas atas dari setiap catatan karena dihitung dalam “situasi ideal”. Ini berarti bahwa DEA dapat menjadi solusi yang baik ketika tidak memungkinkan untuk membuat asumsi apa pun tentang pentingnya fitur tetapi jika kami memiliki informasi sebelumnya atau kami dapat mengukur kepentingannya, maka disarankan untuk menggunakan teknik alternatif.

Pada artikel berikutnya, saya akan menunjukkan kepada Anda bagaimana mengembangkan implementasi Analisis Envelopment Data di JAWA dan kami akan menggunakan metode ini untuk memperkirakan popularitas halaman web dan artikel di jaringan media sosial.

Jika Anda menyukai artikel tersebut, luangkan waktu sejenak untuk membagikannya di Twitter atau Facebook. 🙂

Stempel Waktu:

Lebih dari kotak data