Data Envelopment Analysis Tutorial PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Vadnica za analizo obsega podatkov

Analiza ovojnice podatkov, znana tudi kot DEA, je neparametrična metoda za izvajanje mejne analize. Uporablja linearno programiranje za oceno učinkovitosti več enot odločanja in se pogosto uporablja v proizvodnji, upravljanju in ekonomiji. Tehniko je prvi predlagal Charnes, Cooper in Rhodes leta 1978 in od takrat je postal dragoceno orodje za ocenjevanje proizvodnih meja.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.algorithms.dea, če si želite ogledati izvajanje Analize za razvoj podatkov v Javi.

Ko sem se pred 5-6 leti prvič srečal z metodo, sem bil presenečen nad izvirnostjo algoritma, njegovo preprostostjo in bistroumnostjo idej, ki jih je uporabil. Še bolj sem bil presenečen, ko sem videl, da je tehnika dobro delovala zunaj svojih običajnih aplikacij (finančne, operacijske raziskave itd.), saj jo je bilo mogoče uspešno uporabiti v spletnem trženju, razvrščanju iskalnikov in za ustvarjanje sestavljenih meritev. Kljub temu se danes DEA skoraj izključno obravnava v kontekstu poslovanja. Zato bom v tem članku obravnaval osnovne ideje in matematični okvir DEA, v naslednji objavi pa vam bom pokazal nekaj novih aplikacij algoritma v spletnih aplikacijah.

Zakaj je analiza ovoja podatkov zanimiva?

Analiza ovoja podatkov je metoda, ki nam omogoča primerjavo in razvrščanje zapisov (trgovin, zaposlenih, tovarn, spletnih strani, trženjskih kampanj itd.) na podlagi njihovih značilnosti (teža, velikost, stroški, prihodki in druge meritve ali KPI-ji) brez predhodnih predpostavk o pomembnost ali težo lastnosti. Najbolj zanimiv del te tehnike je, da nam omogoča primerjavo zapisov, sestavljenih iz več funkcij, ki imajo popolnoma različne merske enote. To pomeni, da imamo lahko zapise z značilnostmi, merjenimi v kilometrih, kilogramih ali denarnih enotah, in jih še vedno lahko primerjamo, razvrščamo in iščemo najboljše/najslabše in povprečne zapise. Sliši se zanimivo? Nadaljujte z branjem.

Opis in predpostavke analize ovoja podatkov

Graf-analize-ovijanja podatkov
Kot smo že omenili, je DEA metoda, ki je bila izumljena za merjenje produktivnosti v poslovanju. Tako več njegovih idej izhaja iz načina merjenja produktivnosti v tem kontekstu. Ena od ključnih značilnosti metode je ločitev funkcij zapisa v dve kategoriji: vhod in izhod. Če na primer merimo učinkovitost avtomobila, bi lahko rekli, da je vhod litri bencina, izhod pa število kilometrov, ki jih prevozi.

V DEA morajo biti vse lastnosti pozitivne in predpostavlja se, da višja kot je njihova vrednost, večji je njihov vhod/izhod. Poleg tega analiza ovoja podatkov predpostavlja, da je mogoče funkcije linearno kombinirati kot tehtano vsoto nenegativnih uteži in oblikovati razmerje med vhodom in izhodom, ki bo merilo učinkovitost vsakega zapisa. Da bi bil zapis učinkovit, nam mora dati "dober" izhod glede na podani vhod. Učinkovitost se meri z razmerjem med outputom in inputom in nato primerja z razmerjem ostalih zapisov.

Genialna ideja DEA

To, kar smo doslej obravnavali, je zdrava pamet/praksa. Za razvrščanje naših zapisov uporabljamo vhodne in izhodne podatke, ponderirane vsote in razmerja. Pametna ideja DEA je v načinu izračuna uteži funkcij. Namesto da bi morali določiti uteži funkcij in se odločiti o njihovi pomembnosti, preden zaženemo analizo, jih analiza ovojnice podatkov izračuna iz podatkov. Poleg tega uteži NISO enake za vsak zapis!

Evo, kako DEA izbira uteži: Poskušamo povečati razmerje vsakega zapisa z izbiro ustreznih uteži značilnosti; hkrati pa moramo zagotoviti, da če uporabimo enake uteži za izračun razmerij vseh drugih zapisov, noben od njih ne bo večji od 1.

Ideja se na začetku sliši nekoliko čudno. Ali ne bo to vodilo v izračun različno ponderiranih razmerij? Odgovor je pritrdilen. Ali to ne pomeni, da dejansko izračunamo razmerja za vsak zapis drugače? Odgovor je spet pritrdilen. Torej, kako to deluje? Odgovor je preprost: Za vsak zapis, glede na njegove značilnosti, poskušamo najti »idealno situacijo« (uteži), v kateri bi bilo njegovo razmerje čim večje in tako čim bolj učinkovito. A hkrati glede na to "idealno situacijo" nobeno od razmerij izhod/vhod drugih zapisov ne sme biti večje od 1, kar pomeni, da ne morejo biti učinkovitejši od 100 %! Ko izračunamo razmerja vseh zapisov pod vsako »idealno situacijo«, uporabimo njihova razmerja, da jih razvrstimo.

Glavno idejo DEA lahko torej povzamemo v naslednje: »Na podlagi značilnosti vsakega zapisa najti idealno situacijo, v kateri lahko dosežemo najboljši rezultat razmerja. Nato izračunajte to idealno razmerje vsakega zapisa in ga uporabite za primerjavo njihove učinkovitosti.

Poglejmo primer

Poglejmo primer, kjer bi lahko uporabili DEA.

Recimo, da nas zanima ovrednotenje učinkovitosti trgovin v supermarketih določene verige na podlagi številnih značilnosti: skupnega števila zaposlenih, velikosti trgovine v kvadratnih metrih, količine prodaje, ki jo ustvarijo, in števila kupcev. ki jih v povprečju služijo vsak mesec. Očitno postane, da iskanje najučinkovitejših trgovin od nas zahteva primerjavo zapisov z več funkcijami.

Za uporabo DEA moramo definirati, kaj je naš vhod in izhod. V tem primeru je rezultat očitno količina prodaje in število strank, ki jih oskrbujejo. Vhod je število zaposlenih in velikost trgovine. Če zaženemo DEA, bomo ocenili razmerje med proizvodnjo in vložkom za vsako trgovino pod idealnimi utežmi (kot je opisano zgoraj). Ko bomo imeli njihova razmerja, jih bomo razvrstili glede na njihovo učinkovitost.

Čas je za matematiko!

Zdaj, ko imamo intuicijo o delovanju DEA, je čas, da se poglobimo v matematiko.

Razmerje učinkovitosti določenega zapisa i z vhodom x in izhodom y (oba vektorja značilnosti s pozitivnimi vrednostmi) je ocenjeno z uporabo naslednje formule:

da2

Kjer sta u in v uteži vsakega izhoda in vhoda zapisa, je s število izhodnih funkcij in m število vhodnih funkcij.

Problem iskanja najboljših/idealnih uteži za določen zapis i lahko formuliramo takole:

da4
da6
da8

Ponovno je zgoraj navedeno le matematični način iskanja uteži u in v, ki povečata učinkovitost zapisa i, pod pogojem, da zaradi teh uteži noben drug zapis ne bo učinkovitejši od 100 %.

Za rešitev tega problema moramo uporabiti linearno programiranje. Na žalost nam linearno programiranje ne dovoljuje uporabe ulomkov, zato moramo formulacijo problema preoblikovati na naslednji način:

da10
da12
da14
da8

Poudariti moramo, da nam bo zgornji problem linearnega programiranja dal najboljše uteži za zapis i in izračunal njegovo učinkovitost pod temi optimalnimi utežmi. Enako je treba ponoviti za vsak zapis v našem naboru podatkov. Torej, če imamo n zapisov, moramo rešiti n ločenih linearnih problemov. Tukaj je psevdokoda delovanja DEA:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Omejitve analize ovoja podatkov

DEA je odlična tehnika, vendar ima svoje omejitve. Morate razumeti, da je DEA kot črna skrinjica. Ker so uteži, ki se uporabljajo v razmerju učinkovitosti vsakega zapisa, različne, je poskušanje razložiti, kako in zakaj je bil vsak rezultat izračunan, nesmiselno. Običajno se osredotočamo na razvrstitev zapisov in ne na dejanske vrednosti rezultatov učinkovitosti. Upoštevajte tudi, da lahko obstoj ekstremov povzroči, da imajo rezultati zelo nizke vrednosti.

Upoštevajte, da DEA uporablja linearne kombinacije funkcij za oceno razmerij. Če torej njihovo linearno združevanje ni primerno v naši aplikaciji, moramo uporabiti transformacije na funkcijah in omogočiti njihovo linearno združevanje. Druga pomanjkljivost te tehnike je, da moramo rešiti toliko problemov linearnega programiranja, kot je število zapisov, kar zahteva veliko računalniških virov.

Druga težava, s katero se sooča DEA, je, da ne deluje dobro z visokodimenzionalnimi podatki. Za uporabo DEA mora biti število dimenzij d = m + s znatno nižje od števila opazovanj. Zagon DEA, ko je d zelo blizu ali večji od n, ne zagotavlja uporabnih rezultatov, saj bodo najverjetneje vsi zapisi optimalni. Upoštevajte, da ko dodate novo izhodno spremenljivko (dimenzijo), bodo vsi zapisi z največjo vrednostjo v tej dimenziji optimalni.

Nazadnje moramo opozoriti, da so v splošni obliki algoritma uteži funkcij v DEA ocenjene iz podatkov in zato ne uporabljajo nobenih predhodnih informacij o pomembnosti funkcij, ki bi jih lahko imeli v našem problemu (seveda te informacije je mogoče vključiti kot omejitve v naš linearni problem). Poleg tega so izračunani rezultati učinkovitosti dejansko razmerja učinkovitosti zgornje meje vsakega zapisa, saj so izračunani v "idealnih situacijah". To pomeni, da je DEA lahko dobra rešitev, kadar ni mogoče narediti kakršnih koli predpostavk o pomembnosti funkcij, če pa imamo predhodne informacije ali lahko količinsko opredelimo njihov pomen, priporočamo uporabo alternativnih tehnik.

V naslednjem članku vam bom pokazal, kako razviti implementacijo Analiza ovojnice podatkov v JAVI in metodo bomo uporabili za oceno priljubljenosti spletnih strani in člankov v omrežjih družbenih medijev.

Če vam je članek všeč, si vzemite trenutek in ga delite na Twitterju ali Facebooku. 🙂

Časovni žig:

Več od Datumbox