Data Enveloment Analysis Tutorial PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tietojen Envelopment Analysis -opetusohjelma

Data Envelopment Analysis, joka tunnetaan myös nimellä DEA, on ei-parametrinen menetelmä raja-analyysin suorittamiseksi. Se käyttää lineaarista ohjelmointia useiden päätöksentekoyksiköiden tehokkuuden arvioimiseksi, ja sitä käytetään yleisesti tuotannossa, johtamisessa ja taloustieteessä. Tekniikan ehdotti ensin Charnes, Cooper ja Rhodes vuonna 1978 ja siitä lähtien siitä tuli arvokas työkalu tuotantorajojen arvioimisessa.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Katso paketti com.datumbox.framework.algorithms.dea nähdäksesi, kuinka Data Envelopment Analysis toteutetaan Javalla.

Kun tapasin menetelmän ensimmäistä kertaa 5-6 vuotta sitten, hämmästyin algoritmin omaperäisyydestä, sen yksinkertaisuudesta ja sen käyttämien ideoiden älykkyydestä. Olin vieläkin hämmästyneempi nähdessäni, että tekniikka toimi hyvin tavallisten sovellustensa ulkopuolella (talous-, operaatiotutkimus jne.), Koska sitä voitiin soveltaa menestyksekkäästi verkkomarkkinoinnissa, hakukoneissa ja yhdistettyjen mittareiden luomisessa. Tästä huolimatta DEA: sta keskustellaan nykyään melkein yksinomaan liiketoiminnan yhteydessä. Siksi käsittelen tässä artikkelissa DEA: n taustalla olevia perusideoita ja matemaattisia puitteita, ja seuraavassa viestissä esitän sinulle joitain uusia sovelluksia algoritmille verkkosovelluksissa.

Miksi tietojen kehityksen analyysi on mielenkiintoista?

Data Envelopment Analysis on menetelmä, jonka avulla voimme vertailla ja luokitella tietueita (myymälät, työntekijät, tehtaat, verkkosivut, markkinointikampanjat jne.) Niiden ominaisuuksien (paino, koko, kustannukset, tuotot ja muut mittarit tai KPI: t) perusteella tekemättä ennakko-oletuksia ominaisuuksien merkitys tai painot. Mielenkiintoisin osa tätä tekniikkaa on, että sen avulla voimme verrata tietueita, jotka koostuvat useista ominaisuuksista, joilla on täysin erilaiset mittayksiköt. Tämä tarkoittaa, että meillä voi olla ennätyksiä, joiden ominaisuudet mitataan kilometreinä, kilogrammoina tai rahayksikköinä, ja pystymme silti vertaamaan, luokittelemaan niitä ja löytämään parhaat / huonimmat ja keskimääräiset tulokset. Kuulostaa mielenkiintoiselta? Jatka lukemista.

Data Envelopment Analysis -kuvaus ja oletukset

Data-vaippa-analyysi-kaavio
Kuten aiemmin keskustelimme, DEA on keksitty menetelmä, jolla mitataan liiketoiminnan tuottavuutta. Niinpä useat sen ideat johtuvat tavasta, jolla tuottavuutta mitataan tässä yhteydessä. Yksi menetelmän ydinominaisuuksista on tietueominaisuuksien erottaminen kahteen luokkaan: panos ja lähtö. Esimerkiksi, jos mitataan auton hyötysuhde, voimme sanoa, että panos on litraa bensiiniä ja lähtö on kilometrien määrä, jonka auto kuljettaa.

DEA: ssa kaikkien ominaisuuksien on oltava positiivisia, ja oletetaan, että mitä suurempi niiden arvo, sitä enemmän niiden panos / lähtö on. Lisäksi tiedonkeruun analyysissä oletetaan, että ominaisuudet voidaan yhdistää lineaarisesti ei-negatiivisten painojen painotettuna summana ja muodostaa tulon ja lähdön välinen suhde, joka mittaa kunkin tietueen tehokkuuden. Jotta tietue olisi tehokas, sen on annettava meille "hyvä" tulos suhteessa annettuun tuloon. Tehokkuus mitataan tuotoksen ja syötteen välisellä suhteella ja verrataan sitten muiden tietueiden suhteeseen.

DEA: n nerokas idea

Tähän mennessä käsittelemämme asia on terve järki / käytäntö. Käytämme panoksia ja tuotoksia, painotettuja summia ja suhteita tietueidemme sijoittamiseen. DEA: n fiksu idea on se, että ominaisuuksien painot lasketaan. Sen sijaan, että joudutaan asettamaan ominaisuuksien painoja ja päättämään niiden tärkeydestä ennen analyysin suorittamista, Data Envelopment Analysis laskee ne tiedoista. Lisäksi painot eivät ole samat jokaiselle levylle!

Näin DEA valitsee painot: Yritämme maksimoida jokaisen tietueen suhde valitsemalla sopivat ominaisuuspainot; Samanaikaisesti, vaikka meidän on varmistettava, että jos käytämme samoja painoja kaikkien muiden tietueiden suhdelaskennassa, mikään niistä ei tule suuremmaksi kuin 1.

Ajatus kuulostaa aluksi hieman oudolta. Eikö tämä johda eri painotettujen suhteiden laskemiseen? Vastaus on kyllä. Eikö tämä tarkoita sitä, että laskemme tosiasiallisesti jokaisen levyn suhdeluvut eri tavalla? Vastaus on jälleen kyllä. Joten miten tämä toimii? Vastaus on yksinkertainen: Jokaiselle ennätykselle, sen ominaisuuksien perusteella, yritämme löytää "ihanteellisen tilanteen" (painot), jossa sen suhde olisi mahdollisimman korkea, ja siten tehdä siitä mahdollisimman tehokas. MUTTA, samalla kun otetaan huomioon tämä "ihanteellinen tilanne", mikään muiden tietueiden tuotos / syöttösuhde ei saa olla suurempi kuin 1, mikä tarkoittaa, että ne eivät voi olla tehokkaampia kuin 100%! Kun olemme laskeneet kaikkien "ihanteellisten tilanteiden" kaikkien tietueiden suhteet, käytämme niiden suhteita niiden järjestämiseen.

Joten DEA: n pääidea voidaan tiivistää seuraavasti: ”Etsi ihanteellinen tilanne, jossa voimme saavuttaa parhaan suhdeluvun kunkin levyn ominaisuuksien perusteella. Laske sitten jokaisen levyn tämä ihanteellinen suhde ja vertaa sitä niiden tehokkuuteen ”.

Katsotaanpa esimerkki

Katsotaanpa esimerkki, jossa voisimme käyttää DEA: ta.

Oletetaan, että olemme kiinnostuneita arvioimaan tietyn ketjun supermarkettien tehokkuutta useiden ominaisuuksien perusteella: työntekijöiden kokonaismäärä, myymälän koko neliömetreinä, heidän tuottamansa myynnin määrä ja asiakkaiden määrä että he palvelevat keskimäärin kuukausittain. On ilmeistä, että tehokkaimpien myymälöiden löytäminen vaatii meitä vertaamaan tietueita useilla ominaisuuksilla.

DEA: n soveltamiseksi meidän on määriteltävä, mikä on panoksemme ja tuotoksemme. Tässä tapauksessa tuotos on ilmeisesti myynnin määrä ja palvelemiensa asiakkaiden määrä. Syöttö on työntekijöiden määrä ja myymälän koko. Jos suoritamme DEA: n, arvioimme jokaisen myymälän tuotos / syöttösuhde ihanteellisilla painoilla (kuten yllä on käsitelty). Kun meillä on niiden suhde, luokitellaan ne niiden tehokkuuden mukaan.

On matematiikan aikaa!

Nyt kun saimme intuition DEA: n toiminnasta, on aika kaivaa matematiikkaa.

Tietyn tietueen i hyötysuhde, jossa on x tulo ja y-lähtö (molemmat ominaisvektorit positiivisilla arvoilla) arvioidaan käyttämällä seuraavaa kaavaa:

dea2

Missä u ja v ovat tietueen jokaisen lähdön ja syötteen painot, s on lähtöominaisuuksien lukumäärä ja m on syöttöominaisuuksien lukumäärä.

Parhaiden / ihanteellisten painojen löytämisen ongelma tietylle tietueelle i voidaan muotoilla seuraavasti:

dea4
dea6
dea8

Jälleen yllä on vain matemaattinen tapa löytää painot u ja v, jotka maksimoivat tietueen i tehokkuuden, edellyttäen, että nämä painot eivät tee mistään muusta tietueesta tehokkaampaa kuin 100%.

Tämän ongelman ratkaisemiseksi meidän on käytettävä lineaarista ohjelmointia. Valitettavasti lineaarinen ohjelmointi ei salli meidän käyttää murto-osia, joten meidän on muutettava ongelman muotoilua seuraavasti:

dea10
dea12
dea14
dea8

Meidän on painotettava, että yllä oleva lineaarinen ohjelmointiongelma antaa meille parhaat painot tietueelle i ja laskee sen tehokkuuden näillä optimaalisilla painoilla. Sama on toistettava jokaiselle tietueemme tietueelle. Joten jos meillä on n tietuetta, meidän on ratkaistava n erillistä lineaarista tehtävää. Tässä on pseudokoodi siitä, miten DEA toimii:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Data Envelopment Analysis -rajoitukset

DEA on hieno tekniikka, mutta sillä on rajoituksia. Sinun on ymmärrettävä, että DEA on kuin musta laatikko. Koska kunkin tietueen tehokkuussuhteessa käytetyt painot ovat erilaiset, yrittää selittää miten ja miksi kukin pisteet laskettiin on turhaa. Yleensä keskitymme ennätysten paremmuusjärjestykseen kuin tehokkuuspisteiden todellisiin arvoihin. Huomaa myös, että ääripäiden olemassaolo voi aiheuttaa pisteille erittäin pienet arvot.

Muista, että DEA käyttää ominaisuuksien lineaarisia yhdistelmiä arvioidakseen suhteet. Joten jos niiden yhdistäminen lineaarisesti ei ole tarkoituksenmukaista sovelluksessamme, meidän on sovellettava muunnoksia ominaisuuksiin ja mahdollistettava niiden lineaarinen yhdistäminen. Tämän tekniikan toinen haittapuoli on, että meidän on ratkaistava niin monta lineaarista ohjelmointiongelmaa kuin tietueiden määrä, mikä vaatii paljon laskennallisia resursseja.

Toinen DEA: n kohtaama ongelma on se, että se ei toimi hyvin korkean ulottuvuuden datan kanssa. DEA: n käyttämiseksi mittojen lukumäärän d = m + s on oltava merkittävästi pienempi kuin havaintojen lukumäärä. DEA: n suorittaminen, kun d on hyvin lähellä tai suurempi kuin n, ei tuota hyödyllisiä tuloksia, koska todennäköisesti kaikkien tietueiden havaitaan olevan optimaalisia. Huomaa, että kun lisäät uuden ulostulomuuttujan (ulottuvuuden), kaikki tietueet, joiden suurin arvo on tässä ulottuvuudessa, löytyvät optimaalisista.

Lopuksi on huomattava, että algoritmin yleisessä muodossa DEA: n ominaisuuksien painot arvioidaan tiedoista, joten ne eivät käytä mitään ennakkotietoa ominaisuuksien tärkeydestä, joka meillä saattaa olla ongelmassamme (tietysti tämä tieto on mahdollista sisällyttää rajoituksina lineaariseen ongelmaan). Lisäksi lasketut hyötysuhdepisteet ovat itse asiassa kunkin tietueen yläraja-hyötysuhteet, koska ne lasketaan "ihanteellisissa tilanteissa". Tämä tarkoittaa, että DEA voi olla hyvä ratkaisu, kun ei ole mahdollista tehdä oletuksia ominaisuuksien tärkeydestä, mutta jos meillä on ennakkotietoja tai voimme kvantifioida niiden merkityksen, on suositeltavaa käyttää vaihtoehtoisia tekniikoita.

Seuraavassa artikkelissa näytän sinulle, kuinka kehittää sovelluksen toteutus Data Envelopment Analysis JAVA: ssa ja käytämme menetelmää arvioidaksemme verkkosivujen ja artikkeleiden suosion sosiaalisen median verkostoissa.

Jos pidät artikkelista, jaa hetki sen jakamiseen Twitterissä tai Facebookissa. 🙂

Aikaleima:

Lisää aiheesta Datumbox