Andmeümbruse analüüsi õpetus

Taasavaldanud Platon

järgijaid: 0

Andmeümbrise analüüs, tuntud ka kui DEA, on piirianalüüsi teostamiseks mitteparameetriline meetod. See kasutab lineaarset programmeerimist mitme otsustusüksuse tõhususe hindamiseks ja seda kasutatakse tavaliselt tootmises, juhtimises ja majanduses. Selle tehnika pakkus esmakordselt välja Charnes, Cooper ja Rhodes 1978. aastal ja sellest ajast alates on sellest saanud väärtuslik tööriist tootmispiiride hindamisel.

Värskendus: Datumboxi masinõppe raamistik on nüüd avatud lähtekoodiga ja tasuta lae alla. Tutvuge paketiga com.datumbox.framework.algorithms.dea, et näha Andmeümbrise analüüsi rakendamist Javas.

Kui ma 5-6 aastat tagasi seda meetodit esimest korda kohtasin, hämmastas mind algoritmi originaalsus, lihtsus ja kasutatud ideede nutikus. Ma olin veelgi üllatunud, kui nägin, et tehnika töötas hästi väljaspool selle tavalisi rakendusi (finants-, operatsiooniuuringud jne), kuna seda sai edukalt rakendada veebiturunduses, otsingumootori edetabelites ja liitmõõdikute loomisel. Sellele vaatamata käsitletakse tänapäeval DEA-d peaaegu eranditult ettevõtluse kontekstis. Seetõttu käsitlen selles artiklis DEA põhiideid ja matemaatilist raamistikku ning järgmises postituses näitan teile mõnda uudset algoritmi rakendust veebirakendustes.

Miks on andmeümbrise analüüs huvitav?

Andmeümbruse analüüs on meetod, mis võimaldab meil kirjeid (poed, töötajad, tehased, veebilehed, turunduskampaaniad jne) võrrelda ja järjestada nende omaduste (kaal, suurus, maksumus, tulud ja muud mõõdikud või KPI-d) alusel, ilma et teeksime selle kohta mingeid eelnevaid oletusi. tunnuste tähtsust või kaalu. Selle tehnika kõige huvitavam osa on see, et see võimaldab meil võrrelda kirjeid, mis koosnevad mitmest funktsioonist, millel on täiesti erinevad mõõtühikud. See tähendab, et meil on rekordeid, mille tunnused on mõõdetud kilomeetrites, kilogrammides või rahaühikutes, ja saame neid siiski võrrelda, järjestada ja leida parima/halvima ja keskmise jõudlusega rekordeid. Kõlab huvitavalt? Jätka lugemist.

Andmeümbruse analüüsi kirjeldus ja eeldused

Andmed-ümbrikus-analüüs-graafik
Nagu me varem arutasime, on DEA meetod, mis leiutati ettevõtte tootlikkuse mõõtmiseks. Seega tulenevad mitmed selle ideed viisist, kuidas tootlikkust selles kontekstis mõõdetakse. Üks meetodi põhiomadusi on salvestusfunktsioonide jagamine kahte kategooriasse: sisend ja väljund. Näiteks kui mõõta auto efektiivsust, siis võiks öelda, et sisend on bensiiniliitrid ja väljund on läbitud kilomeetrite arv.

DEA-s peavad kõik tunnused olema positiivsed ja eeldatakse, et mida suurem on nende väärtus, seda suurem on nende sisend/väljund. Lisaks eeldab andmeümbruse analüüs, et funktsioone saab kombineerida lineaarselt mittenegatiivsete kaalude kaalutud summana ja moodustada sisendi ja väljundi vahelise suhte, mis mõõdab iga kirje tõhusust. Et kirje oleks tõhus, peab see andma meile "hea" väljundi võrreldes antud sisendiga. Tõhusust mõõdetakse väljundi ja sisendi suhtega ning seejärel võrreldakse seda teiste kirjete suhtega.

Geniaalne idee DEA taga

See, mida me seni käsitlesime, on terve mõistus/tava. Kasutame oma kirjete järjestamiseks sisendeid ja väljundeid, kaalutud summasid ja suhteid. DEA nutikas idee seisneb selles, kuidas arvutatakse funktsioonide kaalud. Selle asemel, et enne analüüsi käivitamist määrata funktsioonide kaalud ja otsustada nende tähtsuse üle, arvutab andmeümbrise analüüs need andmete põhjal. Pealegi EI OLE kaalud iga rekordi puhul samad!

DEA valib kaalud järgmiselt: Püüame maksimeerida iga kirje suhet, valides sobivad funktsioonide kaalud; samas peame tagama, et kui kasutame kõigi teiste kirjete suhtarvude arvutamiseks samu kaalusid, ei muutuks ükski neist suuremaks kui 1.

Mõte tundub alguses pisut kummaline. Kas see ei too kaasa erinevalt kaalutud suhtarvude arvutamist? Vastus on jah. Kas see ei tähenda, et me arvutame iga rekordi suhtarvud erinevalt? Vastus on jälle jah. Kuidas see siis toimib? Vastus on lihtne: iga rekordi puhul püüame selle omadusi arvestades leida “ideaalse olukorra” (kaalud), milles selle suhe oleks võimalikult kõrge ja seeläbi võimalikult tõhus. AGA samal ajal, arvestades seda “ideaalset olukorda”, ei tohiks ükski teiste kirjete väljund/sisend suhe olla suurem kui 1, mis tähendab, et need ei saa olla efektiivsemad kui 100%! Kui oleme arvutanud kõigi kirjete suhted iga “ideaalse olukorra” all, kasutame nende suhtarvude järjestamiseks.

Seega võib DEA põhiidee kokku võtta järgmiselt: “Leidke ideaalne olukord, kus saame iga rekordi omaduste põhjal saavutada parima suhtarvu skoori. Seejärel arvutage iga kirje ideaalne suhe ja kasutage seda nende tõhususe võrdlemiseks.

Vaatame näite

Vaatame näidet, kus saaksime DEA-d kasutada.

Oletame, et oleme huvitatud konkreetse keti supermarketite poodide efektiivsuse hindamisest, lähtudes mitmetest näitajatest: töötajate koguarv, kaupluse suurus ruutmeetrites, müügimaht ja klientide arv. et nad teenindavad keskmiselt iga kuu. On ilmne, et kõige tõhusamate kaupluste leidmiseks tuleb meil võrrelda mitme funktsiooniga kirjeid.

DEA rakendamiseks peame määratlema, milline on meie sisend ja väljund. Sel juhul on väljundiks ilmselgelt müügimaht ja teenindatavate klientide arv. Sisendiks on töötajate arv ja kaupluse suurus. Kui käivitame DEA, hindame iga poe väljundi ja sisendi suhet ideaalkaalu all (nagu eespool kirjeldatud). Kui meil on nende suhtarvud, järjestame need nende tõhususe järgi.

Käes on matemaatika aeg!

Nüüd, kui oleme saanud intuitsiooni DEA toimimisest, on aeg süveneda matemaatikasse.

Konkreetse kirje i efektiivsuse suhe x sisendi ja y väljundiga (mõlemad positiivsete väärtustega tunnusvektorid) hinnatakse järgmise valemi abil:

Kus u ja v on kirje iga väljundi ja sisendi kaal, s on väljundtunnuste arv ja m on sisendtunnuste arv.

Konkreetse rekordi i jaoks parimate/ideaalsete kaalude leidmise probleemi saab sõnastada järgmiselt:

Jällegi ülaltoodu on lihtsalt matemaatiline viis kaalude u ja v leidmiseks, mis maksimeerivad kirje i tõhusust, eeldusel, et need kaalud ei muuda ühtegi teist kirjet 100% tõhusamaks.

Selle probleemi lahendamiseks peame kasutama lineaarset programmeerimist. Kahjuks ei võimalda lineaarne programmeerimine meil kasutada murde ja seega peame ülesande sõnastuse teisendama järgmiselt:

da10
da12

Peaksime rõhutama, et ülaltoodud lineaarse programmeerimise probleem annab meile kirje i jaoks parima kaalu ja arvutab selle tõhususe nende optimaalsete kaalude alusel. Sama tuleb korrata iga meie andmestiku kirje puhul. Seega, kui meil on n kirjet, peame lahendama n eraldiseisvat lineaarset ülesannet. Siin on pseudokood, kuidas DEA töötab:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Andmeümbruse analüüsi piirangud

DEA on suurepärane tehnika, kuid sellel on oma piirangud. Peate mõistma, et DEA on nagu must kast. Kuna iga rekordi efektiivsuse suhtarvudes kasutatavad kaalud on erinevad, on mõttetu püüda selgitada, kuidas ja miks iga punktisumma arvutati. Tavaliselt keskendume pigem rekordite järjestusele kui tõhususskooride tegelikele väärtustele. Pange tähele ka seda, et ekstreemumite olemasolu võib põhjustada skooride väga madalaid väärtusi.

Pidage meeles, et DEA kasutab suhtarvude hindamiseks funktsioonide lineaarseid kombinatsioone. Seega, kui nende lineaarne kombineerimine ei ole meie rakenduses sobiv, peame rakendama tunnuste teisendusi ja võimaldama neid lineaarselt kombineerida. Selle tehnika teine puudus on see, et peame lahendama nii palju lineaarse programmeerimise probleeme kui kirjete arv, mis nõuab palju arvutusressursse.

Teine probleem, millega DEA silmitsi seisab, on see, et see ei tööta hästi suuremõõtmeliste andmetega. DEA kasutamiseks peab mõõtmete arv d = m + s olema oluliselt väiksem kui vaatluste arv. DEA käivitamine, kui d on väga lähedal või suurem kui n, ei anna kasulikke tulemusi, kuna tõenäoliselt leitakse, et kõik kirjed on optimaalsed. Pange tähele, et kui lisate uue väljundmuutuja (dimensiooni), leitakse kõik selle dimensiooni maksimaalse väärtusega kirjed optimaalseks.

Lõpuks peaksime tähele panema, et algoritmi üldisel kujul hinnatakse DEA-s olevate funktsioonide osakaalu andmete põhjal ja seega ei kasuta nad mingit eelnevat teavet funktsioonide tähtsuse kohta, mis meie probleemis võivad olla (muidugi seda teavet on võimalik meie lineaarsesse probleemi piirangutena lisada). Lisaks on arvutatavad efektiivsusskoorid tegelikult iga kirje ülempiiri efektiivsuse suhtarvud, kuna need arvutatakse ideaalsete olukordade alusel. See tähendab, et DEA võib olla hea lahendus, kui ei ole võimalik teha mingeid eeldusi funktsioonide olulisuse kohta, kuid kui meil on eelteavet või saame nende tähtsust kvantifitseerida, on soovitatav kasutada alternatiivseid tehnikaid.

Järgmises artiklis näitan teile, kuidas rakendust välja töötada Andmete ümbritsemise analüüs JAVA-s ja me kasutame seda meetodit veebilehtede ja artiklite populaarsuse hindamiseks sotsiaalmeedia võrgustikes.

Kui teile artikkel meeldib, leidke hetk ja jagage seda Twitteris või Facebookis. 🙂

Ajatempel: Veebruar 24, 2014Juuli 16, 2022

Ajatempel: Veebruar 25, 2017

Andmeümbruse analüüsi õpetus

Taasavaldanud Platon

Miks on andmeümbrise analüüs huvitav?

Andmeümbruse analüüsi kirjeldus ja eeldused

Geniaalne idee DEA taga

Vaatame näite

Käes on matemaatika aeg!

Andmeümbruse analüüsi piirangud

Veel alates Datumbox

Välja antud Datumboxi masinõppe raamistiku versioon 0.8.2

Kuidas Linuxis Dropboxi sümlinkipiirangutest mööda pääseda

Datumboxi masinõppe raamistik 0.6.0 Välja antud

Kerase partii normaliseerimise kiht on katki

Tehisintellekti kasutamine 2048 mängu lahendamiseks (JAVA kood)

Lõpliku segu mudel, mis põhineb Dirichleti jaotusel

Väike pilk TorchVisioni versioonile 0.11 – TorchVisioni arendaja memuaarid – 2

Kuidas luua oma Facebooki sentimentide analüüsi tööriist

Dirichleti protsessi segumudel

Kuidas installida ja kasutada Datumboxi masinõppe raamistikku

5 näpunäidet mitme GPU-ga treenimiseks Kerasega

Sparki ALS-i soovituse algoritmi uurimine

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto