Adatburok-elemzés oktatóanyag PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Adatburok-elemzés oktatóanyag

Az adatburok-elemzés, más néven DEA, egy nem paraméteres módszer a határelemzés végrehajtására. Lineáris programozást használ több döntéshozó egység hatékonyságának becslésére, és gyakran használják a termelésben, a menedzsmentben és a gazdaságban. A technikát először javasolta Charnes, Cooper és Rhodes 1978-ban és azóta a termelési határok becslésének értékes eszközévé vált.

Frissítés: A Datumbox Machine Learning Framework nyílt forráskódú és ingyenes letöltés. Tekintse meg a com.datumbox.framework.algorithms.dea csomagot, hogy megtudja, hogyan valósult meg a Data Envelopment Analysis Java nyelven.

Amikor 5-6 évvel ezelőtt először találkoztam a módszerrel, lenyűgözött az algoritmus eredetisége, egyszerűsége és a felhasznált ötletek okossága. Még jobban megdöbbentett, hogy a technika a szokásos alkalmazásain (pénzügyi, üzemeltetési kutatások stb.) kívül is jól működik, hiszen sikeresen alkalmazható az online marketingben, a keresőmotorok rangsorolásában és az összetett metrikák létrehozásában. Ennek ellenére manapság a DEA-ról szinte kizárólag az üzleti kontextusban beszélnek. Éppen ezért ebben a cikkben kitérek a DEA alapötleteire és matematikai keretrendszerére, a következő bejegyzésben pedig az algoritmus néhány újszerű alkalmazását mutatom be webes alkalmazásokon.

Miért érdekes az adatburok-elemzés?

Az adatburok-elemzés egy olyan módszer, amely lehetővé teszi a rekordok (üzletek, alkalmazottak, gyárak, weboldalak, marketingkampányok stb.) összehasonlítását és rangsorolását jellemzőik (súly, méret, költség, bevétel és egyéb mutatók vagy KPI-k) alapján anélkül, hogy előzetes feltételezéseket tennénk a jellemzők fontossága vagy súlya. Ennek a technikának az a legérdekesebb része, hogy lehetővé teszi több jellemzőből álló rekordok összehasonlítását, amelyek teljesen eltérő mértékegységekkel rendelkeznek. Ez azt jelenti, hogy rendelkezhetünk kilométerben, kilogrammban vagy pénzegységben mért jellemzőkkel rendelkező rekordokkal, és továbbra is képesek vagyunk összehasonlítani, rangsorolni és megtalálni a legjobb/legrosszabb és átlagosan teljesítő rekordokat. Érdekesen hangzik? Olvass tovább.

Az adatburok-elemzés leírása és feltételezései

Adat-burkoló-elemzés-gráf
Amint azt korábban tárgyaltuk, a DEA egy olyan módszer, amelyet az üzleti termelékenység mérésére találtak ki. Így számos elképzelése abból fakad, ahogyan a termelékenységet ebben az összefüggésben mérik. A módszer egyik alapvető jellemzője a rekord jellemzők két kategóriába való szétválasztása: bemenet és kimenet. Például, ha egy autó hatékonyságát mérjük, akkor azt mondhatjuk, hogy a bevitt benzin literje, a teljesítmény pedig a megtett kilométerek száma.

A DEA-ban minden tulajdonságnak pozitívnak kell lennie, és feltételezzük, hogy minél nagyobb az értékük, annál nagyobb a bemeneti/kimeneti értékük. Ezenkívül az adatburok-elemzés feltételezi, hogy a jellemzők lineárisan kombinálhatók a nem negatív súlyok súlyozott összegeként, és olyan arányt alkotnak a bemenet és a kimenet között, amely mérni fogja az egyes rekordok hatékonyságát. Ahhoz, hogy egy rekord hatékony legyen, „jó” kimenetet kell adnia a megadott bemenethez képest. A hatékonyságot a kimenet és a bemenet aránya méri, majd összehasonlítja a többi rekord arányával.

A zseniális ötlet a DEA mögött

Amit eddig kifejtettünk, az a józan ész/gyakorlat. Rekordjaink rangsorolásához bemeneteket és kimeneteket, súlyozott összegeket és arányokat használunk. A DEA okos ötlete a jellemzők súlyozásának kiszámításában rejlik. Ahelyett, hogy az elemzés futtatása előtt meg kellene határoznia a jellemzők súlyát, és döntenie kellene fontosságukról, az Adatburok-elemzés az adatokból számítja ki őket. Ráadásul a súlyok NEM minden rekordnál azonosak!

A DEA a következőképpen választja ki a súlyokat: Megpróbáljuk maximalizálni minden rekord arányát a megfelelő jellemzősúlyok kiválasztásával; ugyanakkor gondoskodnunk kell arról, hogy ha ugyanazokat a súlyokat használjuk az összes többi rekord arányának kiszámításához, akkor egyik sem lesz nagyobb 1-nél.

Az ötlet az elején kicsit furcsán hangzik. Ez nem vezet eltérő súlyozású arányszámításhoz? A válasz igen. Ez nem azt jelenti, hogy valójában minden rekordhoz másként számoljuk az arányokat? A válasz ismét igen. Szóval hogyan működik ez? A válasz egyszerű: minden rekordhoz, annak jellemzőihez képest, igyekszünk megtalálni azt az „ideális helyzetet” (súlyokat), amelyben az aránya a lehető legmagasabb, és ezáltal a lehető leghatékonyabb lenne. DE ugyanakkor ebben az „ideális helyzetben” a többi rekord kimeneti/bemeneti aránya sem lehet nagyobb 1-nél, vagyis nem lehet 100%-nál hatékonyabb! Miután kiszámítottuk az összes rekord arányát az egyes „ideális helyzetekben”, az arányaik alapján rangsoroljuk őket.

Tehát a DEA fő gondolata a következőkben foglalható össze: „Keressük meg azt az ideális helyzetet, amelyben az egyes rekordok jellemzői alapján a legjobb aránypontszámot érhetjük el. Ezután számítsa ki az egyes rekordok ideális arányát, és használja össze a hatékonyságukat.

Lássunk egy példát

Lássunk egy példát, ahol használhatjuk a DEA-t.

Tegyük fel, hogy egy adott lánc szupermarket üzleteinek hatékonyságát szeretnénk értékelni számos jellemző alapján: az alkalmazottak összlétszáma, az üzlet mérete négyzetméterben, az általuk generált eladások mennyisége és a vásárlók száma. hogy átlagosan havonta szolgálnak ki. Nyilvánvalóvá válik, hogy a leghatékonyabb üzletek megtalálásához össze kell hasonlítanunk a több szolgáltatással rendelkező rekordokat.

A DEA alkalmazásához meg kell határoznunk, hogy melyik a bemenetünk és a kimenetünk. Ebben az esetben a kibocsátás nyilvánvalóan az eladások mennyisége és az általuk kiszolgált ügyfelek száma. A bemenet az alkalmazottak száma és az üzlet mérete. Ha DEA-t futtatunk, akkor minden üzlet esetében az ideális súlyok alatt becsüljük meg a kimenet/bemenet arányt (amint azt fentebb tárgyaltuk). Ha megvan az arányuk, akkor hatékonyságuk szerint rangsoroljuk őket.

Eljött a matek ideje!

Most, hogy megéreztük a DEA működését, ideje beleásni magát a matematikába.

Egy adott i rekord hatékonysági arányát x bemenettel és y kimenettel (mindkét jellemzővektor pozitív értékkel) a következő képlettel becsüljük meg:

da2

Ahol u és v a rekord egyes kimeneteinek és bemeneteinek súlya, s a kimeneti jellemzők száma, m pedig a bemeneti jellemzők száma.

Egy adott i rekordhoz a legjobb/ideális súlyok megtalálásának problémája a következőképpen fogalmazható meg:

da4
da6
da8

A fentiek ismét csak matematikai módszert jelentenek az u és v súlyok megtalálására, amelyek maximalizálják az i rekord hatékonyságát, feltéve, hogy ezek a súlyok nem teszik a többi rekordot 100%-nál hatékonyabbá.

A probléma megoldásához lineáris programozást kell használnunk. Sajnos a lineáris programozás nem teszi lehetővé a törtek használatát, így a probléma megfogalmazását a következőképpen kell átalakítanunk:

da10
da12
da14
da8

Hangsúlyoznunk kell, hogy a fenti lineáris programozási probléma megadja a legjobb súlyokat az i rekordhoz, és ezen optimális súlyok mellett számítjuk ki a hatékonyságát. Ugyanezt meg kell ismételni az adatkészletünk minden rekordjával. Tehát ha n rekordunk van, akkor n különálló lineáris feladatot kell megoldanunk. Íme a DEA működésének pszeudokódja:

ratio_scores = [];
for every record i {
    i_ratio = get_maximum_effectiveness();
    ratio_scores[i] = i_ratio;
}

Az adatburok-elemzés korlátai

A DEA egy nagyszerű technika, de megvannak a korlátai. Meg kell értened, hogy a DEA olyan, mint egy fekete doboz. Mivel az egyes rekordok hatékonysági arányában használt súlyok eltérőek, értelmetlen megpróbálni elmagyarázni, hogyan és miért számították ki az egyes pontszámokat. Általában a rekordok rangsorolására koncentrálunk, nem pedig a hatékonysági pontszámok tényleges értékeire. Vegye figyelembe azt is, hogy a szélsőségek megléte miatt a pontszámok nagyon alacsony értéket kaphatnak.

Ne feledje, hogy a DEA a jellemzők lineáris kombinációit használja az arányok becsléséhez. Így ha ezek lineáris kombinálása nem megfelelő az alkalmazásunkban, akkor transzformációkat kell alkalmazni a jellemzőkre, és lehetővé kell tenni azok lineáris kombinálását. Ennek a technikának egy másik hátránya, hogy annyi lineáris programozási problémát kell megoldanunk, ahány rekord van, ami sok számítási erőforrást igényel.

Egy másik probléma, amellyel a DEA szembesül, az, hogy nem működik jól nagy dimenziós adatokkal. A DEA használatához a d = m + s dimenziók számának szignifikánsan kisebbnek kell lennie, mint a megfigyelések számának. A DEA futtatása, amikor d nagyon közel van vagy nagyobb, mint n, nem ad hasznos eredményeket, mivel valószínűleg minden rekordot optimálisnak találunk. Vegye figyelembe, hogy amikor új kimeneti változót (dimenziót) ad hozzá, az ebben a dimenzióban maximális értékű rekordok optimálisnak bizonyulnak.

Végül meg kell jegyeznünk, hogy az algoritmus általános formájában a jellemzők súlyát a DEA-ban az adatokból becsüljük meg, így nem használnak fel semmilyen előzetes információt a problémánkban előforduló jellemzők fontosságáról (természetesen lehetséges ezt az információt kényszerként beépíteni a lineáris feladatunkba). Ezenkívül a kiszámított hatékonysági pontszámok valójában az egyes rekordok hatékonysági arányának felső határát jelentik, mivel ezeket az „ideális helyzetekben” számítják ki. Ez azt jelenti, hogy a DEA jó megoldás lehet, ha nem lehet feltételezni a funkciók fontosságát, de ha van előzetes információnk, vagy számszerűsíteni tudjuk a fontosságát, akkor alternatív technikák alkalmazása javasolt.

A következő cikkben megmutatom, hogyan fejleszthetsz egy megvalósítást Adatburok-elemzés JAVA-ban és a módszerrel megbecsüljük a weboldalak és cikkek népszerűségét a közösségi hálózatokon.

Ha tetszett a cikk, szánj egy kis időt és oszd meg a Twitteren vagy a Facebookon. 🙂

Időbélyeg:

Még több Datumbox