Automatically Generate Model Evaluation Metrics Using SageMaker Autopilot Model Quality Reports

Újra kiadta Platón

Követő: 0

Amazon SageMaker Autopilot segít befejezni a teljes körű gépi tanulási (ML) munkafolyamatot azáltal, hogy automatizálja a funkciótervezés, a betanítás, a hangolás lépéseit, valamint egy ML-modell bevezetését a következtetésekhez. A SageMaker Autopilotot táblázatos adatkészlettel és célattribútummal látja el az előrejelzéshez. Ezután a SageMaker Autopilot automatikusan feltárja adatait, betanítja, hangolja, rangsorolja és megtalálja a legjobb modellt. Végül egy kattintással üzembe helyezheti ezt a modellt éles környezetben, hogy következtetéseket lehessen végezni.

Mi újság?

Az újonnan bevezetett funkció, SageMaker Autopilot Model minőségi jelentések, most a modell mérőszámait jeleníti meg, hogy jobban átláthassa a modell teljesítményét a regressziós és osztályozási problémák esetén. Ezeket a mutatókat kihasználva további betekintést nyerhet a legjobb modellről a Model ranglistán.

Ezek a mutatók és jelentések, amelyek a legjobb modell „Modell részletei” alatti új „Teljesítmény” lapon érhetők el, tartalmazzák a zavarmátrixokat, a vevő működési jellemzői (AUC-ROC) görbe alatti területet és a precíziós visszahívási görbe alatti területet. (AUC-PR). Ezek a mutatók segítenek megérteni a hamis pozitív/hamis negatív értékeket (FP-k/FN-ek), a valódi pozitívumok (TP-k) és a hamis pozitívumok (FP-k) közötti kompromisszumot, valamint a pontosság és a visszahívás közötti kompromisszumot a modell legjobb teljesítményjellemzőinek értékeléséhez.

A SageMaker Autopilot kísérlet futtatása

Az adatkészlet

Az általunk használt Az UCI banki marketing adatkészlete a SageMaker Autopilot Model Quality Reports bemutatására. Ezek az adatok olyan ügyfélattribútumokat tartalmaznak, mint az életkor, a munkakör típusa, a családi állapot és más olyan jellemzők, amelyek alapján megjósoljuk, hogy az ügyfél nyit-e számlát a banknál. Az adatsor erre a számlára lekötött betétként hivatkozik. Ez esetünket bináris osztályozási problémává teszi – az előrejelzés „igen” vagy „nem” lesz. A SageMaker Autopilot több modellt is generál a nevünkben, hogy a lehető legjobban előre jelezze a potenciális ügyfeleket. Ezután megvizsgáljuk a SageMaker Autopilot modellminőségi jelentését legjobb modell.

Előfeltételek

A SageMaker Autopilot kísérlet elindításához először el kell helyeznie adatait egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör. Adja meg a képzéshez használni kívánt tárolót és előtagot. Győződjön meg arról, hogy a vödör ugyanabban a régióban van, mint a SageMaker Autopilot kísérlet. Győződjön meg arról is, hogy az Identity and Access Management (IAM) szerepkör Autopilot jogosultsággal rendelkezik az adatokhoz való hozzáféréshez az Amazon S3-ban.

A kísérlet létrehozása

Számos lehetőség közül választhat SageMaker Autopilot kísérlet létrehozásához a SageMaker Studio alkalmazásban. Egy új indító megnyitásával közvetlenül hozzáférhet a SageMaker Autopilothoz. Ha nem, akkor kiválaszthatja a SageMaker erőforrások ikonját a bal oldalon. Ezután választhat Kísérletek és próbák a legördülő menüből.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Adjon nevet a kísérletének.
Csatlakozzon az adatforráshoz az Amazon S3 vödör és a fájlnév kiválasztásával.
Válassza ki a kimeneti adatok helyét az Amazon S3-ban.
Válassza ki az adatkészlet céloszlopát. Ebben az esetben az „y” oszlopot célozzuk meg az igen/nem jelzésére.
Opcionálisan adjon meg egy végpont nevet, ha azt szeretné, hogy a SageMaker Autopilot automatikusan telepítsen egy modellvégpontot.
Hagyja az összes többi speciális beállítást alapértelmezettként, és válassza ki Kísérlet létrehozása.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A kísérlet befejezése után az eredményeket megtekintheti a SageMaker Studio alkalmazásban. A SageMaker Autopilot bemutatja a legjobb modellt az általa kiképzett modellek közül. Megtekintheti a különböző kísérletek részleteit és eredményeit, de mi a legjobb modellt fogjuk használni a modellminőségi jelentések használatának bemutatására.

Válassza ki a modellt, és kattintson a jobb gombbal Nyissa meg a modell részleteinél.
A modell részletei között válassza ki a teljesítmény lapon. Ez megjeleníti a modell metrikáját vizualizációkon és diagramokon keresztül.
Alatt teljesítményválassza Teljesítményjelentések letöltése PDF formátumban.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A SageMaker Autopilot Model Quality Report értelmezése

A Model Quality Report összefoglalja a SageMaker Autopilot feladatot és a modell részleteit. A jelentés PDF formátumára összpontosítunk, de az eredményeket JSON-ként is elérheti. Mivel a SageMaker Autopilot az adatkészletünket bináris osztályozási problémaként határozta meg, a SageMaker Autopilot arra törekedett, hogy maximalizálja a F1 minőségi mérőszám hogy megtalálja a legjobb modellt. A SageMaker Autopilot alapértelmezés szerint ezt választja. Ugyanakkor rugalmasan választhat más objektív mérőszámokat is, mint például a pontosság és az AUC. Modellünk F1-es pontszáma 0.61. Az F1 pontszám értelmezéséhez először is segít megérteni egy zavaros mátrixot, amelyet a kiadott PDF-ben található Modell minőségi jelentés magyaráz.

Zavart mátrix

A zavaros mátrix segít a modell teljesítményének megjelenítésében a különböző osztályok és címkék összehasonlításával. A SageMaker Autopilot kísérlet egy összetévesztő mátrixot hozott létre, amely a tényleges címkéket sorokként, a predikált címkéket pedig oszlopokként jeleníti meg a Modell minőségi jelentésben. A bal felső mezőben azok az ügyfelek láthatók, akik nem nyitottak számlát a banknál, és akikre a modell helyesen jósolta a „nem”. Ezek igaz negatívumok (TN). A jobb alsó mezőben azok az ügyfelek láthatók, akik számlát nyitottak a banknál, és akikre a modell helyesen „igen” volt. Ezek igazi pozitívumok (PT).

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A bal alsó sarokban a szám látható hamis negatívok (FN). A modell azt jósolta, hogy az ügyfél nem nyit számlát, de az ügyfél igen. A jobb felső sarokban a szám látható hamis pozitív (FP). A modell azt jósolta, hogy az ügyfél számlát nyit, de az ügyfél megtette nem valójában csináld.

Modell minőségi jelentés mérőszámai

A Model Quality Report elmagyarázza, hogyan kell kiszámítani a téves pozitív arány (FPR) és a valódi pozitív ráta (TPR).

Visszahívás vagy hamis pozitív arány (FPR) a tényleges negatívumok arányát méri, amelyeket hamisan számlanyitásként jósoltak (pozitívak). A tartomány 0 és 1 között van, és a kisebb érték jobb előrejelzési pontosságot jelez.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Vegye figyelembe, hogy az FPR-t 1-specificitásként is kifejezik, ahol a fajlagosság vagy a valódi negatív ráta (TNR) a helyesen azonosított TN-ek aránya, amelyek nem nyitnak számlát (negatívak).

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Visszahívás/Érzékenység/Valódi pozitív arány (TPR) a számlanyitásként előrejelzett tényleges pozitívumok hányadát méri. A tartomány szintén 0 és 1 között van, és a nagyobb érték jobb prediktív pontosságot jelez. Ezt visszahívásnak/érzékenységnek is nevezik. Ez a mérték azt a képességet fejezi ki, hogy az összes releváns példányt megtalálja egy adatkészletben.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Pontosság a pozitívnak jósolt tényleges pozitívumok hányadát méri az összes pozitívnak jósolt közül. A tartomány 0 és 1 között van, és a nagyobb érték jobb pontosságot jelez. A pontosság kifejezi azon adatpontok arányát, amelyek a modellünk szerint relevánsak voltak, és amelyek ténylegesen relevánsak voltak. A pontosság jó mérlegelési szempont, különösen akkor, ha az FP költségei magasak – például az e-mail spam észlelése esetén.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Modellünk 0.53-as pontosságot és 0.72-es visszahívást mutat.

F1 pontszám bemutatja a cél mérőszámunkat, amely a pontosság és a visszahívás harmonikus középértéke. Mivel adatkészletünk kiegyensúlyozatlan a sok „nem” előrejelzés javára, az F1 mind az FP-t, mind az FN-t figyelembe veszi, hogy azonos súlyt adjon a pontosságnak és a visszahívásnak.

A jelentés elmagyarázza, hogyan kell értelmezni ezeket a mutatókat. Ez segíthet, ha nem ismeri ezeket a kifejezéseket. Példánkban a pontosság és a visszahívás fontos mérőszámok egy bináris osztályozási probléma esetén, mivel ezeket az F1 pontszám kiszámításához használják. A jelentés kifejti, hogy az F1-es pontszám 0 és 1 között változhat. A lehető legjobb teljesítmény 1 pontot kap, míg a 0 a legrosszabbat jelzi. Ne feledje, hogy modellünk F1-es pontszáma 0.61.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Fβ Pontszám a pontosság és felidézés súlyozott harmonikus közepe. Ezenkívül az F1 pontszám megegyezik az Fβ-val, β=1. A jelentés megadja az osztályozó Fβ pontszámát, ahol β értéke 0.5, 1 és 2.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Mérési táblázat

A problémától függően előfordulhat, hogy a SageMaker Autopilot egy másik mérőszámot, például a pontosságot maximalizál egy többosztályos besorolási probléma esetén. A probléma típusától függetlenül a Modell minőségi jelentések olyan táblázatot készítenek, amely összefoglalja a modell metrikáit, amelyek mind a szövegben, mind a PDF-jelentésben elérhetők. A mérőszámtáblázatról többet megtudhat a dokumentáció.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A legjobb állandó osztályozó – egy olyan osztályozó, amely egyszerű kiindulási alapként szolgál a többi összetettebb osztályozóval való összehasonlításhoz – mindig a felhasználó által biztosított állandó többségi címkét jelzi előre. Esetünkben egy „konstans” modell „nem”-et jósolna, mivel ez a leggyakoribb osztály, és negatív címkének tekinthető. A betanított osztályozó modellek (például f1, f2 vagy visszahívás) metrikáit össze lehet hasonlítani a konstans osztályozóéval, azaz az alapvonallal. Ez biztosítja, hogy a betanított modell jobban teljesít, mint az állandó osztályozó. Az Fβ pontszámok (f0_5, f1 és f2, ahol β 0.5, 1 és 2 értékeket vesz fel) a pontosság és a visszahívás súlyozott harmonikus átlaga. Ez optimális értékét 1-nél éri el, legrosszabb értékét 0-nál.

Esetünkben a legjobb állandó osztályozó mindig „nem”-et jósol. Ezért a pontosság magas, 0.89, de a felidézési, precizitási és Fβ pontszámok 0. Ha az adathalmaz tökéletesen kiegyensúlyozott ott, ahol nincs egyetlen többségi vagy kisebbségi osztály, sokkal érdekesebb lehetőségeket láttunk volna a pontosságra, felidézésre, és a konstans osztályozó Fβ pontszámai.

Ezenkívül ezeket az eredményeket JSON formátumban is megtekintheti, ahogy az a következő mintában látható. A UI-n keresztül elérheti a PDF- és JSON-fájlokat, valamint Amazon SageMaker Python SDK az S3OutputPath elem használatával OutputDataConfig szerkezet a CreateAutoMLJob/Írja le azAutoMLJob API válasz.

{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….

ROC és AUC

A probléma típusától függően eltérő küszöbértékekkel rendelkezhet, hogy mi elfogadható FPR-ként. Ha például azt próbálja megjósolni, hogy az ügyfél nyit-e számlát, akkor a vállalkozás számára elfogadhatóbb lehet a magasabb FP-kulcs. Kockázatosabb lehet elmulasztani az ajánlatok kiterjesztését azokra az ügyfelekre, akiknek tévesen jósolta a „nem”, szemben azzal, hogy az ügyfeleknek tévesen „igen”-t jósoltak. Ezen küszöbértékek megváltoztatása különböző FPR-ek előállításához új zavaró mátrixok létrehozását igényli.

Az osztályozási algoritmusok folyamatos értékeket adnak vissza, amelyeket előrejelzési valószínűségeknek nevezünk. Ezeket a valószínűségeket bináris értékké kell alakítani (bináris osztályozáshoz). A bináris osztályozási problémákban a küszöb (vagy döntési küszöb) olyan érték, amely dichotomizálja a valószínűségeket egy egyszerű bináris döntéshez. A 0 és 1 közötti tartományba eső normalizált kivetített valószínűségek esetén a küszöbérték alapértelmezés szerint 0.5.

A bináris osztályozási modelleknél hasznos kiértékelési mérőszám a vevő működési jellemzői (ROC) görbe alatti terület. A Model Quality Report egy ROC grafikont tartalmaz, amelyen a TP arány az y tengely, az FPR pedig az x tengely. A vevő működési karakterisztikája alatti terület (AUC-ROC) a TPR-k és az FPR-k közötti kompromisszumot jelenti.

Létrehozhat egy ROC-görbét egy bináris besorolási előrejelző segítségével, amely küszöbértéket használ, és címkéket rendel hozzá előrejelzési valószínűségekkel. Ahogy változtatja egy modell küszöbértékét, a két végletből fedezi. Ha a TPR és az FPR is 0, az azt jelenti, hogy minden „nem” címkével van ellátva, és ha mind a TPR, mind az FPR értéke 1, az azt jelenti, hogy minden „igen” címkével van ellátva.

Egy véletlenszerű előrejelző, amely az idő felében „Igen”-t, a másik felében „Nem”-t jelöl, egy egyenes átlós vonal (piros pontozott vonal) ROC-val rendelkezik. Ez a vonal az egységnégyzetet két egyenlő méretű háromszögre vágja. Ezért a görbe alatti terület 0.5. A 0.5-ös AUC-ROC érték azt jelentené, hogy az Ön előrejelzője nem tudott jobban megkülönböztetni a két osztályt, mint véletlenszerűen kitalálni, hogy az ügyfél nyit-e számlát vagy sem. Minél közelebb van az AUC-ROC értéke 1.0-hoz, annál jobbak az előrejelzései. A 0.5 alatti érték azt jelzi, hogy ténylegesen jobb előrejelzéseket készíthetünk a modellünkkel, ha megfordítjuk az általa adott választ. A legjobb modellünknél az AUC 0.93.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Precíziós visszahívási görbe

A Model Quality Report egy Precision Recall (PR) görbét is készített a pontosság (y tengely) és a visszahívás (x tengely) ábrázolására különböző küszöbértékekhez – hasonlóan a ROC görbéhez. Az információ-visszakeresésben gyakran használt PR-görbék a ROC-görbék alternatívái az osztályeloszlás nagy torzításával járó osztályozási problémák esetén.

Ezen osztályok kiegyensúlyozatlan adatkészletei esetében a PR-görbék különösen hasznosak, ha a kisebbségi pozitív osztály érdekesebb, mint a többségi negatív osztály. Ne feledje, hogy modellünk 0.53-as pontosságot és 0.72-es visszahívást mutat. Továbbá ne feledje, hogy a legjobb állandó osztályozó nem tud különbséget tenni „igen” és „nem” között. Minden alkalommal véletlenszerű vagy állandó osztályt jósolna.

Az „igen” és a „nem” közötti kiegyensúlyozott adatkészlet görbéje egy vízszintes vonal lenne 0.5-nél, és így a PR-görbe (AUPRC) alatti területe 0.5 lenne. A PRC létrehozásához különböző modelleket ábrázolunk a görbén különböző küszöbértékeken, ugyanúgy, mint a ROC-görbét. Adataink szerint az AUPRC 0.61.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Modell minőségi jelentés kimenet

A Model Quality Report az Amazon S3 gyűjtőcsoportban található, amelyet a SageMaker AutoPilot kísérlet futtatása előtt megadott kimeneti útvonal kijelölésekor. A jelentéseket a documentation/model_monitor/output/<autopilot model name>/ prefix PDF formátumban mentve.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Következtetés

A SageMaker Autopilot Model Quality Reports megkönnyíti a SageMaker Autopilot kísérlet eredményeinek gyors megtekintését és megosztását. Könnyedén elvégezheti a modell betanítását és hangolását a SageMaker Autopilot segítségével, majd hivatkozhat a generált jelentésekre az eredmények értelmezéséhez. Akár a SageMaker Autopilot legjobb modelljét, akár egy másik jelöltet használja, ezek az eredmények hasznos kiindulási pontot jelenthetnek az előzetes modellképzési és tuningolási munkák kiértékeléséhez. A SageMaker Autopilot Model Quality Reports segít csökkenteni a kódíráshoz és a teljesítményértékeléshez és -összehasonlításhoz szükséges látványelemek elkészítéséhez szükséges időt.

Már ma könnyedén beépítheti az autoML-t üzleti ügyeibe anélkül, hogy adattudományi csapatot kellene felépítenie. SageMaker dokumentáció számos mintát kínál az induláshoz.

A szerzőkről

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. Peter Chung az AWS megoldástervezője, és szenvedélyesen segíti az ügyfeleket, hogy betekintést nyerjenek adataikból. Olyan megoldásokat épített, amelyek segítik a szervezeteket adatvezérelt döntések meghozatalában mind az állami, mind a magánszektorban. Az összes AWS-tanúsítvánnyal, valamint két GCP-tanúsítvánnyal rendelkezik. Szeret kávézni, főzni, aktív marad, és a családjával tölti az idejét.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.

Modellértékelési metrikák automatikus generálása a SageMaker Autopilot Model Quality Reports PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. Ali Takbiri az AI/ML specialista Solutions Architect, és a Machine Learning segítségével segíti ügyfeleit üzleti kihívásaik megoldásában az AWS felhőben.

Pradeep Reddy Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot és a SageMaker Automatic Model Tuner-t. A munkán kívül Pradeep szívesen olvas, fut, és tenyérnyi számítógépekkel, például Raspberry pi-vel és egyéb otthoni automatizálási technológiával szórakozik.

Időbélyeg: Március 29, 2022

Időbélyeg: 27. április 2023.

Újra kiadta Platón

Új technikai mélybúvártanfolyam: Generatív AI alapok az AWS-en | Amazon webszolgáltatások

Bejelentjük az Amazon SageMaker Profiler előnézetét: Kövesse nyomon és jelenítse meg a részletes hardverteljesítmény-adatokat a modell képzési terheléseihez | Amazon webszolgáltatások

Konfigurálja a DTMF-helyeket és a megrendelt újrapróbálkozási utasításokat az Amazon Lex segítségével

Az AWS és a Hugging Face együttműködve teszik elérhetőbbé és költséghatékonyabbá a generatív AI-t

Az AWS Trainium funkcionalitásának bővítése egyéni kezelőkkel

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók