Amazon SageMaker Autopilot segít befejezni a teljes körű gépi tanulási (ML) munkafolyamatot azáltal, hogy automatizálja a funkciótervezés, a betanítás, a hangolás lépéseit, valamint egy ML-modell bevezetését a következtetésekhez. A SageMaker Autopilotot táblázatos adatkészlettel és célattribútummal látja el az előrejelzéshez. Ezután a SageMaker Autopilot automatikusan feltárja adatait, betanítja, hangolja, rangsorolja és megtalálja a legjobb modellt. Végül egy kattintással üzembe helyezheti ezt a modellt éles környezetben, hogy következtetéseket lehessen végezni.
Mi újság?
Az újonnan bevezetett funkció, SageMaker Autopilot Model minőségi jelentések, most a modell mérőszámait jeleníti meg, hogy jobban átláthassa a modell teljesítményét a regressziós és osztályozási problémák esetén. Ezeket a mutatókat kihasználva további betekintést nyerhet a legjobb modellről a Model ranglistán.
Ezek a mutatók és jelentések, amelyek a legjobb modell „Modell részletei” alatti új „Teljesítmény” lapon érhetők el, tartalmazzák a zavarmátrixokat, a vevő működési jellemzői (AUC-ROC) görbe alatti területet és a precíziós visszahívási görbe alatti területet. (AUC-PR). Ezek a mutatók segítenek megérteni a hamis pozitív/hamis negatív értékeket (FP-k/FN-ek), a valódi pozitívumok (TP-k) és a hamis pozitívumok (FP-k) közötti kompromisszumot, valamint a pontosság és a visszahívás közötti kompromisszumot a modell legjobb teljesítményjellemzőinek értékeléséhez.
A SageMaker Autopilot kísérlet futtatása
Az adatkészlet
Az általunk használt Az UCI banki marketing adatkészlete a SageMaker Autopilot Model Quality Reports bemutatására. Ezek az adatok olyan ügyfélattribútumokat tartalmaznak, mint az életkor, a munkakör típusa, a családi állapot és más olyan jellemzők, amelyek alapján megjósoljuk, hogy az ügyfél nyit-e számlát a banknál. Az adatsor erre a számlára lekötött betétként hivatkozik. Ez esetünket bináris osztályozási problémává teszi – az előrejelzés „igen” vagy „nem” lesz. A SageMaker Autopilot több modellt is generál a nevünkben, hogy a lehető legjobban előre jelezze a potenciális ügyfeleket. Ezután megvizsgáljuk a SageMaker Autopilot modellminőségi jelentését legjobb modell.
Előfeltételek
A SageMaker Autopilot kísérlet elindításához először el kell helyeznie adatait egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör. Adja meg a képzéshez használni kívánt tárolót és előtagot. Győződjön meg arról, hogy a vödör ugyanabban a régióban van, mint a SageMaker Autopilot kísérlet. Győződjön meg arról is, hogy az Identity and Access Management (IAM) szerepkör Autopilot jogosultsággal rendelkezik az adatokhoz való hozzáféréshez az Amazon S3-ban.
A kísérlet létrehozása
Számos lehetőség közül választhat SageMaker Autopilot kísérlet létrehozásához a SageMaker Studio alkalmazásban. Egy új indító megnyitásával közvetlenül hozzáférhet a SageMaker Autopilothoz. Ha nem, akkor kiválaszthatja a SageMaker erőforrások ikonját a bal oldalon. Ezután választhat Kísérletek és próbák a legördülő menüből.
- Adjon nevet a kísérletének.
- Csatlakozzon az adatforráshoz az Amazon S3 vödör és a fájlnév kiválasztásával.
- Válassza ki a kimeneti adatok helyét az Amazon S3-ban.
- Válassza ki az adatkészlet céloszlopát. Ebben az esetben az „y” oszlopot célozzuk meg az igen/nem jelzésére.
- Opcionálisan adjon meg egy végpont nevet, ha azt szeretné, hogy a SageMaker Autopilot automatikusan telepítsen egy modellvégpontot.
- Hagyja az összes többi speciális beállítást alapértelmezettként, és válassza ki Kísérlet létrehozása.
A kísérlet befejezése után az eredményeket megtekintheti a SageMaker Studio alkalmazásban. A SageMaker Autopilot bemutatja a legjobb modellt az általa kiképzett modellek közül. Megtekintheti a különböző kísérletek részleteit és eredményeit, de mi a legjobb modellt fogjuk használni a modellminőségi jelentések használatának bemutatására.
- Válassza ki a modellt, és kattintson a jobb gombbal Nyissa meg a modell részleteinél.
- A modell részletei között válassza ki a teljesítmény lapon. Ez megjeleníti a modell metrikáját vizualizációkon és diagramokon keresztül.
- Alatt teljesítményválassza Teljesítményjelentések letöltése PDF formátumban.
A SageMaker Autopilot Model Quality Report értelmezése
A Model Quality Report összefoglalja a SageMaker Autopilot feladatot és a modell részleteit. A jelentés PDF formátumára összpontosítunk, de az eredményeket JSON-ként is elérheti. Mivel a SageMaker Autopilot az adatkészletünket bináris osztályozási problémaként határozta meg, a SageMaker Autopilot arra törekedett, hogy maximalizálja a F1 minőségi mérőszám hogy megtalálja a legjobb modellt. A SageMaker Autopilot alapértelmezés szerint ezt választja. Ugyanakkor rugalmasan választhat más objektív mérőszámokat is, mint például a pontosság és az AUC. Modellünk F1-es pontszáma 0.61. Az F1 pontszám értelmezéséhez először is segít megérteni egy zavaros mátrixot, amelyet a kiadott PDF-ben található Modell minőségi jelentés magyaráz.
Zavart mátrix
A zavaros mátrix segít a modell teljesítményének megjelenítésében a különböző osztályok és címkék összehasonlításával. A SageMaker Autopilot kísérlet egy összetévesztő mátrixot hozott létre, amely a tényleges címkéket sorokként, a predikált címkéket pedig oszlopokként jeleníti meg a Modell minőségi jelentésben. A bal felső mezőben azok az ügyfelek láthatók, akik nem nyitottak számlát a banknál, és akikre a modell helyesen jósolta a „nem”. Ezek igaz negatívumok (TN). A jobb alsó mezőben azok az ügyfelek láthatók, akik számlát nyitottak a banknál, és akikre a modell helyesen „igen” volt. Ezek igazi pozitívumok (PT).
A bal alsó sarokban a szám látható hamis negatívok (FN). A modell azt jósolta, hogy az ügyfél nem nyit számlát, de az ügyfél igen. A jobb felső sarokban a szám látható hamis pozitív (FP). A modell azt jósolta, hogy az ügyfél számlát nyit, de az ügyfél megtette nem valójában csináld.
Modell minőségi jelentés mérőszámai
A Model Quality Report elmagyarázza, hogyan kell kiszámítani a téves pozitív arány (FPR) és a valódi pozitív ráta (TPR).
Visszahívás vagy hamis pozitív arány (FPR) a tényleges negatívumok arányát méri, amelyeket hamisan számlanyitásként jósoltak (pozitívak). A tartomány 0 és 1 között van, és a kisebb érték jobb előrejelzési pontosságot jelez.
Vegye figyelembe, hogy az FPR-t 1-specificitásként is kifejezik, ahol a fajlagosság vagy a valódi negatív ráta (TNR) a helyesen azonosított TN-ek aránya, amelyek nem nyitnak számlát (negatívak).
Visszahívás/Érzékenység/Valódi pozitív arány (TPR) a számlanyitásként előrejelzett tényleges pozitívumok hányadát méri. A tartomány szintén 0 és 1 között van, és a nagyobb érték jobb prediktív pontosságot jelez. Ezt visszahívásnak/érzékenységnek is nevezik. Ez a mérték azt a képességet fejezi ki, hogy az összes releváns példányt megtalálja egy adatkészletben.
Pontosság a pozitívnak jósolt tényleges pozitívumok hányadát méri az összes pozitívnak jósolt közül. A tartomány 0 és 1 között van, és a nagyobb érték jobb pontosságot jelez. A pontosság kifejezi azon adatpontok arányát, amelyek a modellünk szerint relevánsak voltak, és amelyek ténylegesen relevánsak voltak. A pontosság jó mérlegelési szempont, különösen akkor, ha az FP költségei magasak – például az e-mail spam észlelése esetén.
Modellünk 0.53-as pontosságot és 0.72-es visszahívást mutat.
F1 pontszám bemutatja a cél mérőszámunkat, amely a pontosság és a visszahívás harmonikus középértéke. Mivel adatkészletünk kiegyensúlyozatlan a sok „nem” előrejelzés javára, az F1 mind az FP-t, mind az FN-t figyelembe veszi, hogy azonos súlyt adjon a pontosságnak és a visszahívásnak.
A jelentés elmagyarázza, hogyan kell értelmezni ezeket a mutatókat. Ez segíthet, ha nem ismeri ezeket a kifejezéseket. Példánkban a pontosság és a visszahívás fontos mérőszámok egy bináris osztályozási probléma esetén, mivel ezeket az F1 pontszám kiszámításához használják. A jelentés kifejti, hogy az F1-es pontszám 0 és 1 között változhat. A lehető legjobb teljesítmény 1 pontot kap, míg a 0 a legrosszabbat jelzi. Ne feledje, hogy modellünk F1-es pontszáma 0.61.
Fβ Pontszám a pontosság és felidézés súlyozott harmonikus közepe. Ezenkívül az F1 pontszám megegyezik az Fβ-val, β=1. A jelentés megadja az osztályozó Fβ pontszámát, ahol β értéke 0.5, 1 és 2.
Mérési táblázat
A problémától függően előfordulhat, hogy a SageMaker Autopilot egy másik mérőszámot, például a pontosságot maximalizál egy többosztályos besorolási probléma esetén. A probléma típusától függetlenül a Modell minőségi jelentések olyan táblázatot készítenek, amely összefoglalja a modell metrikáit, amelyek mind a szövegben, mind a PDF-jelentésben elérhetők. A mérőszámtáblázatról többet megtudhat a dokumentáció.
A legjobb állandó osztályozó – egy olyan osztályozó, amely egyszerű kiindulási alapként szolgál a többi összetettebb osztályozóval való összehasonlításhoz – mindig a felhasználó által biztosított állandó többségi címkét jelzi előre. Esetünkben egy „konstans” modell „nem”-et jósolna, mivel ez a leggyakoribb osztály, és negatív címkének tekinthető. A betanított osztályozó modellek (például f1, f2 vagy visszahívás) metrikáit össze lehet hasonlítani a konstans osztályozóéval, azaz az alapvonallal. Ez biztosítja, hogy a betanított modell jobban teljesít, mint az állandó osztályozó. Az Fβ pontszámok (f0_5, f1 és f2, ahol β 0.5, 1 és 2 értékeket vesz fel) a pontosság és a visszahívás súlyozott harmonikus átlaga. Ez optimális értékét 1-nél éri el, legrosszabb értékét 0-nál.
Esetünkben a legjobb állandó osztályozó mindig „nem”-et jósol. Ezért a pontosság magas, 0.89, de a felidézési, precizitási és Fβ pontszámok 0. Ha az adathalmaz tökéletesen kiegyensúlyozott ott, ahol nincs egyetlen többségi vagy kisebbségi osztály, sokkal érdekesebb lehetőségeket láttunk volna a pontosságra, felidézésre, és a konstans osztályozó Fβ pontszámai.
Ezenkívül ezeket az eredményeket JSON formátumban is megtekintheti, ahogy az a következő mintában látható. A UI-n keresztül elérheti a PDF- és JSON-fájlokat, valamint Amazon SageMaker Python SDK az S3OutputPath elem használatával OutputDataConfig szerkezet a CreateAutoMLJob/Írja le azAutoMLJob API válasz.
{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….
ROC és AUC
A probléma típusától függően eltérő küszöbértékekkel rendelkezhet, hogy mi elfogadható FPR-ként. Ha például azt próbálja megjósolni, hogy az ügyfél nyit-e számlát, akkor a vállalkozás számára elfogadhatóbb lehet a magasabb FP-kulcs. Kockázatosabb lehet elmulasztani az ajánlatok kiterjesztését azokra az ügyfelekre, akiknek tévesen jósolta a „nem”, szemben azzal, hogy az ügyfeleknek tévesen „igen”-t jósoltak. Ezen küszöbértékek megváltoztatása különböző FPR-ek előállításához új zavaró mátrixok létrehozását igényli.
Az osztályozási algoritmusok folyamatos értékeket adnak vissza, amelyeket előrejelzési valószínűségeknek nevezünk. Ezeket a valószínűségeket bináris értékké kell alakítani (bináris osztályozáshoz). A bináris osztályozási problémákban a küszöb (vagy döntési küszöb) olyan érték, amely dichotomizálja a valószínűségeket egy egyszerű bináris döntéshez. A 0 és 1 közötti tartományba eső normalizált kivetített valószínűségek esetén a küszöbérték alapértelmezés szerint 0.5.
A bináris osztályozási modelleknél hasznos kiértékelési mérőszám a vevő működési jellemzői (ROC) görbe alatti terület. A Model Quality Report egy ROC grafikont tartalmaz, amelyen a TP arány az y tengely, az FPR pedig az x tengely. A vevő működési karakterisztikája alatti terület (AUC-ROC) a TPR-k és az FPR-k közötti kompromisszumot jelenti.
Létrehozhat egy ROC-görbét egy bináris besorolási előrejelző segítségével, amely küszöbértéket használ, és címkéket rendel hozzá előrejelzési valószínűségekkel. Ahogy változtatja egy modell küszöbértékét, a két végletből fedezi. Ha a TPR és az FPR is 0, az azt jelenti, hogy minden „nem” címkével van ellátva, és ha mind a TPR, mind az FPR értéke 1, az azt jelenti, hogy minden „igen” címkével van ellátva.
Egy véletlenszerű előrejelző, amely az idő felében „Igen”-t, a másik felében „Nem”-t jelöl, egy egyenes átlós vonal (piros pontozott vonal) ROC-val rendelkezik. Ez a vonal az egységnégyzetet két egyenlő méretű háromszögre vágja. Ezért a görbe alatti terület 0.5. A 0.5-ös AUC-ROC érték azt jelentené, hogy az Ön előrejelzője nem tudott jobban megkülönböztetni a két osztályt, mint véletlenszerűen kitalálni, hogy az ügyfél nyit-e számlát vagy sem. Minél közelebb van az AUC-ROC értéke 1.0-hoz, annál jobbak az előrejelzései. A 0.5 alatti érték azt jelzi, hogy ténylegesen jobb előrejelzéseket készíthetünk a modellünkkel, ha megfordítjuk az általa adott választ. A legjobb modellünknél az AUC 0.93.
Precíziós visszahívási görbe
A Model Quality Report egy Precision Recall (PR) görbét is készített a pontosság (y tengely) és a visszahívás (x tengely) ábrázolására különböző küszöbértékekhez – hasonlóan a ROC görbéhez. Az információ-visszakeresésben gyakran használt PR-görbék a ROC-görbék alternatívái az osztályeloszlás nagy torzításával járó osztályozási problémák esetén.
Ezen osztályok kiegyensúlyozatlan adatkészletei esetében a PR-görbék különösen hasznosak, ha a kisebbségi pozitív osztály érdekesebb, mint a többségi negatív osztály. Ne feledje, hogy modellünk 0.53-as pontosságot és 0.72-es visszahívást mutat. Továbbá ne feledje, hogy a legjobb állandó osztályozó nem tud különbséget tenni „igen” és „nem” között. Minden alkalommal véletlenszerű vagy állandó osztályt jósolna.
Az „igen” és a „nem” közötti kiegyensúlyozott adatkészlet görbéje egy vízszintes vonal lenne 0.5-nél, és így a PR-görbe (AUPRC) alatti területe 0.5 lenne. A PRC létrehozásához különböző modelleket ábrázolunk a görbén különböző küszöbértékeken, ugyanúgy, mint a ROC-görbét. Adataink szerint az AUPRC 0.61.
Modell minőségi jelentés kimenet
A Model Quality Report az Amazon S3 gyűjtőcsoportban található, amelyet a SageMaker AutoPilot kísérlet futtatása előtt megadott kimeneti útvonal kijelölésekor. A jelentéseket a documentation/model_monitor/output/<autopilot model name>/ prefix
PDF formátumban mentve.
Következtetés
A SageMaker Autopilot Model Quality Reports megkönnyíti a SageMaker Autopilot kísérlet eredményeinek gyors megtekintését és megosztását. Könnyedén elvégezheti a modell betanítását és hangolását a SageMaker Autopilot segítségével, majd hivatkozhat a generált jelentésekre az eredmények értelmezéséhez. Akár a SageMaker Autopilot legjobb modelljét, akár egy másik jelöltet használja, ezek az eredmények hasznos kiindulási pontot jelenthetnek az előzetes modellképzési és tuningolási munkák kiértékeléséhez. A SageMaker Autopilot Model Quality Reports segít csökkenteni a kódíráshoz és a teljesítményértékeléshez és -összehasonlításhoz szükséges látványelemek elkészítéséhez szükséges időt.
Már ma könnyedén beépítheti az autoML-t üzleti ügyeibe anélkül, hogy adattudományi csapatot kellene felépítenie. SageMaker dokumentáció számos mintát kínál az induláshoz.
A szerzőkről
Peter Chung az AWS megoldástervezője, és szenvedélyesen segíti az ügyfeleket, hogy betekintést nyerjenek adataikból. Olyan megoldásokat épített, amelyek segítik a szervezeteket adatvezérelt döntések meghozatalában mind az állami, mind a magánszektorban. Az összes AWS-tanúsítvánnyal, valamint két GCP-tanúsítvánnyal rendelkezik. Szeret kávézni, főzni, aktív marad, és a családjával tölti az idejét.
Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.
Ali Takbiri az AI/ML specialista Solutions Architect, és a Machine Learning segítségével segíti ügyfeleit üzleti kihívásaik megoldásában az AWS felhőben.
Pradeep Reddy Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot és a SageMaker Automatic Model Tuner-t. A munkán kívül Pradeep szívesen olvas, fut, és tenyérnyi számítógépekkel, például Raspberry pi-vel és egyéb otthoni automatizálási technológiával szórakozik.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/automatically-generate-model-evaluation-metrics-using-sagemaker-autopilot-model-quality-reports/
- "
- 100
- 7
- Rólunk
- hozzáférés
- Fiók
- aktív
- fejlett
- AI
- algoritmusok
- Minden termék
- amazon
- között
- Másik
- api
- TERÜLET
- mesterséges
- mesterséges intelligencia
- Mesterséges intelligencia és gépi tanulás
- attribútumok
- Automatizálás
- elérhető
- AWS
- Bank
- kiindulási
- válik
- BEST
- határ
- Doboz
- épít
- Épület
- üzleti
- esetek
- kihívások
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- osztály
- osztályok
- besorolás
- közelebb
- felhő
- kód
- Kávé
- Oszlop
- képest
- bonyolult
- számítógépek
- zavar
- tartalmaz
- kiadások
- tudott
- készítette
- létrehozása
- görbe
- Ügyfelek
- dátum
- adat-tudomány
- adatkészlet
- bizonyítani
- telepíteni
- bevezetéséhez
- Érzékelés
- DID
- különböző
- közvetlenül
- terjesztés
- könnyen
- Endpoint
- Mérnöki
- különösen
- minden
- példa
- kísérlet
- család
- Funkció
- Végül
- leletek
- vezetéknév
- Rugalmasság
- Összpontosít
- következő
- formátum
- generál
- Globális
- jó
- tekintettel
- segít
- hasznos
- segít
- Magas
- <p></p>
- tart
- Kezdőlap
- Otthoni automatizálás
- Hogyan
- How To
- HTTPS
- ICON
- Identitás
- fontos
- tartalmaz
- információ
- meglátások
- Intelligencia
- IT
- Munka
- ismert
- Címkék
- nagy
- nagyobb
- TANUL
- tanulás
- Tőkeáttétel
- vonal
- Kihallgatás
- elhelyezkedés
- gép
- gépi tanulás
- Többség
- KÉSZÍT
- vezetés
- menedzser
- Marketing
- Mátrix
- intézkedés
- Metrics
- kisebbség
- ML
- modell
- modellek
- több
- a legtöbb
- Filmek
- zene
- szám
- számos
- felajánlás
- Ajánlatok
- nyitva
- nyitás
- üzemeltetési
- Opciók
- szervezetek
- Más
- szenvedélyes
- teljesítmény
- pont
- pozitív
- lehetőségek
- lehetséges
- potenciális
- előre
- előrejelzés
- Tippek
- be
- magán
- Probléma
- problémák
- gyárt
- Termékek
- Termelés
- ad
- biztosít
- nyilvános
- világítás
- gyorsan
- hatótávolság
- Olvasás
- csökkenteni
- jelentést
- Jelentések
- jelentése
- Tudástár
- válasz
- Eredmények
- futás
- Skála
- Tudomány
- ágazatok
- készlet
- Megosztás
- Egyszerű
- So
- Megoldások
- SOLVE
- spam
- Költési
- négyzet
- kezdődött
- Állapot
- tárolás
- stúdió
- cél
- csapat
- tech
- Keresztül
- idő
- Ma
- TPR
- Képzések
- vonatok
- ui
- feltárni
- megért
- us
- használ
- érték
- különféle
- Megnézem
- láthatóság
- vajon
- WHO
- nélkül
- Munka
- lenne