Amazon SageMakeri autopiloot on kuni kaheksa korda kiirem uue ansambli treeningrežiimiga, mida toetab AutoGluon

Taasavaldanud Platon

järgijaid: 0

Amazon SageMakeri autopiloot on lisanud uue treeningrežiimi, mis toetab mudelite komplekteerimist powered by AutoGluon. Ansambli treeningrežiim Autopiloodis treenib mitut baasmudelit ja kombineerib nende ennustusi mudelite virnastamise abil. Alla 100 MB suuruste andmekogumite puhul loob ansamblitreeningu režiim kiiresti suure täpsusega masinõppe (ML) mudelid – kuni kaheksa korda kiiremini kui hüperparameetrite optimeerimise (HPO) treeningrežiim 250 katsega ja kuni 5.8 korda kiiremini kui HPO treeningrežiim. 100 katset. See toetab laia valikut algoritme, sealhulgas LightGBM, CatBoost, XGBoost, Random Forest, Extra Trees, lineaarsed mudelid ja PyTorchil ja FastAI-l põhinevad närvivõrgud.

Kuidas AutoGluon ansamblimudeleid koostab

AutoGluon-Tabular (AGT) on populaarne avatud lähtekoodiga AutoML-i raamistik, mis treenib väga täpseid ML-mudeleid tabeliandmetel. Erinevalt olemasolevatest AutoML-i raamistikest, mis keskenduvad peamiselt mudelite ja hüperparameetrite valikule, õnnestub AGT-l mitme mudeli ühendamine ja nende mitmesse kihti virnastamine. AGT vaikekäitumise võib kokku võtta järgmiselt: Andmekogumit arvesse võttes treenib AGT erinevaid baasmudeleid, alates valmis riiulist võimendatud puudest kuni andmestiku kohandatud närvivõrkudeni. Põhimudelite ennustusi kasutatakse virnastamismudeli koostamiseks funktsioonidena, mis õpib tundma iga baasmudeli sobiva kaalu. Nende õpitud kaalude abil ühendab virnastamismudel seejärel baasmudeli ennustused ja tagastab kombineeritud prognoosid lõpliku ennustuste komplektina.

Kuidas Autopiloodi ansamblitreeningu režiim töötab

Erinevatel andmekogumitel on omadused, mis sobivad erinevate algoritmide jaoks. Arvestades tundmatute omadustega andmekogumit, on raske eelnevalt teada, millised algoritmid andmekogumis kõige paremini töötavad. Seda silmas pidades loovad AGT-d kasutavad andmeteadlased sageli mitu kohandatud konfiguratsiooni algoritmide ja parameetrite alamhulgaga. Nad käitavad neid konfiguratsioone antud andmekogumis, et leida jõudluse ja järelduste latentsuse osas parim konfiguratsioon.

Autopiloot on madala koodiga ML-toode, mis loob teie andmete jaoks automaatselt parimad ML-mudelid. Uues ansamblitreeningu režiimis valib Autopilot optimaalse AGT konfiguratsioonikomplekti ja käivitab mitu katset, et saada parim mudel. Neid katseid tehakse paralleelselt, et hinnata, kas AGT jõudlust saab objektiivsete mõõdikute või järelduste latentsuse osas veelgi parandada.

OpenML-i võrdlusaluste abil täheldatud tulemused

Toimivuse täiustuste hindamiseks kasutasime OpenML-i võrdlusandmekogumeid suurusega 0.5–100 MB ja viisime läbi 10 AGT-katset erinevate algoritmide ja hüperparameetrite konfiguratsioonide kombinatsioonidega. Testides võrreldi ansamblitreeningu režiimi 250 katsega HPO režiimiga ja 100 katsega HPO režiimiga. Järgmises tabelis võrreldakse Autopiloti katse üldist tööaega (minutites) kahe treeningrežiimi vahel erinevate andmestiku suurustega.

Andmestiku suurus	HPO režiim (250 katset)	HPO režiim (100 katset)	Ansamblirežiim (10 prooviversiooni)	Kestusaja parandamine HPO 250 abil	Kestusaja parandamine HPO 100 abil
< 1 MB	121.5 min	88.0 min	15.0 min	8.1x	5.9x
1-10 MB	136.1 min	76.5 min	25.8 min	5.3x	3.0x
10-100 MB	152.7 min	103.1 min	60.9 min	2.5x	1.7x

Mitmeklassiliste klassifikatsiooniülesannete toimivuse võrdlemiseks kasutame täpsust, binaarsete klassifikatsiooniülesannete puhul F1-skoori ja regressiooniülesannete jaoks R2. Objektiivsete mõõdikute kasu on näidatud järgmistes tabelites. Me täheldasime, et ansamblitreeningu režiim toimis paremini kui HPO treeningrežiim (nii 100 kui ka 250 katset).

Pange tähele, et ansamblirežiim näitab järjekindlat paranemist võrreldes HPO režiimiga 250 katsega, olenemata andmekogumi suurusest ja probleemi tüübist.

Järgmises tabelis võrreldakse mitme klassi klassifitseerimisprobleemide täpsust (kõrgem, seda parem).

Andmestiku suurus	HPO režiim (250 katset)	HPO režiim (100 katset)	Ansamblirežiim (10 prooviversiooni)	Protsentuaalne paranemine võrreldes HPO 250-ga
< 1 MB	0.759	0.761	0.771	1.46%
1-5 MB	0.941	0.935	0.957	1.64%
5-10 MB	0.639	0.633	0.671	4.92%
10-50 MB	0.998	0.999	0.999	0.11%
51-100 MB	0.853	0.852	0.875	2.56%

Järgmises tabelis võrreldakse binaarse klassifikatsiooniprobleemide F1 skoori (mida kõrgem, seda parem).

Andmestiku suurus	HPO režiim (250 katset)	HPO režiim (100 katset)	Ansamblirežiim (10 prooviversiooni)	Protsentuaalne paranemine võrreldes HPO 250-ga
< 1 MB	0.801	0.807	0.826	3.14%
1-5 MB	0.59	0.587	0.629	6.60%
5-10 MB	0.886	0.889	0.898	1.32%
10-50 MB	0.731	0.736	0.754	3.12%
51-100 MB	0.503	0.493	0.541	7.58%

Järgmises tabelis võrreldakse R2 regressiooniprobleemide jaoks (kõrgem seda parem).

Andmestiku suurus	HPO režiim (250 katset)	HPO režiim (100 katset)	Ansamblirežiim (10 prooviversiooni)	Protsentuaalne paranemine võrreldes HPO 250-ga
< 1 MB	0.717	0.718	0.716	0%
1-5 MB	0.803	0.803	0.817	2%
5-10 MB	0.590	0.586	0.614	4%
10-50 MB	0.686	0.688	0.684	0%
51-100 MB	0.623	0.626	0.631	1%

Järgmistes osades näitame, kuidas kasutada uut ansamblitreeningu režiimi Autopiloodis andmekogumite analüüsimiseks ja kvaliteetsete ML-mudelite hõlpsaks koostamiseks.

Andmestiku ülevaade

Me kasutame Titanicu andmestik ennustada, kas antud reisija jäi ellu või mitte. See on binaarse klassifikatsiooni probleem. Keskendume autopiloodi katse loomisele, kasutades uut ansamblitreeningu režiimi, ning võrdleme F1 skoori ja üldist tööaega autopiloodi katsega, kasutades HPO treeningrežiimi (100 katset).

Veeru nimi	Kirjeldus
Passengerid	Identifitseerimisnumber
Jäid ellu	Ellujäämine
Pklass	Piletiklass
Nimi	Reisija nimi
Sugu	Sugu
vanus	Vanus aastatel
Sibsp	Õdede-vendade või abikaasade arv Titanicu pardal
Plaaster	Vanemate või laste arv Titanicu pardal
Pilet	Pileti number
pileti hind	Reisijate hind
kabiin	Kabiini number
Alustas	Pardalemineku sadam

Andmestikul on 890 rida ja 12 veergu. See sisaldab demograafilist teavet reisijate kohta (vanus, sugu, piletiklass ja nii edasi) ja sihtveergu Ellujäänud (jah/ei).

Eeldused

Täitke järgmised eeltingimusetapid:

Veenduge, et teil oleks AWS-i konto, turvaline juurdepääs kontole sisselogimiseks AWS-i juhtimiskonsoolja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutusõigused Amazon SageMaker ja Amazoni lihtne salvestusteenus (Amazon S3) ressursse.
Lae alla Titanicu andmestik ja laadige see S3 ämbrisse teie kontol.
Sissepääs SageMakeri domeenile ja juurdepääs Amazon SageMaker Studio Autopiloodi kasutamiseks. Juhiste saamiseks vaadake Sisseehitatud Amazon SageMakeri domeeniga. Kui kasutate olemasolevat Studiot, minge üle versioonile Studio uusim versioon kasutada uut ansamblitreeningu režiimi.

Looge ansamblitreeningu režiimiga autopiloodi katse

Kui andmestik on valmis, saate Studios käivitada autopiloodi katse. Täielike juhiste saamiseks vaadake Looge Amazon SageMakeri autopiloodi katse. Looge autopiloodi katse, sisestades katse nime, andmesisendi ja määrates prognoositavad sihtandmed Katse ja andmete üksikasjad osa. Valikuliselt saate määrata Amazon S3 väljundi asukoha andmete levimise suhte ja automaatse loomise.

Meie kasutusjuhtumi jaoks anname katse nime, sisestame Amazon S3 asukoha ja valime Jäid ellu kui sihtmärk. Hoiame automaatse jagamise lubatud ja alistame Amazon S3 vaikeväljundi asukoha.

Järgmisena täpsustame koolitusmeetodit Treeningmeetod osa. Võite lasta Autopiloodil treeningrežiimi automaatselt valida Auto andmestiku suuruse alusel või valige treeningrežiim käsitsi kas komplekteerimiseks või HPO jaoks. Iga valiku üksikasjad on järgmised:

Auto – Autopiloot valib teie andmestiku suuruse põhjal automaatselt kas komplekteerimis- või HPO-režiimi. Kui teie andmestik on suurem kui 100 MB, valib Autopilot HPO, vastasel juhul valib komplekteerimise.
Ansambeldamine - Autopiloodi kasutamine AutoGluon'i komplekteerimistehnika, et koolitada mitu baasmudelit ja kombineerida nende ennustused mudelite virnastamise abil optimaalseks ennustavaks mudeliks.
Hüperparameetrite optimeerimine – Autopiloot leiab mudeli parima versiooni, häälestades hüperparameetreid, kasutades Bayesi optimeerimise tehnikat ja käivitades teie andmestikul treeningtöid. HPO valib teie andmestiku jaoks kõige asjakohasemad algoritmid ja valib mudelite häälestamiseks parima valiku hüperparameetreid.

Meie kasutusjuhtumi jaoks valime Ansambeldamine kui meie treeningrežiim.

Pärast seda liigume edasi Juurutamine ja täpsemad seaded osa. Siin tühistame valiku Automaatne juurutamine valik. All Lisaseaded, saate määrata ML-probleemi tüübi, mida soovite lahendada. Kui midagi ei esitata, määrab Autopilot teie esitatud andmete põhjal automaatselt mudeli. Kuna meie probleem on binaarne klassifitseerimise probleem, siis me valime Binaarne klassifikatsioon kui meie probleemitüüp ja F1 kui meie objektiivne mõõdik.

Lõpuks vaatame oma valikud üle ja valime Loo katse.

Sel hetkel on ohutu Stuudiost lahkuda ja hiljem naasta, et kontrollida tulemust, mille leiate lehelt Katsed menüü.

Järgmine ekraanipilt näitab meie titanic-ensi ansambli treeningrežiimi Autopiloodi töö lõpptulemusi.

Saate vaadata mitut katset, mida Autopilot on proovinud ansamblitreeningu režiimis. Iga prooviversioon tagastab parima mudeli üksikute mudelite käitamiste ja virnastamiskomplektide mudelite kogumitest.

Et seda veidi lähemalt selgitada, oletame, et prooviversioon 1 võttis arvesse kõiki kaheksat toetatud algoritmi ja kasutas virnastamise taset 2. See loob sisemiselt iga algoritmi jaoks individuaalsed mudelid ning ka kaalutud ansamblimudelid virna tasemega 0, tase 1 ja tase 2 1. prooviversiooni väljund on aga loodud mudelite hulgast parim mudel.

Samamoodi oletame, et prooviversioon 2 võttis kasutusele ainult puupõhised võimendusalgoritmid. Sel juhul loob prooviversioon 2 sisemiselt kolm individuaalset mudelit iga kolme algoritmi ja kaalutud ansamblimudelite jaoks ning tagastab selle käitamise parima mudeli.

Prooviprooviga tagastatud lõplik mudel võib, kuid ei pruugi olla kaalutud ansamblimudel, kuid enamik katseid tagastab tõenäoliselt nende parima kaalutud ansamblimudeli. Lõpuks selgitatakse valitud objektiivse mõõdiku põhjal välja kõigi 10 katse seast parim mudel.

Eelmises näites oli meie parim mudel, millel oli kõrgeim F1 skoor (meie objektiivne mõõdik). Kuvatakse ka mitmed muud kasulikud mõõdikud, sealhulgas täpsus, tasakaalustatud täpsus, täpsus ja meeldetuletus. Meie keskkonnas oli selle autopiloodi eksperimendi otsast lõpuni tööaeg 10 minutit.

Looge autopiloodi katse HPO treeningrežiimiga

Nüüd teeme kõik ülalnimetatud toimingud, et luua teine autopiloodi katse HPO treeningmeetodiga (vaikimisi 100 katset). Peale treeningmeetodi valiku, mis praegu on Hüperparameetrite optimeerimine, kõik muu jääb samaks. HPO režiimis saate määrata katsete arvu seadistustega Maksimaalselt kandidaate all Lisaseaded eest Runtime, kuid soovitame selle vaikimisi jätta. Ei paku mingit väärtust Maksimaalselt kandidaate viib läbi 100 HPO katset. Meie keskkonnas oli selle autopiloodi katse täielik tööaeg 2 tundi.

Kestusaja ja toimivuse mõõdikute võrdlus

Näeme, et meie andmestiku (alla 1 MB) puhul ei töötanud ansamblitreeningu režiim mitte ainult 12 korda kiiremini kui HPO treeningrežiim (120 minutit kuni 10 minutit), vaid see andis ka paremaid F1 tulemusi ja muid jõudlusnäitajaid.

Treeningrežiim	F1 skoor	Täpsus	Tasakaalustatud täpsus	AUC	Täpsus	Tagasikutsumine	Logikadu	Runtime
Ansambli režiim - WeightedEnsemble	0.844	0.878	0.865	0.89	0.912	0.785	0.394	10 min
HPO režiim – XGBoost	0.784	0.843	0.824	0.867	0.831	0.743	0.428	120 min

Järeldus

Nüüd, kui meil on võitja mudel, saame kumbagi juurutada see lõpp-punkti reaalajas järelduste tegemiseks or kasutage ennustuste tegemiseks partii teisendusi varem alla laaditud märgistamata andmekogumil.

kokkuvõte

Saate oma autopiloodi katseid käivitada kiiremini, ilma et see mõjutaks jõudlust, kasutades uut ansamblitreeningu režiimi, mis on ette nähtud alla 100 MB suuruste andmekogumite jaoks. Alustamiseks luua SageMakeri autopiloodi katse Studio konsoolil ja valige Ansambeldamine treeningrežiimiks või laske Autopiloodil andmestiku suuruse põhjal treeningrežiim automaatselt järeldada. Võite viidata CreateAutoMLJob API viitejuhend API värskenduste jaoks ja uuendage versioonile Studio uusim versioon kasutada uut ansamblitreeningu režiimi. Selle funktsiooni kohta lisateabe saamiseks vt Mudelite tugi, mõõdikud ja valideerimine Amazon SageMaker Autopilotiga ja autopiloodi kohta lisateabe saamiseks külastage veebilehte Toote leht.

Autoritest

Janisha Anand on vanemtootejuht SageMaker Low/No Code ML meeskonnas, kuhu kuulub ka SageMaker Autopilot. Ta naudib kohvi, aktiivset olemist ja perega aega veetmist.

Saket Sathe on SageMakeri autopiloodi meeskonna vanemrakendusteadlane. Ta on kirglik järgmise põlvkonna masinõppe algoritmide ja süsteemide loomise vastu. Töö kõrvalt armastab ta lugeda, süüa teha, ramenit siputada ja sulgpalli mängida.

Abhishek singh on AWS-i Autopiloodi meeskonna tarkvarainsener. Tal on üle 8-aastane tarkvaraarendaja kogemus ja ta on kirglik klientide probleeme lahendavate skaleeritavate tarkvaralahenduste loomise vastu. Vabal ajal meeldib Abhishekile olla aktiivne, minnes matkale või osaledes jalgpallimängudes.

Vadim Omeltšenko on Sr. AI/ML Solutions Arhitekt, kes soovib kirglikult aidata AWS-i klientidel pilves uuendusi teha. Tema varasem IT-kogemus oli valdavalt kohapeal.

Ajatempel: September 21, 2022September 21, 2022

Ajatempel: November 29, 2023

Amazon SageMaker Autopilot on kuni kaheksa korda kiirem uue ansamblitreeningu režiimiga, mida toetab AutoGluon

Taasavaldanud Platon

Kuidas AutoGluon ansamblimudeleid koostab

Kuidas Autopiloodi ansamblitreeningu režiim töötab

OpenML-i võrdlusaluste abil täheldatud tulemused

Andmestiku ülevaade

Eeldused

Looge ansamblitreeningu režiimiga autopiloodi katse

Looge autopiloodi katse HPO treeningrežiimiga

Kestusaja ja toimivuse mõõdikute võrdlus

Järeldus

kokkuvõte

Autoritest

Veel alates AWS-i masinõpe

Töötle hüpoteeklaenu dokumente intelligentse dokumenditöötlusega, kasutades Amazon Textracti ja Amazon Comprehendi

Tühistamise ennustamine Amazon SageMakeri sisseehitatud tabelialgoritmide LightGBM, CatBoost, TabTransformer ja AutoGluon-Tabular abil

Kuidas Yara kasutab Amazon SageMakeri MLOps funktsioone oma ammoniaagitehaste energia optimeerimiseks

ML-i järeldamine servas Amazon SageMaker Edge'i ja Ambarella CV25-ga

Amazon SageMaker JumpStart mudelid ja algoritmid on nüüd saadaval API kaudu

Kontrollige juurdepääsu Amazon SageMakeri funktsioonipoele võrguühenduseta, kasutades AWS Lake Formationit

Intuitivo saavutab AWS Inferentia ja PyTorchi abil suurema läbilaskevõime, säästes samal ajal AI/ML kulusid | Amazoni veebiteenused

Teatame uutest tööriistadest ja võimalustest vastutustundliku tehisintellekti innovatsiooni võimaldamiseks | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto