Bouw en evalueer machine learning-modellen met geavanceerde configuraties met behulp van het SageMaker Canvas Model Leaderboard

Heruitgegeven door Plato

volgers: 0

Amazon SageMaker-canvas is een werkruimte zonder code waarmee analisten en burgerdatawetenschappers nauwkeurige machine learning (ML)-voorspellingen kunnen genereren voor hun zakelijke behoeften. Vanaf vandaag ondersteunt SageMaker Canvas geavanceerde configuraties voor het bouwen van modellen, zoals het selecteren van een trainingsmethode (ensemble- of hyperparameteroptimalisatie) en algoritmen, het aanpassen van de splitsingsratio van trainings- en validatiegegevens en het instellen van limieten voor autoML-iteraties en taakuitvoeringstijd, waardoor gebruikers de mogelijkheid krijgen om configuraties voor het bouwen van modellen zonder dat u ook maar één regel code hoeft te schrijven. Deze flexibiliteit kan zorgen voor een robuustere en inzichtelijkere modelontwikkeling. Niet-technische belanghebbenden kunnen de no-code-functies met standaardinstellingen gebruiken, terwijl burgerdatawetenschappers kunnen experimenteren met verschillende ML-algoritmen en -technieken, waardoor ze kunnen begrijpen welke methoden het beste werken voor hun data en kunnen optimaliseren om de kwaliteit en prestaties van het model te garanderen.

Naast modelbouwconfiguraties biedt SageMaker Canvas nu ook een modelklassement. Met een scorebord kunt u de belangrijkste prestatiestatistieken (bijvoorbeeld nauwkeurigheid, precisie, terugroeping en F1-score) vergelijken voor de configuraties van verschillende modellen om het beste model voor uw gegevens te identificeren, waardoor de transparantie bij het bouwen van modellen wordt verbeterd en u wordt geholpen weloverwogen beslissingen te nemen over model keuzes. U kunt ook de volledige workflow voor het bouwen van modellen bekijken, inclusief voorgestelde voorverwerkingsstappen, algoritmen en hyperparameterbereiken in een notitieblok. Om toegang te krijgen tot deze functionaliteiten, logt u uit en weer in bij SageMaker Canvas en kiest u Model configureren bij het bouwen van modellen.

In dit bericht begeleiden we u door het proces om de nieuwe geavanceerde modelbouwconfiguraties van SageMaker Canvas te gebruiken om een ensemble- en hyperparameteroptimalisatietraining (HPO) te starten.

Overzicht oplossingen

In deze sectie laten we u stapsgewijze instructies zien voor de nieuwe SageMaker Canvas geavanceerde modelbouwconfiguraties om een ensemble- en hyperparameteroptimalisatie (HPO)-training te starten om onze dataset te analyseren, hoogwaardige ML-modellen te bouwen en het modelleiderbord te bekijken om te beslissen welk model moet worden gepubliceerd voor gevolgtrekking. SageMaker Canvas kan automatisch de trainingsmethode selecteren op basis van de datasetgrootte, of u kunt deze handmatig selecteren. De keuzes zijn:

Samen: Gebruikt de AutoGluon bibliotheek om verschillende basismodellen te trainen. Om de beste combinatie voor uw dataset te vinden, voert de ensemblemodus 10 tests uit met verschillende model- en metaparameterinstellingen. Vervolgens combineert het deze modellen met behulp van een stapelingsensemble-methode om een optimaal voorspellend model te creëren. In de ensemblemodus ondersteunt SageMaker Canvas de volgende typen machine learning-algoritmen:
- Lichte GBM: Een geoptimaliseerd raamwerk dat gebruik maakt van boomgebaseerde algoritmen met gradiëntversterking. Dit algoritme maakt gebruik van bomen die in de breedte groeien in plaats van in de diepte en is sterk geoptimaliseerd voor snelheid.
- KatBoost: Een raamwerk dat boomgebaseerde algoritmen gebruikt met gradiëntversterking. Geoptimaliseerd voor het verwerken van categorische variabelen.
- XGBoost: Een raamwerk dat boomgebaseerde algoritmen gebruikt met gradiëntversterking die eerder in de diepte dan in de breedte groeit.
- Willekeurig bos: Een boomgebaseerd algoritme dat verschillende beslissingsbomen gebruikt op willekeurige submonsters van de gegevens met vervanging. De bomen zijn op elk niveau opgesplitst in optimale knooppunten. De beslissingen van elke boom worden samen gemiddeld om overfitting te voorkomen en voorspellingen te verbeteren.
- Extra bomen: Een boomgebaseerd algoritme dat verschillende beslissingsbomen voor de gehele dataset gebruikt. De bomen worden op elk niveau willekeurig verdeeld. De beslissingen van elke boom zijn gemiddeld om overfitting te voorkomen en voorspellingen te verbeteren. Extra bomen voegen een zekere mate van randomisatie toe in vergelijking met het willekeurige bosalgoritme.
- Lineaire modellen: Een raamwerk dat een lineaire vergelijking gebruikt om de relatie tussen twee variabelen in waargenomen gegevens te modelleren.
- Neurale netwerkfakkel: Een neuraal netwerkmodel dat is geïmplementeerd met behulp van Pytorch.
- Neuraal netwerk fast.ai: Een neuraal netwerkmodel dat is geïmplementeerd met behulp van fast.ai.
Hyperparameteroptimalisatie (HPO): SageMaker Canvas vindt de beste versie van een model door hyperparameters af te stemmen met behulp van Bayesiaanse optimalisatie of multi-fidelity-optimalisatie terwijl trainingstaken op uw dataset worden uitgevoerd. De HPO-modus selecteert de algoritmen die het meest relevant zijn voor uw dataset en selecteert het beste bereik aan hyperparameters om uw modellen af te stemmen. Om uw modellen af te stemmen, voert de HPO-modus maximaal 100 tests uit (standaard) om de optimale hyperparameterinstellingen binnen het geselecteerde bereik te vinden. Als uw dataset kleiner is dan 100 MB, gebruikt SageMaker Canvas Bayesiaanse optimalisatie. SageMaker Canvas kiest voor multi-fidelity-optimalisatie als uw dataset groter is dan 100 MB. Bij multi-fidelity-optimalisatie worden voortdurend statistieken verzonden vanuit de trainingscontainers. Een proef die slecht presteert op basis van een geselecteerde objectieve maatstaf wordt vroegtijdig stopgezet. Een proef die goed presteert, krijgt meer middelen toegewezen. In de HPO-modus ondersteunt SageMaker Canvas de volgende typen machine learning-algoritmen:
Lineaire leerling: Een begeleid leeralgoritme dat classificatie- of regressieproblemen kan oplossen.
XGBoost: Een begeleid leeralgoritme dat probeert een doelvariabele nauwkeurig te voorspellen door een geheel van schattingen uit een reeks eenvoudigere en zwakkere modellen te combineren.
Diep leeralgoritme: Een meerlaags perceptron (MLP) en feedforward kunstmatig neuraal netwerk. Dit algoritme kan gegevens verwerken die niet lineair scheidbaar zijn.
Auto: SageMaker Canvas kiest automatisch de ensemblemodus of de HPO-modus op basis van de grootte van uw dataset. Als uw dataset groter is dan 100 MB, kiest SageMaker Canvas voor HPO. Anders kiest het de ensemblemodus.

Voorwaarden

Voor dit bericht moet je aan de volgende vereisten voldoen:

Heb een AWS-account.
Stel SageMaker Canvas in. Zien Vereisten voor het instellen van Amazon SageMaker Canvas.
Download de klassieker Titanic-gegevensset naar uw lokale computer.

Maak een model

We begeleiden u bij het gebruik van de Titanic-dataset en SageMaker Canvas om een model te maken dat voorspelt welke passagiers de Titanic-scheepswrak hebben overleefd. Dit is een binair classificatieprobleem. We concentreren ons op het maken van een Canvas-experiment met behulp van de ensemble-trainingsmodus en vergelijken de resultaten van de F1-score en de algehele looptijd met een SageMaker Canvas-experiment met behulp van de HPO-trainingsmodus (100 proeven).

Kolomnaam	Omschrijving
Passagiers-ID	Identificatie Nummer
Overleefd	Overleving
Pklasse	Ticketklasse
Naam	Passagier's naam
Sekse	Sekse
Leeftijd	Leeftijd in jaren
Sibsp	Aantal broers en zussen of echtgenoten aan boord van de Titanic
Lapje	Aantal ouders of kinderen aan boord van de Titanic
Ticket	Ticket nummer
Hebben	Passagiersbeurs
Cabine	Cabine nummer
Gemerkt	Inschepingshaven

De Titanic-gegevensset heeft 890 rijen en 12 kolommen. Het bevat demografische informatie over de passagiers (leeftijd, geslacht, ticketklasse, enzovoort) en de doelkolom Overleefd (ja/nee).

Begin met het importeren van de dataset in SageMaker Canvas. Geef de gegevensset een naam Titanisch.
Selecteer de Titanic-dataset en kies Nieuw model maken. Voer een naam in voor het model, selecteer Voorspellende analyse als probleemtype en kies creëren.
Onder Selecteer een kolom om te voorspellen, gebruik het Doelkolom vervolgkeuzelijst om te selecteren Overleefd. De doelkolom Overleefd is een binair gegevenstype met de waarden 0 (niet overleefd) en 1 (overleefd).

Configureer en voer het model uit

In het eerste experiment configureert u SageMaker Canvas om een ensembletraining uit te voeren op de dataset met nauwkeurigheid als uw objectieve maatstaf. Een hogere nauwkeurigheidsscore geeft aan dat het model correctere voorspellingen doet, terwijl een lagere nauwkeurigheidsscore suggereert dat het model meer fouten maakt. Nauwkeurigheid werkt goed voor gebalanceerde datasets. Voor ensembletraining selecteert u XGBoost, Random Forest, CatBoost en Linear Models als uw algoritmen. Laat de gegevenssplitsing op de standaardwaarde 80/20 staan voor training en validatie. En ten slotte configureert u de trainingstaak zodat deze wordt uitgevoerd voor een maximale taaklooptijd van 1 uur.

Begin met kiezen Model configureren.
Dit opent een modaal venster voor Model configureren. Kiezen Geavanceerd vanuit het navigatievenster.
Begin met het configureren van uw model door te selecteren Objectieve statistiek. Voor dit experiment selecteert u Nauwkeurigheid. De nauwkeurigheidsscore geeft aan hoe vaak de voorspellingen van het model in het algemeen correct zijn.
kies Trainingsmethode en algoritmen en selecteer Samen. Ensemble-methoden bij machinaal leren omvatten het creëren van meerdere modellen en deze vervolgens te combineren om betere resultaten te produceren. Deze techniek wordt gebruikt om de nauwkeurigheid van de voorspellingen te vergroten door gebruik te maken van de sterke punten van verschillende algoritmen. Het is bekend dat ensemblemethoden nauwkeurigere oplossingen opleveren dan een enkel model, zoals blijkt uit verschillende machine learning-wedstrijden en toepassingen in de echte wereld.
Selecteer de verschillende algoritmen die u voor het ensemble wilt gebruiken. Voor dit experiment selecteert u XGBoost, Lineair, KatBoost en Willekeurig bos. Wis alle andere algoritmen.
kies Gegevens gesplitst vanuit het navigatievenster. Laat voor dit experiment de standaardverdeling voor training en validatie op 80/20 staan. De volgende iteratie van het experiment gebruikt een andere splitsing om te zien of dit resulteert in betere modelprestaties.
kies Max. kandidaten en looptijd vanuit het navigatievenster en stel de Maximale taaklooptijd tot 1 uur en kies Bespaar.
Kies Standaard gebouwd om met de bouw te beginnen.

Op dit punt roept SageMaker Canvas de modeltraining aan op basis van de configuratie die u heeft opgegeven. Omdat u een maximale looptijd voor de trainingstaak van 1 uur hebt opgegeven, duurt het maximaal een uur voordat SageMaker Canvas de trainingstaak heeft uitgevoerd.

Bouw en evalueer machine learning-modellen met geavanceerde configuraties met behulp van het SageMaker Canvas-modelleaderboard | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bekijk de resultaten

Na voltooiing van de trainingstaak brengt SageMaker Canvas u automatisch terug naar de analyseweergave en toont de objectieve metrische resultaten die u had geconfigureerd voor het modeltrainingsexperiment. In dit geval ziet u dat de nauwkeurigheid van het model 86.034 procent bedraagt.

Kies de pijlknop voor samenvouwen naast Modelklassement om de prestatiegegevens van het model te bekijken.
Selecteer het Scoren tabblad om dieper in te gaan op de inzichten in de modelnauwkeurigheid. Het getrainde model meldt dat het de niet-overlevende passagiers in 89.72 procent van de gevallen correct kan voorspellen.
Selecteer het Geavanceerde statistieken tabblad om aanvullende modelprestatiedetails te evalueren. Begin met selecteren Tabel met statistieken om metrische details te bekijken, zoals F1, precisie, Terugroepen en AUC.
SageMaker Canvas helpt ook bij het visualiseren van de Verwarring matrix voor het getrainde model.
En visualiseert de Precisie terugroepcurve. Een AUPRC van 0.86 duidt op een hoge classificatienauwkeurigheid, wat goed is.
Kies Modelklassement om belangrijke prestatiestatistieken (zoals nauwkeurigheid, precisie, herinnering en F1-score) te vergelijken voor verschillende modellen die door SageMaker Canvas zijn geëvalueerd om het beste model voor de gegevens te bepalen, op basis van de configuratie die u voor dit experiment hebt ingesteld. Het standaardmodel met de beste prestaties wordt gemarkeerd met de standaardmodel label op het modelklassement.
U kunt het contextmenu aan de zijkant gebruiken om dieper in de details van een van de modellen te duiken of om van een model het standaardmodel te maken. Selecteer Modeldetails bekijken op het tweede model in het klassement om details te bekijken.
SageMaker Canvas verandert de weergave om details van het geselecteerde modelkandidaat weer te geven. Hoewel details van het standaardmodel al beschikbaar zijn, duurt het 10 tot 15 minuten om de details van het alternatieve model te schilderen.

Maak een tweede model

Nu u een model hebt gebouwd, uitgevoerd en beoordeeld, gaan we ter vergelijking een tweede model bouwen.

Keer terug naar het standaardmodelaanzicht door te kiezen X in de bovenhoek. Kies nu Versie toevoegen om een nieuwe versie van het model te maken.
Selecteer de Titanic-gegevensset die u in eerste instantie hebt gemaakt en kies vervolgens Selecteer dataset.

SageMaker Canvas laadt het model automatisch met de doelkolom al geselecteerd. In dit tweede experiment schakel je over op HPO-training om te kijken of dit betere resultaten oplevert voor de dataset. Voor dit model behoud je dezelfde objectieve statistieken (Accuracy) ter vergelijking met het eerste experiment en gebruik je het XGBoost-algoritme voor HPO-training. U wijzigt de gegevensverdeling voor training en validatie in 70/30 en configureert het maximale aantal kandidaten en runtimewaarden voor de HPO-taak naar 20 kandidaten en de maximale runtime van de taak op 1 uur.

Configureer en voer het model uit

Begin het tweede experiment door te kiezen Model configureren om uw modeltrainingsdetails te configureren.
In het Model configureren venster, selecteer Objectieve statistiek vanuit het navigatievenster. Voor de Objectieve statistiek, gebruik de vervolgkeuzelijst om te selecteren NauwkeurigheidHiermee kunt u alle versie-uitvoer naast elkaar bekijken en vergelijken.
kies Trainingsmethode en algoritmen. Kiezen Optimalisatie van hyperparameters voor de trainingsmethode. Blader vervolgens naar beneden om de algoritmen te selecteren.
kies XGBoost voor het algoritme. XGBoost biedt parallelle boomverbetering die veel datawetenschapsproblemen snel en nauwkeurig oplost, en biedt een groot aantal hyperparameters die kunnen worden afgestemd om het XGBoost-model te verbeteren en volledig te benutten.
kies Gegevenssplitsing. Stel voor dit model de verdeling van trainings- en validatiegegevens in op 70/30.
kies Max. kandidaten en looptijd en stel de waarden voor de HPO-taak in op 20 voor de Max. kandidaten en 1 uur voor de Maximale taaklooptijd. Kiezen Bespaar om de configuratie van het tweede model te voltooien.
Nu u het tweede model hebt geconfigureerd, kunt u kiezen Standaard gebouwd een opleiding te starten.

SageMaker Canvas gebruikt de configuratie om de HPO-taak te starten. Net als de eerste taak duurt het voltooien van deze trainingstaak maximaal een uur.

Bekijk de resultaten

Wanneer de HPO-trainingstaak is voltooid (of de maximale looptijd is verstreken), geeft SageMaker Canvas de uitvoer van de trainingstaak weer op basis van het standaardmodel en wordt de nauwkeurigheidsscore van het model weergegeven.

Kies Modelklassement om de lijst met alle 20 kandidaat-modellen van de HPO-trainingsrun te bekijken. Het beste model, gebaseerd op het doel om de beste nauwkeurigheid te vinden, wordt als standaard gemarkeerd.

Hoewel de nauwkeurigheid van de verzuim model het beste is, heeft een ander model uit de HPO-jobrun een hogere score op het gebied onder de ROC-curve (AUC). De AUC-score wordt gebruikt om de prestaties van een binair classificatiemodel te evalueren. Een hogere AUC geeft aan dat het model beter onderscheid kan maken tussen de twee klassen, waarbij 1 een perfecte score is en 0.5 een willekeurige gok aangeeft.

Gebruik het contextmenu om van het model met de hogere AUC het standaardmodel te maken. Selecteer het contextmenu voor dat model en selecteer Wijzigen naar standaardmodel optie in het lijnmenu, zoals weergegeven in Afbeelding 31 hieronder.

Het duurt een paar minuten voordat SageMaker Canvas het geselecteerde model heeft gewijzigd naar het nieuwe standaardmodel voor versie 2 van het experiment en het naar de bovenkant van de modellenlijst heeft verplaatst.

Vergelijk de modellen

Op dit moment heeft u twee versies van uw model en kunt u deze naast elkaar bekijken door naar te gaan Mijn modellen in SageMaker Canvas.

kies Voorspel overleving op de Titanic om de beschikbare modelversies te zien.
Er zijn twee versies en hun prestaties worden weergegeven in tabelvorm, zodat ze naast elkaar kunnen worden vergeleken.
Je kunt zien dat versie 1 van het model (die is getraind met behulp van ensemble-algoritmen) een betere nauwkeurigheid heeft. U kunt SageMaker Canvas nu gebruiken om een SageMaker-notitieboekje te genereren (met code, opmerkingen en instructies) om de indeling aan te passen AutoGluon proefversies en voer de SageMaker Canvas-workflow uit zonder ook maar één regel code te schrijven. U kunt het SageMaker-notebook genereren door het contextmenu te kiezen en te selecteren Bekijk Notitieboekje.
Het SageMaker-notebook verschijnt in een pop-upvenster. Het notebook helpt u bij het inspecteren en wijzigen van de door SageMaker Canvas voorgestelde parameters. U kunt interactief een van de door SageMaker Canvas voorgestelde configuraties selecteren, deze wijzigen en een verwerkingstaak uitvoeren om modellen te trainen op basis van de geselecteerde configuratie in de SageMaker Studio-omgeving.

Gevolgtrekking

Nu u het beste model heeft geïdentificeerd, kunt u het contextmenu gebruiken implementeer het op een eindpunt voor realtime inferentie.

Of gebruik het contextmenu om uw ML-model operationeel te maken in productie het registreren van het machine learning-model (ML) in het SageMaker-modelregister.

Opruimen

Om te voorkomen dat er in de toekomst kosten in rekening worden gebracht, verwijdert u de bronnen die u heeft gemaakt terwijl u dit bericht volgde. SageMaker Canvas factureert u voor de duur van de sessie en we raden u aan uit te loggen bij SageMaker Canvas als u het niet gebruikt.

Bekijk Afmelden bij Amazon SageMaker Canvas voor meer details.

Conclusie

SageMaker Canvas is een krachtig hulpmiddel dat machinaal leren democratiseert en zich richt op zowel niet-technische belanghebbenden als burgerdatawetenschappers. De nieuw geïntroduceerde functies, waaronder geavanceerde modelbouwconfiguraties en het modelleiderbord, verhogen de flexibiliteit en transparantie van het platform. Hierdoor kunt u uw machine learning-modellen afstemmen op specifieke bedrijfsbehoeften zonder dat u zich in code hoeft te verdiepen. De mogelijkheid om trainingsmethoden, algoritmen, datasplitsingen en andere parameters aan te passen, stelt u in staat te experimenteren met verschillende ML-technieken, waardoor een dieper inzicht in de modelprestaties ontstaat.

De introductie van het modelleaderboard is een aanzienlijke verbetering en biedt een duidelijk overzicht van de belangrijkste prestatiestatistieken voor verschillende configuraties. Dankzij deze transparantie kunnen gebruikers weloverwogen beslissingen nemen over modelkeuzes en optimalisaties. Door de volledige workflow voor het bouwen van modellen weer te geven, inclusief voorgestelde voorverwerkingsstappen, algoritmen en hyperparameterbereiken in een notebook, faciliteert SageMaker Canvas een uitgebreid begrip van het modelontwikkelingsproces.

Om uw low-code/no-code ML-reis te beginnen, zie Amazon SageMaker-canvas.

Speciale dank aan iedereen die heeft bijgedragen aan de lancering:

Esha Dutta, Ed Cheung, Max Kondrashov, Allan Johnson, Ridhim Rastogi, Ranga Reddy Pallelra, Ruochen Wen, Ruinong Tian, Sandipan Manna, Renu Rozera, Vikash Garg, Ramesh Sekaran en Gunjan Garg

Over de auteurs

Janisha Anand is een Senior Product Manager in het SageMaker Low/No Code ML-team, dat SageMaker Canvas en SageMaker Autopilot omvat. Ze houdt van koffie, actief blijven en tijd doorbrengen met haar gezin.

Indy Sawhney is een Senior Customer Solutions Leader bij Amazon Web Services. Indy werkt altijd achteruit vanuit klantproblemen en adviseert leidinggevenden van AWS-ondernemingsklanten tijdens hun unieke cloudtransformatietraject. Hij heeft meer dan 25 jaar ervaring met het helpen van zakelijke organisaties bij het adopteren van opkomende technologieën en bedrijfsoplossingen. Indy is een diepgaande specialist bij de AWS Technical Field Community voor kunstmatige intelligentie en machine learning (AI/ML), met specialisatie in generatieve AI en low-code/no-code (LCNC) SageMaker-oplossingen.