Créez et évaluez des modèles d'apprentissage automatique avec des configurations avancées à l'aide du classement des modèles SageMaker Canvas

Republié par Platon

Suiveurs: 0

Toile Amazon SageMaker est un espace de travail sans code qui permet aux analystes et aux data scientists citoyens de générer des prédictions d'apprentissage automatique (ML) précises pour les besoins de leur entreprise. À partir d'aujourd'hui, SageMaker Canvas prend en charge les configurations avancées de création de modèles telles que la sélection d'une méthode de formation (optimisation d'ensemble ou d'hyperparamètres) et d'algorithmes, la personnalisation du rapport de répartition des données de formation et de validation et la définition de limites sur les itérations AutoML et la durée d'exécution des tâches, permettant ainsi aux utilisateurs de personnaliser modéliser des configurations de création sans avoir à écrire une seule ligne de code. Cette flexibilité peut permettre un développement de modèles plus robuste et plus perspicace. Les parties prenantes non techniques peuvent utiliser les fonctionnalités sans code avec les paramètres par défaut, tandis que les scientifiques des données citoyens peuvent expérimenter divers algorithmes et techniques de ML, les aidant ainsi à comprendre quelles méthodes fonctionnent le mieux pour leurs données et à les optimiser pour garantir la qualité et les performances du modèle.

En plus des configurations de création de modèles, SageMaker Canvas fournit désormais également un classement des modèles. Un classement vous permet de comparer les indicateurs de performances clés (par exemple, l'exactitude, la précision, le rappel et le score F1) pour les configurations de différents modèles afin d'identifier le meilleur modèle pour vos données, améliorant ainsi la transparence dans la création de modèles et vous aidant à prendre des décisions éclairées sur choix de modèles. Vous pouvez également afficher l'intégralité du flux de travail de création de modèles, y compris les étapes de prétraitement suggérées, les algorithmes et les plages d'hyperparamètres, dans un bloc-notes. Pour accéder à ces fonctionnalités, déconnectez-vous et reconnectez-vous à SageMaker Canvas et choisissez Configurer le modèle lors de la construction de modèles.

Dans cet article, nous vous expliquons le processus d'utilisation des nouvelles configurations avancées de création de modèles SageMaker Canvas pour lancer une formation sur l'optimisation d'ensemble et d'hyperparamètres (HPO).

Vue d'ensemble de la solution

Dans cette section, nous vous montrons des instructions étape par étape pour les nouvelles configurations avancées de création de modèles SageMaker Canvas afin de lancer une formation d'optimisation d'ensemble et d'hyperparamètres (HPO) pour analyser notre ensemble de données, créer des modèles ML de haute qualité et voir le classement des modèles. pour décider quel modèle publier pour inférence. SageMaker Canvas peut sélectionner automatiquement la méthode de formation en fonction de la taille de l'ensemble de données, ou vous pouvez la sélectionner manuellement. Les choix sont :

Ensemble: Utilise le AutoGluon bibliothèque pour entraîner plusieurs modèles de base. Pour trouver la meilleure combinaison pour votre ensemble de données, le mode ensemble exécute 10 essais avec différents paramètres de modèle et de méta-paramètres. Il combine ensuite ces modèles à l’aide d’une méthode d’empilement d’ensembles pour créer un modèle prédictif optimal. En mode ensemble, SageMaker Canvas prend en charge les types d'algorithmes d'apprentissage automatique suivants :
- GBM léger : Un framework optimisé qui utilise des algorithmes basés sur des arbres avec amélioration de gradient. Cet algorithme utilise des arbres qui poussent en largeur plutôt qu'en profondeur et est hautement optimisé pour la vitesse.
- ChatBoost : Un framework qui utilise des algorithmes basés sur des arbres avec amélioration de gradient. Optimisé pour la gestion des variables catégorielles.
- XGBoost : Un framework qui utilise des algorithmes basés sur des arbres avec une augmentation de gradient qui augmente en profondeur plutôt qu'en largeur.
- Forêt aléatoire : Un algorithme basé sur un arbre qui utilise plusieurs arbres de décision sur des sous-échantillons aléatoires de données avec remplacement. Les arbres sont divisés en nœuds optimaux à chaque niveau. Les décisions de chaque arbre sont moyennées ensemble pour éviter le surajustement et améliorer les prédictions.
- Arbres supplémentaires : Un algorithme basé sur un arbre qui utilise plusieurs arbres de décision sur l'ensemble de données. Les arbres sont répartis aléatoirement à chaque niveau. Les décisions de chaque arbre sont moyennes pour éviter le surajustement et améliorer les prédictions. Des arbres supplémentaires ajoutent un degré de randomisation par rapport à l'algorithme de forêt aléatoire.
- Modèles linéaires : Un cadre qui utilise une équation linéaire pour modéliser la relation entre deux variables dans les données observées.
- Torche du réseau neuronal : Un modèle de réseau neuronal implémenté à l'aide de Pytorch.
- Réseau neuronal fast.ai : Un modèle de réseau neuronal implémenté à l'aide de fast.ai.
Optimisation des hyperparamètres (HPO) : SageMaker Canvas trouve la meilleure version d'un modèle en ajustant les hyperparamètres à l'aide de l'optimisation bayésienne ou de l'optimisation multi-fidélité lors de l'exécution de tâches de formation sur votre ensemble de données. Le mode HPO sélectionne les algorithmes les plus pertinents pour votre ensemble de données et sélectionne la meilleure gamme d'hyperparamètres pour affiner vos modèles. Pour régler vos modèles, le mode HPO exécute jusqu'à 100 essais (par défaut) pour trouver les paramètres d'hyperparamètres optimaux dans la plage sélectionnée. Si la taille de votre ensemble de données est inférieure à 100 Mo, SageMaker Canvas utilise l'optimisation bayésienne. SageMaker Canvas choisit l'optimisation multi-fidélité si votre ensemble de données est supérieur à 100 Mo. Dans l'optimisation multi-fidélité, les métriques sont émises en continu depuis les conteneurs de formation. Un essai dont les performances sont médiocres par rapport à une mesure objective sélectionnée est arrêté prématurément. Un essai qui fonctionne bien se voit attribuer davantage de ressources. En mode HPO, SageMaker Canvas prend en charge les types d'algorithmes d'apprentissage automatique suivants :
Apprenant linéaire : Un algorithme d'apprentissage supervisé capable de résoudre des problèmes de classification ou de régression.
XGBoost : Un algorithme d'apprentissage supervisé qui tente de prédire avec précision une variable cible en combinant un ensemble d'estimations provenant d'un ensemble de modèles plus simples et plus faibles.
Algorithme d'apprentissage profond : Un perceptron multicouche (MLP) et un réseau neuronal artificiel à action directe. Cet algorithme peut gérer des données qui ne sont pas linéairement séparables.
Voiture: SageMaker Canvas choisit automatiquement le mode ensemble ou le mode HPO en fonction de la taille de votre ensemble de données. Si votre ensemble de données dépasse 100 Mo, SageMaker Canvas choisit HPO. Sinon, il choisit le mode ensemble.

Pré-requis

Pour ce poste, vous devez remplir les prérequis suivants :

Avoir un Compte AWS.
Configurez SageMaker Canvas. Voir Conditions préalables à la configuration d'Amazon SageMaker Canvas.
Télécharger le classique Jeu de données Titanic à votre ordinateur local.

Créer un modèle

Nous vous expliquons comment utiliser l'ensemble de données Titanic et SageMaker Canvas pour créer un modèle qui prédit quels passagers ont survécu au naufrage du Titanic. Il s'agit d'un problème de classification binaire. Nous nous concentrons sur la création d'une expérience Canvas en utilisant le mode de formation d'ensemble et comparons les résultats du score F1 et du temps d'exécution global avec une expérience SageMaker Canvas utilisant le mode de formation HPO (100 essais).

Nom de colonne	Description
ID passager	Numéro d'identification
Survécu	Survival
Pclasse	Classe de billets
Nom	Nom du passager
Relations sexuelles	Relations sexuelles
Âge	Age en années
Sibsp	Nombre de frères et sœurs ou de conjoints à bord du Titanic
Dessécher	Nombre de parents ou d'enfants à bord du Titanic
Ticket	Numéro de billet
Réussir	Salon des passagers
Cabane	Numéro de cabine
Marqué	Port d'Embarquation

Le Jeu de données Titanic comporte 890 lignes et 12 colonnes. Il contient des informations démographiques sur les passagers (âge, sexe, classe de billet, etc.) et la colonne cible Survivant (oui/non).

Commencez par importer l'ensemble de données dans SageMaker Canvas. Nommer l'ensemble de données Titanic.
Sélectionnez l'ensemble de données Titanic et choisissez Créer un nouveau modèle. Entrez un nom pour le modèle, sélectionnez Analyse prédictive comme type de problème et choisissez Création.
Sous Sélectionnez une colonne à prédire, Utilisez l' Colonne cible dérouler pour sélectionner Survécu. La colonne cible Survived est un type de données binaire avec les valeurs 0 (n'a pas survécu) et 1 (a survécu).

Configurer et exécuter le modèle

Dans la première expérience, vous configurez SageMaker Canvas pour exécuter une formation d'ensemble sur l'ensemble de données avec la précision comme métrique objective. Un score de précision plus élevé indique que le modèle fait des prédictions plus correctes, tandis qu'un score de précision plus faible suggère que le modèle fait plus d'erreurs. La précision fonctionne bien pour les ensembles de données équilibrés. Pour la formation d'ensemble, sélectionnez XGBoost, Random Forest, CatBoost et Linear Models comme algorithmes. Laissez la répartition des données par défaut 80/20 pour la formation et la validation. Et enfin, configurez la tâche de formation pour qu'elle s'exécute pendant une durée d'exécution maximale d'une heure.

Commencez par choisir Configurer le modèle.
Cela ouvre une fenêtre modale pour Configurer le modèle. Sélectionner Avancé dans le volet de navigation.
Commencez à configurer votre modèle en sélectionnant Indicateur objectif. Pour cette expérience, sélectionnez Précision. Le score de précision vous indique à quelle fréquence les prédictions du modèle sont globalement correctes.
Sélectionnez Méthode de formation et algorithmes et sélectionnez Ensemble. Les méthodes d'ensemble en apprentissage automatique impliquent la création de plusieurs modèles, puis leur combinaison pour produire de meilleurs résultats. Cette technique est utilisée pour augmenter la précision des prédictions en tirant parti des atouts de différents algorithmes. Les méthodes d’ensemble sont connues pour produire des solutions plus précises qu’un modèle unique, comme le démontrent divers concours d’apprentissage automatique et applications du monde réel.
Sélectionnez les différents algorithmes à utiliser pour l’ensemble. Pour cette expérience, sélectionnez XGBoost, luminaires Néon Del, ChatBoostet une Forêt aléatoire. Effacez tous les autres algorithmes.
Sélectionnez Répartition des données à partir du volet de navigation. Pour cette expérience, laissez la répartition par défaut de formation et de validation à 80/20. L'itération suivante de l'expérience utilise une répartition différente pour voir si elle entraîne de meilleures performances du modèle.
Sélectionnez Nombre maximum de candidats et durée d'exécution dans le volet de navigation et définissez le Durée d'exécution maximale du travail à 1 heure et choisissez Épargnez.
Selectionnez Construction standard pour démarrer la construction.

À ce stade, SageMaker Canvas appelle la formation du modèle en fonction de la configuration que vous avez fournie. Étant donné que vous avez spécifié une durée d'exécution maximale d'une heure pour la tâche de formation, SageMaker Canvas prendra jusqu'à une heure pour exécuter la tâche de formation.

Créez et évaluez des modèles d'apprentissage automatique avec des configurations avancées à l'aide du classement des modèles SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vérifiez les résultats

Une fois la tâche de formation terminée, SageMaker Canvas vous ramène automatiquement à la vue Analyser et affiche les résultats des mesures objectives que vous avez configurées pour l'expérience de formation du modèle. Dans ce cas, vous voyez que la précision du modèle est de 86.034 pour cent.

Choisissez le bouton fléché de réduction à côté de Classement des modèles pour examiner les données de performances du modèle.
Sélectionnez le Scoring pour approfondir les informations sur la précision du modèle. Le modèle entraîné indique qu'il peut prédire correctement les passagers qui n'ont pas survécu dans 89.72 % du temps.
Sélectionnez le Métriques avancées pour évaluer des détails supplémentaires sur les performances du modèle. Commencez par sélectionner Tableau des mesures pour examiner les détails des métriques tels que F1, La précision, Rappeleret une ASC.
SageMaker Canvas permet également de visualiser le Matrice de confusion pour le modèle formé.
Et visualise le Courbe de rappel de précision. Un AUPRC de 0.86 signale une précision de classification élevée, ce qui est une bonne chose.
Selectionnez Classement des modèles pour comparer les indicateurs de performances clés (tels que l'exactitude, la précision, le rappel et le score F1) pour différents modèles évalués par SageMaker Canvas afin de déterminer le meilleur modèle pour les données, en fonction de la configuration que vous avez définie pour cette expérience. Le modèle par défaut avec les meilleures performances est mis en évidence avec le modèle par défaut étiquette sur le classement des modèles.
Vous pouvez utiliser le menu contextuel sur le côté pour approfondir les détails de l'un des modèles ou pour faire d'un modèle le modèle par défaut. Sélectionner Afficher les détails du modèle sur le deuxième modèle du classement pour voir les détails.
SageMaker Canvas modifie la vue pour afficher les détails du modèle candidat sélectionné. Bien que les détails du modèle par défaut soient déjà disponibles, la vue détaillée du modèle alternatif prend 10 à 15 minutes pour peindre les détails.

Créer un deuxième modèle

Maintenant que vous avez créé, exécuté et révisé un modèle, créons un deuxième modèle à des fins de comparaison.

Revenez à la vue du modèle par défaut en choisissant X dans le coin supérieur. Maintenant, choisissez Ajouter une version pour créer une nouvelle version du modèle.
Sélectionnez le jeu de données Titanic que vous avez créé initialement, puis choisissez Sélectionnez un jeu de données.

SageMaker Canvas charge automatiquement le modèle avec la colonne cible déjà sélectionnée. Dans cette deuxième expérience, vous passez à la formation HPO pour voir si elle donne de meilleurs résultats pour l'ensemble de données. Pour ce modèle, vous conservez les mêmes métriques objectives (Précision) pour comparaison avec la première expérience et utilisez l'algorithme XGBoost pour la formation HPO. Vous modifiez la répartition des données pour la formation et la validation à 70/30 et configurez le nombre maximal de candidats et les valeurs d'exécution pour le travail HPO sur 20 candidats et la durée d'exécution maximale du travail sur 1 heure.

Configurer et exécuter le modèle

Commencez la deuxième expérience en choisissant Configurer le modèle pour configurer les détails de la formation de votre modèle.
Dans le Configurer le modèle fenêtre, sélectionnez Indicateur objectif à partir du volet de navigation. Pour le Indicateur objectif, utilisez le menu déroulant pour sélectionner Précision, cela vous permet de voir et de comparer toutes les versions côte à côte.
Sélectionnez Méthode de formation et algorithmes. Sélectionner Optimisation hyperparamétrique pour la méthode de formation. Ensuite, faites défiler vers le bas pour sélectionner les algorithmes.
Sélectionnez XGBoost pour l'algorithme. XGBoost fournit une optimisation d'arbres parallèles qui résout de nombreux problèmes de science des données rapidement et avec précision, et offre une large gamme d'hyperparamètres qui peuvent être ajustés pour améliorer et tirer pleinement parti du modèle XGBoost.
Sélectionnez Fractionnement des données. Pour ce modèle, définissez la répartition des données de formation et de validation sur 70/30.
Sélectionnez Nombre maximum de candidats et durée d'exécution et définissez les valeurs du travail HPO sur 20 pour le Candidats maximum et 1 heure pour le Durée d'exécution maximale du travail. Choisir Épargnez pour terminer la configuration du deuxième modèle.
Maintenant que vous avez configuré le deuxième modèle, choisissez Construction standard pour initier une formation.

SageMaker Canvas utilise la configuration pour démarrer le travail HPO. Comme le premier travail, ce travail de formation prendra jusqu’à une heure.

Vérifiez les résultats

Lorsque la tâche de formation HPO est terminée (ou que la durée d'exécution maximale expire), SageMaker Canvas affiche le résultat de la tâche de formation en fonction du modèle par défaut et affiche le score de précision du modèle.

Selectionnez Classement des modèles pour afficher la liste des 20 modèles candidats de la formation HPO. Le meilleur modèle, basé sur l’objectif de trouver la meilleure précision, est marqué par défaut.

Même si l'exactitude du défaut Le modèle est le meilleur, un autre modèle issu de l'exécution du travail HPO a une aire sous la courbe ROC (AUC) plus élevée. Le score AUC est utilisé pour évaluer les performances d'un modèle de classification binaire. Une AUC plus élevée indique que le modèle distingue mieux les deux classes, 1 étant un score parfait et 0.5 indiquant une supposition aléatoire.

Utilisez le menu contextuel pour faire du modèle avec l’AUC la plus élevée le modèle par défaut. Sélectionnez le menu contextuel de ce modèle et sélectionnez Passer au modèle par défaut dans le menu de ligne, comme le montre la figure 31 qui suit.

SageMaker Canvas prend quelques minutes pour remplacer le modèle sélectionné par le nouveau modèle par défaut pour la version 2 de l'expérience et le déplacer en haut de la liste des modèles.

Comparez les modèles

À ce stade, vous disposez de deux versions de votre modèle et pouvez les visualiser côte à côte en allant sur Mes modèles dans SageMaker Canvas.

Sélectionnez Prédire la survie sur le Titanic pour voir les versions de modèles disponibles.
Il existe deux versions et leurs performances sont affichées sous forme de tableau pour une comparaison côte à côte.
Vous pouvez voir que la version 1 du modèle (qui a été entraînée à l'aide d'algorithmes d'ensemble) a une meilleure précision. Vous pouvez désormais utiliser SageMaker Canvas pour générer un bloc-notes SageMaker (avec du code, des commentaires et des instructions) afin de personnaliser le AutoGluon essais et exécutez le flux de travail SageMaker Canvas sans écrire une seule ligne de code. Vous pouvez générer le notebook SageMaker en choisissant le menu contextuel et en sélectionnant Afficher le bloc-notes.
Le bloc-notes SageMaker apparaît dans une fenêtre contextuelle. Le notebook vous aide à inspecter et à modifier les paramètres proposés par SageMaker Canvas. Vous pouvez sélectionner de manière interactive l'une des configurations proposées par SageMaker Canvas, la modifier et exécuter une tâche de traitement pour entraîner des modèles basés sur la configuration sélectionnée dans l'environnement SageMaker Studio.

Inférence

Maintenant que vous avez identifié le meilleur modèle, vous pouvez utiliser le menu contextuel pour déployez-le sur un point de terminaison pour une inférence en temps réel.

Ou utilisez le menu contextuel pour opérationnaliser votre modèle ML en production en enregistrement du modèle d'apprentissage automatique (ML) dans le registre de modèles SageMaker.

Nettoyer

Pour éviter d'encourir des frais futurs, supprimez les ressources que vous avez créées en suivant cette publication. SageMaker Canvas vous facture pour la durée de la session et nous vous recommandons de vous déconnecter de SageMaker Canvas lorsque vous ne l'utilisez pas.

See Déconnexion d'Amazon SageMaker Canvas pour plus de détails.

Conclusion

SageMaker Canvas est un outil puissant qui démocratise l'apprentissage automatique, s'adressant à la fois aux parties prenantes non techniques et aux scientifiques citoyens des données. Les fonctionnalités nouvellement introduites, notamment les configurations avancées de création de modèles et le classement des modèles, améliorent la flexibilité et la transparence de la plateforme. Cela vous permet d'adapter vos modèles d'apprentissage automatique aux besoins spécifiques de votre entreprise sans vous plonger dans le code. La possibilité de personnaliser les méthodes de formation, les algorithmes, les répartitions de données et d'autres paramètres vous permet d'expérimenter diverses techniques de ML, favorisant ainsi une compréhension plus approfondie des performances du modèle.

L'introduction du classement des modèles constitue une amélioration significative, fournissant un aperçu clair des indicateurs de performances clés pour différentes configurations. Cette transparence permet aux utilisateurs de prendre des décisions éclairées sur les choix et les optimisations des modèles. En affichant l'intégralité du flux de travail de création de modèle, y compris les étapes de prétraitement suggérées, les algorithmes et les plages d'hyperparamètres dans un bloc-notes, SageMaker Canvas facilite une compréhension complète du processus de développement de modèle.

Pour commencer votre parcours ML low-code/no-code, voir Toile Amazon SageMaker.

Remerciements particuliers à tous ceux qui ont contribué au lancement :

Esha Dutta, Ed Cheung, Max Kondrashov, Allan Johnson, Ridhim Rastogi, Ranga Reddy Pallelra, Ruochen Wen, Ruinong Tian, Sandipan Manna, Renu Rozera, Vikash Garg, Ramesh Sekaran et Gunjan Garg

À propos des auteurs

Janisha Anand est chef de produit senior au sein de l'équipe SageMaker Low/No Code ML, qui comprend SageMaker Canvas et SageMaker Autopilot. Elle aime le café, rester active et passer du temps avec sa famille.

Indy Sawhney est un leader senior des solutions clients chez Amazon Web Services. Travaillant toujours à rebours des problèmes des clients, Indy conseille les dirigeants des entreprises clientes AWS tout au long de leur parcours unique de transformation du cloud. Il a plus de 25 ans d’expérience dans l’aide aux entreprises pour adopter des technologies et des solutions commerciales émergentes. Indy est un spécialiste approfondi de la communauté technique AWS pour l'intelligence artificielle et l'apprentissage automatique (AI/ML), avec une spécialisation dans l'IA générative et les solutions SageMaker low-code/no-code (LCNC).