Carnets illustratifs dans Amazon SageMaker JumpStart

Republié par Platon

Suiveurs: 0

Amazon SageMaker JumpStart est le centre d'apprentissage automatique (ML) de SageMaker qui fournit des modèles préformés et accessibles au public pour un large éventail de types de problèmes pour vous aider à démarrer avec l'apprentissage automatique.

JumpStart propose également des exemples de blocs-notes qui utilisent Amazon Sage Maker des fonctionnalités telles que la formation d'instances ponctuelles et des expériences sur une grande variété de types de modèles et de cas d'utilisation. Ces exemples de blocs-notes contiennent du code qui montre comment appliquer des solutions ML à l'aide de SageMaker et JumpStart. Ils peuvent être adaptés pour correspondre à vos propres besoins et peuvent ainsi accélérer le développement d'applications.

Récemment, nous avons ajouté 10 nouveaux blocs-notes à JumpStart en Amazon SageMakerStudio. Cet article se concentre sur ces nouveaux ordinateurs portables. Au moment d'écrire ces lignes, JumpStart propose 56 blocs-notes, allant de l'utilisation de modèles de traitement du langage naturel (NLP) à la pointe de la technologie à la correction des biais dans les ensembles de données lors de la formation des modèles.

Les 10 nouveaux blocs-notes peuvent vous aider des manières suivantes :

Ils proposent un exemple de code que vous pouvez exécuter tel quel à partir de l'interface utilisateur JumpStart dans Studio et voir comment le code fonctionne
Ils montrent l'utilisation de diverses API SageMaker et JumpStart
Ils offrent une solution technique que vous pouvez personnaliser davantage en fonction de vos propres besoins

Le nombre de blocs-notes proposés via JumpStart augmente régulièrement à mesure que d'autres blocs-notes sont ajoutés. Ces cahiers sont également disponibles sur github.

Présentation des blocs-notes

Les 10 nouveaux carnets sont les suivants :

Apprentissage en contexte avec AlexaTM 20B – Démontre comment utiliser AlexaTM 20B pour l'apprentissage en contexte avec un apprentissage zéro coup et quelques coups sur cinq exemples de tâches : résumé de texte, génération de langage naturel, traduction automatique, réponse à des questions extractives et inférence et classification en langage naturel.
Apprenant linéaire d'équité dans SageMaker - Il y a eu récemment des inquiétudes concernant les biais dans les algorithmes ML en raison de l'imitation des préjugés humains existants. Ce bloc-notes applique des concepts d'équité pour ajuster les prédictions du modèle de manière appropriée.
Gérer l'expérimentation ML à l'aide de SageMaker Search - Amazon SageMaker Search vous permet de trouver et d'évaluer rapidement les exécutions de formation de modèle les plus pertinentes à partir de centaines et de milliers de tâches de formation de modèle SageMaker.
Modèle de sujet neuronal SageMaker – SageMaker Neural Topic Model (NTM) est un algorithme d'apprentissage non supervisé qui tente de décrire un ensemble d'observations comme un mélange de catégories distinctes.
Prédire les infractions à la vitesse de conduite – L'algorithme SageMaker DeepAR peut être utilisé pour former un modèle pour plusieurs rues simultanément et prédire les violations pour plusieurs caméras de rue.
Prédiction du cancer du sein – Ce bloc-notes utilise l'ensemble de données de diagnostic du cancer du sein de l'UCI pour créer un modèle prédictif indiquant si une image de masse mammaire indique une tumeur bénigne ou maligne.
Prédictions d'ensemble à partir de plusieurs modèles - En combinant ou en faisant la moyenne des prédictions de plusieurs sources et modèles, nous obtenons généralement une prévision améliorée. Ce cahier illustre ce concept.
Inférence asynchrone SageMaker – L'inférence asynchrone est une nouvelle option d'inférence pour les besoins d'inférence en temps quasi réel. Les requêtes peuvent prendre jusqu'à 15 minutes pour être traitées et avoir des tailles de charge utile allant jusqu'à 1 Go.
TensorFlow apportez votre propre modèle - Découvrez comment former un modèle TensorFlow localement et le déployer sur SageMaker à l'aide de ce notebook.
Scikit-learn apportez votre propre modèle – Ce bloc-notes montre comment utiliser un modèle Scikit-learn préformé avec le conteneur SageMaker Scikit-learn pour créer rapidement un point de terminaison hébergé pour ce modèle.

Pré-requis

Pour utiliser ces blocs-notes, assurez-vous que vous avez accès à Studio avec un rôle d'exécution qui vous permet d'exécuter la fonctionnalité SageMaker. La courte vidéo ci-dessous vous aidera à naviguer vers les blocs-notes JumpStart.

Dans les sections suivantes, nous passons en revue chacune des 10 nouvelles solutions et discutons de certains de leurs détails intéressants.

Apprentissage en contexte avec AlexaTM 20B

AlexaTM 20B est un modèle séquence à séquence (seq2seq) multitâche, multilingue et à grande échelle, formé sur un mélange de données Common Crawl (mC4) et Wikipedia dans 12 langues, à l'aide de tâches de débruitage et de modélisation du langage causal (CLM). Il atteint des performances de pointe sur les tâches de langage en contexte courantes telles que le résumé en une seule fois et la traduction automatique en une seule fois, surpassant les modèles de décodeur uniquement tels que GPT3 d'Open AI et PaLM de Google, qui sont plus de huit fois plus gros.

Apprentissage en contexte, également appelé incitation, fait référence à une méthode dans laquelle vous utilisez un modèle NLP sur une nouvelle tâche sans avoir à l'affiner. Quelques exemples de tâches sont fournis au modèle uniquement dans le cadre de l'entrée d'inférence, un paradigme connu sous le nom de apprentissage en contexte en quelques prises de vue. Dans certains cas, le modèle peut bien fonctionner sans aucune donnée d'entraînement, uniquement avec une explication de ce qui doit être prédit. C'est appelé apprentissage en contexte zéro coup.

Ce bloc-notes montre comment déployer AlexaTM 20B via l'API JumpStart et exécuter l'inférence. Il montre également comment AlexaTM 20B peut être utilisé pour l'apprentissage en contexte avec cinq exemples de tâches : résumé de texte, génération de langage naturel, traduction automatique, réponse à des questions extractives et inférence et classification en langage naturel.

Cahiers d'illustration dans Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le bloc-notes montre ce qui suit :

Résumation de texte unique, génération de langage naturel et traduction automatique à l'aide d'un seul exemple de formation pour chacune de ces tâches
Réponse aux questions zéro et inférence en langage naturel plus classification en utilisant le modèle tel quel, sans qu'il soit nécessaire de fournir des exemples de formation.

Essayez d'exécuter votre propre texte sur ce modèle et voyez comment il résume le texte, extrait les questions-réponses ou se traduit d'une langue à l'autre.

Apprenant linéaire d'équité dans SageMaker

Il y a eu récemment des inquiétudes concernant les biais dans les algorithmes ML en raison de l'imitation des préjugés humains existants. De nos jours, plusieurs méthodes de ML ont de fortes implications sociales, par exemple elles sont utilisées pour prédire les prêts bancaires, les taux d'assurance ou la publicité. Malheureusement, un algorithme qui apprend à partir de données historiques héritera naturellement des biais passés. Ce cahier présente comment surmonter ce problème en utilisant SageMaker et des algorithmes équitables dans le contexte d'apprenants linéaires.

Il commence par introduire certains des concepts et des mathématiques derrière l'équité, puis il télécharge des données, forme un modèle et enfin applique des concepts d'équité pour ajuster les prédictions du modèle de manière appropriée.

Le bloc-notes montre ce qui suit :

Exécution d'un modèle linéaire standard sur l'ensemble de données adulte de l'UCI.
Montrer l'injustice dans les prédictions du modèle
Corriger les données pour éliminer les biais
Réapprentissage du modèle

Essayez d'exécuter vos propres données à l'aide de cet exemple de code et détectez s'il y a un biais. Après cela, essayez de supprimer le biais, le cas échéant, dans votre ensemble de données à l'aide des fonctions fournies dans cet exemple de bloc-notes.

Gérer l'expérimentation ML à l'aide de SageMaker Search

SageMaker Search vous permet de trouver et d'évaluer rapidement les exécutions de formation de modèle les plus pertinentes à partir de centaines et de milliers de tâches de formation de modèle SageMaker. Le développement d'un modèle ML nécessite une expérimentation continue, l'essai de nouveaux algorithmes d'apprentissage et le réglage des hyperparamètres, tout en observant l'impact de ces changements sur les performances et la précision du modèle. Cet exercice itératif conduit souvent à une explosion de centaines d'expériences de formation de modèles et de versions de modèles, ralentissant la convergence et la découverte d'un modèle gagnant. De plus, l'explosion de l'information rend très difficile de retracer la lignée d'une version de modèle - la combinaison unique d'ensembles de données, d'algorithmes et de paramètres qui a élaboré ce modèle en premier lieu.

Ce bloc-notes montre comment utiliser SageMaker Search pour organiser, suivre et évaluer rapidement et facilement vos tâches de formation de modèles sur SageMaker. Vous pouvez rechercher tous les attributs de définition de l'algorithme d'apprentissage utilisé, les paramètres d'hyperparamètres, les ensembles de données de formation utilisés et même les balises que vous avez ajoutées aux tâches de formation du modèle. Vous pouvez également comparer et classer rapidement vos exécutions de formation en fonction de leurs mesures de performance, telles que la perte de formation et la précision de la validation, créant ainsi des classements pour identifier les modèles gagnants qui peuvent être déployés dans des environnements de production. SageMaker Search peut retracer rapidement la lignée complète d'une version de modèle déployée dans un environnement réel, jusqu'aux ensembles de données utilisés pour la formation et la validation du modèle.

Le bloc-notes montre ce qui suit :

Entraîner un modèle linéaire trois fois
Utilisation de SageMaker Search pour organiser et évaluer ces expériences
Visualiser les résultats dans un classement
Déploiement d'un modèle sur un point de terminaison
Traçage de la lignée du modèle à partir du point final

Dans votre propre développement de modèles prédictifs, vous pouvez exécuter plusieurs expériences. Essayez d'utiliser SageMaker Search dans de telles expériences et découvrez comment il peut vous aider de plusieurs manières.

Modèle de sujet neuronal SageMaker

SageMaker Neural Topic Model (NTM) est un algorithme d'apprentissage non supervisé qui tente de décrire un ensemble d'observations comme un mélange de catégories distinctes. NTM est le plus souvent utilisé pour découvrir un nombre spécifié par l'utilisateur de sujets partagés par des documents au sein d'un corpus de texte. Ici, chaque observation est un document, les caractéristiques sont la présence (ou le nombre d'occurrences) de chaque mot, et les catégories sont les sujets. Étant donné que la méthode n'est pas supervisée, les sujets ne sont pas spécifiés à l'avance et ne sont pas garantis pour s'aligner sur la façon dont un humain peut naturellement catégoriser les documents. Les sujets sont appris comme une distribution de probabilité sur les mots qui apparaissent dans chaque document. Chaque document, à son tour, est décrit comme un mélange de sujets.

Ce bloc-notes utilise l'algorithme SageMaker NTM pour former un modèle sur l'ensemble de données 20NewsGroups. Cet ensemble de données a été largement utilisé comme référence de modélisation de sujet.

Le bloc-notes montre ce qui suit :

Créer une tâche de formation SageMaker sur un jeu de données pour produire un modèle NTM
Utilisation du modèle pour effectuer une inférence avec un point de terminaison SageMaker
Explorer le modèle formé et visualiser les sujets appris

Vous pouvez facilement modifier ce bloc-notes pour l'exécuter sur vos documents texte et les diviser en différents sujets.

Prédire les infractions à la vitesse de conduite

Ce bloc-notes illustre la prévision de séries chronologiques à l'aide de l'algorithme SageMaker DeepAR en analysant l'ensemble de données de violation des radars de la ville de Chicago. L'ensemble de données est hébergé par Data.gov et est géré par la US General Services Administration, Technology Transformation Service.

Ces violations sont capturées par des systèmes de caméras et sont disponibles pour améliorer la vie du public via le portail de données de la ville de Chicago. L'ensemble de données Speed Camera Violation peut être utilisé pour discerner des modèles dans les données et obtenir des informations significatives.

L'ensemble de données contient plusieurs emplacements de caméras et un nombre quotidien de violations. Chaque nombre d'infractions quotidiennes pour une caméra peut être considéré comme une série chronologique distincte. Vous pouvez utiliser l'algorithme SageMaker DeepAR pour former un modèle pour plusieurs rues simultanément et prédire les violations pour plusieurs caméras de rue.

Le bloc-notes montre ce qui suit :

Entraînement de l'algorithme SageMaker DeepAR sur l'ensemble de données de séries chronologiques à l'aide d'instances ponctuelles
Faire des inférences sur le modèle entraîné pour faire des prédictions d'infractions au code de la route

Avec ce bloc-notes, vous pouvez apprendre comment résoudre les problèmes de séries chronologiques à l'aide de l'algorithme DeepAR dans SageMaker et essayer de l'appliquer à vos propres ensembles de données de séries chronologiques.

Prédiction du cancer du sein

Ce cahier prend un exemple pour la prédiction du cancer du sein en utilisant l'ensemble de données de diagnostic du cancer du sein de l'UCI. Il utilise cet ensemble de données pour créer un modèle prédictif indiquant si une image de masse mammaire indique une tumeur bénigne ou maligne.

Le bloc-notes montre ce qui suit :

Configuration de base pour l'utilisation de SageMaker
Conversion des ensembles de données au format Protobuf utilisé par les algorithmes SageMaker et téléchargement vers Service de stockage simple Amazon (Amazon S3)
Entraînement d'un modèle d'apprenant linéaire SageMaker sur l'ensemble de données
Hébergement du modèle formé
Notation à l'aide du modèle formé

Vous pouvez parcourir ce bloc-notes pour apprendre à résoudre un problème métier à l'aide de SageMaker et comprendre les étapes nécessaires à la formation et à l'hébergement d'un modèle.

Prédictions d'ensemble à partir de plusieurs modèles

Dans les applications pratiques du ML sur des tâches prédictives, un modèle ne suffit souvent pas. La plupart des compétitions de prédiction nécessitent généralement de combiner des prévisions provenant de plusieurs sources pour obtenir une prévision améliorée. En combinant ou en faisant la moyenne des prédictions de plusieurs sources ou modèles, nous obtenons généralement une prévision améliorée. Cela se produit parce qu'il y a une incertitude considérable dans le choix du modèle et qu'il n'y a pas de vrai modèle dans de nombreuses applications pratiques. Par conséquent, il est avantageux de combiner les prédictions de différents modèles. Dans la littérature bayésienne, cette idée est appelée moyennage de modèle bayésien et il a été démontré qu'elle fonctionne bien mieux que de simplement choisir un modèle.

Ce cahier présente un exemple illustratif pour prédire si une personne gagne plus de 50,000 XNUMX $ par an en fonction d'informations sur son éducation, son expérience professionnelle, son sexe, etc.

Le bloc-notes montre ce qui suit :

Préparation de votre bloc-notes SageMaker
Chargement d'un ensemble de données à partir d'Amazon S3 à l'aide de SageMaker
Enquêter et transformer les données afin qu'elles puissent être introduites dans les algorithmes SageMaker
Estimation d'un modèle à l'aide de l'algorithme SageMaker XGBoost (Extreme Gradient Boosting)
Hébergement du modèle sur SageMaker pour faire des prédictions en continu
Estimation d'un deuxième modèle à l'aide de la méthode d'apprentissage linéaire SageMaker
Combinaison des prédictions des deux modèles et évaluation de la prédiction combinée
Génération des prédictions finales sur l'ensemble de données de test

Essayez d'exécuter ce bloc-notes sur votre ensemble de données et d'utiliser plusieurs algorithmes. Essayez d'expérimenter différentes combinaisons de modèles proposées par SageMaker et JumpStart et voyez quelle combinaison d'assemblage de modèles donne les meilleurs résultats sur vos propres données.

Inférence asynchrone SageMaker

L'inférence asynchrone SageMaker est une nouvelle fonctionnalité de SageMaker qui met en file d'attente les demandes entrantes et les traite de manière asynchrone. SageMaker propose actuellement deux options d'inférence permettant aux clients de déployer des modèles ML : une option en temps réel pour les charges de travail à faible latence et la transformation par lots, une option hors ligne pour traiter les demandes d'inférence sur des lots de données disponibles à l'avance. L'inférence en temps réel convient aux charges de travail avec des tailles de charge utile inférieures à 6 Mo et nécessite que les demandes d'inférence soient traitées dans les 60 secondes. La transformation par lots convient à l'inférence hors ligne sur des lots de données.

L'inférence asynchrone est une nouvelle option d'inférence pour les besoins d'inférence en temps quasi réel. Les requêtes peuvent prendre jusqu'à 15 minutes pour être traitées et avoir des tailles de charge utile allant jusqu'à 1 Go. L'inférence asynchrone convient aux charges de travail qui n'ont pas d'exigences de latence inférieure à la seconde et qui ont des exigences de latence assouplies. Par exemple, vous devrez peut-être traiter une inférence sur une grande image de plusieurs Mo en 5 minutes. De plus, les points de terminaison d'inférence asynchrone vous permettent de contrôler les coûts en réduisant le nombre d'instances de point de terminaison à zéro lorsqu'elles sont inactives, de sorte que vous ne payez que lorsque vos points de terminaison traitent les demandes.

Le bloc-notes montre ce qui suit :

Création d'un modèle SageMaker
Créer un point de terminaison à l'aide de ce modèle et de la configuration d'inférence asynchrone
Faire des prédictions sur ce point de terminaison asynchrone

Ce bloc-notes vous montre un exemple pratique de création d'un point de terminaison asynchrone pour un modèle SageMaker.

TensorFlow apporte votre propre modèle

Un modèle TensorFlow est formé localement sur une tâche de classification où ce notebook est exécuté. Il est ensuite déployé sur un point de terminaison SageMaker.

Le bloc-notes montre ce qui suit :

Entraîner un modèle TensorFlow localement sur l'ensemble de données IRIS
Importation de ce modèle dans SageMaker
L'héberger sur un endpoint

Si vous disposez de modèles TensorFlow que vous avez développés vous-même, cet exemple de bloc-notes peut vous aider à héberger votre modèle sur un point de terminaison géré par SageMaker.

Scikit-learn apportez votre propre modèle

SageMaker inclut des fonctionnalités pour prendre en charge un environnement de bloc-notes hébergé, une formation distribuée sans serveur et un hébergement en temps réel. Cela fonctionne mieux lorsque ces trois services sont utilisés ensemble, mais ils peuvent également être utilisés indépendamment. Certains cas d'utilisation peuvent nécessiter uniquement un hébergement. Peut-être que le modèle a été formé avant que SageMaker n'existe, dans un service différent.

Le bloc-notes montre ce qui suit :

Utilisation d'un modèle Scikit-learn préformé avec le conteneur SageMaker Scikit-learn pour créer rapidement un point de terminaison hébergé pour ce modèle

Si vous disposez de modèles Scikit-learn que vous avez développés vous-même, cet exemple de bloc-notes peut vous aider à héberger votre modèle sur un point de terminaison géré par SageMaker.

Nettoyer les ressources

Une fois que vous avez terminé d'exécuter un bloc-notes dans JumpStart, assurez-vous de Supprimer toutes les ressources afin que toutes les ressources que vous avez créées dans le processus soient supprimées et que votre facturation soit arrêtée. La dernière cellule de ces blocs-notes supprime généralement les points de terminaison qui sont créés.

Résumé

Cet article vous a présenté 10 nouveaux exemples de blocs-notes récemment ajoutés à JumpStart. Bien que cet article se concentre sur ces 10 nouveaux ordinateurs portables, il y a un total de 56 ordinateurs portables disponibles à ce jour. Nous vous encourageons à vous connecter à Studio et à explorer vous-mêmes les blocs-notes JumpStart, et à commencer à en tirer une valeur immédiate. Pour plus d'informations, reportez-vous à Amazon SageMakerStudio ainsi que SageMaker JumpStart.

À propos de l’auteur

Dr Raju Penmatcha est architecte de solutions spécialisées en IA/ML dans les plateformes d'IA chez AWS. Il a obtenu son doctorat à l'Université de Stanford. Il travaille en étroite collaboration sur les services de la suite low/no-code de SageMaker qui aident les clients à créer et déployer facilement des modèles et des solutions d'apprentissage automatique.

Horodatage: 1 décembre 20222 décembre 2022

Horodatage: Le 2 octobre 2023

Blocs-notes illustratifs dans Amazon SageMaker JumpStart

Republié par Platon

Présentation des blocs-notes

Pré-requis

Apprentissage en contexte avec AlexaTM 20B

Apprenant linéaire d'équité dans SageMaker

Gérer l'expérimentation ML à l'aide de SageMaker Search

Modèle de sujet neuronal SageMaker

Prédire les infractions à la vitesse de conduite

Prédiction du cancer du sein

Prédictions d'ensemble à partir de plusieurs modèles

Inférence asynchrone SageMaker

TensorFlow apporte votre propre modèle

Scikit-learn apportez votre propre modèle

Nettoyer les ressources

Résumé

À propos de l’auteur

Plus de Apprentissage automatique AWS

Déployez BLOOM-176B et OPT-30B sur Amazon SageMaker avec de grands modèles d'inférence Deep Learning Containers et DeepSpeed

Annonce de la préversion d'Amazon SageMaker Profiler : suivez et visualisez des données détaillées sur les performances matérielles pour vos charges de travail de formation de modèles | Services Web Amazon

Comment Synamedia utilise Amazon Rekognition Video pour créer des capacités de recherche vidéo avancées pour les vidéos de longue durée

Vision par ordinateur utilisant des ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE

Lire des pages Web et mettre en évidence du contenu à l'aide d'Amazon Polly

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte