Pilote automatique Amazon SageMaker construit, forme et ajuste automatiquement les meilleurs modèles d'apprentissage automatique (ML) en fonction de vos données, tout en vous permettant de conserver un contrôle et une visibilité totale. Nous avons récemment annoncé prise en charge des données de séries chronologiques dans Autopilot. Vous pouvez utiliser le pilote automatique pour effectuer des tâches de régression et de classification sur des données de séries chronologiques ou des données de séquence en général. Les données de séries chronologiques sont un type spécial de données de séquence où les points de données sont collectés à des intervalles de temps réguliers.
Préparer manuellement les données, sélectionner le bon modèle ML et optimiser ses paramètres est une tâche complexe, même pour un praticien expert. Bien qu'il existe des approches automatisées capables de trouver les meilleurs modèles et leurs paramètres, celles-ci ne peuvent généralement pas gérer les données qui se présentent sous forme de séquences, telles que le trafic réseau, la consommation d'électricité ou les dépenses des ménages enregistrées au fil du temps. Étant donné que ces données prennent la forme d'observations acquises à différents moments, les observations consécutives ne peuvent pas être traitées comme indépendantes les unes des autres et doivent être traitées comme un tout. Vous pouvez utiliser le pilote automatique pour un large éventail de problèmes liés aux données séquentielles. Par exemple, vous pouvez classer le trafic réseau enregistré au fil du temps pour identifier les activités malveillantes ou déterminer si des personnes sont éligibles à un prêt hypothécaire en fonction de leurs antécédents de crédit. Vous fournissez un ensemble de données contenant des données de séries chronologiques et Autopilot gère le reste, traitant les données séquentielles via des transformations de fonctionnalités spécialisées et trouvant le meilleur modèle en votre nom.
Le pilote automatique élimine les lourdes tâches liées à la création de modèles ML et vous aide à créer, former et ajuster automatiquement le meilleur modèle ML en fonction de vos données. Le pilote automatique exécute plusieurs algorithmes sur vos données et règle leurs hyperparamètres sur une infrastructure de calcul entièrement gérée. Dans cet article, nous montrons comment vous pouvez utiliser Autopilot pour résoudre des problèmes de classification et de régression sur des données de séries chronologiques. Pour obtenir des instructions sur la création et la formation d'un modèle de pilote automatique, consultez Prédiction du taux de désabonnement client avec le pilote automatique Amazon SageMaker.
Classification des données de séries chronologiques à l'aide du pilote automatique
Comme exemple courant, nous considérons un problème multi-classes sur la série temporelle jeu de données UWaveGestureLibraryX, contenant des lectures équidistantes des capteurs de l'accéléromètre tout en effectuant l'un des huit gestes de la main prédéfinis. Pour simplifier, nous considérons uniquement la dimension X de l'accéléromètre. La tâche consiste à créer un modèle de classification pour mapper les données de la série chronologique des lectures du capteur aux gestes prédéfinis. La figure suivante montre les premières lignes du jeu de données au format CSV. Le tableau entier se compose de 896 lignes et de deux colonnes : la première colonne est une étiquette de geste et la deuxième colonne est une série chronologique de lectures de capteurs.
Convertissez les données au bon format avec Amazon SageMaker Data Wrangler
En plus d'accepter les colonnes de texte numérique, catégorique et standard, le pilote automatique accepte désormais également une colonne d'entrée de séquence. Si vos données de séries chronologiques ne suivent pas ce format, vous pouvez facilement les convertir via Gestionnaire de données Amazon SageMaker. Data Wrangler réduit le temps nécessaire pour agréger et préparer les données pour le ML de quelques semaines à quelques minutes. Avec Data Wrangler, vous pouvez simplifier le processus de préparation des données et d'ingénierie des fonctionnalités, et effectuer chaque étape du flux de travail de préparation des données, y compris la sélection, le nettoyage, l'exploration et la visualisation des données à partir d'une interface visuelle unique. Par exemple, considérons le même jeu de données mais dans un format d'entrée différent : chaque geste (spécifié par ID) est une séquence de mesures équidistantes de l'accéléromètre. Lorsqu'elle est stockée verticalement, chaque ligne contient un horodatage et une valeur. La figure suivante compare ces données dans leur format d'origine et un format de séquence.
Pour convertir ce jeu de données au format décrit précédemment à l'aide de Data Wrangler, chargez le jeu de données à partir de Service de stockage simple Amazon (Amazon S3). Utilisez ensuite le série chronologique Grouper par transformation, comme illustré dans la capture d'écran suivante, et réexportez les données vers Amazon S3 au format CSV.
Lorsque le jeu de données est dans son format désigné, vous pouvez continuer avec le pilote automatique. Pour découvrir d'autres transformateurs de séries chronologiques de Data Wrangler, reportez-vous à Préparez des données de séries temporelles avec Amazon SageMaker Data Wrangler.
Lancer une tâche AutoML
Comme pour les autres types d'entrée pris en charge par Autopilot, chaque ligne du jeu de données est une observation différente et chaque colonne est une entité. Dans cet exemple, nous avons une seule colonne contenant des données de séries chronologiques, mais vous pouvez avoir plusieurs colonnes de séries chronologiques. Vous pouvez également avoir plusieurs colonnes avec différents types d'entrée, tels que des séries chronologiques, du texte et des valeurs numériques.
À créer une expérience de pilote automatique, placez l'ensemble de données dans un compartiment S3 et créez une nouvelle expérience dans Amazon SageMakerStudio. Comme illustré dans la capture d'écran suivante, vous devez spécifier le nom de l'expérience, l'emplacement S3 de l'ensemble de données, l'emplacement S3 des artefacts de sortie et le nom de la colonne à prédire.
Le pilote automatique analyse les données, génère des pipelines ML et exécute par défaut 250 itérations d'optimisation d'hyperparamètres sur cette tâche de classification. Comme indiqué dans le classement des modèles suivant, le pilote automatique atteint une précision de 0.821 et vous pouvez déployer le meilleur modèle en un seul clic.
De plus, le pilote automatique génère un rapport d'exploration de données, où vous pouvez visualiser et explorer vos données.
La transparence est fondamentale pour le pilote automatique. Vous pouvez inspecter et modifier les pipelines ML générés dans le bloc-notes de définition de candidat. La capture d'écran suivante montre comment Autopilot recommande une gamme de pipelines, combinant le transformateur de série chronologique TSFeatureExtractor
avec différents algorithmes ML, tels que les arbres de décision à gradient boosté et les modèles linéaires. le TSFeatureExtractor
extrait pour vous des centaines de caractéristiques de séries chronologiques, qui sont ensuite transmises aux algorithmes en aval pour faire des prédictions. Pour la liste complète des fonctionnalités de séries temporelles, reportez-vous à Présentation des fonctionnalités extraites.
Conclusion
Dans cet article, nous avons montré comment utiliser SageMaker Autopilot pour résoudre les problèmes de classification et de régression des séries chronologiques en quelques clics.
Pour plus d'informations sur le pilote automatique, consultez Pilote automatique Amazon SageMaker. Pour explorer les fonctionnalités associées de SageMaker, voir Gestionnaire de données Amazon SageMaker.
À propos des auteurs
Nikita Ivkine est un scientifique appliqué, Amazon SageMaker Data Wrangler.
Anne Milbert est un ingénieur en développement logiciel qui travaille sur Amazon SageMaker Automatic Model Tuning.
Valério Perrone est un responsable des sciences appliquées travaillant sur Amazon SageMaker Automatic Model Tuning and Autopilot.
Mégana Satish est un ingénieur en développement logiciel qui travaille sur Amazon SageMaker Automatic Model Tuning.
Ali Takbiri est un architecte de solutions spécialisé en IA/ML et aide les clients en utilisant l'apprentissage automatique pour résoudre leurs défis commerciaux sur le cloud AWS.
- "
- 100
- À propos
- a acquise
- activités
- algorithmes
- Permettre
- Bien que
- Amazon
- annoncé
- Automatisation
- AWS
- LES MEILLEURS
- Boosté
- construire
- Développement
- construit
- la performance des entreprises
- globaux
- classification
- le cloud
- Colonne
- complexe
- calcul
- consécutif
- consommation
- contient
- des bactéries
- La création
- crédit
- Clients
- données
- traitement
- déployer
- Développement
- différent
- Dimension
- Ne fait pas
- même
- électricité
- ingénieur
- ENGINEERING
- exemple
- dépenses
- expérience
- exploration
- Extraits
- Fonctionnalité
- Fonctionnalités:
- Fed
- Figure
- Prénom
- suivre
- Abonnement
- formulaire
- le format
- plein
- Général
- Réservation de groupe
- aide
- Histoire
- ou
- Comment
- How To
- HTTPS
- Des centaines
- identifier
- Y compris
- d'information
- Infrastructure
- Interfaces
- IT
- apprentissage
- Liste
- charge
- emplacement
- click
- machine learning
- manager
- Localisation
- ML
- modèle
- numériques jumeaux (digital twin models)
- réseau et
- trafic réseau
- cahier
- à mettre en œuvre pour gérer une entreprise rentable. Ce guide est basé sur trois décennies d'expérience
- Autre
- prédiction
- Prédictions
- Problème
- d'ouvrabilité
- processus
- fournir
- gamme
- recommande
- REST
- pour le running
- Sciences
- Scientifique
- Série
- étapes
- Logiciels
- développement de logiciels
- Solutions
- RÉSOUDRE
- spécialisé
- storage
- Appareils
- Les soutiens
- tâches
- Avec
- fiable
- top
- circulation
- Formation
- les trains
- utilisé
- Plus-value
- définition
- visualisation
- dans les
- de travail
- X