Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Services Web Amazon

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Services Web Amazon

Il s'agit d'un article invité co-écrit avec Babu Srinivasan de MongoDB.

À mesure que les secteurs évoluent dans le paysage commercial actuel en évolution rapide, l’incapacité de disposer de prévisions en temps réel pose des défis importants aux secteurs qui dépendent fortement d’informations précises et opportunes. L'absence de prévisions en temps réel dans divers secteurs présente des défis commerciaux urgents qui peuvent avoir un impact significatif sur la prise de décision et l'efficacité opérationnelle. Sans informations en temps réel, les entreprises ont du mal à s'adapter aux conditions dynamiques du marché, à anticiper avec précision la demande des clients, à optimiser les niveaux de stocks et à prendre des décisions stratégiques proactives. Des secteurs tels que la finance, la vente au détail, la gestion de la chaîne d'approvisionnement et la logistique sont confrontés au risque d'opportunités manquées, d'augmentation des coûts, d'allocation inefficace des ressources et d'incapacité à répondre aux attentes des clients. En explorant ces défis, les organisations peuvent reconnaître l’importance des prévisions en temps réel et explorer des solutions innovantes pour surmonter ces obstacles, leur permettant ainsi de rester compétitives, de prendre des décisions éclairées et de prospérer dans l’environnement commercial en évolution rapide d’aujourd’hui.

En exploitant le potentiel de transformation de la solution native de MongoDB des séries chronologiques capacités de données et en les intégrant à la puissance de Toile Amazon SageMaker, les organisations peuvent surmonter ces défis et débloquer de nouveaux niveaux d’agilité. La gestion robuste des données de séries chronologiques de MongoDB permet le stockage et la récupération de grands volumes de données de séries chronologiques en temps réel, tandis que les algorithmes avancés d'apprentissage automatique et les capacités prédictives fournissent des modèles de prévision précis et dynamiques avec SageMaker Canvas.

Dans cet article, nous explorerons le potentiel de l'utilisation des données de séries chronologiques de MongoDB et de SageMaker Canvas comme solution complète.

Atlas MongoDB

Atlas MongoDB est une plateforme de données de développeur entièrement gérée qui simplifie le déploiement et la mise à l'échelle des bases de données MongoDB dans le cloud. Il s'agit d'un stockage basé sur des documents qui fournit une base de données entièrement gérée, avec du texte intégral et des vecteurs intégrés. Rechercher, soutien Geospatial requêtes, Charts et un support natif pour une efficacité des séries chronologiques capacités de stockage et d’interrogation. MongoDB Atlas offre un partitionnement automatique, une évolutivité horizontale et une indexation flexible pour l'ingestion de gros volumes de données. Parmi toutes, les capacités natives de séries chronologiques constituent une fonctionnalité remarquable, ce qui la rend idéale pour gérer un volume élevé de données de séries chronologiques, telles que les données d'applications critiques pour l'entreprise, la télémétrie, les journaux de serveur et bien plus encore. Grâce à des requêtes, une agrégation et des analyses efficaces, les entreprises peuvent extraire des informations précieuses à partir de données horodatées. En utilisant ces fonctionnalités, les entreprises peuvent stocker, gérer et analyser efficacement des données de séries chronologiques, permettant ainsi de prendre des décisions basées sur les données et d'acquérir un avantage concurrentiel.

Toile Amazon SageMaker

Toile Amazon SageMaker est un service d'apprentissage automatique visuel (ML) qui permet aux analystes commerciaux et aux scientifiques des données de créer et de déployer des modèles ML personnalisés sans nécessiter aucune expérience en ML ni avoir à écrire une seule ligne de code. SageMaker Canvas prend en charge un certain nombre de cas d'utilisation, notamment prévision de séries chronologiques, qui permet aux entreprises de prévoir avec précision la demande future, les ventes, les besoins en ressources et d'autres données chronologiques. Le service utilise des techniques d'apprentissage en profondeur pour gérer des modèles de données complexes et permet aux entreprises de générer des prévisions précises même avec un minimum de données historiques. En utilisant les fonctionnalités d'Amazon SageMaker Canvas, les entreprises peuvent prendre des décisions éclairées, optimiser les niveaux de stock, améliorer l'efficacité opérationnelle et accroître la satisfaction des clients.

L'interface utilisateur de SageMaker Canvas vous permet d'intégrer de manière transparente des sources de données provenant du cloud ou sur site, de fusionner des ensembles de données sans effort, de former des modèles précis et de faire des prédictions avec des données émergentes, le tout sans codage. Si vous avez besoin d'un flux de travail automatisé ou d'une intégration directe de modèles ML dans les applications, les fonctions de prévision de Canvas sont accessibles via Apis.

Vue d'ensemble de la solution

Les utilisateurs conservent leurs données de séries chronologiques transactionnelles dans MongoDB Atlas. Grâce à Atlas Data Federation, les données sont extraites dans le compartiment Amazon S3. Amazon SageMaker Canvas accède aux données pour créer des modèles et créer des prévisions. Les résultats des prévisions sont stockés dans un compartiment S3. À l'aide des services MongoDB Data Federation, les prévisions sont présentées visuellement via des graphiques MongoDB.

Le diagramme suivant présente l’architecture de la solution proposée.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pré-requis

Pour cette solution, nous utilisons MongoDB Atlas pour stocker les données de séries chronologiques, Amazon SageMaker Canvas pour former un modèle et produire des prévisions, et Amazon S3 pour stocker les données extraites de MongoDB Atlas.

Assurez-vous d'avoir les prérequis suivants :

Configurer le cluster MongoDB Atlas

Créez un cluster MongoDB Atlas gratuit en suivant les instructions dans Créer un cluster. Configurez le Accès à la base de données ainsi que L'accès au réseau.

Remplir une collection de séries chronologiques dans MongoDB Atlas

Pour les besoins de cette démonstration, vous pouvez utiliser un exemple d'ensemble de données provenant de : Kaggle et téléchargez-le sur MongoDB Atlas avec MongoDB les outils de préférence Boussole MongoDB.

Le code suivant montre un exemple d'ensemble de données pour une collection de séries chronologiques :

{ "store": "1 1", "timestamp": { "2010-02-05T00:00:00.000Z"}, "temperature": "42.31", "target_value": 2.572, "IsHoliday": false
}

La capture d'écran suivante montre les exemples de données de séries chronologiques dans MongoDB Atlas :

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer un compartiment S3

Création un compartiment S3 dans AWS, où les données des séries chronologiques doivent être stockées et analysées. Notez que nous avons deux dossiers. sales-train-data est utilisé pour stocker les données extraites de MongoDB Atlas, tandis que sales-forecast-output contient des prédictions de Canvas.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer la fédération de données

Configurer le Fédération de données dans Atlas et enregistrez le compartiment S3 créé précédemment dans le cadre de la source de données. Notez que trois bases de données/collections différentes sont créées dans la fédération de données pour le cluster Atlas, le compartiment S3 pour les données MongoDB Atlas et le compartiment S3 pour stocker les résultats Canvas.

Les captures d'écran suivantes montrent la configuration de la fédération de données.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Configurer le service d'application Atlas

Créez la Services d'applications MongoDB pour déployer les fonctions permettant de transférer les données du cluster MongoDB Atlas vers le compartiment S3 à l'aide du $out agrégation.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vérifier la configuration de la source de données

Les services d'application créent un nouveau nom de service Altas qui doit être référencé en tant que services de données dans la fonction suivante. Vérifiez que le nom du service Atlas est créé et notez-le pour référence future.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer la fonction

Configurez les services de l'application Atlas pour créer le déclencheur et fonctions. Les déclencheurs doivent être planifiés pour écrire les données sur S3 à une fréquence basée sur les besoins commerciaux de formation des modèles.

Le script suivant montre la fonction permettant d'écrire dans le compartiment S3 :

exports = function () { const service = context.services.get(""); const db = service.db("") const events = db.collection(""); const pipeline = [ { "$out": { "s3": { "bucket": "<S3_bucket_name>", "region": "<AWS_Region>", "filename": {$concat: ["<S3path>/<filename>_",{"$toString": new Date(Date.now())}]}, "format": { "name": "json", "maxFileSize": "10GB" } } } } ]; return events.aggregate(pipeline);
};

Exemple de fonction

La fonction peut être exécutée via l'onglet Exécuter et les erreurs peuvent être déboguées à l'aide des fonctionnalités de journalisation des services d'application. De plus, les erreurs peuvent être déboguées à l'aide du menu Journaux dans le volet de gauche.

La capture d'écran suivante montre l'exécution de la fonction ainsi que le résultat :

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer un ensemble de données dans Amazon SageMaker Canvas

Les étapes suivantes supposent que vous avez créé un domaine SageMaker et un profil utilisateur. Si vous ne l'avez pas déjà fait, assurez-vous de configurer le Domaine SageMaker et profil utilisateur. Dans le profil utilisateur, mettez à jour votre compartiment S3 pour qu'il soit personnalisé et fournissez le nom de votre compartiment.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois terminé, accédez à SageMaker Canvas, sélectionnez votre domaine et votre profil, puis sélectionnez Canvas.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créez un ensemble de données fournissant la source de données.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez la source de l'ensemble de données comme S3

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez l'emplacement des données dans le compartiment S3 et sélectionnez Créer un ensemble de données.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vérifiez le schéma et cliquez sur Créer un ensemble de données

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois l'importation réussie, l'ensemble de données apparaîtra dans la liste, comme indiqué dans la capture d'écran suivante.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Former le modèle

Ensuite, nous utiliserons Canvas pour configurer l'entraînement du modèle. Sélectionnez l'ensemble de données et cliquez sur Créer.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Créez un nom de modèle, sélectionnez Analyse prédictive, puis sélectionnez Créer.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez la colonne cible

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ensuite, cliquez sur Configurer le modèle de série chronologique et sélectionnez item_id comme colonne ID d'article.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez tm pour la colonne d'horodatage

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour spécifier la durée que vous souhaitez prévoir, choisissez 8 semaines.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous êtes maintenant prêt à prévisualiser le modèle ou à lancer le processus de génération.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Après avoir prévisualisé le modèle ou lancé la génération, votre modèle sera créé et peut prendre jusqu'à quatre heures. Vous pouvez quitter l'écran et revenir pour voir l'état de formation du modèle.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Lorsque le modèle est prêt, sélectionnez le modèle et cliquez sur la dernière version

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Passez en revue les métriques du modèle et l'impact des colonnes et si vous êtes satisfait des performances du modèle, cliquez sur Prédire.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ensuite, choisissez Prédiction par lots, puis cliquez sur Sélectionner un ensemble de données.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Sélectionnez votre ensemble de données, puis cliquez sur Choisir un ensemble de données.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Ensuite, cliquez sur Démarrer les prédictions.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Observez une tâche créée ou observez la progression de la tâche dans SageMaker sous Inférence, tâches de transformation par lots.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois la tâche terminée, sélectionnez la tâche et notez le chemin S3 où Canvas a stocké les prédictions.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Visualisez les données de prévision dans les graphiques Atlas

Pour visualiser les données de prévision, créez le Graphiques Atlas MongoDB sur la base des données fédérées (amazon-forecast-data) pour les prévisions P10, P50 et P90, comme indiqué dans le tableau suivant.

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nettoyer

  • Supprimer le cluster MongoDB Atlas
  • Supprimer la configuration de la fédération de données Atlas
  • Supprimer l'application Atlas Application Service
  • Supprimer le compartiment S3
  • Supprimer l'ensemble de données et les modèles Amazon SageMaker Canvas
  • Supprimer les cartes Atlas
  • Déconnectez-vous d'Amazon SageMaker Canvas

Conclusion

Dans cet article, nous avons extrait les données de séries chronologiques de la collection de séries chronologiques MongoDB. Il s'agit d'une collection spéciale optimisée pour la vitesse de stockage et d'interrogation des données de séries chronologiques. Nous avons utilisé Amazon SageMaker Canvas pour entraîner des modèles et générer des prédictions et nous avons visualisé les prédictions dans Atlas Charts.

Pour plus d’informations, reportez-vous aux ressources suivantes.


À propos des auteurs

Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Igor Alekseev est Senior Partner Solution Architect chez AWS dans le domaine Data and Analytics. Dans son rôle, Igor travaille avec des partenaires stratégiques pour les aider à créer des architectures complexes optimisées pour AWS. Avant de rejoindre AWS, en tant qu'architecte de données/solutions, il a mis en œuvre de nombreux projets dans le domaine du Big Data, y compris plusieurs lacs de données dans l'écosystème Hadoop. En tant qu'ingénieur de données, il a été impliqué dans l'application de l'IA/ML à la détection des fraudes et à la bureautique.


Accélérer le délai d'obtention d'informations avec les collections de séries chronologiques MongoDB et Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Babu Srinivasan
est un architecte de solutions partenaire principal chez MongoDB. Dans son rôle actuel, il travaille avec AWS pour construire les intégrations techniques et les architectures de référence pour les solutions AWS et MongoDB. Il a plus de deux décennies d'expérience dans les technologies de bases de données et de cloud. Il est passionné par la fourniture de solutions techniques aux clients travaillant avec plusieurs intégrateurs de systèmes mondiaux (GSI) dans plusieurs zones géographiques.

Horodatage:

Plus de Apprentissage automatique AWS