Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Services Web Amazon

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Services Web Amazon

Nous sommes ravis d'annoncer le lancement de Amazon DocumentDB (avec compatibilité MongoDB) intégration avec Toile Amazon SageMaker, permettant aux clients d'Amazon DocumentDB de créer et d'utiliser des solutions d'IA générative et d'apprentissage automatique (ML) sans écrire de code. Amazon DocumentDB est une base de données de documents JSON native entièrement gérée qui permet d'exploiter de manière simple et rentable des charges de travail de documents critiques à pratiquement n'importe quelle échelle sans gérer l'infrastructure. Amazon SageMaker Canvas est un espace de travail ML sans code offrant des modèles prêts à l'emploi, y compris des modèles de base, ainsi que la possibilité de préparer des données et de créer et déployer des modèles personnalisés.

Dans cet article, nous expliquons comment importer les données stockées dans Amazon DocumentDB dans SageMaker Canvas et utiliser ces données pour créer des modèles ML pour l'analyse prédictive. Sans créer ni maintenir de pipelines de données, vous pourrez alimenter des modèles ML avec vos données non structurées stockées dans Amazon DocumentDB.

Vue d'ensemble de la solution

Supposons le rôle d'un analyste commercial pour une entreprise de livraison de nourriture. Votre application mobile stocke des informations sur les restaurants dans Amazon DocumentDB en raison de son évolutivité et de ses capacités de schéma flexibles. Vous souhaitez recueillir des informations sur ces données et créer un modèle ML pour prédire comment les nouveaux restaurants seront notés, mais vous avez du mal à effectuer des analyses sur des données non structurées. Vous rencontrez des goulots d'étranglement car vous devez vous appuyer sur des équipes d'ingénierie et de science des données pour atteindre ces objectifs.

Cette nouvelle intégration résout ces problèmes en simplifiant l'importation des données Amazon DocumentDB dans SageMaker Canvas et en commençant immédiatement à préparer et analyser les données pour le ML. De plus, SageMaker Canvas supprime la dépendance à l'expertise ML pour créer des modèles de haute qualité et générer des prédictions.

Nous montrons comment utiliser les données Amazon DocumentDB pour créer des modèles ML dans SageMaker Canvas dans les étapes suivantes :

  1. Créez un connecteur Amazon DocumentDB dans SageMaker Canvas.
  2. Analysez les données à l’aide de l’IA générative.
  3. Préparez les données pour l’apprentissage automatique.
  4. Construisez un modèle et générez des prédictions.

Pré-requis

Pour mettre en œuvre cette solution, remplissez les prérequis suivants :

  1. Avoir un accès administrateur AWS Cloud avec un Gestion des identités et des accès AWS (JE SUIS) utilisateur avec les autorisations requises pour terminer l’intégration.
  2. Terminez la configuration de l'environnement en utilisant AWS CloudFormation via l’une des options suivantes :
    1. Déployer un modèle CloudFormation dans un nouveau VPC – Cette option crée un nouvel environnement AWS composé du VPC, des sous-réseaux privés, des groupes de sécurité, des rôles d'exécution IAM, Amazon Cloud9, Points de terminaison d'un VPC requiset la Domaine SageMaker. Il déploie ensuite Amazon DocumentDB dans ce nouveau VPC. Téléchargez le modèle ou lancez rapidement la pile CloudFormation en choisissant Lancer la pile:
      Lancer la pile CloudFormation
    2. Déployer un modèle CloudFormation dans un VPC existant – Cette option crée les points de terminaison d'un VPC requis, les rôles d'exécution IAM et le domaine SageMaker dans un VPC existant avec des sous-réseaux privés. Téléchargez le modèle ou lancez rapidement la pile CloudFormation en choisissant Lancer la pile:
      Lancer la pile CloudFormation

Notez que si vous créez un nouveau domaine SageMaker, vous devez configurer le domaine pour qu'il se trouve dans un VPC privé sans accès Internet pour pouvoir ajouter le connecteur à Amazon DocumentDB. Pour en savoir plus, reportez-vous à Configurer Amazon SageMaker Canvas dans un VPC sans accès Internet.

  1. Suivez l' tutoriel pour charger des exemples de données de restaurant dans Amazon DocumentDB.
  2. Ajoutez l'accès à Amazon Bedrock et au modèle Anthropic Claude qu'il contient. Pour plus d'informations, voir Ajouter l'accès au modèle.

Créer un connecteur Amazon DocumentDB dans SageMaker Canvas

Après avoir créé votre domaine SageMaker, procédez comme suit :

  1. Sur la console Amazon DocumentDB, choisissez Apprentissage automatique sans code dans le volet de navigation.
  2. Sous Choisissez un domaine et un profil¸ choisissez votre domaine SageMaker et votre profil utilisateur.
  3. Selectionnez Lancer le canevas pour lancer SageMaker Canvas dans un nouvel onglet.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois le chargement de SageMaker Canvas terminé, vous atterrirez sur le Flux de données languette.

  1. Selectionnez Création pour créer un nouveau flux de données.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  2. Saisissez un nom pour votre flux de données et choisissez Création.
  3. Ajoutez une nouvelle connexion Amazon DocumentDB en choisissant Importer des dates, Puis choisissez Tabulaire en Type d'ensemble de données.
  4. Sur le Importer des dates page, pour La source de données, choisissez BD de documents ainsi que les Ajouter une connexion.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  5. Entrez un nom de connexion tel que démo et choisissez le cluster Amazon DocumentDB souhaité.

Notez que SageMaker Canvas préremplira le menu déroulant avec des clusters dans le même VPC que votre domaine SageMaker.

  1. Entrez un nom d'utilisateur, un mot de passe et un nom de base de données.
  2. Enfin, sélectionnez votre préférence de lecture.

Pour protéger les performances des instances principales, SageMaker Canvas utilise par défaut Secondaire, ce qui signifie qu'il ne lira qu'à partir d'instances secondaires. Lorsque la préférence de lecture est Secondaire préféré, SageMaker Canvas lit à partir des instances secondaires disponibles, mais lira à partir de l'instance principale si aucune instance secondaire n'est disponible. Pour plus d'informations sur la configuration d'une connexion Amazon DocumentDB, consultez le Connectez-vous à une base de données stockée dans AWS.

  1. Selectionnez Ajouter une connexion.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Si la connexion réussit, vous verrez les collections de votre base de données Amazon DocumentDB affichées sous forme de tableaux.

  1. Faites glisser le tableau de votre choix sur la toile vierge. Pour cet article, nous ajoutons les données de notre restaurant.

Les 100 premières lignes sont affichées en aperçu.

  1. Pour commencer à analyser et à préparer vos données, choisissez Importer des dates.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  2. Entrez un nom de jeu de données et choisissez Importer des dates.

Analyser les données à l'aide de l'IA générative

Ensuite, nous souhaitons obtenir des informations sur nos données et rechercher des modèles. SageMaker Canvas fournit une interface en langage naturel pour analyser et préparer les données. Quand le Données l'onglet se charge, vous pouvez commencer à discuter avec vos données en suivant les étapes suivantes :

  1. Selectionnez Chat pour la préparation des données.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  2. Recueillez des informations sur vos données en posant des questions telles que les exemples présentés dans les captures d'écran suivantes.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour en savoir plus sur l'utilisation du langage naturel pour explorer et préparer des données, reportez-vous à Utilisez le langage naturel pour explorer et préparer les données grâce à une nouvelle fonctionnalité d'Amazon SageMaker Canvas..

Obtenons une idée plus approfondie de la qualité de nos données en utilisant le rapport SageMaker Canvas Data Quality and Insights, qui évalue automatiquement la qualité des données et détecte les anomalies.

  1. Sur le Analyses onglet, choisissez Rapport sur la qualité des données et les informations.
  2. Selectionnez rating comme colonne cible et Régression comme type de problème, puis choisissez Création.

Cela simulera la formation du modèle et fournira des informations sur la façon dont nous pouvons améliorer nos données pour l'apprentissage automatique. Le rapport complet est généré en quelques minutes.

Notre rapport montre que 2.47 % des lignes de notre cible comportent des valeurs manquantes. Nous y remédierons à l'étape suivante. De plus, l'analyse montre que le address line 2, nameet la type_of_food les fonctionnalités ont le plus grand pouvoir de prédiction dans nos données. Cela indique que les informations de base sur le restaurant, telles que l'emplacement et la cuisine, peuvent avoir un impact considérable sur les notes.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Préparer les données pour l'apprentissage automatique

SageMaker Canvas propose plus de 300 transformations intégrées pour préparer vos données importées. Pour plus d'informations sur les fonctionnalités de transformation de SageMaker Canvas, reportez-vous à Préparer les données avec des transformations avancées. Ajoutons quelques transformations pour préparer nos données à la formation d'un modèle ML.

  1. Revenez au Flux de données en choisissant le nom de votre flux de données en haut de la page.
  2. Choisissez le signe plus à côté de Types de données et choisissez Ajouter une transformation.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  3. Selectionnez Ajouter une étape.
  4. Renommons le address line 2 colonne à cities.
    1. Selectionnez Gérer les colonnes.
    2. Selectionnez Renommer la colonne en Transformer.
    3. Selectionnez address line 2 en Colonne d'entrée, Entrer cities en Nouveau nomet choisissez Ajouter.
      Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  5. De plus, supprimons certaines colonnes inutiles.
    1. Ajoutez une nouvelle transformation.
    2. Pour Transformer, choisissez Déposer la colonne.
    3. Pour Colonnes à supprimer, choisissez URL ainsi que les restaurant_id.
    4. Selectionnez Ajouter.
      Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.[
  6. Notre rating La colonne de caractéristiques a des valeurs manquantes, remplissons donc ces lignes avec la valeur moyenne de cette colonne.
    1. Ajoutez une nouvelle transformation.
    2. Pour Transformer, choisissez Imputer.
    3. Pour Type de colonne, choisissez Numérique.
    4. Pour Colonnes d'entrée, choisir la rating colonne.
    5. Pour Stratégie d'imputation, choisissez Médian.
    6. Pour Colonne de sortie, Entrer rating_avg_filled.
    7. Selectionnez Ajouter.
      Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  7. Nous pouvons laisser tomber le rating colonne car nous avons une nouvelle colonne avec des valeurs remplies.
  8. Parce que type_of_food est de nature catégorique, nous voudrons le coder numériquement. Codons cette fonctionnalité en utilisant la technique d'encodage one-hot.
    1. Ajoutez une nouvelle transformation.
    2. Pour Transformer, choisissez Encodage à chaud.
    3. Pour Colonnes d'entrée, choisissez type_of_food.
    4. Pour Stratégie de traitement invalide¸ choisissez XNUMX éléments à.
    5. Pour Style de sortie¸ choisissez Colonnes.
    6. Pour Colonne de sortie, Entrer encoded.
    7. Selectionnez Ajouter.
      Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Construire un modèle et générer des prédictions

Maintenant que nous avons transformé nos données, formons un modèle ML numérique pour prédire les notes des restaurants.

  1. Selectionnez Créer un modèle.
  2. Pour Nom du jeu de données, saisissez un nom pour l'exportation de l'ensemble de données.
  3. Selectionnez Exportations et attendez que les données transformées soient exportées.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  4. Choisissez le Créer un modèle lien dans le coin inférieur gauche de la page.

Vous pouvez également sélectionner l'ensemble de données à partir de la fonctionnalité Data Wrangler sur la gauche de la page.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Entrez un nom de modèle.
  2. Selectionnez Analyse prédictive, Puis choisissez Création.
  3. Selectionnez rating_avg_filled comme colonne cible.

SageMaker Canvas sélectionne automatiquement un type de modèle approprié.

  1. Selectionnez Aperçu du modèle pour garantir qu’il n’y a pas de problèmes de qualité des données.
  2. Selectionnez Construction rapide pour construire le modèle.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

La création du modèle prendra environ 2 à 15 minutes.

Vous pouvez afficher l'état du modèle une fois que celui-ci a terminé sa formation. Notre modèle a un RSME de 0.422, ce qui signifie que le modèle prédit souvent la note d'un restaurant à +/- 0.422 de la valeur réelle, une bonne approximation pour l'échelle de note de 1 à 6.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

  1. Enfin, vous pouvez générer des exemples de prédictions en accédant à l'onglet Prédire languette.
    Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nettoyer

Pour éviter d'encourir des frais futurs, supprimez les ressources que vous avez créées en suivant cette publication. SageMaker Canvas vous facture la durée de la session et nous vous recommandons de vous déconnecter de SageMaker Canvas lorsque vous ne l'utilisez pas. Faire référence à Déconnexion d'Amazon SageMaker Canvas pour plus de détails.

Conclusion

Dans cet article, nous avons expliqué comment utiliser SageMaker Canvas pour l'IA et le ML génératifs avec des données stockées dans Amazon DocumentDB. Dans notre exemple, nous avons montré comment un analyste peut créer rapidement un modèle ML de haute qualité à l'aide d'un exemple d'ensemble de données de restaurant.

Nous avons montré les étapes de mise en œuvre de la solution, de l'importation de données depuis Amazon DocumentDB à la création d'un modèle ML dans SageMaker Canvas. L'ensemble du processus a été réalisé via une interface visuelle sans écrire une seule ligne de code.

Pour commencer votre parcours ML low-code/no-code, reportez-vous à Toile Amazon SageMaker.


À propos des auteurs

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Adèleke Coker est un architecte de solutions globales avec AWS. Il travaille avec des clients du monde entier pour fournir des conseils et une assistance technique dans le déploiement de charges de travail de production à grande échelle sur AWS. Dans ses temps libres, il aime apprendre, lire, jouer et regarder des événements sportifs.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Gururaj S Bayari est un architecte de solutions spécialiste senior DocumentDB chez AWS. Il aime aider les clients à adopter les bases de données spécialement conçues par Amazon. Il aide les clients à concevoir, évaluer et optimiser leur échelle Internet et leurs charges de travail hautes performances alimentées par NoSQL et/ou bases de données relationnelles.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Tim Pusateri est chef de produit senior chez AWS où il travaille sur Amazon SageMaker Canvas. Son objectif est d'aider les clients à tirer rapidement de la valeur de l'IA/ML. En dehors du travail, il aime être dehors, jouer de la guitare, voir de la musique live et passer du temps avec sa famille et ses amis.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Pratik Das est chef de produit chez AWS. Il aime travailler avec des clients qui cherchent à créer des charges de travail résilientes et des bases de données solides dans le cloud. Il apporte son expertise en travaillant avec les entreprises sur des initiatives de modernisation, d'analyse et de transformation des données.

Utilisez Amazon DocumentDB pour créer des solutions d'apprentissage automatique sans code dans Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Varma Gottumukkala est un architecte de solutions spécialiste des bases de données senior chez AWS basé à Dallas Fort Worth. Varma travaille avec les clients sur leur stratégie de base de données et structure leurs charges de travail à l'aide de bases de données AWS spécialement conçues. Avant de rejoindre AWS, il a beaucoup travaillé avec des bases de données relationnelles, des bases de données NOSQL et plusieurs langages de programmation au cours des 22 dernières années.

Horodatage:

Plus de Apprentissage automatique AWS