Recherchez des réponses avec précision à l'aide du connecteur Amazon Kendra S3 avec prise en charge VPC

Republié par Platon

Suiveurs: 0

Amazone Kendra est un service de recherche intelligent facile à utiliser qui vous permet d'intégrer des fonctionnalités de recherche à vos applications afin que les utilisateurs puissent trouver des informations stockées dans des sources de données telles que Service de stockage simple Amazon , OneDrive et Google Drive ; des applications telles que SalesForce, SharePoint et Service Now ; et des bases de données relationnelles comme Service de base de données relationnelle Amazon (Amazon RDS). L'utilisation des connecteurs Amazon Kendra vous permet de synchroniser les données de plusieurs référentiels de contenu avec votre index Amazon Kendra. Lorsque les utilisateurs finaux posent des questions en langage naturel, Amazon Kendra utilise des algorithmes d'apprentissage automatique (ML) pour comprendre le contexte et renvoyer les réponses les plus pertinentes.

Le connecteur S3 d'Amazon Kendra prend en charge l'indexation des documents et leurs métadonnées associées stockées dans un compartiment S3. Il arrive souvent que vous souhaitiez vous assurer que les applications exécutées dans un VPC n'ont accès qu'à des compartiments S3 spécifiques et, dans de nombreux cas, la connexion ne doit pas traverser Internet pour atteindre les points de terminaison publics. Cependant, de nombreux clients possèdent plusieurs compartiments S3, dont certains sont accessibles par Points de terminaison VPC pour Amazon S3. Dans cet article, nous décrivons comment utiliser le connecteur Amazon Kendra S3 mis à jour avec prise en charge VPC pour utiliser les points de terminaison VPC.

Cet article fournit les étapes pour vous aider à créer un moteur de recherche d'entreprise sur AWS à l'aide d'Amazon Kendra en connectant des documents stockés dans un compartiment S3 uniquement accessible depuis un VPC. Pour plus d'informations, voir amélioration de la recherche d'entreprise avec Amazon Kendra. La publication montre également comment configurer votre connecteur pour Amazon S3 et configurer la façon dont votre index se synchronise avec votre source de données lorsque le contenu de votre source de données change.

Présentation de la solution

Il y a trois améliorations principales à la Connecteur Amazon Kendra S3 :

Prise en charge du VPC – Le connecteur prend désormais en charge l'utilisation de votre Cloud privé virtuel Amazon (Amazon VPC). Vous pouvez maintenant vous connecter en toute sécurité à Amazon S3 en utilisant Points de terminaison VPC pour Amazon S3 en spécifiant la connexion VPC, le sous-réseau et les groupes de sécurité.
Deux modes de synchronisation – Lorsque vous planifiez la synchronisation d'une source de données dans Amazon S3 vers un index Amazon Kendra, vous pouvez désormais choisir de l'exécuter en mode de synchronisation complète ou en mode de synchronisation de documents nouveaux, modifiés et supprimés. En mode de synchronisation complète, chaque fois que la synchronisation s'exécute, elle analyse les objets de chaque dossier sous le chemin racine pour lequel elle a été configurée et réintègre tous les documents . L'actualisation complète vous permet de réinitialiser l'index sans avoir à supprimer et à créer une nouvelle source de données. En mode de synchronisation de documents nouveaux, modifiés et supprimés, chaque fois que la tâche de synchronisation s'exécute, elle ne traite que les objets qui ont été ajoutés, modifiés ou supprimés depuis la dernière analyse. Les analyses incrémentielles peuvent réduire le temps d'exécution et les coûts lorsqu'elles sont utilisées avec des ensembles de données qui ajoutent régulièrement de nouveaux objets aux sources de données existantes.
Modèles d'inclusion et d'exclusion supplémentaires pour les documents: En plus des préfixes, nous introduisons des modèles pour l'inclusion ou l'exclusion de documents de votre index. Deux types de modèles pris en charge sont les types glob de style Unix ou les types de fichiers. Vous pouvez désormais ajouter un modèle d'expression régulière pour inclure des dossiers spécifiques ou exclure des dossiers, des types de fichiers ou des fichiers spécifiques de votre source de données. Cela peut être utile pour les référentiels de données partagés qui contiennent du contenu appartenant à différentes catégories, classifications et types de fichiers.

Pré-requis

Pour cette procédure pas à pas, vous devez disposer des prérequis suivants:

Créez et configurez votre référentiel de documents

Avant de pouvoir créer un index dans Amazon Kendra, vous devez charger des documents dans un compartiment S3. Cette section contient des instructions pour créer un compartiment S3, obtenir les fichiers et les charger dans le compartiment. Après avoir effectué toutes les étapes de cette section, vous disposez d'une source de données qu'Amazon Kendra peut utiliser.

Sur le Console de gestion AWS, dans la liste Région, choisissez USA Est (Virginie du Nord) ou n'importe quelle région de votre choix qui Amazon Kendra est disponible en.
Selectionnez Services.
Sous Stockage, choisissez S3.
Sur la console Amazon S3, choisissez Créer un seau.
Sous Configuration générale, fournissez les informations suivantes:
- Pour le nom du compartiment, entrer kendrapost-{your account id}.
- Pour la région, choisissez la même région que celle que vous utilisez pour déployer votre index Amazon Kendra (ce post utilise us-east-1).
- Sous Paramètres de godet, en Bloquer l'accès public, laissez tout avec les valeurs par défaut.
Sous paramètres avancés, laissez tout avec les valeurs par défaut.
Selectionnez Créer un seau.
Télécharger AWS_Whitepapers.zip et décompressez les fichiers.
Sur la console Amazon S3, sélectionnez le compartiment que vous venez de créer et choisissez Téléchargement.
Télécharger les dossiers Best Practices, Databases, Generalet une Machine Learning à partir du fichier décompressé.

À l'intérieur de votre bucket, vous devriez maintenant voir quatre dossiers.

Ajouter une source de données

A la source de données est un emplacement qui stocke les documents pour l'indexation. Vous pouvez synchroniser automatiquement les sources de données avec un index Amazon Kendra pour vous assurer que les recherches reflètent correctement les documents nouveaux, mis à jour ou supprimés dans les référentiels source.

Après avoir suivi toutes les étapes de cette section, vous disposerez d'une source de données liée à Amazon Kendra. Pour plus d'informations, voir Ajout de documents à partir d'une source de données.

Avant de continuer, assurez-vous que la création de l'index est terminée et que l'index s'affiche comme Actif. Pour plus d'informations, voir Création d'un index.

Sur la console Amazon Kendra, accédez à votre index (pour cet article, kendra-blog-index).
Sur le kendra-blog-index page, choisissez Ajouter des sources de données.
Sous Amazon S3, choisissez Ajouter un connecteur.

Pour plus d'informations sur les différentes sources de données prises en charge par Amazon Kendra, consultez Ajout de documents à partir d'une source de données.

Dans le Spécifier les détails de la source de données section, pour Nom de la source de données, Entrer aws_white_paper.
Pour Description, Entrer AWS White Paper documentation.
Selectionnez Suivant.

Maintenant, vous créez un Gestion des identités et des accès AWS (IAM) rôle pour Amazon Kendra.

Dans le Définir l'accès et la sécurité page, pour Rôle IAM section, choisissez Créer un nouveau rôle.
Pour Nom du rôle, entrez source-role (votre nom de rôle est préfixé par AmazonKendra-).
Dans le Configurer le VPC et la sécurité section, choisissez votre VPC, et entrez votre Sous-réseaux et groupes de sécurité VPC.

Pour plus d'informations sur la connexion de votre Amazon Kendra à votre Amazon Virtual Private Cloud, consultez Configuration d'Amazon Kendra pour utiliser un VPC.

Selectionnez Suivant.
Dans le Configurer les paramètres de synchronisation page, pour Entrez l'emplacement de la source de données, entrez le compartiment S3 que vous avez créé: kendrapost-{your account id}.
Laisser Emplacement du dossier de préfixe des fichiers de métadonnées blanc.

Par défaut, les fichiers de métadonnées sont stockés dans le même répertoire que les documents. Si vous souhaitez placer ces fichiers dans un dossier différent, vous pouvez ajouter un préfixe. Pour plus d'informations, voir Métadonnées de document Amazon S3.

Pour Sélectionnez la clé de déchiffrement, laissez-le désélectionné.
Pour Configuration supplémentaire, vous pouvez ajouter un modèle pour inclure ou exclure certains dossiers ou fichiers. Pour ce post, conservez les valeurs par défaut.
Pour Mode de synchronisation '; '; ; Synchronisation des documents nouveaux, modifiés ou supprimés.
Pour La fréquence, choisissez Fonctionne à la demande.

Cette étape définit la fréquence à laquelle la source de données est synchronisée avec l'index Amazon Kendra.

Selectionnez Suivant.
Dans le Définir les mappages de champs page, conservez les valeurs par défaut.
Selectionnez Suivant.
Sur le Examiner et créer page, choisissez Ajouter une source de données.
Revenez à votre index Kendra.
Choisissez votre La source de données, Puis choisissez Synchroniser maintenant pour synchroniser les documents avec l'index Amazon Kendra.

La durée de ce processus dépend du nombre de documents que vous indexez. Pour ce cas d'utilisation, cela peut prendre 15 minutes, après quoi vous devriez voir un message indiquant que la synchronisation a réussi. Dans la section Historique d'exécution de la synchronisation, vous pouvez voir que 40 documents ont été synchronisés.

Votre index Amazon Kendra est maintenant prêt pour les requêtes en langage naturel. Lorsque vous effectuez une recherche dans votre index, Amazon Kendra utilise toutes les données et métadonnées fournies pour renvoyer les réponses les plus précises à votre requête de recherche. Sur la console Amazon Kendra, choisissez Rechercher du contenu indexé. Dans le champ de requête, commencez par une requête telle que « Quel service AWS a 11 neuf de durabilité ?

Pour plus d'informations sur l'interrogation de l'index, consultez Interroger un index

Synchroniser les modifications de la source de données pour rechercher l'index

Votre source de données est configurée pour synchroniser toutes les données nouvelles, modifiées ou supprimées. Avant de pouvoir synchroniser votre source de données de manière incrémentielle avec un index dans Amazon Kendra, vous devez charger de nouveaux documents dans un compartiment S3.

Sur la console Amazon S3, sélectionnez le compartiment que vous venez de créer et choisissez Téléchargement.
Télécharger les dossiers Security et de Well_Architected à partir du fichier décompressé.

Vous pouvez maintenant synchroniser les nouveaux documents ajoutés au bucket S3 :

Sur la console Amazon Kendra, choisissez Les sources de données puis sélectionnez votre source de données S3.
Selectionnez Synchroniser maintenant.

Dans le Historique des exécutions de synchronisation , vous pouvez voir que 20 XNUMX documents ont été synchronisés.

Réindexer la source de données

Dans un scénario où la source de données contient des informations obsolètes, vous pouvez désormais réindexer la source de données sans avoir à supprimer et à créer une nouvelle source de données. Pour modifier le mode de synchronisation et réindexer la source de données, procédez comme suit :

Sur la console Amazon Kendra, choisissez Les sources de données puis sélectionnez votre source de données S3.
Sur le Actions menu, choisissez Modifier.
Selectionnez Suivant déménager à Étape 3 – Configurer la page des paramètres de synchronisation.
Pour le mode de synchronisation, sélectionnez Synchronisation complète.
Pour La fréquence, choisissez Fonctionne à la demande.
Selectionnez Suivant.
Dans le Définir les mappages de champs page, conservez les valeurs par défaut.
Selectionnez Suivant.
Sur le Examiner et créer page, choisissez Mises à jour.

Vous pouvez maintenant synchroniser les nouveaux documents ajoutés au compartiment S3.

Sur la console Amazon Kendra, choisissez Les sources de données puis sélectionnez votre source de données S3.
Selectionnez Synchroniser maintenant.

Dans le Historique des exécutions de synchronisation , vous pouvez voir que tous les documents ont été synchronisés quel que soit l'état de synchronisation précédent sous la colonne modifiée.

Nettoyer

Pour éviter des frais futurs et pour nettoyer les rôles et les règles inutilisés, supprimez les ressources que vous avez créées :

Dans l'index Amazon Kendra, choisissez Index dans le volet de navigation.
Sélectionnez l'index que vous avez créé et sur le Actions menu, choisissez Supprimer.
Pour confirmer la suppression, saisissez Supprimer lorsque vous y êtes invité et choisissez Supprimer.

Attendez d'avoir reçu le message de confirmation; le processus peut prendre jusqu'à 15 minutes.

Sur la console Amazon S3, supprimer le compartiment S3.
Sur la console IAM, supprimer les rôles IAM correspondants.

Conclusion

Dans cet article, vous avez appris à utiliser Amazon Kendra pour déployer un service de recherche d'entreprise à l'aide d'une connexion sécurisée à Amazon S3 qui ne nécessite pas de passerelle Internet ni d'appareil de traduction d'adresses réseau (NAT). Vous pouvez activer des synchronisations plus rapides pour vos documents à l'aide du mode de synchronisation.

Il existe de nombreuses fonctionnalités supplémentaires que nous n'avons pas couvertes. Par exemple:

Vous pouvez activer le contrôle d'accès basé sur l'utilisateur pour votre index Amazon Kendra et restreindre l'accès aux documents en fonction des contrôles d'accès que vous avez déjà configurés.
Vous pouvez mapper des attributs d'objet sur des attributs d'index Amazon Kendra et les activer pour le facettage, la recherche et l'affichage dans les résultats de la recherche.
Vous pouvez trouver rapidement des informations à partir de pages Web (tableaux HTML) à l'aide de la recherche tabulaire Amazon Kendra

Pour en savoir plus sur Amazon Kendra, consultez Guide du développeur Amazon Kendra.

À propos des auteurs

Maran Chandrasekaran est architecte de solutions senior chez Amazon Web Services, travaillant avec nos entreprises clientes. En dehors du travail, il aime voyager.

Arjun Agrawal est ingénieur logiciel chez AWS et travaille actuellement avec une équipe Amazon Kendra sur un moteur de recherche d'entreprise. Il est passionné par les nouvelles technologies et la résolution de problèmes réels. En dehors du travail, il aime faire de la randonnée et voyager.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/search-for-answers-accurately-using-amazon-kendra-s3-connector-with-vpc-support/

Horodatage: 2 mars 2023

Plus de Apprentissage automatique AWS

Bundesliga Match Fact Ball Recovery Time : quantifier le succès des équipes à faire pression sur leurs adversaires sur AWS

Apprentissage automatique AWS

Nœud source: 1862204

Horodatage: Le 18 juillet 2023

Au-delà des prévisions : l'équilibre délicat entre servir les clients et développer votre entreprise | Services Web Amazon

Cluster source:

Apprentissage automatique AWS

Nœud source: 1896249

Horodatage: Le 28 septembre 2023

Recherchez des réponses avec précision à l'aide du connecteur Amazon Kendra S3 avec prise en charge VPC

Republié par Platon

Présentation de la solution

Pré-requis

Créez et configurez votre référentiel de documents

Ajouter une source de données

Synchroniser les modifications de la source de données pour rechercher l'index

Réindexer la source de données

Nettoyer

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Transfert d'apprentissage pour les modèles de classification d'images TensorFlow dans Amazon SageMaker

Simplifiez l'apprentissage continu des modèles personnalisés Amazon Comprehend à l'aide du volant d'inertie Comprehend

Comment VistaPrint fournit des recommandations de produits personnalisées avec Amazon Personalize | Services Web Amazon

Créez un agent virtuel basé sur l'IA pour Genesys Cloud à l'aide de QnABot et d'Amazon Lex

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte