Débloquez des informations sur vos données Amazon S3 grâce à la recherche intelligente

Republié par Platon

Suiveurs: 0

Amazone Kendra est un service de recherche intelligent alimenté par l'apprentissage automatique (ML). Amazon Kendra réinvente la recherche d'entreprise pour vos sites Web et applications afin que vos employés et clients puissent facilement trouver le contenu qu'ils recherchent, même lorsqu'il est dispersé sur plusieurs emplacements et référentiels de contenu au sein de votre organisation. Des mots clés ou des questions en langage naturel peuvent être utilisés pour rechercher les documents les plus pertinents alimentés par ML afin de fournir des réponses et de classer les documents. Amazon Kendra peut indexer les données de Service de stockage simple Amazon (Amazon S3) ou à partir d'un référentiel de documents tiers. Amazon S3 est un service de stockage d'objets qui offre une évolutivité et une disponibilité où vous pouvez stocker de grandes quantités de données, y compris des manuels de produits, des documents de projet et de recherche, et plus encore.

Dans cet article, vous pouvez apprendre à déployer un AWS CloudFormation template pour indexer vos documents dans un compartiment Amazon S3. Le modèle crée une source de données Amazon Kendra pour un index et synchronise votre source de données en fonction de vos besoins : à la demande, toutes les heures, tous les jours, toutes les semaines ou tous les mois. AWS CloudFormation nous permet de provisionner l'infrastructure en tant que code (IaC) afin que vous puissiez passer moins de temps à gérer les ressources, répliquer rapidement votre infrastructure et contrôler et suivre les modifications de l'infrastructure.

Aperçu de la solution

Le modèle CloudFormation configure une source de données Amazon Kendra avec une connexion à Amazon S3. Le modèle crée également un rôle pour le service de source de données Amazon Kendra. Vous pouvez spécifier un compartiment S3, une planification de synchronisation et des modèles d'inclusion/exclusion. Lorsque la tâche de synchronisation est terminée, vous pouvez rechercher le contenu indexé via la console de recherche. Le diagramme suivant illustre ce flux de travail.

Cet article vous guide dans les étapes suivantes :

Déployez le modèle fourni.
Chargez les documents dans le compartiment S3 que vous créez. Si vous fournissez un compartiment avec des documents, vous pouvez omettre cette étape.
Attendez que l'index ait fini d'explorer la source de données.

Pré-requis

Pour cette procédure pas à pas, vous devez disposer des prérequis suivants:

An Compte AWS où la solution proposée peut être déployée.
Un index Amazon Kendra pour attacher une source de données à la pile.
Ensemble de documents utilisés pour créer l'index Amazon Kendra. Dans cette solution, vous utilisez un fichier compressé de Livres blancs AWS.

Déployez la solution avec AWS CloudFormation

Pour déployer le modèle CloudFormation, procédez comme suit :

Selectionnez

Vous êtes redirigé vers la console AWS CloudFormation.

Vous pouvez modifier les paramètres ou utiliser les valeurs par défaut :
- Le nom de la source de données Amazon Kendra est automatiquement défini à l'aide du nom de la pile et du nom du compartiment associé.
- Pour KendraIndexId, entrez l'ID d'index Amazon Kendra auquel vous attacherez la source de données.
- Vous pouvez également choisir quand exécuter la synchronisation de la source de données à l'aide de KendraSyncHoraire. Par défaut, il est réglé sur À la demande.
- Pour Nom du compartiment S3, vous pouvez soit saisir un bucket que vous avez déjà créé, soit le laisser vide. Si vous le laissez vide, un seau sera créé pour vous. Dans tous les cas, le compartiment est utilisé comme source de données Amazon Kendra. Pour ce post, nous le laissons vide.

Il faut environ 5 minutes à la pile pour déployer la source de données Amazon Kendra attachée à l'index Amazon Kendra.

Sur le Sortie de la pile CloudFormation, copiez le nom du compartiment créé, le nom de la source de données et l'ID.

La pile créée déploie un rôle : <stack-name>-KendraDataSourceRole. Il est recommandé de déployer un rôle pour chaque source de données que vous créez. Ce rôle permet à la source de données Amazon Kendra d'ajouter ou de supprimer des fichiers de l'index Amazon Kendra, afin d'obtenir des objets du compartiment Amazon S3.

Charger des fichiers dans le compartiment S3

Amazon Kendra peut gérer plusieurs types de documents, tels que .html, .pdf, .csv, .json, .docx et .ppt. Vous pouvez également avoir une combinaison de documents sur un seul index. Le texte contenu dans ces documents est indexé dans l'index Amazon Kendra fourni. Vous pouvez rechercher des mots-clés sur les rubriques AWS sur les meilleures pratiques, les bases de données, l'apprentissage automatique, la sécurité, etc. à l'aide de plus de 60 fichiers pdf que vous pouvez download. Par exemple, si vous souhaitez savoir où trouver plus d'informations sur la mise en cache dans les livres blancs AWS, Amazon Kendra peut vous aider à trouver des documents liés aux bases de données et aux bonnes pratiques.

Lorsque vous téléchargez le Livres blancs AWS.zip fichier et décompressez le fichier, vous voyez ces six dossiers : Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Chargez ces dossiers dans votre compartiment S3.

Synchroniser la source de données Amazon Kendra

Les données de la source de données Amazon Kendra peuvent synchroniser vos données en fonction d'un calendrier préconfiguré ou peuvent être déclenchées manuellement à la demande. Par défaut, le modèle CloudFormation configure la source de données pour un calendrier de synchronisation à la demande à déclencher manuellement selon les besoins.

Pour déclencher manuellement la tâche de synchronisation à partir de la console AWS Amazon Kendra, accédez à l'index Amazon Kendra utilisé dans le cadre du déploiement de la pile CloudFormation, sous Gestion des données dans le volet de navigation, choisissez Les sources de données puis choisissez Synchroniser maintenant. Cela synchronise le compartiment S3 avec la source de données.

Lorsque la source de données Amazon Kendra commence à se synchroniser, vous devriez voir le État de synchronisation actuel as Synchronisation.

Lorsque la source de données est terminée, le État de la dernière synchronisation apparaît comme Réussi et les État de synchronisation actuel as Idle. Vous pouvez maintenant rechercher le contenu indexé.

Configurer le calendrier de synchronisation

Le modèle vous permet d'exécuter le programme toutes les heures à la minute 0, par exemple, 13h00, 14h00 ou 15h00. Vous avez également la possibilité de l'exécuter quotidiennement à 00h00 UTC. Le Hebdomadaire le réglage s'exécute les lundis à 00:00 UTC, et le Mensuelle Le paramètre s'exécute tous les premiers jours du mois à 00:00 UTC.

Pour modifier la planification après la création de la source de données Amazon Kendra, sur le Actions menu, choisissez Modifier. En dessous de Configurer les paramètres de synchronisation, vous trouvez le Planification des règles de synchronisation .

Sous La fréquence, vous pouvez sélectionner horaire, Tous les jours, hebdomadaire, mensuelou Customiser, qui vous permettent tous de programmer votre synchronisation à la minute près.

Ajouter des modèles d'exclusion

Le modèle CloudFormation fourni vous permet d'ajouter des modèles d'exclusion. Par défaut, les fichiers .png et .jpg seront ajoutés au Modèles d'exclusion paramètre. Des formats de fichiers supplémentaires peuvent être ajoutés sous forme de liste séparée par des virgules au modèle d'exclusion. De la même manière, Modèles d'inclusion Le paramètre peut être utilisé ajouter des formats de fichier de liste de virgules pour configurer un modèle d'inclusion. Si vous ne fournissez pas de modèle d'inclusion, tous les fichiers sont indexés à l'exception de ceux inclus dans le paramètre d'exclusion.

Nettoyer

Pour éviter des frais, vous pouvez supprimer la pile de la console AWS CloudFormation. Sur le Combos page, sélectionnez la pile que vous avez créée, choisissez Supprimer, et confirmez la suppression de la pile.

Si vous n'avez pas fourni de compartiment S3, la pile crée un compartiment. Si le compartiment est vide, il est automatiquement supprimé. Sinon, vous devez vider le dossier et le supprimer manuellement. Si vous avez fourni un compartiment, même s'il est vide, il ne sera pas supprimé. L'index Amazon Kendra ne sera pas supprimé. Seule la source de données Amazon Kendra créée par la pile sera supprimée.

Conclusion

Dans cet article, nous avons fourni un modèle CloudFormation pour synchroniser facilement vos documents texte sur un compartiment S3 avec votre index Amazon Kendra. Cette solution est utile si vous souhaitez indexer plusieurs compartiments S3, car vous pouvez créer tous les composants nécessaires pour interroger les documents en quelques clics de manière cohérente et reproductible. Vous pouvez également voir comment les documents texte basés sur des images peuvent être gérés dans Amazon Kendra. Pour en savoir plus sur les modèles de planification spécifiques, reportez-vous à Programmer des expressions pour les règles.

Laissez un commentaire et apprenez-en plus sur la création d'index Amazon Kendra dans ce qui suit Atelier Amazon Kendra Essentials +.

Un merci spécial à Jose Mauricio Mani Yanez pour son aide à la création de l'exemple de code et à la compilation du contenu de cet article.

A propos de l'auteure

Rajesh Kumar Ravi est un architecte de solutions spécialisé en IA/ML chez Amazon Web Services, spécialisé dans la recherche intelligente de documents avec Amazon Kendra et l'IA générative. Il est un bâtisseur et un résolveur de problèmes, et contribue au développement de nouvelles idées. Il aime marcher et adore faire de courtes randonnées en dehors du travail.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoAiStream. Intelligence des données Web3. Connaissance Amplifiée. Accéder ici.
Frapper l'avenir avec Adryenn Ashley. Accéder ici.
Achetez et vendez des actions de sociétés PRE-IPO avec PREIPO®. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/unlock-insights-from-your-amazon-s3-data-with-intelligent-search/

Horodatage: 12 mai 2023

Horodatage: 4 mai 2022

Republié par Platon

Comment Sportradar a utilisé la bibliothèque Deep Java pour créer des plates-formes ML à l'échelle de la production pour des performances et une efficacité accrues

Optimisation des hyperparamètres pour affiner les modèles de transformateurs pré-formés de Hugging Face

AWS Localization utilise Amazon Translate pour mettre à l'échelle la localisation

Déployer et gérer des pipelines d'apprentissage automatique avec Terraform à l'aide d'Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte