Ottieni informazioni dettagliate dai tuoi dati Amazon S3 con la ricerca intelligente

Ripubblicato da Platone

Seguaci: 0

Amazon Kendra è un servizio di ricerca intelligente basato sull'apprendimento automatico (ML). Amazon Kendra reinventa la ricerca aziendale per i tuoi siti Web e le tue applicazioni in modo che i tuoi dipendenti e clienti possano trovare facilmente i contenuti che stanno cercando, anche quando sono sparsi in più posizioni e repository di contenuti all'interno della tua organizzazione. Le parole chiave o le domande in linguaggio naturale possono essere utilizzate per cercare i documenti più pertinenti alimentati da ML per fornire risposte e classificare i documenti. Amazon Kendra può indicizzare i dati da Servizio di archiviazione semplice Amazon (Amazon S3) o da un repository di documenti di terze parti. Amazon S3 è un servizio di storage di oggetti che offre scalabilità e disponibilità in cui è possibile archiviare grandi quantità di dati, inclusi manuali di prodotto, progetti e documenti di ricerca e altro ancora.

In questo post, puoi imparare come distribuire un file fornito AWS CloudFormazione template per indicizzare i tuoi documenti in un bucket Amazon S3. Il modello crea un'origine dati Amazon Kendra per un indice e sincronizza l'origine dati in base alle tue esigenze: su richiesta, oraria, giornaliera, settimanale o mensile. AWS CloudFormation ci consente di eseguire il provisioning dell'infrastruttura come codice (IaC) in modo da poter dedicare meno tempo alla gestione delle risorse, replicare rapidamente l'infrastruttura e controllare e tenere traccia delle modifiche nell'infrastruttura.

Panoramica della soluzione

Il modello CloudFormation configura un'origine dati Amazon Kendra con una connessione ad Amazon S3. Il modello crea anche un ruolo per il servizio di origine dati Amazon Kendra. Puoi specificare un bucket S3, una pianificazione della sincronizzazione e modelli di inclusione/esclusione. Al termine del processo di sincronizzazione, è possibile cercare il contenuto indicizzato tramite la console di ricerca. Il diagramma seguente illustra questo flusso di lavoro.

Questo post ti guida ai seguenti passaggi:

Distribuisci il modello fornito.
Carica i documenti nel bucket S3 che hai creato. Se fornisci un bucket con i documenti, puoi omettere questo passaggio.
Attendere finché l'indice non completa la scansione dell'origine dati.

Prerequisiti

Per questa procedura dettagliata, è necessario disporre dei seguenti prerequisiti:

An Account AWS dove la soluzione proposta può essere implementata.
Un indice Amazon Kendra per collegare un'origine dati allo stack.
L'insieme di documenti utilizzati per creare l'indice Amazon Kendra. In questa soluzione, stai utilizzando un file compresso di White paper AWS.

Distribuisci la soluzione con AWS CloudFormation

Per distribuire il modello CloudFormation, completa i seguenti passaggi:

Scegli

Verrai reindirizzato alla console AWS CloudFormation.

È possibile modificare i parametri o utilizzare i valori predefiniti:
- Il nome dell'origine dati Amazon Kendra viene impostato automaticamente utilizzando il nome dello stack e il nome del bucket associato.
- Nel KendraIndexId, inserisci l'ID indice Amazon Kendra a cui allegherai l'origine dati.
- È inoltre possibile scegliere quando eseguire la sincronizzazione dell'origine dati utilizzando Pianificazione KendraSync. Per impostazione predefinita, è impostato su Su richiesta.
- Nel Nomebucket S3, puoi inserire un bucket che hai già creato o lasciarlo vuoto. Se lo lasci vuoto, verrà creato un bucket per te. In entrambi i casi, il bucket viene utilizzato come origine dati di Amazon Kendra. Per questo post, lo lasciamo vuoto.

Lo stack impiega circa 5 minuti per distribuire l'origine dati Amazon Kendra collegata all'indice Amazon Kendra.

Sulla Uscite scheda dello stack CloudFormation, copia il nome del bucket creato, il nome dell'origine dati e l'ID.

Lo stack creato distribuisce un ruolo: <stack-name>-KendraDataSourceRole. È consigliabile distribuire un ruolo per ogni origine dati creata. Questo ruolo fornisce l'origine dati Amazon Kendra per aggiungere o rimuovere file dall'indice Amazon Kendra, per ottenere oggetti dal bucket Amazon S3.

Carica i file nel bucket S3

Amazon Kendra può gestire più tipi di documenti, come .html, .pdf, .csv, .json, .docx e .ppt. Puoi anche avere una combinazione di documenti su un singolo indice. Il testo contenuto in tali documenti viene indicizzato nell'indice Amazon Kendra fornito. Puoi cercare parole chiave su argomenti AWS su best practice, database, machine learning, sicurezza e altro utilizzando oltre 60 file pdf che puoi scaricare. Ad esempio, se vuoi sapere dove puoi trovare ulteriori informazioni sulla memorizzazione nella cache nei white paper AWS, Amazon Kendra può aiutarti a trovare documenti relativi a database e best practice.

Quando si scarica il Whitepaper AWS.zip file e decomprimi il file, vedrai queste sei cartelle: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. Carica queste cartelle nel tuo bucket S3.

Sincronizza l'origine dati di Amazon Kendra

I dati dell'origine dati di Amazon Kendra possono sincronizzare i tuoi dati in base a una pianificazione preconfigurata oppure possono essere attivati manualmente su richiesta. Per impostazione predefinita, il modello CloudFormation configura l'origine dati per la pianificazione della sincronizzazione su richiesta da attivare manualmente come richiesto.

Per attivare manualmente il processo di sincronizzazione dalla console AWS Amazon Kendra, vai all'indice Amazon Kendra utilizzato come parte della distribuzione dello stack CloudFormation, in Gestione dei dati nel pannello di navigazione, scegli Origine dei dati e quindi scegliere Sincronizza ora. In questo modo il bucket S3 si sincronizza con l'origine dati.

Quando l'origine dati Amazon Kendra inizia la sincronizzazione, dovresti vedere il file Stato di sincronizzazione corrente as Sincronizzazione.

Quando l'origine dati è terminata, il file Stato dell'ultima sincronizzazione appare come Riuscito ed Stato di sincronizzazione corrente as Idle. Ora puoi cercare il contenuto indicizzato.

Configura la pianificazione della sincronizzazione

Il modello consente di eseguire la pianificazione ogni ora al minuto 0, ad esempio 13:00, 14:00 o 15:00. Hai anche la possibilità di eseguirlo ogni giorno alle 00:00 UTC. IL l'impostazione viene eseguita il lunedì alle 00:00 UTC e il Mensile l'impostazione viene eseguita ogni primo giorno del mese alle 00:00 UTC.

Per modificare la pianificazione dopo la creazione dell'origine dati Amazon Kendra, in Azioni menù, scegliere Modifica. Sotto Configura le impostazioni di sincronizzazione, trovi il Pianificazione delle regole di sincronizzazione .

Sotto Frequenza, puoi selezionare orario, alle lezioni, settimanale, mensile, o costume, che ti consentono di programmare la sincronizzazione al minuto.

Aggiungi modelli di esclusione

Il modello CloudFormation fornito consente di aggiungere modelli di esclusione. Per impostazione predefinita, i file .png e .jpg verranno aggiunti al file Modelli di esclusione parametro. Ulteriori formati di file possono essere aggiunti come elenco separato da virgole al modello di esclusione. Allo stesso modo, Modelli di inclusione Il parametro può essere utilizzato per aggiungere formati di file di elenchi di virgole per impostare un modello di inclusione. Se non fornisci un modello di inclusione, vengono indicizzati tutti i file tranne quelli inclusi nel parametro di esclusione.

ripulire

Per evitare costi, puoi eliminare lo stack dalla console AWS CloudFormation. Sul Stacks page, seleziona lo stack che hai creato, scegli Eliminae confermare l'eliminazione dello stack.

Se non hai fornito un bucket S3, lo stack crea un bucket. Se il bucket è vuoto, viene eliminato automaticamente. Altrimenti, devi svuotare la cartella ed eliminarla manualmente. Se hai fornito un bucket, anche se è vuoto, non verrà eliminato. L'indice Amazon Kendra non verrà eliminato. Verrà eliminata solo l'origine dati Amazon Kendra creata dallo stack.

Conclusione

In questo post, abbiamo fornito un modello CloudFormation per sincronizzare facilmente i tuoi documenti di testo su un bucket S3 con il tuo indice Amazon Kendra. Questa soluzione è utile se hai più bucket S3 che desideri indicizzare perché puoi creare tutti i componenti necessari per interrogare i documenti con pochi clic in modo coerente e ripetibile. Puoi anche vedere come i documenti di testo basati su immagini possono essere gestiti in Amazon Kendra. Per ulteriori informazioni su modelli di pianificazione specifici, fare riferimento a Pianifica espressioni per regole.

Lascia un commento e scopri di più sulla creazione dell'indice Amazon Kendra di seguito Workshop Amazon Kendra Essentials+.

Un ringraziamento speciale a Jose Mauricio Mani Yanez per il suo aiuto nella creazione del codice di esempio e nella compilazione del contenuto di questo post.

Circa l'autore

Rajesh Kumar Ravi è un AI/ML Specialist Solutions Architect presso Amazon Web Services specializzato nella ricerca intelligente di documenti con Amazon Kendra e intelligenza artificiale generativa. È un costruttore e risolutore di problemi e contribuisce allo sviluppo di nuove idee. Gli piace camminare e ama fare brevi escursioni al di fuori del lavoro.