Cercare informazioni in un repository di documenti di testo in formato libero può essere come trovare un ago in un pagliaio. Un approccio tradizionale potrebbe consistere nell'utilizzare il conteggio delle parole o altre analisi di base per analizzare i documenti, ma con la potenza degli strumenti di intelligenza artificiale e machine learning (ML) di Amazon, possiamo comprendere più a fondo il contenuto.
Amazon Comprehend è un servizio completamente gestito che utilizza l'elaborazione del linguaggio naturale (NLP) per estrarre informazioni dettagliate sul contenuto dei documenti. Amazon Comprehend sviluppa insight riconoscendo entità, frasi chiave, sentiment, temi ed elementi personalizzati in un documento. Amazon Comprehend può creare nuove informazioni basate sulla comprensione della struttura del documento e delle relazioni tra entità. Ad esempio, con Amazon Comprehend, puoi scansionare un intero repository di documenti alla ricerca di frasi chiave.
Amazon Comprehend consente agli esperti non esperti di machine learning di svolgere facilmente attività che normalmente richiedono ore di tempo. Amazon Comprehend elimina gran parte del tempo necessario per pulire, creare e addestrare il tuo modello. Per creare modelli personalizzati più profondi nella PNL o in qualsiasi altro dominio, Amazon Sage Maker ti consente di creare, addestrare e distribuire modelli in un flusso di lavoro ML molto più convenzionale, se lo desideri.
In questo post utilizziamo Amazon Comprehend e altri servizi AWS per analizzare ed estrarre nuove informazioni da un repository di documenti. Quindi usiamo Amazon QuickSight per generare una nuvola di parole visiva semplice ma potente per individuare facilmente temi o tendenze.
Panoramica della soluzione
Il diagramma seguente illustra l'architettura della soluzione.
Per iniziare, raccogliamo i dati da analizzare e li carichiamo in un file Servizio di archiviazione semplice Amazon bucket (Amazon S3) in un account AWS. In questo esempio, utilizziamo file in formato testo. I dati vengono quindi analizzati da Amazon Comprehend. Amazon Comprehend crea un output in formato JSON che deve essere trasformato ed elaborato in un formato di database utilizzando Colla AWS. Verifichiamo i dati ed estraiamo tabelle di dati formattate specifiche utilizzando Amazzone Atena per un'analisi QuickSight utilizzando una nuvola di parole. Per ulteriori informazioni sulle visualizzazioni, fare riferimento a Visualizzazione dei dati in Amazon QuickSight.
Prerequisiti
Per questa procedura dettagliata, è necessario disporre dei seguenti prerequisiti:
Carica i dati in un bucket S3
Carica i tuoi dati in un bucket S3. Per questo post utilizziamo il testo formattato UTF-8 della Costituzione degli Stati Uniti come file di input. Quindi sei pronto per analizzare i dati e creare visualizzazioni.
Analizza i dati utilizzando Amazon Comprehend
Esistono molti tipi di informazioni basate su testo e immagini che possono essere elaborate utilizzando Amazon Comprehend. Oltre ai file di testo, è possibile utilizzare Amazon Comprehend per la classificazione e il riconoscimento delle entità in un solo passaggio per accettare file di immagine, file PDF e file Microsoft Word come input, che non sono discussi in questo post.
Per analizzare i tuoi dati, completa i seguenti passaggi:
- Sulla console di Amazon Comprehend, scegli Lavori di analisi nel pannello di navigazione.
- Scegli Crea un lavoro di analisi.
- Inserisci un nome per il tuo lavoro.
- Nel Tipo di analisiscegli Parole chiave.
- Nel Lingua¸ scegli Inglese.
- Nel Inserisci la posizione dei dati, specificare la cartella creata come prerequisito.
- Nel Posizione dei dati di output, specificare la cartella creata come prerequisito.
- Scegli Crea un ruolo IAM.
- Inserisci un suffisso per il nome del ruolo.
- Scegli Crea lavoro.
Il lavoro verrà eseguito e lo stato verrà visualizzato sul file Lavori di analisi .
Attendi il completamento del lavoro di analisi. Amazon Comprehend creerà un file e lo inserirà nella cartella dei dati di output fornita. Il file è in formato .gz o GZIP.
Questo file deve essere scaricato e convertito in un formato non compresso. Puoi scaricare un oggetto dalla cartella dati o dal bucket S3 utilizzando la console Amazon S3.
- Nella console Amazon S3, seleziona l'oggetto e scegli Scaricare. Se desideri scaricare l'oggetto in una cartella specifica, scegli Scaricare sul canale Azioni menu.
- Dopo aver scaricato il file sul tuo computer locale, apri il file zippato e salvalo come file non compresso.
Il file non compresso deve essere caricato nella cartella di output prima che il crawler di AWS Glue possa elaborarlo. Per questo esempio, carichiamo il file non compresso nella stessa cartella di output che utilizzeremo nei passaggi successivi.
- Nella console Amazon S3, vai al tuo bucket S3 e scegli Caricare.
- Scegli Aggiungere file.
- Scegli i file non compressi dal tuo computer locale.
- Scegli Caricare.
Dopo aver caricato il file, elimina il file zippato originale.
- Nella console Amazon S3, seleziona il bucket e scegli Elimina.
- Confermare il nome del file per eliminare definitivamente il file inserendo il nome del file nella casella di testo.
- Scegli Elimina oggetti.
Ciò lascerà un file rimanente nella cartella di output: il file non compresso.
Converti i dati JSON in formato tabella utilizzando AWS Glue
In questa fase prepari l'output di Amazon Comprehend da utilizzare come input in Athena. L'output di Amazon Comprehend è in formato JSON. Puoi utilizzare AWS Glue per convertire JSON in una struttura di database per essere infine letto da QuickSight.
- Nella console AWS Glue, scegli Crawlers nel pannello di navigazione.
- Scegli Crea cingolato.
- Inserisci un nome per il tuo crawler.
- Scegli Avanti.
- Nel I tuoi dati sono già mappati alle tabelle Glue, selezionare Non ancora.
- Aggiungi un'origine dati.
- Nel Percorso S3, inserisci il percorso della cartella dei dati di output di Amazon Comprehend.
Assicurati di aggiungere il finale /
al nome del percorso. AWS Glue cercherà tutti i file nel percorso della cartella.
- Seleziona Scansiona tutte le sottocartelle.
- Scegli Aggiungi un'origine dati S3.
- Crea un nuovo Gestione dell'identità e dell'accesso di AWS Ruolo (IAM) per il crawler.
- Inserisci un nome per il ruolo IAM.
- Scegli Aggiorna il ruolo IAM scelto per essere sicuri che il nuovo ruolo sia assegnato al crawler.
- Scegli Avanti per inserire le informazioni sull'output (database).
- Scegli Aggiungi database.
- Immettere un nome di database.
- Scegli Avanti.
- Scegli Crea cingolato.
- Scegli Esegui crawler per eseguire il crawler.
Puoi monitorare lo stato del crawler nella console AWS Glue.
Utilizza Athena per preparare le tabelle per QuickSight
Athena estrarrà i dati dalle tabelle del database create dal crawler di AWS Glue per fornire un formato che QuickSight utilizzerà per creare il word cloud.
- Sulla console Athena, scegli Editor di query nel pannello di navigazione.
- Nel Fonte di datiscegli AWSDataCatalog.
- Nel Banca Dati, scegli il database creato dal crawler.
Per creare una tabella compatibile con QuickSight, i dati devono essere non nidificati dagli array.
- Il primo passo è creare un database temporaneo con i dati Amazon Comprehend rilevanti:
- La seguente dichiarazione si limita a frasi di almeno tre parole e gruppi in base alla frequenza delle frasi:
Utilizza QuickSight per visualizzare l'output
Infine, puoi creare l'output visivo dell'analisi.
- Sulla console QuickSight, selezionare Nuova analisi.
- Scegli Nuovo set di dati.
- Nel Crea un set di datiscegli Da nuove fonti di dati.
- Scegli Athena come fonte di dati.
- Inserisci un nome per l'origine dati e scegli Crea origine dati.
- Scegli Visualizzare.
Assicurati che QuickSight abbia accesso ai bucket S3 in cui sono archiviate le tabelle Athena.
- Nella console QuickSight, scegli l'icona del profilo utente e scegli Gestisci QuickSight.
- Scegli Sicurezza e autorizzazioni.
- Cerca la sezione Accesso QuickSight ai servizi AWS.
Configurando l'accesso ai servizi AWS, QuickSight può accedere ai dati in tali servizi. L'accesso da parte di utenti e gruppi può essere controllato attraverso le opzioni.
- Verificare che ad Amazon S3 sia concesso l'accesso.
Ora puoi creare la nuvola di parole.
- Scegli la parola nuvola qui sotto Tipi visivi.
- Trascina il testo su Raggruppa per e contare fino a Taglia.
Scegli il menu delle opzioni (tre punti) nella visualizzazione per accedere alle opzioni di modifica. Ad esempio, potresti voler nascondere il termine "altro" dal display. Puoi anche modificare elementi come il titolo e il sottotitolo del tuo oggetto visivo. Per scaricare la nuvola di parole come PDF, scegli Scaricare sulla barra degli strumenti QuickSight.
ripulire
Per evitare di incorrere in addebiti correnti, eliminare tutti i dati, i processi o le risorse non utilizzati forniti sulla rispettiva console del servizio.
Conclusione
Amazon Comprehend utilizza la PNL per estrarre informazioni dettagliate sul contenuto dei documenti. Sviluppa approfondimenti riconoscendo le entità, le frasi chiave, il linguaggio, i sentimenti e altri elementi comuni in un documento. Puoi utilizzare Amazon Comprehend per creare nuovi prodotti basati sulla comprensione della struttura dei documenti. Ad esempio, con Amazon Comprehend, puoi scansionare un intero repository di documenti alla ricerca di frasi chiave.
Questo post descrive i passaggi per creare un word cloud per visualizzare un'analisi del contenuto testuale da Amazon Comprehend utilizzando gli strumenti AWS e QuickSight per visualizzare i dati.
Rimaniamo in contatto tramite la sezione commenti!
Informazioni sugli autori
Kris Gedmann è il leader delle vendite negli Stati Uniti orientali per vendita al dettaglio e beni di largo consumo presso Amazon Web Services. Quando non lavora, gli piace passare il tempo con i suoi amici e la sua famiglia, soprattutto d'estate a Cape Cod. Kris è un Guerriero Ninja temporaneamente in pensione, ma per ora ama guardare e allenare i suoi due figli.
Clark Lefavour è un leader di Solutions Architect presso Amazon Web Services, che supporta i clienti aziendali nella regione orientale. Clark vive nel New England e ama passare il tempo a progettare ricette in cucina.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Automobilistico/VE, Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Grafico Prime. Migliora il tuo gioco di trading con ChartPrime. Accedi qui.
- BlockOffset. Modernizzare la proprietà della compensazione ambientale. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :ha
- :È
- :non
- :Dove
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- WRI
- Accetta
- accesso
- Il mio account
- aggiungere
- aggiunta
- AI
- Tutti
- già
- anche
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- .
- analizzare
- analizzato
- ed
- in qualsiasi
- approccio
- architettura
- SONO
- AS
- addetto
- At
- evitare
- AWS
- Colla AWS
- basato
- basic
- BE
- prima
- iniziare
- Scatola
- costruire
- Costruzione
- ma
- by
- Materiale
- oneri
- Scegli
- scelto
- classificazione
- Cloud
- istruire
- Commenti
- Uncommon
- compatibile
- completamento di una
- comprendere
- computer
- consolle
- Costituzione
- contenuto
- controllata
- convenzionale
- convertire
- convertito
- conteggio
- CPG
- crawler
- creare
- creato
- crea
- Cross
- costume
- Clienti
- dati
- Banca Dati
- più profondo
- schierare
- descritta
- desiderato
- sviluppa
- discusso
- Dsiplay
- visualizzati
- do
- documento
- documenti
- dominio
- scaricare
- facilmente
- est
- elementi
- elimina
- Abilita
- Inghilterra
- entrare
- entrare
- Impresa
- Intero
- entità
- entità
- particolarmente
- esempio
- esperti
- estratto
- famiglia
- Compila il
- File
- ricerca
- Nome
- i seguenti
- Nel
- formato
- Frequenza
- amici
- da
- completamente
- raccogliere
- generare
- concesso
- Gruppo
- Gruppo
- Avere
- he
- nascondere
- il suo
- ORE
- HTML
- http
- HTTPS
- ICON
- Identità
- if
- illustra
- Immagine
- in
- informazioni
- ingresso
- intuizioni
- ai miglioramenti
- IT
- elementi
- Lavoro
- join
- jpg
- json
- Le
- Lingua
- dopo
- leader
- apprendimento
- meno
- Lasciare
- Consente di
- piace
- limiti
- caricare
- locale
- località
- ama
- macchina
- machine learning
- gestito
- molti
- Menu
- Microsoft
- forza
- ML
- modello
- modelli
- Monitorare
- Scopri di più
- molti
- devono obbligatoriamente:
- Nome
- Naturale
- Elaborazione del linguaggio naturale
- Navigare
- Navigazione
- di applicazione
- esigenze
- New
- prodotti nuovi
- ninja
- nlp
- normalmente
- adesso
- oggetto
- of
- on
- ONE
- in corso
- aprire
- Opzioni
- or
- minimo
- i
- Altro
- produzione
- proprio
- pagina
- vetro
- sentiero
- permanentemente
- Frasi
- posto
- Platone
- Platone Data Intelligence
- PlatoneDati
- Post
- energia
- potente
- Preparare
- prerequisiti
- processi
- Elaborato
- i processi
- lavorazione
- Prodotti
- Profilo
- fornire
- purché
- Leggi
- pronto
- riconoscendo
- riferimento
- regione
- Relazioni
- pertinente
- rimanente
- deposito
- Risorse
- quelli
- nello specifico retail
- Ruolo
- Correre
- vendite
- stesso
- Risparmi
- scansione
- Punto
- Cerca
- Sezione
- sentimento
- sentimenti
- servizio
- Servizi
- dovrebbero
- Un'espansione
- soluzione
- Soluzioni
- Fonte
- specifico
- Spendere
- Spot
- dichiarazione
- Stato dei servizi
- soggiorno
- step
- Passi
- conservazione
- memorizzati
- La struttura
- tale
- Supporto
- sicuro
- tavolo
- Fai
- task
- temporaneo
- termine
- testo
- che
- Il
- loro
- temi
- poi
- questo
- quelli
- tre
- Attraverso
- tempo
- Titolo
- a
- strumenti
- toccare
- tradizionale
- Trailing
- Treni
- trasformato
- tendenze
- seconda
- Tipi di
- in definitiva
- per
- e una comprensione reciproca
- non usato
- caricato
- us
- uso
- utilizzato
- Utente
- utenti
- usa
- utilizzando
- verificare
- via
- visualizzazione
- visualizzare
- walkthrough
- volere
- guardare
- we
- sito web
- servizi web
- quando
- quale
- volere
- con
- Word
- parole
- flusso di lavoro
- lavoro
- ancora
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro