Buscar insights em um repositório de documentos de texto de formato livre pode ser como encontrar uma agulha em um palheiro. Uma abordagem tradicional pode ser usar a contagem de palavras ou outra análise básica para analisar documentos, mas com o poder da IA da Amazon e das ferramentas de aprendizado de máquina (ML), podemos obter uma compreensão mais profunda do conteúdo.
Amazon Comprehend é um serviço totalmente gerenciado que usa processamento de linguagem natural (PNL) para extrair insights sobre o conteúdo dos documentos. O Amazon Comprehend desenvolve insights reconhecendo entidades, frases-chave, sentimentos, temas e elementos personalizados em um documento. O Amazon Comprehend pode criar novos insights com base na compreensão da estrutura do documento e dos relacionamentos entre entidades. Por exemplo, com o Amazon Comprehend, você pode digitalizar um repositório de documentos inteiro em busca de frases-chave.
O Amazon Comprehend permite que especialistas que não são de ML executem facilmente tarefas que normalmente levam horas. O Amazon Comprehend elimina grande parte do tempo necessário para limpar, criar e treinar seu próprio modelo. Para construir modelos personalizados mais profundos em PNL ou qualquer outro domínio, Amazon Sage Maker permite que você crie, treine e implante modelos em um fluxo de trabalho de ML muito mais convencional, se desejar.
Nesta postagem, usamos o Amazon Comprehend e outros serviços da AWS para analisar e extrair novos insights de um repositório de documentos. Então, usamos AmazonQuickSight para gerar um visual de nuvem de palavras simples, mas poderoso, para identificar facilmente temas ou tendências.
Visão geral da solução
O diagrama a seguir ilustra a arquitetura da solução.
Para começar, reunimos os dados a serem analisados e os carregamos em um Serviço de armazenamento simples da Amazon (Amazon S3) em uma conta da AWS. Neste exemplo, usamos arquivos formatados em texto. Os dados são então analisados pelo Amazon Comprehend. O Amazon Comprehend cria uma saída formatada em JSON que precisa ser transformada e processada em um formato de banco de dados usando Cola AWS. Verificamos os dados e extraímos tabelas de dados formatadas específicas usando Amazona atena para uma análise QuickSight usando uma nuvem de palavras. Para obter mais informações sobre visualizações, consulte Visualização de dados no Amazon QuickSight.
Pré-requisitos
Para este passo a passo, você deve ter os seguintes pré-requisitos:
Carregar dados para um bucket do S3
Faça upload dos seus dados para um bucket S3. Para esta postagem, usamos o texto formatado em UTF-8 da Constituição dos EUA como arquivo de entrada. Então você estará pronto para analisar os dados e criar visualizações.
Analise dados usando o Amazon Comprehend
Existem muitos tipos de informações baseadas em texto e imagens que podem ser processadas usando o Amazon Comprehend. Além de arquivos de texto, você pode usar Amazon Comprehend para classificação e reconhecimento de entidade em uma etapa para aceitar arquivos de imagem, arquivos PDF e arquivos do Microsoft Word como entrada, que não são discutidos nesta postagem.
Para analisar seus dados, conclua as seguintes etapas:
- No console do Amazon Comprehend, escolha Trabalhos de análise no painel de navegação.
- Escolha Criar trabalho de análise.
- Digite um nome para o seu trabalho.
- Escolha Tipo de análise, escolha Frases chave.
- Escolha Língua¸ escolher Inglês.
- Escolha Localização dos dados de entrada, especifique a pasta que você criou como pré-requisito.
- Escolha Localização dos dados de saída, especifique a pasta que você criou como pré-requisito.
- Escolha Crie uma função do IAM.
- Insira um sufixo para o nome da função.
- Escolha Criar emprego.
O trabalho será executado e o status será exibido no Trabalhos de análise Disputas de Comerciais.
Aguarde a conclusão do trabalho de análise. O Amazon Comprehend criará um arquivo e o colocará na pasta de dados de saída fornecida. O arquivo está no formato .gz ou GZIP.
Este arquivo precisa ser baixado e convertido para um formato não compactado. Você pode fazer download de um objeto da pasta de dados ou do bucket do S3 usando o console do Amazon S3.
- No console do Amazon S3, selecione o objeto e escolha Baixar. Se você deseja baixar o objeto para uma pasta específica, escolha Baixar na Opções menu.
- Depois de baixar o arquivo para o seu computador local, abra o arquivo compactado e salve-o como um arquivo descompactado.
O arquivo descompactado deve ser carregado na pasta de saída antes que o rastreador do AWS Glue possa processá-lo. Neste exemplo, carregamos o arquivo descompactado na mesma pasta de saída que usaremos nas etapas posteriores.
- No console do Amazon S3, navegue até o bucket do S3 e escolha Escolher arquivo.
- Escolha Adicionar arquivos.
- Escolha os arquivos descompactados do seu computador local.
- Escolha Escolher arquivo.
Depois de fazer upload do arquivo, exclua o arquivo compactado original.
- No console do Amazon S3, selecione o bucket e escolha Apagar.
- Confirme o nome do arquivo para excluí-lo permanentemente inserindo o nome do arquivo na caixa de texto.
- Escolha Excluir objetos.
Isso deixará um arquivo restante na pasta de saída: o arquivo descompactado.
Converta dados JSON em formato de tabela usando AWS Glue
Nesta etapa, você prepara a saída do Amazon Comprehend para ser usada como entrada no Athena. A saída do Amazon Comprehend está no formato JSON. Você pode usar o AWS Glue para converter JSON em uma estrutura de banco de dados para ser lida pelo QuickSight.
- No console AWS Glue, escolha Rastreadores no painel de navegação.
- Escolha Criar rastreador.
- Insira um nome para o seu rastreador.
- Escolha Próximo.
- Escolha Seus dados já estão mapeados para tabelas do Glue, selecione Ainda não.
- Adicione uma fonte de dados.
- Escolha caminho S3, insira o local da pasta de dados de saída do Amazon Comprehend.
Certifique-se de adicionar o final /
ao nome do caminho. O AWS Glue pesquisará o caminho da pasta para todos os arquivos.
- Selecionar Rastrear todas as subpastas.
- Escolha Adicionar uma fonte de dados S3.
- Crie um novo Gerenciamento de acesso e identidade da AWS (IAM) para o rastreador.
- Insira um nome para a função do IAM.
- Escolha Atualizar a função IAM escolhida para ter certeza de que a nova função está atribuída ao rastreador.
- Escolha Próximo para inserir as informações de saída (banco de dados).
- Escolha Adicionar banco de dados.
- Insira um nome de banco de dados.
- Escolha Próximo.
- Escolha Criar rastreador.
- Escolha Executar rastreador para executar o rastreador.
Você pode monitorar o status do crawler no console do AWS Glue.
Use o Athena para preparar tabelas para o QuickSight
O Athena extrairá dados das tabelas de banco de dados que o rastreador do AWS Glue criou para fornecer um formato que o QuickSight usará para criar a nuvem de palavras.
- No console Athena, escolha Editor de consultas no painel de navegação.
- Escolha Fonte de dados, escolha AWSDataCatalog.
- Escolha banco de dados, escolha o banco de dados que o rastreador criou.
Para criar uma tabela compatível com QuickSight, os dados devem ser desaninhados dos arrays.
- A primeira etapa é criar um banco de dados temporário com os dados relevantes do Amazon Comprehend:
- A afirmação a seguir limita-se a frases de pelo menos três palavras e grupos por frequência das frases:
Use o QuickSight para visualizar a saída
Finalmente, você pode criar a saída visual da análise.
- No console QuickSight, escolha Nova análise.
- Escolha Novo conjunto de dados.
- Escolha Criar um conjunto de dados, escolha De novas fontes de dados.
- Escolha Atena como a fonte de dados.
- Insira um nome para a fonte de dados e escolha Criar fonte de dados.
- Escolha Visualizar.
Certifique-se de que o QuickSight tenha acesso aos buckets S3 onde as tabelas do Athena estão armazenadas.
- No console QuickSight, escolha o ícone do perfil do usuário e escolha Gerenciar QuickSight.
- Escolha Segurança e permissões.
- Procure a seção Acesso QuickSight a serviços AWS.
Ao configurar o acesso aos serviços da AWS, o QuickSight pode acessar os dados nesses serviços. O acesso de usuários e grupos pode ser controlado através das opções.
- Verifique se o Amazon S3 recebeu acesso.
Agora você pode criar a nuvem de palavras.
- Escolha a nuvem de palavras em Tipos visuais.
- Arraste o texto para Agrupar por e conte até Tamanho.
Escolha o menu de opções (três pontos) na visualização para acessar as opções de edição. Por exemplo, você pode querer ocultar o termo “outro” da exibição. Você também pode editar itens como título e subtítulo do seu visual. Para baixar a nuvem de palavras como PDF, escolha Baixar na barra de ferramentas do QuickSight.
limpar
Para evitar incorrer em cobranças contínuas, exclua quaisquer dados e processos não utilizados ou recursos provisionados em seu respectivo console de serviço.
Conclusão
O Amazon Comprehend usa PNL para extrair insights sobre o conteúdo dos documentos. Ele desenvolve insights reconhecendo entidades, frases-chave, linguagem, sentimentos e outros elementos comuns em um documento. Você pode usar o Amazon Comprehend para criar novos produtos com base na compreensão da estrutura dos documentos. Por exemplo, com o Amazon Comprehend, você pode digitalizar um repositório de documentos inteiro em busca de frases-chave.
Esta postagem descreveu as etapas para construir uma nuvem de palavras para visualizar uma análise de conteúdo de texto do Amazon Comprehend usando ferramentas AWS e QuickSight para visualizar os dados.
Vamos manter contato através da seção de comentários!
Sobre os autores
Kris Gedman é líder de vendas no Leste dos EUA para varejo e CPG na Amazon Web Services. Quando não está trabalhando, ele gosta de passar tempo com amigos e familiares, especialmente nos verões em Cape Cod. Kris é um Guerreiro Ninja temporariamente aposentado, mas por enquanto adora assistir e treinar seus dois filhos.
Clark Lefavour é arquiteto de soluções líder na Amazon Web Services, oferecendo suporte a clientes corporativos na região Leste. Clark mora na Nova Inglaterra e gosta de passar o tempo arquitetando receitas na cozinha.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- ChartPrime. Eleve seu jogo de negociação com ChartPrime. Acesse aqui.
- BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :tem
- :é
- :não
- :onde
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Sobre
- ACEITAR
- Acesso
- Conta
- adicionar
- Adição
- AI
- Todos os Produtos
- já
- tb
- Amazon
- Amazon Comprehend
- AmazonQuickSight
- Amazon Web Services
- an
- análise
- analisar
- analisado
- e
- qualquer
- abordagem
- arquitetura
- SOMOS
- AS
- atribuído
- At
- evitar
- AWS
- Cola AWS
- baseado
- basic
- BE
- antes
- começar
- Caixa
- construir
- Prédio
- mas a
- by
- CAN
- acusações
- Escolha
- escolhido
- classificação
- Na nuvem
- treinamento
- comentários
- comum
- compatível
- completar
- compreender
- computador
- cônsul
- Constituição
- conteúdo
- controlado
- convencional
- converter
- convertido
- contando
- cpg
- rastreador
- crio
- criado
- cria
- Atravessar
- personalizadas
- Clientes
- dados,
- banco de dados
- mais profunda
- implantar
- descrito
- desejado
- desenvolve
- discutido
- Ecrã
- exibido
- do
- documento
- INSTITUCIONAIS
- domínio
- download
- facilmente
- Leste
- elementos
- elimina
- permite
- Inglaterra
- Entrar
- entrar
- Empreendimento
- Todo
- entidades
- entidade
- especialmente
- exemplo
- especialistas
- extrato
- família
- Envie o
- Arquivos
- descoberta
- Primeiro nome
- seguinte
- Escolha
- formato
- Frequência
- amigos
- da
- totalmente
- reunir
- gerar
- concedido
- Grupo
- Do grupo
- Ter
- he
- Esconder
- sua
- HORÁRIO
- HTML
- http
- HTTPS
- ÍCONE
- Identidade
- if
- ilustra
- imagem
- in
- INFORMAÇÕES
- entrada
- insights
- para dentro
- IT
- Unid
- Trabalho
- juntar
- jpg
- json
- Chave
- língua
- mais tarde
- líder
- aprendizagem
- mínimo
- Deixar
- Permite
- como
- limites
- carregar
- local
- localização
- ama
- máquina
- aprendizado de máquina
- gerenciados
- muitos
- Menu
- Microsoft
- poder
- ML
- modelo
- modelos
- Monitore
- mais
- muito
- devo
- nome
- natural
- Processamento de linguagem natural
- Navegar
- Navegação
- necessário
- Cria
- Novo
- novos produtos
- ninja
- PNL
- normalmente
- agora
- objeto
- of
- on
- ONE
- contínuo
- aberto
- Opções
- or
- ordem
- original
- Outros
- saída
- próprio
- página
- pão
- caminho
- permanentemente
- Frases
- Lugar
- platão
- Inteligência de Dados Platão
- PlatãoData
- Publique
- poder
- poderoso
- Preparar
- pré-requisitos
- processo
- Processado
- processos
- em processamento
- Produtos
- Perfil
- fornecer
- fornecido
- Leia
- pronto
- reconhecendo
- referir
- região
- Relacionamentos
- relevante
- remanescente
- repositório
- Recursos
- aqueles
- varejo
- Tipo
- Execute
- vendas
- mesmo
- Salvar
- digitalização
- Ponto
- Pesquisar
- Seção
- sentimento
- sentimentos
- serviço
- Serviços
- rede de apoio social
- simples
- solução
- Soluções
- fonte
- específico
- Passar
- Spot
- Declaração
- Status
- ficar
- Passo
- Passos
- armazenamento
- armazenadas
- estrutura
- tal
- Apoiar
- certo
- mesa
- Tire
- tarefas
- temporário
- prazo
- texto
- que
- A
- deles
- temas
- então
- isto
- aqueles
- três
- Através da
- tempo
- Título
- para
- ferramentas
- tocar
- tradicional
- Trailing
- Trem
- transformado
- Tendências
- dois
- tipos
- Em última análise
- para
- compreensão
- não usado
- carregado
- us
- usar
- usava
- Utilizador
- usuários
- usos
- utilização
- verificar
- via
- visualização
- visualizar
- Passo a passo
- queremos
- assistindo
- we
- web
- serviços web
- quando
- qual
- precisarão
- de
- Word
- palavras
- de gestão de documentos
- trabalhar
- ainda
- Vocês
- investimentos
- zefirnet