Buscar información en un repositorio de documentos de texto de formato libre puede ser como encontrar una aguja en un pajar. Un enfoque tradicional podría ser utilizar el recuento de palabras u otro análisis básico para analizar documentos, pero con el poder de la inteligencia artificial de Amazon y las herramientas de aprendizaje automático (ML), podemos obtener una comprensión más profunda del contenido.
Amazon Comprehend es un servicio totalmente administrado que utiliza procesamiento de lenguaje natural (NLP) para extraer información sobre el contenido de los documentos. Amazon Comprehend desarrolla conocimientos reconociendo las entidades, frases clave, opiniones, temas y elementos personalizados de un documento. Amazon Comprehend puede crear nuevos conocimientos basados en la comprensión de la estructura del documento y las relaciones entre entidades. Por ejemplo, con Amazon Comprehend, puede escanear un repositorio de documentos completo en busca de frases clave.
Amazon Comprehend permite que los expertos que no son expertos en aprendizaje automático realicen fácilmente tareas que normalmente requieren horas. Amazon Comprehend elimina gran parte del tiempo necesario para limpiar, crear y entrenar su propio modelo. Para crear modelos personalizados más profundos en PNL o cualquier otro dominio, Amazon SageMaker le permite crear, entrenar e implementar modelos en un flujo de trabajo de aprendizaje automático mucho más convencional si lo desea.
En esta publicación, utilizamos Amazon Comprehend y otros servicios de AWS para analizar y extraer nuevos conocimientos de un repositorio de documentos. Entonces, usamos Amazon QuickSight para generar una nube de palabras simple pero poderosa para detectar fácilmente temas o tendencias.
Resumen de la solución
El siguiente diagrama ilustra la arquitectura de la solución.
Para comenzar, recopilamos los datos a analizar y los cargamos en un Servicio de almacenamiento simple de Amazon (Amazon S3) en una cuenta de AWS. En este ejemplo, utilizamos archivos con formato de texto. Luego, Amazon Comprehend analiza los datos. Amazon Comprehend crea una salida con formato JSON que debe transformarse y procesarse en un formato de base de datos utilizando Pegamento AWS. Verificamos los datos y extraemos tablas de datos formateadas específicas utilizando Atenea amazónica para un análisis QuickSight utilizando una nube de palabras. Para obtener más información sobre visualizaciones, consulte Visualización de datos en Amazon QuickSight.
Requisitos previos
Para este tutorial, debe tener los siguientes requisitos previos:
Subir datos a un depósito S3
Cargue sus datos en un depósito S3. Para esta publicación, utilizamos texto con formato UTF-8 de la Constitución de los EE. UU. como archivo de entrada. Entonces estará listo para analizar los datos y crear visualizaciones.
Analizar datos con Amazon Comprehend
Hay muchos tipos de información basada en texto e imágenes que se pueden procesar con Amazon Comprehend. Además de los archivos de texto, puede utilizar Amazon Comprehend para clasificación y reconocimiento de entidades en un solo paso para aceptar archivos de imagen, archivos PDF y archivos de Microsoft Word como entrada, que no se tratan en esta publicación.
Para analizar sus datos, complete los siguientes pasos:
- En la consola de Amazon Comprehend, elija Trabajos de análisis en el panel de navegación.
- Elige Crear trabajo de análisis.
- Introduzca un nombre para su trabajo.
- Tipo de análisis, escoger Frases clave.
- Idiomaescoger Inglés.
- Ubicación de los datos de entrada, especifique la carpeta que creó como requisito previo.
- Ubicación de los datos de salida, especifique la carpeta que creó como requisito previo.
- Elige Crear un rol de IAM.
- Introduzca un sufijo para el nombre del rol.
- Elige Crear trabajo.
El trabajo se ejecutará y el estado se mostrará en la Trabajos de análisis .
Espere a que se complete el trabajo de análisis. Amazon Comprehend creará un archivo y lo colocará en la carpeta de datos de salida que proporcionó. El archivo está en formato .gz o GZIP.
Este archivo debe descargarse y convertirse a un formato no comprimido. Puede descargar un objeto desde la carpeta de datos o el depósito de S3 mediante la consola de Amazon S3.
- En la consola de Amazon S3, seleccione el objeto y elija Descargar. Si desea descargar el objeto a una carpeta específica, elija Descargar en Acciones .
- Después de descargar el archivo a su computadora local, abra el archivo comprimido y guárdelo como un archivo sin comprimir.
El archivo sin comprimir debe cargarse en la carpeta de salida antes de que el rastreador de AWS Glue pueda procesarlo. Para este ejemplo, cargamos el archivo sin comprimir en la misma carpeta de salida que usaremos en pasos posteriores.
- En la consola de Amazon S3, navegue hasta su depósito S3 y elija Subir.
- Elige Añadir archivos.
- Elija los archivos sin comprimir de su computadora local.
- Elige Subir.
Después de cargar el archivo, elimine el archivo comprimido original.
- En la consola de Amazon S3, seleccione el depósito y elija Borrar.
- Confirme el nombre del archivo para eliminarlo permanentemente ingresando el nombre del archivo en el cuadro de texto.
- Elige Eliminar objetos.
Esto dejará un archivo restante en la carpeta de salida: el archivo sin comprimir.
Convierta datos JSON a formato de tabla con AWS Glue
En este paso, preparará la salida de Amazon Comprehend para utilizarla como entrada en Athena. La salida de Amazon Comprehend está en formato JSON. Puede utilizar AWS Glue para convertir JSON en una estructura de base de datos para que QuickSight finalmente lo lea.
- En la consola de AWS Glue, elija Rastreadores en el panel de navegación.
- Elige Crear rastreador.
- Ingrese un nombre para su rastreador.
- Elige Siguiente.
- ¿Sus datos ya están asignados a las tablas de Glue?, seleccione Todavía no.
- Agregue una fuente de datos.
- ruta S3, ingrese la ubicación de la carpeta de datos de salida de Amazon Comprehend.
Asegúrate de agregar el final /
al nombre de la ruta. AWS Glue buscará en la ruta de la carpeta todos los archivos.
- Seleccione Rastrear todas las subcarpetas.
- Elige Agregar una fuente de datos S3.
- Crear un nuevo Gestión de identidades y accesos de AWS (IAM) función del rastreador.
- Introduzca un nombre para la función de IAM.
- Elige Actualizar el rol de IAM elegido para asegurarse de que la nueva función esté asignada al rastreador.
- Elige Siguiente para ingresar la información de salida (base de datos).
- Elige Agregar base de datos.
- Introduzca un nombre de base de datos.
- Elige Siguiente.
- Elige Crear rastreador.
- Elige Ejecutar rastreador para ejecutar el rastreador.
Puede monitorear el estado del rastreador en la consola de AWS Glue.
Utilice Athena para preparar tablas para QuickSight
Athena extraerá datos de las tablas de la base de datos que creó el rastreador AWS Glue para proporcionar un formato que QuickSight utilizará para crear la nube de palabras.
- En la consola de Athena, elija Editor de consultas en el panel de navegación.
- Fuente de datos, escoger Catálogo de datos de AWS.
- Base de datos, elija la base de datos que creó el rastreador.
Para crear una tabla compatible con QuickSight, los datos deben estar anidados de las matrices.
- El primer paso es crear una base de datos temporal con los datos relevantes de Amazon Comprehend:
- La siguiente declaración se limita a frases de al menos tres palabras y grupos por frecuencia de las frases:
Utilice QuickSight para visualizar la salida
Finalmente, puede crear el resultado visual del análisis.
- En la consola de QuickSight, elija Nuevo analisis.
- Elige Nuevo conjunto de datos.
- Crear un conjunto de datos, escoger De nuevas fuentes de datos.
- Elige Athena como fuente de datos.
- Introduzca un nombre para la fuente de datos y elija Crear fuente de datos.
- Elige Visualizar.
Asegúrese de que QuickSight tenga acceso a los depósitos de S3 donde se almacenan las tablas de Athena.
- En la consola QuickSight, elija el icono de perfil de usuario y elija Administrar QuickSight.
- Elige Seguridad y permisos.
- Busque la sección Acceso QuickSight a los servicios de AWS.
Al configurar el acceso a los servicios de AWS, QuickSight puede acceder a los datos de esos servicios. El acceso de usuarios y grupos se puede controlar a través de las opciones.
- Verifique que Amazon S3 tenga acceso.
Ahora puedes crear la nube de palabras.
- Elija la nube de palabras debajo Tipos visuales.
- Arrastra el texto a Agrupar por y contar hasta Tamaño.
Elija el menú de opciones (tres puntos) en la visualización para acceder a las opciones de edición. Por ejemplo, es posible que desee ocultar el término "otro" de la pantalla. También puede editar elementos como el título y el subtítulo de su imagen. Para descargar la nube de palabras como PDF, elija Descargar en la barra de herramientas de QuickSight.
Limpiar
Para evitar incurrir en cargos continuos, elimine todos los datos y procesos o recursos no utilizados proporcionados en su respectiva consola de servicio.
Conclusión
Amazon Comprehend utiliza PNL para extraer información sobre el contenido de los documentos. Desarrolla conocimientos reconociendo las entidades, frases clave, lenguaje, sentimientos y otros elementos comunes en un documento. Puede utilizar Amazon Comprehend para crear nuevos productos basándose en la comprensión de la estructura de los documentos. Por ejemplo, con Amazon Comprehend, puede escanear un repositorio de documentos completo en busca de frases clave.
Esta publicación describió los pasos para crear una nube de palabras para visualizar un análisis de contenido de texto de Amazon Comprehend utilizando herramientas de AWS y QuickSight para visualizar los datos.
¡Mantengámonos en contacto a través de la sección de comentarios!
Acerca de los autores
Kris Gedman es el líder de ventas minoristas y CPG del este de EE. UU. en Amazon Web Services. Cuando no está trabajando, le gusta pasar tiempo con sus amigos y familiares, especialmente los veranos en Cape Cod. Kris es un guerrero ninja temporalmente retirado, pero por ahora le encanta mirar y entrenar a sus dos hijos.
Clark Le Favor es un arquitecto de soluciones líder en Amazon Web Services y brinda soporte a clientes empresariales en la región Este. Clark vive en Nueva Inglaterra y le gusta pasar tiempo diseñando recetas en la cocina.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
- Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
- Fuente: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :posee
- :es
- :no
- :dónde
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Nuestra Empresa
- Aceptar
- de la máquina
- Mi Cuenta
- add
- adición
- AI
- Todos
- ya haya utilizado
- también
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- análisis
- analizar
- analizo
- y
- cualquier
- enfoque
- arquitectura
- somos
- AS
- asigna
- At
- evitar
- AWS
- Pegamento AWS
- basado
- básica
- BE
- antes
- comenzar
- Box
- build
- Construir la
- pero
- by
- PUEDEN
- cargos
- Elige
- elegido
- clasificación
- Soluciones
- ENTRENAMIENTO
- comentarios
- Algunos
- compatible
- completar
- comprender
- computadora
- Consola
- Constitución
- contenido
- controlado
- convencional
- convertir
- convertido
- contando
- cpg
- rastreador
- Para crear
- creado
- crea
- Cruz
- personalizado
- Clientes
- datos
- Base de datos
- más profundo
- desplegar
- descrito
- deseado
- desarrolla el
- discutido
- Pantalla
- aquí
- do
- documento
- documentos
- dominio
- descargar
- pasan fácilmente
- Este
- elementos
- elimina
- permite
- England
- Participar
- que entran a los
- Empresa
- Todo
- entidades
- entidad
- especialmente
- ejemplo
- expertos
- extraerlos
- familia
- Archive
- archivos
- la búsqueda de
- Nombre
- siguiendo
- formato
- Frecuencia
- amigos
- Desde
- completamente
- reunir
- generar
- concedido
- Grupo procesos
- Grupo
- Tienen
- he
- Esconder
- su
- HORAS
- HTML
- http
- HTTPS
- ICON
- Identidad
- if
- ilustra
- imagen
- in
- información
- Las opciones de entrada
- Insights
- dentro
- IT
- artículos
- Trabajos
- únete
- jpg
- json
- Clave
- idioma
- luego
- líder
- aprendizaje
- menos
- Abandonar
- Permíteme
- como
- límites
- carga
- local
- Ubicación
- ama
- máquina
- máquina de aprendizaje
- gestionado
- muchos
- Menú
- Microsoft
- podría
- ML
- modelo
- modelos
- Monitorear
- más,
- mucho más
- debe
- nombre
- Natural
- Procesamiento natural del lenguaje
- Navegar
- Navegación
- Nuevo
- nuevos diseños y productos
- Ninja
- nlp
- normalmente
- ahora
- objeto
- of
- on
- ONE
- en marcha
- habiertos
- Opciones
- or
- solicite
- reconocida por
- Otro
- salida
- EL DESARROLLADOR
- página
- cristal
- camino
- (PDF)
- permanentemente
- frases
- Colocar
- Platón
- Inteligencia de datos de Platón
- PlatónDatos
- Publicación
- industria
- poderoso
- Preparar
- requisitos previos
- Procesado
- en costes
- tratamiento
- Productos
- Mi Perfil
- proporcionar
- previsto
- Leer
- ready
- reconociendo
- remitir
- región
- Relaciones
- restante
- repositorio
- Recursos
- aquellos
- el comercio minorista
- Función
- Ejecutar
- ventas
- mismo
- Guardar
- escanear
- Puntuación
- Buscar
- Sección
- sentimiento
- sentimientos
- de coches
- Servicios
- tienes
- sencillos
- a medida
- Soluciones
- Fuente
- soluciones y
- Gastos
- Spot
- Posicionamiento
- Estado
- quedarse
- paso
- pasos
- STORAGE
- almacenados
- estructura
- tal
- Apoyar
- seguro
- mesa
- ¡Prepárate!
- tareas
- temporal
- término
- texto
- esa
- La
- su
- temas
- luego
- así
- aquellos
- Tres
- A través de esta formación, el personal docente y administrativo de escuelas y universidades estará preparado para manejar los recursos disponibles que derivan de la diversidad cultural de sus estudiantes. Además, un mejor y mayor entendimiento sobre estas diferencias y similitudes culturales permitirá alcanzar los objetivos de inclusión previstos.
- equipo
- Título
- a
- contacto
- tradicional
- arrastrando
- Entrenar
- transformado
- Tendencias
- dos
- tipos
- Finalmente, a veces
- bajo
- comprensión
- no usado
- subido
- us
- utilizan el
- usado
- Usuario
- usuarios
- usos
- usando
- verificar
- vía
- visualización
- visualizar
- tutorial
- quieres
- ver
- we
- web
- servicios web
- cuando
- que
- seguirá
- Palabra
- palabras
- flujo de trabajo
- trabajando
- aún
- Usted
- tú
- zephyrnet