Amazon SageMaker JumpStart ahora ofrece cuadernos de Amazon Comprehend para clasificación personalizada y detección de entidades personalizadas PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Amazon SageMaker JumpStart ahora ofrece cuadernos Amazon Comprehend para clasificación personalizada y detección de entidades personalizadas

Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza el aprendizaje automático (ML) para descubrir información del texto. Amazon Comprehend proporciona características personalizadas, reconocimiento de entidad personalizada, clasificación personalizaday API preentrenadas como extracción de frases clave, análisis de sentimientos, reconocimiento de entidades y más para que pueda integrar fácilmente NLP en sus aplicaciones.

Recientemente agregamos cuadernos relacionados con Amazon Comprehend en JumpStart de Amazon SageMaker cuadernos que pueden ayudarlo a comenzar rápidamente a usar el clasificador personalizado y el reconocedor de entidades personalizado de Amazon Comprehend. Puede utilizar la clasificación personalizada para organizar documentos en categorías (clases) que defina. El reconocimiento de entidades personalizadas amplía la capacidad de la API de detección de entidades preentrenada de Amazon Comprehend al ayudarlo a identificar los tipos de entidades que son exclusivos de su dominio o negocio que no están en el genérico preestablecido. tipos de entidad.

En esta publicación, le mostramos cómo usar JumpStart para crear modelos personalizados de clasificación y detección de entidades personalizadas de Amazon Comprehend como parte de las necesidades de NLP de su empresa.

Inicio rápido de SageMaker

La Estudio Amazon SageMaker página de destino ofrece la opción de utilizar JumpStart. JumpStart proporciona una forma rápida de comenzar al proporcionar modelos previamente entrenados para una variedad de tipos de problemas. Puede entrenar y ajustar estos modelos. JumpStart también proporciona otros recursos como cuadernos, blogs y videos.

Los cuadernos JumpStart son esencialmente código de muestra que puede usar como punto de partida para comenzar rápidamente. Actualmente, ponemos a su disposición más de 40 cuadernos que puede utilizar tal cual o personalizar según sea necesario. Puede encontrar sus blocs de notas mediante la búsqueda o el panel de vista con pestañas. Después de encontrar el bloc de notas que desea usar, puede importarlo, personalizarlo según sus requisitos y seleccionar la infraestructura y el entorno en los que se ejecutará el bloc de notas.

Comience con las computadoras portátiles JumpStart

Para comenzar con JumpStart, vaya a la Amazon SageMaker consola y abre Studio. Referirse a Introducción a SageMaker Studio para obtener instrucciones sobre cómo comenzar con Studio. Luego complete los siguientes pasos:

  1. En Studio, vaya a la página de inicio de JumpStart y elija Ir a SageMaker JumpStart.

Se le ofrecen varias formas de buscar. Puede usar las pestañas en la parte superior para llegar a lo que desea o usar el cuadro de búsqueda como se muestra en la siguiente captura de pantalla.

  1. Para encontrar cuadernos, vamos a la Cuadernos .

Ir a la pestaña Cuadernos

Al momento de escribir, JumpStart ofrece 47 portátiles. Puede usar filtros para encontrar cuadernos relacionados con Amazon Comprehend.

  1. En Tipo de contenido menú desplegable, elija Notebook.

Como puede ver en la siguiente captura de pantalla, actualmente tenemos dos portátiles Amazon Comprehend.

Encuentra Comprehend Notebooks

En las siguientes secciones, exploramos ambos cuadernos.

Clasificador personalizado de Amazon Comprehend

En este cuaderno, demostramos cómo usar el API de clasificador personalizado para crear un modelo de clasificación de documentos.

El clasificador personalizado es una función de Amazon Comprehend totalmente administrada que le permite crear modelos de clasificación de texto personalizados que son exclusivos de su negocio, incluso si tiene poca o ninguna experiencia en aprendizaje automático. El clasificador personalizado se basa en las capacidades existentes de Amazon Comprehend, que ya están capacitados en decenas de millones de documentos. Abstrae gran parte de la complejidad requerida para construir un modelo de clasificación de PNL. El clasificador personalizado carga e inspecciona automáticamente los datos de entrenamiento, selecciona los algoritmos de ML correctos, entrena su modelo, encuentra los hiperparámetros óptimos, prueba el modelo y proporciona métricas de rendimiento del modelo. El clasificador personalizado de Amazon Comprehend también proporciona una consola fácil de usar para todo el flujo de trabajo de aprendizaje automático, incluido el etiquetado de texto mediante Verdad fundamental de Amazon SageMaker, entrenar e implementar un modelo y visualizar los resultados de la prueba. Con un clasificador personalizado de Amazon Comprehend, puede crear los siguientes modelos:

  • Modelo de clasificación multiclase – En la clasificación multiclase, cada documento puede tener asignada una y sólo una clase. Las clases individuales son mutuamente excluyentes. Por ejemplo, una película puede clasificarse como documental o como de ciencia ficción, pero no ambas a la vez.
  • Modelo de clasificación multietiqueta – En la clasificación de etiquetas múltiples, las clases individuales representan diferentes categorías, pero estas categorías están relacionadas de alguna manera y no se excluyen mutuamente. Como resultado, cada documento tiene asignada al menos una clase, pero puede tener más. Por ejemplo, una película puede ser simplemente una película de acción, o puede ser una película de acción, una película de ciencia ficción y una comedia, todo al mismo tiempo.

Este cuaderno no requiere experiencia en ML para entrenar un modelo con el conjunto de datos de ejemplo o con su propio conjunto de datos específico de la empresa. Puede utilizar las operaciones de la API que se analizan en este cuaderno en sus propias aplicaciones.

Reconocedor de entidades personalizadas de Amazon

En este cuaderno, demostramos cómo usar el API de reconocimiento de entidad personalizada para crear un modelo de reconocimiento de entidades.

El reconocimiento de entidades personalizadas amplía las capacidades de Amazon Comprehend al ayudarlo a identificar sus tipos de entidades específicas que no están en los tipos de entidades genéricas preestablecidas. Esto significa que puede analizar documentos y extraer entidades como códigos de productos o entidades específicas del negocio que se ajusten a sus necesidades particulares.

Crear un reconocedor de entidades personalizado preciso por su cuenta puede ser un proceso complejo, que requiere la preparación de grandes conjuntos de documentos de capacitación anotados manualmente y la selección de los algoritmos y parámetros correctos para la capacitación del modelo. Amazon Comprehend ayuda a reducir la complejidad al proporcionar anotación automática y desarrollo de modelos para crear un modelo de reconocimiento de entidades personalizado.

El cuaderno de ejemplo toma el conjunto de datos de entrenamiento en formato CSV y ejecuta la inferencia contra la entrada de texto. Amazon Comprehend también admite un caso de uso avanzado que toma datos anotados de Ground Truth para capacitación y le permite ejecutar inferencias directamente en archivos PDF y documentos de Word. Para obtener más información, consulte Cree un reconocedor de entidades personalizado para documentos PDF con Amazon Comprehend.

Amazon Comprehend redujo los límites de anotación y le permitió obtener resultados más estables, especialmente para submuestras de pocas tomas. Para obtener más información acerca de esta mejora, consulte Amazon Comprehend anuncia límites de anotación más bajos para el reconocimiento de entidades personalizadas.

Este cuaderno no requiere experiencia en ML para entrenar un modelo con el conjunto de datos de ejemplo o con su propio conjunto de datos específico de la empresa. Puede utilizar las operaciones de la API que se analizan en este cuaderno en sus propias aplicaciones.

Utilice, personalice e implemente cuadernos JumpStart de Amazon Comprehend

Después de seleccionar el cuaderno de Amazon Comprehend que desea usar, elija Importar libreta. Mientras lo hace, puede ver que se inicia el núcleo del cuaderno.

Importar cuaderno

La importación de su notebook activa la selección de la instancia, el kernel y la imagen de la notebook que se utilizan para ejecutar la notebook. Una vez que se aprovisiona la infraestructura predeterminada, puede cambiar las selecciones según sus requisitos.

Bloc de notas en su SageMaker Studio

Ahora, repase el esquema del cuaderno y lea atentamente las secciones de configuración de requisitos previos, configuración de datos, entrenamiento del modelo, ejecución de inferencias y detención del modelo. Siéntase libre de personalizar el código generado según sus necesidades.

En función de sus requisitos, es posible que desee personalizar las siguientes secciones:

  • Permisos – Para una aplicación de producción, recomendamos restringir las políticas de acceso solo a las necesarias para ejecutar la aplicación. Los permisos se pueden restringir en función del caso de uso, como capacitación o inferencia, y nombres de recursos específicos, como un archivo completo. Servicio de almacenamiento simple de Amazon (Amazon S3) nombre de depósito o un patrón de nombre de depósito S3. También debe restringir el acceso al clasificador personalizado o las operaciones de SageMaker solo a aquellas que necesita su aplicación.
  • Datos y ubicación – El cuaderno de ejemplo le proporciona datos de muestra y ubicaciones de S3. Según sus requisitos, puede usar sus propios datos para capacitación, validación y prueba, y usar diferentes ubicaciones de S3 según sea necesario. De manera similar, cuando se crea el modelo, puede optar por mantener el modelo en diferentes ubicaciones. Solo asegúrese de haber proporcionado los permisos correctos para acceder a los depósitos de S3.
  • Pasos de preprocesamiento – Si está utilizando diferentes datos para el entrenamiento y las pruebas, es posible que desee ajustar los pasos de preprocesamiento según sus requisitos.
  • Prueba de datos – Puede traer sus propios datos de inferencia para la prueba.
  • Limpiar – Eliminar los recursos lanzados por la notebook para evitar cargos recurrentes.

Conclusión

En esta publicación, le mostramos cómo usar JumpStart para aprender y acelerar el uso de las API de Amazon Comprehend al hacer que sea conveniente encontrar y ejecutar cuadernos relacionados con Amazon Comprehend desde Studio mientras tiene la opción de modificar el código según sea necesario. Los cuadernos utilizan conjuntos de datos de muestra con anuncios de productos de AWS y artículos de noticias de muestra. Puede usar este cuaderno para aprender a usar las API de Amazon Comprehend en un cuaderno de Python, o puede usarlo como punto de partida y ampliar aún más el código para sus requisitos únicos e implementaciones de producción.

Puede comenzar a usar JumpStart y aprovechar más de 40 cuadernos en varios temas en todas las regiones donde Studio está disponible sin costo adicional.


Acerca de los autores

Autor - Lana Zhanglana zhang es Arquitecto de Soluciones Sr. en el equipo de Servicios de IA de AWS WWSO con experiencia en IA y ML para Moderación y Reconocimiento de Contenido. Le apasiona promover los servicios de IA de AWS y ayudar a los clientes a transformar sus soluciones empresariales.

Autor - Meenakshisundaram ThandavarayanMeenakshisundaram Thandavarayan es un especialista sénior en IA/ML de AWS. Ayuda a las cuentas estratégicas de alta tecnología en su viaje de IA y ML. Es un apasionado de la IA basada en datos.

Autor - Rachna ChadhaRachna chadha es Arquitecto Principal de Soluciones AI/ML en Cuentas Estratégicas en AWS. Rachna es una optimista que cree que el uso ético y responsable de la IA puede mejorar la sociedad en el futuro y generar prosperidad económica y social. En su tiempo libre, a Rachna le gusta pasar tiempo con su familia, hacer caminatas y escuchar música.

Sello de tiempo:

Mas de Aprendizaje automático de AWS