Patrones de diseño de moderación de contenido con servicios de IA administrados por AWS

Reeditado por Platón

seguidores: 0

El contenido generado por el usuario (UGC) crece exponencialmente, así como los requisitos y el costo para mantener el contenido y las comunidades en línea seguras y en cumplimiento. Las plataformas web y móviles modernas impulsan las empresas y fomentan la participación de los usuarios a través de funciones sociales, desde empresas emergentes hasta grandes organizaciones. Los miembros de la comunidad en línea esperan experiencias seguras e inclusivas en las que puedan consumir y contribuir libremente con imágenes, videos, texto y audio. El volumen, la variedad y la complejidad cada vez mayores de UGC hacen que los flujos de trabajo tradicionales de moderación humana sean difíciles de escalar para proteger a los usuarios. Estas limitaciones fuerzan a los clientes a procesos de mitigación ineficientes, costosos y reactivos que conllevan un riesgo innecesario para los usuarios y el negocio. El resultado es una experiencia comunitaria pobre, dañina y no inclusiva que desconecta a los usuarios, impactando negativamente en la comunidad y los objetivos comerciales.

La solución son flujos de trabajo de moderación de contenido escalables que se basan en tecnologías de inteligencia artificial (AI), aprendizaje automático (ML), aprendizaje profundo (DL) y procesamiento de lenguaje natural (NLP). Estas construcciones traducen, transcriben, reconocen, detectan, enmascaran, redactan y atraen estratégicamente el talento humano al flujo de trabajo de moderación, para ejecutar las acciones necesarias para mantener a los usuarios seguros y comprometidos mientras aumentan la precisión y la eficiencia del proceso, y reducen los costos operativos.

Esta publicación revisa cómo crear flujos de trabajo de moderación de contenido utilizando los servicios de IA de AWS. Para obtener más información sobre las necesidades comerciales, el impacto y las reducciones de costos que la moderación automatizada de contenido brinda a las industrias de redes sociales, juegos, comercio electrónico y publicidad, consulte Utilice los servicios de IA de AWS para automatizar la moderación y el cumplimiento del contenido.

Resumen de la solución

¡No necesita experiencia en ML para implementar estos flujos de trabajo y puede adaptar estos patrones a sus necesidades comerciales específicas! AWS ofrece estas capacidades a través de servicios completamente administrados que eliminan la complejidad operativa y el trabajo pesado indiferenciado, y sin un equipo de ciencia de datos.

En esta publicación, demostramos cómo moderar de manera eficiente los espacios donde los clientes discuten y revisan productos usando texto, audio, imágenes, video e incluso archivos PDF. El siguiente diagrama ilustra la arquitectura de la solución.

Requisitos previos

De forma predeterminada, estos patrones demuestran una metodología sin servidor, en la que solo paga por lo que usa. Continúa pagando por los recursos informáticos, como AWS Fargate contenedores y almacenamiento, tales como Servicio de almacenamiento simple de Amazon (Amazon S3), hasta que elimine esos recursos. Los servicios de IA de AWS discutidos también siguen un modelo de precios de consumo por operación.

Los entornos que no son de producción pueden probar cada uno de estos patrones dentro de la capa gratuita, asumiendo la elegibilidad de su cuenta.

Texto sin formato moderado

Primero, debe implementar la moderación de contenido para texto sin formato. Este procedimiento sirve como base para tipos de medios más sofisticados e implica dos pasos de alto nivel:

Traduce el texto.
Analiza el texto.

Los clientes globales quieren colaborar con las plataformas sociales en su idioma nativo. Cumplir con esta expectativa puede agregar complejidad porque los equipos de diseño deben construir un flujo de trabajo o pasos para cada idioma. En su lugar, puede utilizar Traductor de Amazon para convertir texto a más de 70 idiomas y variantes en más de 15 regiones. Esta capacidad le permite escribir reglas de análisis para un solo idioma y aplicar esas reglas en toda la comunidad global en línea.

Amazon Translate es un servicio de traducción automática neuronal que ofrece una traducción de idiomas rápida, de alta calidad, asequible y personalizable. Puede integrarlo en sus flujos de trabajo para detectar el idioma dominante y traduce el texto. El siguiente diagrama ilustra el flujo de trabajo.

Máquina de estado para normalizar texto

Las API funcionan de la siguiente manera:

El Detectar idioma dominante API determina el idioma dominante del texto de entrada. Para obtener una lista de idiomas que Amazon Comprehend puede detectar, consulte Lengua dominante.
El Traducir texto La API traduce el texto de entrada del idioma de origen al idioma de destino con opción enmascaramiento de blasfemias. Para obtener una lista de los idiomas y códigos de idioma disponibles, consulte Idiomas admitidos y códigos de idioma.
El InicioEjecución y Iniciar ejecución de sincronización Las API inician un Funciones de paso de AWS máquina estatal.

A continuación, puede utilizar NLP para descubrir conexiones en el texto, como descubrir frases clave, analizar sentimientos y detectar información de identificación personal (PII). Amazon Comprehend Las API extraen esos valiosos conocimientos y los pasan a controladores de funciones personalizados.

Ejecutar esos controladores dentro AWS Lambda funciones escala elásticamente su código sin pensar en servidores o clústeres. Alternativamente, puede procesar información de Amazon Comprehend con patrones de arquitectura de microservicios. Independientemente del tiempo de ejecución, su código se enfoca en usar los resultados, no en analizar el texto.

El siguiente diagrama ilustra el flujo de trabajo.

Máquina de estado para moderar texto

Las funciones de Lambda interactúan con las siguientes API:

El Detectar entidades La API descubre y agrupa los nombres de objetos del mundo real, como personas y lugares en el texto. Puede usar un vocabulario personalizado para redactar tipos de entidad inapropiados y específicos del negocio.
El Detectar Sentimiento API identifica el sentimiento general del texto como positivo, negativo o neutral. Puede entrenar clasificadores personalizados para reconocer las situaciones de interés específicas de la industria y extraer el significado conceptual del texto.
El Detectar PIEEntidades La API identifica la PII en su texto, como la dirección, el número de cuenta bancaria o el número de teléfono. La salida contiene el tipo de entidad PII y su ubicación correspondiente.

Archivos de audio moderados

Para moderar archivos de audio, debe transcribir el archivo a texto y luego analizarlo. Este proceso tiene dos variantes dependiendo de si está procesando archivos individuales (sincrónicos) o transmisiones de audio en vivo (asincrónicos). Los flujos de trabajo sincrónicos son ideales para el procesamiento por lotes, donde la persona que llama recibe una respuesta completa. Por el contrario, las transmisiones de audio requieren un muestreo periódico con múltiples resultados de transcripción.

Amazon Transcribe es un servicio de reconocimiento de voz automático que utiliza modelos ML para convertir audio en texto. Puede integrarlo en flujos de trabajo sincrónicos iniciar un trabajo de transcripción y periódicamente consultando el estado del trabajo. Una vez que se completa el trabajo, puede analizar la salida utilizando el flujo de trabajo de moderación de texto sin formato del paso anterior.

El siguiente diagrama ilustra el flujo de trabajo.

Máquina de estado para transcribir archivos de audio

Las API funcionan de la siguiente manera:

El Iniciar trabajo de transcripción API inicia un trabajo asincrónico para transcribir voz a texto.
El ObtenerTranscripciónTrabajo La API devuelve información sobre un trabajo de transcripción. Para ver el estado del trabajo, consulte la TranscriptionJobStatus campo. Si la propiedad de estado es COMPLETED, puede encontrar los resultados en la ubicación especificada en el TranscriptFileUri campo. Si habilita la redacción de contenido, la transcripción redactada aparece en RedactedTranscriptFileUri.

Las transmisiones de audio en vivo necesitan un patrón diferente que admita un modelo de entrega en tiempo real. La transmisión puede incluir medios pregrabados, como películas, música y podcasts, y medios en tiempo real, como transmisiones de noticias en vivo. Puede transcribir fragmentos de audio instantáneamente usando Transmisión de Amazon Transcribe sobre los protocolos HTTP/2 y WebSockets. Después de publicar un fragmento en el servicio, recibe uno o más objetos de resultado de transcripción describiendo los segmentos de transcripción parcial y completa. Los segmentos que requieren moderación pueden reutilizar el flujo de trabajo de texto sin formato de la sección anterior. El siguiente diagrama ilustra este proceso.

Diagrama de flujo para moderar transmisiones de audio en tiempo real

El InicioStreamingTranscripción La API inicia una transmisión HTTP/2 bidireccional donde el audio se transmite a Amazon Transcribe, transmitiendo los resultados de la transcripción a su aplicación.

Imágenes y fotos moderadas

Moderar imágenes requiere detectar contenido inapropiado, no deseado u ofensivo que contenga desnudez, sugestión, violencia y otras categorías del contenido de imágenes y fotos.

Reconocimiento de amazonas le permite optimizar o automatizar sus flujos de trabajo de moderación de imágenes y videos sin necesidad de experiencia en aprendizaje automático. Amazon Rekognition devuelve una taxonomía jerárquica de etiquetas relacionadas con la moderación. Esta información facilita la definición de reglas comerciales granulares según sus estándares y prácticas, la seguridad del usuario y las pautas de cumplimiento. No se requiere experiencia en ML para usar estas capacidades. Amazon Rekognition puede detectar y leer el texto de una imagen y devolver cuadros delimitadores para cada palabra encontrada. Amazon Rekognition admite la detección de texto escrito en inglés, árabe, ruso, alemán, francés, italiano, portugués y español.

Puede utilizar las predicciones de la máquina para automatizar tareas de moderación específicas por completo. Esta capacidad permite a los moderadores humanos centrarse en trabajos de orden superior. Además, Amazon Rekognition puede revisar rápidamente millones de imágenes o miles de videos usando ML y marcar el subconjunto de activos que requieren una acción adicional. El prefiltrado ayuda a proporcionar una cobertura de moderación integral pero rentable al mismo tiempo que reduce la cantidad de contenido que moderan los equipos humanos.

El siguiente diagrama ilustra el flujo de trabajo.

Máquina de estados para moderar imágenes

Las API funcionan de la siguiente manera:

El DetectModerationLabelsDetectModerationLabels La API detecta contenido no seguro en imágenes con formato JPEG o PNG especificadas. Use DetectModerationLabels para moderar imágenes según sus requisitos. Por ejemplo, es posible que desee filtrar imágenes que contengan desnudos, pero no imágenes con contenido sugerente.
El Detectar texto La API detecta texto en la imagen de entrada y lo convierte en texto legible por máquina.

Documentos de texto enriquecido moderado

A continuación, puede utilizar Amazon Textil para extraer texto escrito a mano y datos de documentos escaneados. Este proceso comienza con la invocación del InicioAnálisisDocumento acción para analizar archivos de Microsoft Word y Adobe PDF. Puede controlar el progreso del trabajo con el ObtenerAnálisisDocumento acción.

El resultado del análisis especifica cada página, párrafo, tabla y par clave-valor descubiertos en el documento. Por ejemplo, suponga que un proveedor de atención médica debe enmascarar los nombres de los pacientes solo en el campo de descripción del reclamo. En ese caso, el informe de análisis puede impulsar canalizaciones inteligentes de procesamiento de documentos que moderan y redactan el campo de datos específico. El siguiente diagrama ilustra la canalización.

Máquina de estado para moderar documentos de texto enriquecido

Las API funcionan de la siguiente manera:

El InicioAnálisisDocumento La API inicia el análisis asíncrono de un documento de entrada para las relaciones entre los elementos detectados, como pares clave-valor, tablas y elementos de selección.
El ObtenerAnálisisDocumento La API obtiene los resultados de una operación asíncrona de Amazon Textract que analiza el texto en un documento

Vídeos moderados

Un enfoque estándar para la moderación de contenido de video es a través de un procedimiento de muestreo de fotogramas. Muchos casos de uso no necesitan verificar cada cuadro, y seleccionar uno cada 15 a 30 segundos es suficiente. Los cuadros de video muestreados pueden reutilizar la máquina de estado para moderar imágenes de la sección anterior. De manera similar, el proceso existente para moderar el audio puede admitir el contenido audible del archivo. El siguiente diagrama ilustra este flujo de trabajo.

Máquina de estado para moderar archivos de video

El invocar La API ejecuta una función Lambda y espera la respuesta de forma sincrónica.

Supongamos que el archivo multimedia es una película completa con varias escenas. En ese caso, puede utilizar el API de segmentos de Amazon Rekognition, una API compuesta para detectar señales técnicas o detección de disparos. A continuación, puede usar estas compensaciones de tiempo para procesar en paralelo cada segmento con el patrón de moderación de video anterior, como se muestra en el siguiente diagrama.

Máquina de estado para moderar documentos de texto enriquecido

Las API funcionan de la siguiente manera:

El InicioSegmentaciónDetección La API inicia la detección asincrónica de la detección de segmentos en un video almacenado
El Obtener detección de segmentación La API obtiene los resultados de detección de segmentos de un análisis de Amazon Rekognition Video iniciado por la API StartSegmentDetection

Extraer fotogramas individuales de la película no requiere recuperar el objeto de Amazon S3 varias veces. Una solución ingenua implica leer el video en la memoria y paginar hasta el final. Este patrón es ideal para clips cortos y donde las evaluaciones no son sensibles al tiempo.

Otra estrategia consiste en mover el archivo una vez para Sistema de archivos elástico de Amazon (Amazon EFS), un sistema de archivos compartido, escalable y completamente administrado para otros servicios de AWS, como Lambda. Con Amazon EFS para Lambda, puede distribuir datos de manera eficiente entre las invocaciones de funciones. Cada invocación maneja eficientemente una pequeña porción, desbloqueando el potencial para un procesamiento paralelo masivo y tiempos de procesamiento más rápidos.

Limpiar

Después de experimentar con los métodos de esta publicación, debe eliminar cualquier contenido en los depósitos de S3 para evitar costos futuros. Si implementó estos patrones con recursos informáticos aprovisionados como Nube informática elástica de Amazon (Amazon EC2) o Servicio de contenedor elástico de Amazon (Amazon ECS), debe detener esas instancias para evitar cargos adicionales.

Conclusión

El contenido generado por los usuarios y su valor para las organizaciones de juegos, redes sociales, comercio electrónico y servicios financieros y de salud seguirán creciendo. Aún así, las nuevas empresas y las grandes organizaciones necesitan crear procesos de moderación eficientes para proteger a los usuarios, la información y el negocio, al tiempo que reducen los costos operativos. Esta solución demuestra cómo las tecnologías de IA, ML y NLP pueden ayudarlo de manera eficiente a moderar contenido a escala. ¡Puede personalizar los servicios de IA de AWS para abordar sus necesidades específicas de moderación! Estas capacidades totalmente administradas eliminan las complejidades operativas. Esa flexibilidad integra estratégicamente conocimientos contextuales y talento humano en sus procesos de moderación.

Para obtener información adicional, recursos y comenzar de forma gratuita hoy, visite el Página de inicio de moderación de contenido de AWS.

Acerca de los autores

Nate Bachmeier es un arquitecto sénior de soluciones de AWS que explora de forma nómada Nueva York, una integración en la nube a la vez. Se especializa en la migración y modernización de aplicaciones. Además de esto, Nate es estudiante de tiempo completo y tiene dos hijos.

carnero pathangi es Arquitecto de Soluciones en Amazon Web Services en el Área de la Bahía de San Francisco. Ha ayudado a clientes de los sectores de agricultura, seguros, banca, comercio minorista, salud y ciencias de la vida, hospitalidad y alta tecnología a administrar sus negocios con éxito en la nube de AWS. Se especializa en bases de datos, análisis y aprendizaje automático.

Baños de agua es un arquitecto de soluciones en AWS que se enfoca en AI/ML. Le apasiona ayudar a los clientes a innovar y lograr sus objetivos comerciales utilizando inteligencia artificial y aprendizaje automático. En su tiempo libre, a Roop le gusta leer y caminar.

Sello de tiempo: 9 de mayo de 2022

Sello de tiempo: 25 de jul, 2023

Reeditado por Platón

Habilite la toma de decisiones inteligente con Amazon SageMaker Canvas y Amazon QuickSight

Integre ServiceNow con el chatbot de Amazon Lex para el procesamiento de tickets

Mejore el razonamiento de múltiples saltos en los LLM aprendiendo de la retroalimentación humana enriquecida

Implemente BLOOM-176B y OPT-30B en Amazon SageMaker con inferencia de modelos grandes Contenedores de aprendizaje profundo y DeepSpeed

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta