Modulate hace que el chat de voz sea más seguro y reduce los costos de infraestructura en un factor de 5 con instancias Amazon EC2 G5g

Reeditado por Platón

seguidores: 0

Esta es una publicación invitada de Carter Huffman, CTO y cofundador de Modulate.

Modular es una empresa nueva con sede en Boston que tiene la misión de crear experiencias de juego en línea más ricas, seguras e inclusivas para todos. Somos un equipo de expertos en audio, jugadores, aliados y futuristas de clase mundial que están ansiosos por construir un mejor mundo en línea y hacer que el chat de voz sea más seguro para todos los jugadores. Estamos haciendo precisamente eso con ToxMod, nuestra plataforma proactiva de moderación nativa de voz. Los editores y desarrolladores de juegos usan ToxMod para moderar de forma proactiva el chat de voz en sus juegos de acuerdo con sus propias políticas de contenido, códigos de conducta y pautas de la comunidad.

Elegimos AWS por la escalabilidad y la elasticidad que necesitaba nuestra aplicación, así como por el excelente servicio al cliente que ofrece. Usando Nube informática elástica de Amazon (Amazon EC2) Instancias G5g contar con GPU NVIDIA T4G Tensor Core como infraestructura para ToxMod nos ha ayudado a reducir nuestros costos en un factor de 5 (en comparación con las instancias G4dn) al mismo tiempo que logramos nuestros objetivos de rendimiento y latencia. Como una startup ágil, podemos reinvertir estos ahorros de costos en una mayor innovación para ayudar a cumplir nuestra misión. En esta publicación, cubrimos nuestro caso de uso, desafíos y caminos alternativos, y una breve descripción general de nuestra solución con AWS.

El metaverso cambiante y la necesidad de ToxMod

Modulate hace que el chat de voz sea más seguro y reduce los costos de infraestructura en un factor de 5 con las instancias Amazon EC2 G5g PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Los juegos en línea modernos y las plataformas de metaverso se han vuelto mucho más sociales que sus predecesores. Históricamente, los juegos se han centrado en brindar una experiencia curada específica a los jugadores. Hoy en día, han evolucionado para ser más un espacio comunitario, donde los jugadores y sus amigos pueden reunirse y elegir una variedad de experiencias para participar. Con esta evolución, la toxicidad y el abuso verbal a menudo pueden arruinar experiencias en línea que de otro modo serían excelentes.

De hecho, según un estudio reciente del desplegable Anti-Defamation League, la toxicidad en los juegos es peor que nunca: la exposición a las ideologías de la supremacía blanca en los juegos se duplicó con creces en 2022. Más de las tres cuartas partes de los jugadores adultos informaron haber sufrido acoso severo en los juegos en línea. Más de 17 millones de jugadores jóvenes estuvieron expuestos a daños y acoso el año pasado. El problema solo está empeorando, y con próximas regulaciones que requerirá que los estudios asuman un papel más activo en la gestión e informe sobre la toxicidad, la necesidad de una moderación de voz proactiva es más urgente que nunca.

ToxMod ayuda a los editores y plataformas de juegos a moderar de manera proactiva su chat de voz de acuerdo con sus propias políticas y pautas, manteniendo a sus comunidades seguras y positivas. ToxMod ejecuta una serie de modelos de aprendizaje automático (ML) que analizan los aspectos emocionales, textuales y conversacionales de las conversaciones de voz para determinar si hay alguna violación de las políticas de contenido del editor o la plataforma. Las infracciones se señalan a moderadores humanos que pueden tomar medidas contra los malos actores. Nuestros modelos de ML incluyen detección de emociones, transcripción y análisis conversacional impulsado por NLP que categoriza las infracciones y proporciona una puntuación de clasificación para determinar qué tan seguro está de que se ha producido una infracción. Estas detecciones ocurren en tiempo real y permiten a los editores de juegos moderar de manera proactiva sus comunidades a medida que se produce la toxicidad, lo que evita que se produzcan daños a los jugadores y que se intensifiquen las conversaciones peligrosas.

Modulate hace que el chat de voz sea más seguro y reduce los costos de infraestructura en un factor de 5 con las instancias Amazon EC2 G5g PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Consideraciones económicas y técnicas

Tenemos dos tipos de limitaciones: económicas y técnicas. En el aspecto económico, nuestro problema es la demanda variable y la escala incierta de la infraestructura informática requerida. En la industria de los juegos, los desarrolladores y editores lanzan juegos con márgenes mínimos y solo aumentan a medida que el juego se vuelve más exitoso. Ese éxito puede significar que nuestros clientes más grandes están procesando millones de horas de chat de voz por mes. Los costos de ToxMod aumentan con la cantidad de horas de audio procesado, que es muy dinámico según el comportamiento de los jugadores y los factores externos que afectan la popularidad de un juego. Operar nuestros propios servidores para potenciar ToxMod es prohibitivamente costoso en términos de costo y ancho de banda del equipo. Los servidores locales carecen de esta escalabilidad y, a menudo, se subutilizan, lo que significa que la opción correcta para ToxMod es la nube. Con AWS, podemos escalar dinámicamente para satisfacer la demanda de nuestros clientes mientras mantenemos los costos al mínimo.

En el aspecto técnico, al igual que con la creación de cualquier aplicación de proceso de voz, debemos lograr un equilibrio entre la latencia y el rendimiento. Algunos de nuestros usuarios quieren tener la capacidad de abordar situaciones que puedan surgir en sus comunidades dentro de uno o dos minutos de que sucedan. Para cumplir con nuestros presupuestos de latencia, vamos al nivel más bajo posible. Tenemos mucha experiencia con dispositivos ARM porque gran parte del código base de ToxMod se ejecuta en dispositivos del lado del cliente que a menudo se ejecutan en un procesador ARM. Las instancias EC2 G5g con tecnología de GPU NVIDIA T4G Tensor Core y con Gravitón2 de AWS Los procesadores encajaban naturalmente con algunos de los códigos de inferencia de redes neuronales personalizados que se habían desarrollado para el uso del lado del cliente.

Instancias EC2 G5g para rentabilidad y confiabilidad de AWS

Con estas consideraciones, decidimos utilizar instancias G5g como infraestructura para ToxMod porque son rentables y brindan entornos familiares para probar e implementar nuestros modelos. Esta elección finalmente nos ayudó a reducir nuestros costos por un factor de 5 (en comparación con las instancias de G4dn). Para poder iterar rápidamente, necesitábamos un entorno informático que fuera familiar para nuestros científicos de datos e ingenieros de ML. Pudimos obtener la imagen de nuestra máquina con todos los controladores, bibliotecas y variables de entorno relevantes ejecutándose en instancias G5g en un día. Comenzamos con instancias G4dn y nuestras pruebas iniciales en G5g nos permitieron reducir nuestros costos en un 40 %. Muchos de nuestros modelos más caros de ejecutar están vinculados a la GPU, por lo que pudimos optimizar aún más nuestros costos ajustando el tamaño de la instancia a un tamaño que nos permitió maximizar la utilización de la CPU sin dejar de tener acceso a una sola GPU.

Más allá de que las instancias G5g funcionan particularmente bien para nuestra configuración, sabíamos que podíamos contar con el soporte técnico y la administración de cuentas de AWS para ayudarnos a resolver problemas rápidamente y mantener un tiempo de actividad extremadamente alto mientras experimentamos una carga muy variable. Cuando comenzamos, gastábamos menos de dos dígitos por mes y, sin embargo, una persona real se acercó para conocer nuestro caso de uso y un equipo de personas trabajó con nosotros para hacer que nuestra aplicación no solo funcionara, sino que funcionara al máximo costo. manera eficiente.

Resumen de nuestra solución

La solución de ToxMod comienza con la ingestión de audio, que se logra mediante la integración de nuestro SDK en la infraestructura de chat de voz de un juego o plataforma. El uso de un SDK (a través de una API u otra interfaz) es fundamental porque cuando procesa audio, debe ser extremadamente eficiente en cuanto a recursos. Para cualquier flujo de audio único, debemos procesarlo y devolverlo al resto del sistema rápidamente o los clientes encontrarán fallas en el audio, que es algo que queremos evitar a toda costa. Muchas cosas pueden causar fallas, incluida la asignación de memoria, la recolección de basura y las llamadas al sistema, por lo que hemos desarrollado el SDK de ToxMod para garantizar el procesamiento de audio más fluido posible.

Desde el SDK, los chats de voz se codifican en búferes cortos y se envían a través de Internet. En el lado de la ingesta, almacenamos un par de segundos de audio e intentamos encontrar puntos de interrupción naturales en las conversaciones de voz antes de enviar el paquete a la nube de AWS, donde guardamos los datos entrantes a través de AWS Lambda funciones A partir de ahí, el análisis de la conversación de audio se realiza mediante el procesamiento en instancias G5g que ejecutan nuestra variedad de modelos de audio ML. Minimizamos los gastos generales agrupando todos los paquetes que recibimos y enviándolos a las GPU en las instancias G5g. Las instancias G5g se alimentan a través de colas de clips de audio para procesar, que hemos conectado a grupos de escalado automático que escalan hacia arriba o hacia abajo de manera eficiente a medida que el tráfico varía a lo largo del día.

Mirando hacia el futuro

ToxMod está diseñado para estudios de todos los tamaños, desde pequeños equipos de desarrollo independientes hasta AAA, desarrolladores y editores de varios equipos. Hoy, estamos mejor posicionados que nunca para brindar el nivel de soporte, desarrollo de productos y características sólidas que los equipos empresariales en los estudios más grandes esperan de sus socios de software. Con soporte multilingüe para 18 idiomas, soporte de nivel empresarial las 24 horas del día, los 7 días de la semana, licencias de inquilino único disponibles para estudios con múltiples juegos y el soporte de la infraestructura ML escalable que proporciona AWS, estamos aquí para ayudar a los estudios AAA a hacer que el chat de voz sea seguro. para sus jugadores.

Si desea obtener más información sobre cómo las instancias EC2 G5g pueden ayudarlo a implementar de manera rentable sus cargas de trabajo de ML, consulte Instancias Amazon EC2 G5g.

Acerca de los autores

carter huffman es el CTO y cofundador de Modulate, una startup de tecnología de voz que tiene como objetivo combatir la toxicidad en línea y mejorar la comunicación de voz en los juegos. Tiene experiencia en física, aprendizaje automático y análisis de datos, y anteriormente trabajó en el Laboratorio de Propulsión a Chorro de la NASA. Le apasiona comprender y manipular el habla humana utilizando redes neuronales profundas. Se graduó del MIT con una Licenciatura en Ciencias en Física.

Modulate hace que el chat de voz sea más seguro y reduce los costos de infraestructura en un factor de 5 con las instancias Amazon EC2 G5g PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Sruti Koparkar es gerente sénior de marketing de productos en AWS. Ayuda a los clientes a explorar, evaluar y adoptar la infraestructura informática acelerada de EC2 para sus necesidades de aprendizaje automático.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/modulate-makes-voice-chat-safer-while-reducing-infrastructure-costs-by-a-factor-of-5-with-amazon-ec2-g5g-instances/

Sello de tiempo: Abril 12, 2023

Sello de tiempo: 16 de diciembre de 2022

Reeditado por Platón

Amazon SageMaker JumpStart ahora ofrece cuadernos Amazon Comprehend para clasificación personalizada y detección de entidades personalizadas

Mejore la precisión de la transcripción de las llamadas entre clientes y agentes con vocabulario personalizado en Amazon Transcribe

Descubra el conocimiento en los espacios de trabajo de Slack con la búsqueda inteligente utilizando el conector Amazon Kendra Slack

Analice y visualice eventos multicámara con Amazon SageMaker Studio Lab

Automatización de la generación de descripciones de productos con Amazon Bedrock | Servicios web de Amazon

Habilite el cifrado completamente homomórfico con puntos finales de Amazon SageMaker para obtener inferencias seguras en tiempo real

Presentamos tres nuevas instancias Amazon EC2 basadas en GPU NVIDIA | Servicios web de Amazon

Amazon SageMaker Automatic Model Tuning ahora elige automáticamente las configuraciones de ajuste para mejorar la usabilidad y la rentabilidad | Servicios web de Amazon

Entrene e implemente modelos de aprendizaje automático en un entorno multinube mediante Amazon SageMaker | Servicios web de Amazon

Experimentos de Amazon SageMaker de próxima generación: organice, rastree y compare sus capacitaciones de aprendizaje automático a escala

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta