Modulate torna o bate-papo por voz mais seguro e reduz os custos de infraestrutura em um fator de 5 com instâncias G2g do Amazon EC5

Republicado por Platão

seguidores: 0

Esta é uma postagem de convidado de Carter Huffman, CTO e cofundador da Modulate.

Modular é uma startup sediada em Boston com a missão de criar experiências de jogos online mais ricas, seguras e inclusivas para todos. Somos uma equipe de especialistas em áudio de classe mundial, jogadores, aliados e futuristas que estão ansiosos para construir um mundo online melhor e tornar o bate-papo por voz mais seguro para todos os jogadores. Estamos fazendo exatamente isso com o ToxMod, nossa plataforma proativa de moderação nativa de voz. Os editores e desenvolvedores de jogos usam o ToxMod para moderar proativamente o bate-papo por voz em seus jogos, de acordo com suas próprias políticas de conteúdo, códigos de conduta e diretrizes da comunidade.

Escolhemos a AWS pela escalabilidade e elasticidade de que nosso aplicativo precisava, bem como pelo excelente atendimento ao cliente que oferece. Usando Amazon Elastic Compute Nuvem (Amazon EC2) instâncias G5g apresentar GPUs NVIDIA T4G Tensor Core como infraestrutura para ToxMod nos ajudou a reduzir nossos custos em um fator de 5 (em comparação com instâncias G4dn) enquanto atingíamos nossas metas de taxa de transferência e latência. Como uma startup ágil, podemos reinvestir essas economias de custo em mais inovações para ajudar a cumprir nossa missão. Nesta postagem, abordamos nosso caso de uso, desafios e caminhos alternativos, além de uma breve visão geral de nossa solução usando a AWS.

O metaverso em mudança e a necessidade de ToxMod

O Modulate torna o bate-papo por voz mais seguro e reduz os custos de infraestrutura em um fator de 5 com as instâncias PlatoBlockchain Data Intelligence do Amazon EC2 G5g. Pesquisa vertical. Ai.

Jogos online modernos e plataformas de metaverso tornaram-se muito mais sociais do que seus predecessores. Historicamente, os jogos se concentram em fornecer uma experiência de curadoria específica para os jogadores. Hoje, eles evoluíram para ser mais um espaço comunitário, onde os jogadores e seus amigos podem se reunir e escolher uma variedade de experiências para participar. Com essa evolução, a toxicidade e o abuso verbal muitas vezes podem arruinar ótimas experiências online.

De fato, de acordo com um estudo recente do Liga Anti-Difamação, a toxicidade nos jogos está pior do que nunca: a exposição às ideologias da supremacia branca nos jogos mais que dobrou em 2022. Mais de três quartos dos jogadores adultos relataram ter sofrido assédio severo em jogos online. Mais de 17 milhões de jovens jogadores foram expostos a danos e assédio no ano passado. O problema só piora, e com próximos regulamentos que exigirá que os estúdios assumam um papel mais ativo no gerenciamento e relatórios sobre toxicidade, a necessidade de moderação de voz proativa é mais urgente do que nunca.

O ToxMod ajuda os editores e plataformas de jogos a moderar proativamente seu bate-papo por voz de acordo com suas próprias políticas e diretrizes, mantendo suas comunidades seguras e positivas. O ToxMod executa uma série de modelos de aprendizado de máquina (ML) que analisam os aspectos emocionais, textuais e conversacionais das conversas de voz para determinar se há alguma violação das políticas de conteúdo do editor ou da plataforma. As violações são sinalizadas para moderadores humanos que podem tomar medidas contra os maus atores. Nossos modelos de ML incluem detecção de emoção, transcrição e análise de conversação com tecnologia NLP que categoriza as violações e fornece uma pontuação de classificação para determinar o grau de confiança de que ocorreu uma violação. Essas detecções ocorrem em tempo real e permitem que os editores de jogos moderem proativamente suas comunidades à medida que a toxicidade está ocorrendo, evitando que danos aos jogadores e conversas perigosas aumentem.

O Modulate torna o bate-papo por voz mais seguro e reduz os custos de infraestrutura em um fator de 5 com as instâncias PlatoBlockchain Data Intelligence do Amazon EC2 G5g. Pesquisa vertical. Ai.

Considerações econômicas e técnicas

Temos dois tipos de constrangimentos: os económicos e os técnicos. Do lado econômico, nosso problema é a demanda variável e a escala incerta da infraestrutura de computação necessária. Na indústria de jogos, desenvolvedores e editores lançam jogos com margens mínimas e só aumentam conforme o jogo se torna mais bem-sucedido. Esse sucesso pode significar que nossos maiores clientes estão processando milhões de horas de bate-papo por voz por mês. Os custos do ToxMod escalam com o número de horas de áudio processado, que é muito dinâmico com base no comportamento dos jogadores e fatores externos que afetam a popularidade de um jogo. Operar nossos próprios servidores para alimentar o ToxMod é proibitivamente caro em termos de custo e largura de banda da equipe. Os servidores locais carecem dessa escalabilidade e geralmente são subutilizados, o que significa que a escolha certa para o ToxMod é a nuvem. Com a AWS, podemos dimensionar dinamicamente para atender à demanda de nossos clientes, mantendo os custos no mínimo.

No lado técnico, como na construção de qualquer aplicativo de processo de voz, precisamos encontrar um equilíbrio entre latência e taxa de transferência. Alguns de nossos usuários desejam a capacidade de lidar com situações que possam surgir em suas comunidades dentro de um ou dois minutos após elas acontecerem. Para atender aos nossos orçamentos de latência, vamos o mais baixo possível. Acontece que temos muita experiência com dispositivos ARM porque grande parte da base de código ToxMod é executada em dispositivos do lado do cliente que geralmente são executados em um processador ARM. As instâncias EC2 G5g equipadas com GPUs NVIDIA T4G Tensor Core e apresentando AWS Graviton2 os processadores eram um ajuste natural para alguns dos códigos de inferência de rede neural personalizados desenvolvidos para uso do lado do cliente.

Instâncias EC2 G5g para economia e confiabilidade da AWS

Com essas considerações, decidimos usar instâncias G5g como infraestrutura para o ToxMod porque são econômicas e fornecem ambientes familiares para testar e implantar nossos modelos. Essa escolha acabou nos ajudando a reduzir nossos custos em um fator de 5 (em comparação com as instâncias G4dn). Para poder iterar rapidamente, precisávamos de um ambiente de computação que fosse familiar para nossos cientistas de dados e engenheiros de ML. Conseguimos obter nossa imagem de máquina com todos os drivers, bibliotecas e variáveis de ambiente relevantes em execução nas instâncias G5g em um dia. Começamos com instâncias G4dn e nossos testes iniciais em G5g nos permitiram reduzir nossos custos em 40%. Muitos de nossos modelos mais caros para executar são vinculados à GPU, portanto, conseguimos otimizar ainda mais nossos custos dimensionando corretamente para um tamanho de instância que nos permitiu maximizar a utilização da CPU enquanto ainda tínhamos acesso a uma única GPU.

Além das instâncias G5g funcionarem particularmente bem para nossa configuração, sabíamos que poderíamos contar com o suporte técnico e o gerenciamento de contas da AWS para nos ajudar a resolver problemas rapidamente e manter um tempo de atividade extremamente alto enquanto experimentamos uma carga altamente variável. Quando começamos, gastávamos menos de dois dígitos por mês, mas uma pessoa real entrou em contato para saber mais sobre nosso caso de uso e uma equipe de pessoas trabalhou conosco para fazer nosso aplicativo não apenas funcionar, mas funcionar da maneira mais econômica possível. maneira eficiente.

Visão geral da nossa solução

A solução da ToxMod começa com a ingestão de áudio, que é realizada por meio da integração de nosso SDK na infraestrutura de bate-papo por voz de um jogo ou plataforma. O uso de um SDK (por meio de uma API ou outra interface) é fundamental porque, ao processar o áudio, você precisa ser extremamente eficiente em termos de recursos. Para qualquer fluxo de áudio único, precisamos processá-lo e devolvê-lo ao restante do sistema rapidamente ou os clientes encontrarão falhas no áudio, algo que queremos evitar a todo custo. Muitas coisas podem causar falhas - incluindo alocação de memória, coleta de lixo e chamadas do sistema - por isso desenvolvemos o ToxMod SDK para garantir o processamento de áudio mais suave possível.

A partir do SDK, os chats de voz são codificados em buffers curtos e enviados pela Internet. No lado da ingestão, armazenamos alguns segundos de áudio em buffer e tentamos encontrar pontos de interrupção naturais nas conversas de voz antes de enviar o pacote para a Nuvem AWS, onde salvamos os dados recebidos via AWS Lambda funções. A partir daí, a análise da conversa de áudio é feita por meio do processamento em instâncias G5g executando nossa variedade de modelos de áudio ML. Minimizamos a sobrecarga agrupando todos os pacotes que recebemos e enviando-os para as GPUs nas instâncias G5g. As instâncias G5g são alimentadas por meio de filas de clipes de áudio para processar, que conectamos a grupos de dimensionamento automático que aumentam ou diminuem com eficiência conforme o tráfego varia ao longo do dia.

Olhando para o futuro

O ToxMod foi desenvolvido para estúdios de todos os tamanhos, desde pequenas equipes de desenvolvimento independentes até AAA, desenvolvedores e editores de várias equipes. Hoje, estamos melhor posicionados do que nunca para fornecer o nível de suporte, desenvolvimento de produtos e recursos robustos que as equipes empresariais nos maiores estúdios esperam de seus parceiros de software. Com suporte multilíngue para 18 idiomas, suporte de nível empresarial 24 horas por dia, 7 dias por semana, licenças de locatário único disponíveis para estúdios com vários jogos e suporte da infraestrutura de ML escalável fornecida pela AWS, estamos aqui para ajudar os estúdios AAA a tornar o bate-papo por voz seguro para seus jogadores.

Se você quiser saber mais sobre como as instâncias EC2 G5g podem ajudá-lo a implantar suas cargas de trabalho de ML de maneira econômica, consulte Instâncias Amazon EC2 G5g.

Sobre os autores

Carter Huffman é o CTO e co-fundador da Modulate, uma startup de tecnologia de voz que visa combater a toxicidade online e melhorar a comunicação de voz em jogos. Ele tem experiência em física, aprendizado de máquina e análise de dados e trabalhou anteriormente no Laboratório de Propulsão a Jato da NASA. Ele é apaixonado por entender e manipular a fala humana usando redes neurais profundas. Ele se formou no MIT com um Bacharel em Ciências em Física.

O Modulate torna o bate-papo por voz mais seguro e reduz os custos de infraestrutura em um fator de 5 com as instâncias PlatoBlockchain Data Intelligence do Amazon EC2 G5g. Pesquisa vertical. Ai. Shruti Koparkar é gerente sênior de marketing de produtos da AWS. Ela ajuda os clientes a explorar, avaliar e adotar a infraestrutura de computação acelerada do EC2 para suas necessidades de aprendizado de máquina.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/modulate-makes-voice-chat-safer-while-reducing-infrastructure-costs-by-a-factor-of-5-with-amazon-ec2-g5g-instances/

Carimbo de hora: 12 de abril de 2023

Carimbo de hora: 16 Dezembro, 2022

Republicado por Platão

Amazon SageMaker JumpStart agora oferece notebooks Amazon Comprehend para classificação personalizada e detecção de entidade personalizada

Melhore a precisão da transcrição de chamadas de agente do cliente com vocabulário personalizado no Amazon Transcribe

Desvende o conhecimento nos workspaces do Slack com pesquisa inteligente usando o conector do Amazon Kendra Slack

Analise e visualize eventos de várias câmeras usando o Amazon SageMaker Studio Lab

Automatizando a geração de descrições de produtos com Amazon Bedrock | Amazon Web Services

Habilite criptografia totalmente homomórfica com endpoints do Amazon SageMaker para inferência segura em tempo real

Apresentando três novas instâncias do Amazon EC2 baseadas em GPU NVIDIA | Amazon Web Services

Amazon SageMaker Automatic Model Tuning agora escolhe automaticamente as configurações de ajuste para melhorar a usabilidade e a eficiência de custos | Amazon Web Services

Treine e implante modelos de ML em um ambiente multicloud usando Amazon SageMaker | Amazon Web Services

Experimentos do Amazon SageMaker de próxima geração – organize, rastreie e compare seus treinamentos de machine learning em escala

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta