Modulate rend le chat vocal plus sûr tout en réduisant les coûts d'infrastructure d'un facteur 5 avec les instances Amazon EC2 G5g

Republié par Platon

Suiveurs: 0

Ceci est un article invité de Carter Huffman, CTO et co-fondateur de Modulate.

Moduler est une startup basée à Boston qui a pour mission de créer des expériences de jeu en ligne plus riches, plus sûres et plus inclusives pour tous. Nous sommes une équipe d'experts audio de classe mondiale, de joueurs, d'alliés et de futuristes désireux de créer un monde en ligne meilleur et de rendre le chat vocal plus sûr pour tous les joueurs. C'est exactement ce que nous faisons avec ToxMod, notre plate-forme de modération vocale native. Les éditeurs et développeurs de jeux utilisent ToxMod pour modérer de manière proactive le chat vocal dans leurs jeux conformément à leurs propres politiques de contenu, codes de conduite et directives communautaires.

Nous avons choisi AWS pour l'évolutivité et l'élasticité dont notre application avait besoin ainsi que pour l'excellent service client qu'elle offre. En utilisant Cloud de calcul élastique Amazon (Amazon EC2) Instances G5g L'utilisation des GPU NVIDIA T4G Tensor Core comme infrastructure pour ToxMod nous a aidés à réduire nos coûts d'un facteur 5 (par rapport aux instances G4dn) tout en atteignant nos objectifs en matière de débit et de latence. En tant que startup agile, nous pouvons réinvestir ces économies de coûts dans de nouvelles innovations pour nous aider à servir notre mission. Dans cet article, nous couvrons notre cas d'utilisation, nos défis et nos chemins alternatifs, ainsi qu'un bref aperçu de notre solution utilisant AWS.

L'évolution du métaverse et le besoin de ToxMod

Modulate rend le chat vocal plus sûr tout en réduisant les coûts d'infrastructure d'un facteur 5 avec les instances Amazon EC2 G5g PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Les jeux en ligne modernes et les plates-formes métavers sont devenus beaucoup plus sociaux que leurs prédécesseurs. Historiquement, les jeux se sont concentrés sur la fourniture d'une expérience organisée spécifique aux joueurs. Aujourd'hui, ils ont évolué pour devenir davantage un espace commun, où les joueurs et leurs amis peuvent se rassembler et choisir une variété d'expériences auxquelles participer. Avec cette évolution, la toxicité et la violence verbale peuvent souvent ruiner des expériences en ligne autrement formidables.

En fait, selon un étude récente du Anti-Defamation League, la toxicité dans les jeux est pire que jamais : l'exposition aux idéologies de la suprématie blanche dans les jeux a plus que doublé en 2022. Plus des trois quarts des joueurs adultes ont déclaré avoir été victimes de harcèlement grave dans les jeux en ligne. Plus de 17 millions de jeunes joueurs ont été exposés à des préjudices et à du harcèlement au cours de l'année écoulée. Le problème ne fait qu'empirer, et avec règlement à venir qui obligera les studios à jouer un rôle plus actif dans la gestion et le signalement de la toxicité, le besoin d'une modération vocale proactive est plus urgent que jamais.

ToxMod aide les éditeurs de jeux et les plates-formes à modérer de manière proactive leur chat vocal conformément à leurs propres politiques et directives, en gardant leurs communautés sûres et positives. ToxMod exécute une série de modèles d'apprentissage automatique (ML) qui analysent les aspects émotionnels, textuels et conversationnels des conversations vocales pour déterminer s'il y a des violations des politiques de contenu de l'éditeur ou de la plateforme. Les violations sont signalées aux modérateurs humains qui peuvent prendre des mesures contre les mauvais acteurs. Nos modèles ML incluent la détection des émotions, la transcription et l'analyse conversationnelle basée sur la PNL qui catégorise les violations et fournit un score de classement pour déterminer le niveau de confiance qu'une violation s'est produite. Ces détections se produisent en temps réel et permettent aux éditeurs de jeux de modérer de manière proactive leurs communautés lorsque la toxicité se produit, empêchant ainsi les dommages aux joueurs et les conversations dangereuses de s'intensifier.

Modulate rend le chat vocal plus sûr tout en réduisant les coûts d'infrastructure d'un facteur 5 avec les instances Amazon EC2 G5g PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Considérations économiques et techniques

Nous avons deux types de contraintes : économiques et techniques. Sur le plan économique, notre problème est la demande variable et l'ampleur incertaine de l'infrastructure de calcul requise. Dans l'industrie des jeux, les développeurs et les éditeurs lancent des jeux avec des marges minimales et n'évoluent qu'au fur et à mesure que le jeu gagne en succès. Ce succès peut signifier que nos plus gros clients traitent des millions d'heures de chat vocal par mois. Les coûts de ToxMod évoluent avec le nombre d'heures d'audio traitées, ce qui est très dynamique en fonction du comportement des joueurs et des facteurs externes affectant la popularité d'un jeu. L'exploitation de nos propres serveurs pour alimenter ToxMod est d'un coût prohibitif en termes de coût et de bande passante d'équipe. Les serveurs sur site manquent de cette évolutivité et seraient souvent sous-utilisés, ce qui signifie que le bon choix pour ToxMod est le cloud. Avec AWS, nous pouvons évoluer de manière dynamique pour répondre à la demande de nos clients tout en maintenant les coûts au minimum.

Sur le plan technique, comme pour la création de toute application de traitement vocal, nous devons trouver un équilibre entre latence et débit. Certains de nos utilisateurs souhaitent avoir la possibilité de faire face à des situations susceptibles de survenir dans leurs communautés en une minute ou deux. Pour respecter nos budgets de latence, nous allons au niveau le plus bas possible. Il se trouve que nous avons beaucoup d'expérience avec les appareils ARM car une grande partie de la base de code ToxMod s'exécute sur des appareils côté client qui fonctionnent souvent sur un processeur ARM. Les instances EC2 G5g alimentées par les GPU NVIDIA T4G Tensor Core et dotées AWSGraviton2 Les processeurs étaient un ajustement naturel pour une partie du code d'inférence de réseau neuronal personnalisé qui avait été développé pour une utilisation côté client.

Instances EC2 G5g pour la rentabilité et la fiabilité AWS

Avec ces considérations, nous avons décidé d'utiliser les instances G5g comme infrastructure pour ToxMod car elles sont rentables et fournissent des environnements familiers pour tester et déployer nos modèles. Ce choix nous a finalement permis de réduire nos coûts d'un facteur 5 (par rapport aux instances G4dn). Pour pouvoir itérer rapidement, nous avions besoin d'un environnement de calcul familier à nos scientifiques des données et à nos ingénieurs ML. Nous avons pu obtenir notre image machine avec tous les pilotes, bibliothèques et variables d'environnement pertinents exécutés sur des instances G5g en une journée. Nous avons démarré sur des instances G4dn, et nos premiers tests sur G5g nous ont permis de baisser nos coûts de 40%. Bon nombre de nos modèles les plus chers à exécuter sont liés au GPU, nous avons donc pu optimiser davantage nos coûts en adaptant la taille de l'instance à une taille d'instance qui nous a permis de maximiser l'utilisation du processeur tout en ayant accès à un seul GPU.

Au-delà des instances G5g qui fonctionnent particulièrement bien pour notre configuration, nous savions que nous pouvions compter sur le support technique et la gestion de compte d'AWS pour nous aider à résoudre les problèmes rapidement et à maintenir une disponibilité extrêmement élevée tout en subissant une charge très variable. Lorsque nous avons commencé, nous dépensions moins de deux chiffres par mois, et pourtant une personne réelle nous a contactés pour en savoir plus sur notre cas d'utilisation et une équipe de personnes a travaillé avec nous pour que notre application fonctionne non seulement, mais aussi au meilleur coût. manière efficace.

Présentation de notre solution

La solution de ToxMod commence par l'ingestion audio, qui est réalisée grâce à l'intégration de notre SDK dans l'infrastructure de chat vocal d'un jeu ou d'une plateforme. L'utilisation d'un SDK (sur une API ou une autre interface) est essentielle car lorsque vous traitez de l'audio, vous devez être extrêmement économe en ressources. Pour tout flux audio unique, nous devons le traiter et le restituer rapidement au reste du système, sinon les clients rencontreront des problèmes audio, ce que nous voulons éviter à tout prix. Beaucoup de choses peuvent causer des problèmes, y compris l'allocation de mémoire, la récupération de place et les appels système. Nous avons donc développé le SDK ToxMod pour assurer le traitement audio le plus fluide possible.

À partir du SDK, les chats vocaux sont encodés dans de courts tampons et envoyés sur Internet. Du côté de l'ingestion, nous mettons en mémoire tampon quelques secondes d'audio et nous essayons de trouver des points d'arrêt naturels dans les conversations vocales avant d'envoyer le package au cloud AWS, où nous enregistrons les données entrantes via AWS Lambda les fonctions. À partir de là, l'analyse de la conversation audio est effectuée via un traitement sur des instances G5g exécutant notre variété de modèles audio ML. Nous minimisons les frais généraux en regroupant tous les paquets que nous recevons et en les envoyant aux GPU dans les instances G5g. Les instances G5g sont alimentées par des files d'attente de clips audio à traiter, que nous avons connectées à des groupes de mise à l'échelle automatique qui augmentent ou diminuent efficacement à mesure que le trafic varie tout au long de la journée.

Pour l'avenir

ToxMod est conçu pour les studios de toutes tailles, des petites équipes de développement indépendantes aux développeurs et éditeurs multi-équipes AAA. Aujourd'hui, nous sommes mieux placés que jamais pour fournir le niveau de support, de développement de produits et de fonctionnalités robustes que les équipes d'entreprise des plus grands studios attendent de leurs partenaires logiciels. Avec une prise en charge multilingue pour 18 langues, une prise en charge de niveau entreprise 24h/7 et XNUMXj/XNUMX, des licences à locataire unique disponibles pour les studios avec plusieurs jeux et la prise en charge de l'infrastructure ML évolutive fournie par AWS, nous sommes là pour aider les studios AAA à sécuriser le chat vocal. pour leurs joueurs.

Si vous souhaitez en savoir plus sur la façon dont les instances EC2 G5g peuvent vous aider à déployer de manière rentable vos charges de travail ML, consultez Instances Amazon EC2 G5g.

À propos des auteurs

Carter Huffman est le CTO et co-fondateur de Modulate, une startup de technologie vocale qui vise à lutter contre la toxicité en ligne et à améliorer la communication vocale dans les jeux. Il a une formation en physique, en apprentissage automatique et en analyse de données, et a précédemment travaillé au Jet Propulsion Laboratory de la NASA. Il est passionné par la compréhension et la manipulation de la parole humaine à l'aide de réseaux de neurones profonds. Il est diplômé du MIT avec un baccalauréat ès sciences en physique.

Modulate rend le chat vocal plus sûr tout en réduisant les coûts d'infrastructure d'un facteur 5 avec les instances Amazon EC2 G5g PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Shruti Koparkar est Senior Product Marketing Manager chez AWS. Elle aide les clients à explorer, évaluer et adopter l'infrastructure informatique accélérée EC2 pour leurs besoins d'apprentissage automatique.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/modulate-makes-voice-chat-safer-while-reducing-infrastructure-costs-by-a-factor-of-5-with-amazon-ec2-g5g-instances/

Horodatage: 12 avril 2023

Horodatage: Le 16 décembre 2022

Republié par Platon

Amazon SageMaker JumpStart propose désormais des blocs-notes Amazon Comprehend pour une classification personnalisée et une détection d'entité personnalisée

Améliorez la précision de la transcription des appels client-agent avec un vocabulaire personnalisé dans Amazon Transcribe

Découvrez les connaissances dans les espaces de travail Slack avec une recherche intelligente à l'aide du connecteur Amazon Kendra Slack

Analysez et visualisez les événements multi-caméras à l'aide d'Amazon SageMaker Studio Lab

Automatisation de la génération de descriptions de produits avec Amazon Bedrock | Services Web Amazon

Activez le chiffrement entièrement homomorphe avec les points de terminaison Amazon SageMaker pour une inférence sécurisée en temps réel

Présentation de trois nouvelles instances Amazon EC2 basées sur GPU NVIDIA | Services Web Amazon

Amazon SageMaker Automatic Model Tuning choisit désormais automatiquement les configurations de réglage pour améliorer la convivialité et la rentabilité | Services Web Amazon

Former et déployer des modèles ML dans un environnement multicloud à l'aide d'Amazon SageMaker | Services Web Amazon

Expériences Amazon SageMaker de nouvelle génération – Organisez, suivez et comparez vos formations de machine learning à grande échelle

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte