这是 Carter Huffman 的客座帖子,他是 Modulate 的首席技术官兼联合创始人。
调制 是一家位于波士顿的初创公司,其使命是为每个人打造更丰富、更安全、更具包容性的在线游戏体验。 我们是一支由世界级音频专家、游戏玩家、盟友和未来学家组成的团队,他们渴望建立一个更美好的在线世界,让所有玩家的语音聊天更安全。 我们正在通过 ToxMod 来做到这一点,这是我们主动的、原生语音的审核平台。 游戏发行商和开发商使用 ToxMod 根据自己的内容政策、行为准则和社区准则主动调节游戏中的语音聊天。
我们选择 AWS 是因为我们的应用程序需要的可扩展性和弹性,以及它提供的优质客户服务。 使用 亚马逊弹性计算云 (Amazon EC2) G5g实例 采用 NVIDIA T4G Tensor Core GPU 作为 ToxMod 的基础架构,帮助我们将成本降低了 5 倍(与 G4dn 实例相比),同时实现了吞吐量和延迟方面的目标。 作为一家灵活的初创公司,我们可以将这些节省的成本再投资于进一步的创新,以帮助完成我们的使命。 在这篇博文中,我们介绍了我们的用例、挑战和替代路径,并简要概述了我们使用 AWS 的解决方案。
不断变化的元宇宙和对 ToxMod 的需求
现代网络游戏和元宇宙平台比它们的前辈更具社交性。 从历史上看,游戏一直专注于为玩家提供特定的策划体验。 如今,它们已经发展成为一个更像是一个公共空间,玩家和他们的朋友可以聚集在一起并选择各种体验来参与。随着这种演变,恶意和辱骂往往会毁掉原本很棒的在线体验。
事实上,根据一个 最近的一项研究 来自 反诽谤联盟,游戏中的毒性比以往任何时候都更严重:2022 年,游戏中接触白人至上主义意识形态的人数增加了一倍多。超过四分之三的成年游戏玩家报告说在网络游戏中遭受过严重骚扰。 过去一年,超过 17 万年轻游戏玩家受到伤害和骚扰。 问题只会越来越严重,而且随着 即将出台的规定 这将要求工作室在管理和报告毒性方面发挥更积极的作用,因此比以往任何时候都更加迫切需要主动声音调节。
ToxMod 帮助游戏发行商和平台根据他们自己的政策和指南主动调节他们的语音聊天,确保他们的社区安全和积极。 ToxMod 运行一系列机器学习 (ML) 模型,分析语音对话的情感、文本和对话方面,以确定是否存在任何违反发布者或平台内容政策的行为。 违规行为会被标记给人类版主,他们可以对不良行为者采取行动。 我们的 ML 模型包括情绪检测、转录和基于 NLP 的对话分析,可对违规行为进行分类并提供排名分数以确定发生违规行为的可信度。 这些检测是实时发生的,使游戏发行商能够在出现不良事件时主动调节他们的社区,防止对玩家造成伤害和危险对话升级。
经济和技术考虑
我们有两种类型的限制:经济和技术。 在经济方面,我们的问题是可变的需求和所需计算基础设施的不确定规模。 在游戏行业,开发商和发行商推出游戏的利润微乎其微,只有在游戏变得更加成功时才会扩大规模。 这一成功可能意味着我们最大的客户每月处理数百万小时的语音聊天。 ToxMod 的成本与处理音频的小时数成比例,根据玩家的行为和影响游戏受欢迎程度的外部因素,这是非常动态的。 就成本和团队带宽而言,运行我们自己的服务器来为 ToxMod 提供动力是非常昂贵的。 本地服务器缺乏这种可扩展性,并且经常会未得到充分利用,这意味着 ToxMod 的正确选择是云。 借助 AWS,我们可以动态扩展以满足客户的需求,同时将成本保持在最低水平。
在技术方面,与构建任何语音处理应用程序一样,我们需要在延迟和吞吐量之间取得平衡。 我们的一些用户希望能够在一两分钟内解决他们社区中可能出现的情况。 为了满足我们的延迟预算,我们尽可能降低级别。 我们碰巧在 ARM 设备上有很多经验,因为很多 ToxMod 代码库都在客户端设备上运行,而这些设备通常在 ARM 处理器上运行。 EC2 G5g 实例由 NVIDIA T4G Tensor Core GPU 提供支持并具有 AWS Graviton2 处理器非常适合一些为客户端使用而开发的自定义神经网络推理代码。
EC2 G5g 实例具有成本效益和 AWS 可靠性
考虑到这些因素,我们决定使用 G5g 实例作为 ToxMod 的基础设施,因为它们具有成本效益,并提供熟悉的环境来测试和部署我们的模型。 这一选择最终帮助我们将成本降低了 5 倍(与 G4dn 实例相比)。 为了能够快速迭代,我们需要一个数据科学家和 ML 工程师熟悉的计算环境。 我们能够在一天内获得在 G5g 实例上运行的所有相关驱动程序、库和环境变量的机器映像。 我们从 G4dn 实例开始,我们在 G5g 上的初步测试使我们能够将成本降低 40%。 我们运行的许多最昂贵的模型都受 GPU 限制,因此我们能够通过将大小调整到实例大小来进一步优化成本,这使我们能够在仍然可以访问单个 GPU 的同时最大限度地提高 CPU 利用率。
除了特别适合我们的配置的 G5g 实例之外,我们知道我们可以依靠 AWS 的技术支持和账户管理来帮助我们快速解决问题并保持极高的正常运行时间,同时承受高度可变的负载。 刚开始的时候,我们每个月的支出不到两位数,但是一个真实的人伸出手来了解我们的用例,一个团队与我们一起工作,使我们的应用程序不仅可以工作,而且可以在成本最低的情况下工作-高效的方式。
我们的解决方案概述
ToxMod 的解决方案从音频摄取开始,这是通过将我们的 SDK 集成到游戏或平台的语音聊天基础设施中来实现的。 使用 SDK(通过 API 或其他接口)至关重要,因为在处理音频时,您必须非常节省资源。 对于任何单个音频流,我们都需要对其进行处理并将其快速交还给系统的其余部分,否则客户会遇到音频故障,这是我们要不惜一切代价避免的事情。 许多事情都可能导致故障——包括内存分配、垃圾收集和系统调用——因此我们开发了 ToxMod SDK 以确保尽可能流畅的音频处理。
从 SDK 中,语音聊天被编码在短缓冲区中并通过互联网发送。 在摄取方面,我们缓冲了几秒钟的音频,我们尝试在将包发送到 AWS 云之前找到语音对话中的自然断点,我们通过以下方式保存传入数据 AWS Lambda 功能。 从那里开始,通过对运行我们各种 ML 音频模型的 G5g 实例进行处理来完成对音频对话的分析。 我们通过对收到的所有数据包进行批处理并将它们发送到 G5g 实例中的 GPU 来最大限度地减少开销。 G5g 实例通过音频剪辑队列进行处理,我们已将其连接到自动缩放组,这些组可以随着全天流量的变化有效地放大或缩小。
展望未来
ToxMod 专为各种规模的工作室打造,从小型独立开发团队到 AAA、多团队开发人员和发行商。 今天,我们比以往任何时候都更有能力提供最大工作室的企业团队期望从他们的软件合作伙伴那里获得的支持、产品开发和强大的功能。 凭借对 18 种语言的多语言支持、24/7 企业级支持、适用于拥有多个游戏的工作室的可用单租户许可证,以及对 AWS 提供的可扩展 ML 基础设施的支持,我们可以帮助 AAA 工作室确保语音聊天安全对于他们的球员。
如果您想详细了解 EC2 G5g 实例如何帮助您经济高效地部署 ML 工作负载,请参阅 Amazon EC2 G5g 实例.
作者简介
卡特霍夫曼 是 Modulate 的首席技术官和联合创始人,Modulate 是一家语音技术初创公司,旨在对抗在线毒性并增强游戏中的语音通信。 他拥有物理学、机器学习和数据分析方面的背景,之前曾在 NASA 的喷气推进实验室工作。 他热衷于使用深度神经网络理解和操纵人类语音。 他毕业于麻省理工学院,获得物理学学士学位。
斯鲁蒂·科帕卡 是 AWS 的高级产品营销经理。 她帮助客户探索、评估和采用 EC2 加速计算基础架构来满足他们的机器学习需求。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/modulate-makes-voice-chat-safer-while-reducing-infrastructure-costs-by-a-factor-of-5-with-amazon-ec2-g5g-instances/
- :是
- $UP
- 100
- 17千万
- 2022
- 7
- a
- AAA
- 对,能力--
- Able
- 关于
- 滥用
- 加速
- ACCESS
- 完成
- 根据
- 账号管理
- 帐户管理
- 实现
- 操作
- 要积极。
- 演员
- 地址
- 采用
- 成人
- 影响
- 驳
- 目标
- 所有类型
- 分配
- 替代
- Amazon
- Amazon EC2
- 分析
- 分析
- 和
- API
- 应用领域
- 保健
- ARM
- AS
- 方面
- At
- 音频
- 汽车
- 可使用
- AWS
- 背部
- 背景
- 坏
- 当前余额
- 带宽
- 基地
- 基于
- BE
- 因为
- 成为
- 成为
- before
- 更好
- 之间
- 午休
- 预算
- 缓冲
- 建立
- 建筑物
- 建
- by
- CAN
- 案件
- 原因
- 挑战
- 改变
- 选择
- 选择
- 剪辑
- 云端技术
- 联合创始人
- 码
- 代码库
- 采集
- 沟通
- 地区
- 社体的一部分
- 相比
- 计算
- 计算
- 进行
- 信心
- 配置
- 注意事项
- 约束
- 内容
- 谈话
- 听起来像对话
- 对话
- 核心
- 价格
- 节约成本
- 经济有效
- 成本
- 可以
- 情侣
- 外壳
- 危急
- 首席技术官
- 策划
- 习俗
- 顾客
- 客户服务
- 合作伙伴
- 危险的
- data
- 数据分析
- 天
- 决定
- 深
- 需求
- 部署
- 检测
- 确定
- 开发
- 发达
- 开发
- 研发支持
- 设备
- 数字
- 做
- 翻番
- 两位数
- 翻倍
- 向下
- 驱动程序
- 动态
- 动态
- 经济
- 有效
- enable
- 启用
- 工程师
- 确保
- 企业
- 企业级
- 环境
- 环境中
- 评估
- EVER
- 每个人
- 进化
- 进化
- 期望
- 昂贵
- 体验
- 体验
- 经历
- 专家
- 探索
- 裸露
- 曝光
- 外部
- 非常
- 因素
- 熟悉
- 特征
- 特色
- 美联储
- 战斗
- 找到最适合您的地方
- 适合
- 已标记
- 重点
- 针对
- 朋友
- 止
- 功能
- 进一步
- 游戏
- 游戏玩家
- Games
- 游戏产业
- 赌博
- 得到
- 越来越
- Go
- 理想中
- GPU
- 图形处理器
- 大
- 组的
- 客人
- 游客发表
- 方针
- 手
- 发生
- 事件
- 有
- 有
- 帮助
- 帮助
- 帮助
- 相关信息
- 高
- 高度
- 历史
- HOURS
- 创新中心
- HTTP
- HTTPS
- 人
- 意识形态
- 图片
- in
- 包括
- 包容
- 来电
- 行业中的应用:
- 基础设施
- 初始
- 創新
- 例
- 积分
- 接口
- 网络
- 问题
- IT
- JPG
- 保持
- 实验室
- 缺乏
- 语言
- 最大
- 潜伏
- 发射
- 学习用品
- 学习
- Level
- 库
- 许可证
- 喜欢
- 加载
- 占地
- 低
- 机
- 机器学习
- 保持
- 使
- 制作
- 颠覆性技术
- 经理
- 管理的
- 操纵
- 方式
- 许多
- 利润率
- 营销
- 匹配
- 生产力
- 可能..
- 意
- 满足
- 内存
- 元宇宙
- 虚拟世界平台
- 百万
- 百万
- 最小
- 最低限度
- 分钟
- 使命
- 麻省理工学院简介
- ML
- 模型
- 适度
- 月
- 更多
- 最先进的
- 多
- 多场比赛
- 自然
- 需求
- 需要
- 网络
- 网络
- 神经网络
- 神经网络
- 数
- Nvidia公司
- 发生
- of
- 优惠精选
- on
- 在线
- 更快速的网络连接
- 操作
- 优化
- 其他名称
- 除此以外
- 简介
- 己
- 包
- 包
- 尤其
- 伙伴
- 多情
- 过去
- 员工
- 人
- 物理
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 球员
- 点
- 政策
- 声望
- 定位的
- 积极
- 可能
- 帖子
- 功率
- 供电
- 预防
- 先前
- 主动
- 市场问题
- 过程
- 处理
- 处理
- 处理器
- 处理器
- 产品
- 产品开发
- 动力
- 提供
- 提供
- 优
- 出版商
- 很快
- 达到
- 真实
- 实时的
- 接收
- 减少
- 再投资
- 相应
- 报道
- 报告
- 要求
- 必须
- REST的
- 健壮
- 角色
- 毁
- 运行
- 运行
- 安全
- 更安全
- 保存
- 储
- 可扩展性
- 可扩展性
- 鳞片
- 缩放
- 科学
- 科学家
- 得分了
- SDK
- 秒
- 发送
- 前辈
- 系列
- 服务
- 服务器
- 服务
- 严重
- 短
- 侧
- 单
- 情况
- 尺寸
- 尺寸
- 小
- So
- 社会
- 软件
- 方案,
- 一些
- 东西
- 太空
- 具体的
- 言语
- 花费
- 开始
- 启动
- 仍
- 流
- 罢工
- 工作室
- 成功
- 成功
- SUPPORT
- 系统
- 采取
- 团队
- 队
- 文案
- 专业技术
- 条款
- test
- 测试
- 这
- 其
- 他们
- 博曼
- 事
- 通过
- 始终
- 吞吐量
- 次
- 至
- 今晚
- 交通
- 类型
- 最终
- 不确定
- 理解
- 正常运行时间
- 紧急
- us
- 用法
- 使用
- 用例
- 用户
- 各种
- 通过
- 违反
- 违反
- 音色
- 井
- 这
- 而
- 白色
- WHO
- 将
- 中
- 工作
- 工作
- 加工
- 世界
- 世界级
- 将
- 年
- 完全
- 年轻
- 您一站式解决方案
- 和风网