如何在用于视频审核的 Amazon Rekognition Image 和 Video API 之间做出选择

由柏拉图重新发布

关注： 0

如今，几乎 80% 的 Web 内容都是用户生成的，这造成了组织难以通过纯人工流程进行分析的大量内容。消费者信息的可用性帮助他们做出决定，从购买一条新牛仔裤到获得住房贷款。在最近的一项调查中，79% 的消费者表示他们比以往任何时候都更依赖用户视频、评论和评论，其中 78% 的人表示品牌负责审核此类内容。 40% 的人表示，一旦接触到有毒内容，他们就会与某个品牌脱离接触。

亚马逊重新认识有两组 API，可帮助您管理图像或视频以确保数字社区的安全和参与。

调节视频的一种方法是将视频数据建模为图像帧的样本，并使用图像内容调节模型来单独处理帧。这种方法允许重用基于图像的模型。一些客户询问他们是否可以使用这种方法通过对图像帧进行采样并将它们发送到 Amazon Rekognition 图像审核 API 来审核视频。他们很好奇此解决方案与 Amazon Rekognition 视频审核 API 相比如何。

我们建议使用 Amazon Rekognition 视频审核 API 来审核视频内容。它专为视频审核而设计和优化，提供更好的性能和更低的成本。但是，在某些特定用例中，图像 API 解决方案是最佳的。

这篇文章在准确性、成本、性能和架构复杂性方面比较了两种视频审核解决方案，以帮助您为您的用例选择最佳解决方案。

使用视频审核 API 审核视频

亚马逊识别视频内容审核 API 是用于检测视频中不适当或不需要的内容的标准解决方案。它对存储在亚马逊简单存储服务（亚马逊 S3）桶。分析结果以数组的形式返回审核标签以及指示何时检测到标签的置信度分数和时间戳。

视频内容审核 API 使用相同的机器学习 (ML) 模型进行图像审核。过滤输出以获得嘈杂的误报结果。通过并行化解码、帧提取和推理等操作，该工作流针对延迟进行了优化。

下图显示了如何使用 Amazon Rekognition 视频审核 API 来审核视频的逻辑步骤。

Rekognition 内容审核视频 API 图

步骤如下：

将视频上传到 S3 存储桶。
调用视频审核 API AWS Lambda 以视频文件位置作为参数的函数（或本地自定义脚本）。 API 管理视频解码、采样和推理的繁重工作。您可以实施心跳逻辑来检查审核作业状态直到完成，或者使用亚马逊简单通知服务 (Amazon SNS) 来实现事件驱动模式。关于视频审核API的详细信息，请参考以下内容 Jupyter笔记本有关详细示例。
将审核结果作为文件存储在 S3 存储桶或数据库中。

使用图像审核 API 审核视频

一些客户没有使用视频内容审核 API，而是选择从视频中独立采样帧并通过将图像发送到 Amazon Rekognition 来检测不当内容检测审核标签应用程序接口。实时返回图像结果，其中包含不当内容或冒犯性内容的标签以及置信度分数。

下图显示了图像 API 解决方案的逻辑步骤。

Rekognition Content Moderation 视频图像采样图
步骤如下：

1. 使用自定义的应用程序或脚本作为编排器，从加载视频到本地文件系统。
2.解码视频。
3. 以选定的时间间隔从视频中采样图像帧，例如每秒两帧。然后遍历所有图像以：

3.a. 将每个图像帧发送到图像审核 API。
3.b. 将审核结果存储在文件或数据库中。

将此与视频 API 解决方案进行比较，后者需要一个轻型 Lambda 函数来编排 API 调用。图像采样解决方案是 CPU 密集型的，需要更多的计算资源。您可以使用 Lambda 等 AWS 服务托管应用程序，亚马逊弹性容器服务（亚马逊 ECS）， Amazon Elastic Kubernetes服务（Amazon EKS）， AWS 法门或亚马逊弹性计算云（Amazon EC2）。

评估数据集

为了评估这两种解决方案，我们使用了一个包含 200 个短视频的样本数据集。视频长度从 10 秒到 45 分钟不等。 60% 的视频长度不到 2 分钟。此示例数据集用于测试这两种解决方案的性能、成本和准确性指标。结果将 Amazon Rekognition 图像 API 采样解决方案与视频 API 解决方案进行了比较。

为了测试图像 API 解决方案，我们使用开源库（ffmpeg的和 OpenCV的) 以每秒两帧的速率（每 500 毫秒一帧）对图像进行采样。此速率模仿视频内容审核 API 使用的采样频率。每个图像都被发送到图像内容审核 API 以生成标签。

为了测试视频采样解决方案，我们将视频直接发送到视频内容审核 API 以生成标签。

结果总结

我们关注以下主要结果：

准确性 – 两种解决方案使用每秒两帧的相同采样频率提供相似的精度（误报和漏报百分比）
价格 – 图像 API 采样解决方案比使用每秒两帧的相同采样频率的视频 API 解决方案更昂贵
- 图像 API 采样解决方案成本可以通过每秒采样更少的帧来降低
性能 – 平均而言，视频 API 的处理时间比示例数据集的图像 API 解决方案快 425%
- 图像 API 解决方案在具有高帧采样间隔和小于 90 秒的视频的情况下表现更好
架构复杂性 – 视频API解决方案的架构复杂度较低，而图像API采样解决方案的架构复杂度中等

准确性

我们使用样本集和每秒两帧的相同采样频率测试了这两种解决方案。结果表明，两种解决方案都提供了相似的假阳性和真阳性比率。这个结果是意料之中的，因为在幕后，Amazon Rekognition 对视频和图像审核 API 使用相同的 ML 模型。

要了解有关评估内容审核的指标的更多信息，请参阅用于评估 Amazon Rekognition 和其他内容审核服务中的内容审核的指标.

价格

成本分析表明，如果您使用每秒两帧的相同采样频率，图像 API 解决方案比视频 API 解决方案更昂贵。如果您减少每秒采样的帧数，图像 API 解决方案会更具成本效益。

影响内容审核解决方案成本的两个主要因素是 Amazon Rekognition API 成本和计算成本。视频内容审核 API 的默认定价为每分钟 0.10 美元，图像内容审核 API 的默认定价为每张图像 0.001 美元。一个 60 秒的视频使用每秒两帧的速率产生 120 帧。视频 API 花费 0.10 美元来调节一个 60 秒的视频，而图像 API 花费 0.120 美元。

价格计算基于撰写本文时 us-east-1 地区的官方价格。有关详细信息，请参阅亚马逊 Rekognition 定价.

成本分析着眼于为样本集中的 200 个视频生成内容审核标签的总成本。计算基于 us-east-1 定价。如果您使用的是另一个区域，请使用该区域的定价修改参数。这 200 个视频包含 4271.39 分钟的内容，并以每秒两帧的采样率生成 512,567 个图像帧。

此比较未考虑其他成本，例如 Amazon S3 存储。我们以 Lambda 为例来计算 AWS 计算成本。计算成本考虑了对 Lambda 的请求数量和 AWS步骤功能运行分析。 Lambda 内存/CPU 设置是根据 Amazon EC2 规范估算的。此成本估算对每个图像 API 调用使用 2 GB、15 秒的 Lambda 请求。 Lambda 函数的最大调用超时限制为 XNUMX 分钟。对于较长的视频，用户可能需要使用 Step Functions 实施迭代逻辑，以减少每次 Lambda 调用处理的帧数。实际的 Lambda 设置和成本模式可能因您的要求而异。建议对解决方案进行端到端测试，以获得更准确的成本估算。

下表总结了成本。

Type	亚马逊重新识别成本	计算成本	总成本
视频API解决方案	$427.14	$0 （免费套餐）	$427.14
图像 API 解决方案：每秒两帧	$512.57	$164.23	$676.80
图像 API 解决方案：每秒一帧	$256.28	$82.12	$338.40

性能

平均而言，视频 API 解决方案的处理时间比图像 API 解决方案快四倍。图像 API 解决方案在具有高帧采样间隔和短于 90 秒的视频的情况下表现更好。

此分析将性能衡量为每个视频的平均处理时间（以秒为单位）。它查看为样本集中的 200 个视频生成内容审核标签的总时间和平均时间。处理时间是从视频上传到结果输出，包括图像采样和视频 API 过程中的每个步骤。

视频 API 解决方案的样本集每个视频平均处理时间为 35.2 秒。这与图像 API 解决方案相比，样本集每个视频的平均处理时间为 156.24 秒。平均而言，视频 API 的执行速度是图像 API 解决方案的四倍。下表总结了这些发现。

Type	平均处理时间（所有视频）	平均处理时间（1.5 分钟以下的视频）
视频API解决方案	35.2秒	24.05秒
图像 API 解决方案：每秒两帧	156.24秒	8.45秒
区别	425%	-185％

当视频短于 90 秒时，图像 API 的性能优于视频 API。这是因为视频 API 有一个队列来管理具有提前期的任务。如果采样频率较低，图像 API 的性能也会更好。将帧间隔增加到 5 秒以上可以将处理时间减少 6-10 倍。请务必注意，增加间隔会导致错过识别帧样本之间不适当内容的风险。

架构复杂性

视频 API 解决方案的架构复杂度较低。您可以设置无服务器管道或运行脚本来检索内容审核结果。 Amazon Rekognition 管理繁重的计算和推理。编排 Amazon Rekognition API 的应用程序可以托管在轻型机器上。

图像 API 解决方案具有中等架构复杂性。应用程序逻辑必须编排额外的步骤以将视频存储在本地驱动器上、运行图像处理以捕获帧并调用图像 API。托管应用程序的服务器需要更高的计算能力来支持本地图像处理。为了进行评估，我们启动了一个具有 2 个 vCPU 和 4 G RAM 的 EC8 实例来支持两个并行线程。更高的计算要求可能会导致额外的操作开销。

图像 API 解决方案的最佳用例

图像 API 解决方案非常适合处理视频时的三个特定用例。

第一个是实时视频流。您可以从实时视频流中捕获图像帧并将图像发送到图像审核 API。

第二个用例是具有低帧采样率要求的内容审核。如果您以低频率对帧进行采样，则图像 API 解决方案更具成本效益和性能。重要的是要注意成本和准确性之间的权衡。以较低的速率采样帧可能会增加丢失包含不适当内容的帧的风险。

第三个用例是及早检测视频中的不当内容。图像 API 解决方案非常灵活，允许您提前停止处理并标记视频，从而节省成本和时间。

结论

视频审核 API 是大多数视频审核用例的理想选择。当您以每秒两帧的频率对帧进行采样时，它比图像 API 解决方案更具成本效益和性能。此外，它具有较低的架构复杂性和降低的运营开销要求。

下表总结了我们的调查结果，以帮助您最大限度地利用 Amazon Rekognition 图像和视频 API 来处理您的特定视频审核用例。尽管这些结果是我们的一些客户在测试期间取得的平均结果，但它们应该会给您一些想法来平衡每个 API 的使用。

.	视频API解决方案	图片API解决方案
准确性	精度相同	.
价格	使用默认图像采样间隔降低成本	如果减少每秒采样的帧数（牺牲精度），则成本会更低
性能	超过 90 秒的视频速度更快	短于 90 秒的视频更快
架构复杂性	低复杂度	中等复杂度

Amazon Rekognition 内容审核不仅可以帮助您的企业保护和保持客户的安全和参与度，还有助于您不断努力最大限度地提高内容审核投资的回报。学习更多关于 AWS 上的内容审核和我们的内容审核 ML 用例.

关于作者

作者 - 拉娜张 张拉娜 是 AWS WWSO AI 服务团队的高级解决方案架构师，在内容审核和计算机视觉方面具有 AI 和 ML 方面的专业知识。她热衷于推广 AWS AI 服务并帮助客户转变他们的业务解决方案。

作者 - 布里吉特·布朗 布里吉特·布朗 是 Amazon Web Services 的解决方案架构师。 Brigit 热衷于使用机器学习和人工智能帮助客户找到应对复杂业务挑战的创新解决方案。她的核心深度领域是自然语言处理和内容审核。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/how-to-decide-between-amazon-rekognition-image-and-video-api-for-video-moderation/

时间戳记： 2023 年 2 月 1 日

时间戳记： 2023 年 9 月 6 日

由柏拉图重新发布

使用 Renate 自动重新训练神经网络

使用 Amazon Comprehend 和 Amazon Kinesis Data Firehose 近乎实时地编辑来自流数据的敏感数据

使用 Amazon SageMaker 异步终端节点优化 Amazon SageMaker JumpStart 基础模型的部署成本 | 亚马逊网络服务

德甲比赛事实获胜概率：使用 AWS 上的机器学习量化游戏内事件对获胜机会的影响

使用 Amazon EKS 和 Torch Distributed Elastic 进行分布式训练

使用 IMDb 知识图进行强力推荐和搜索——第 1 部分

使用 GrabDefence 设备智能和 Amazon Fraud Detector 检测面向移动业务的欺诈行为

使用 Haystack 管道和 Amazon SageMaker JumpStart 与法学硕士构建用于企业搜索的生产就绪的生成式 AI 应用程序 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理