AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨

本文由夏威夷大自然保护协会 (TNC) 的应用科学家/地理信息系统专家 Theresa Cabrera Menard 共同撰写。

近年来,亚马逊和 AWS 制定了一系列可持续发展举措,总体目标是帮助保护自然环境。作为这些努力的一部分,AWS 专业服务与大自然保护协会 (TNC) 等组织建立了合作伙伴关系,为环境保护工作提供财务支持和咨询服务。大数据技术的出现正在迅速扩大生态数据收集,而机器学习(ML)技术也越来越多地应用于生态数据分析。 AWS 在帮助数据存储和摄取以及数据分析方面处于独特的地位。

夏威夷森林作为清洁水源和保护传统文化习俗至关重要。然而,它们面临着森林砍伐、物种灭绝和入侵植物取代本地物种的严重威胁。夏威夷州每年花费约 5 亿美元来对抗入侵物种。 TNC 正在通过“夏威夷挑战”等举措帮助解决入侵植物问题,该挑战允许任何拥有计算机和互联网接入的人参与标记整个地区的入侵杂草。 AWS 与 TNC 合作,在这些努力的基础上开发了一种可扩展的、基于云的解决方案,该解决方案可自动执行并加快入侵蕨类植物的检测和定位。

入侵夏威夷森林的最具侵略性的物种之一是澳大利亚树蕨,最初是作为观赏植物引入的,但现在通过产生大量易于通过风传播的孢子而迅速蔓延到几个岛屿。澳大利亚树蕨生长迅速,在与其他植物的竞争中胜出,使树冠窒息,影响了一些本地物种,导致生物多样性丧失。

目前,蕨类植物的检测是通过固定翼飞机测量森林树冠捕获图像来完成的。图像由人工贴标员手动检查。这个过程需要大量的精力和时间,可能会导致地勤人员的缓解工作延迟数周或更长时间。利用计算机视觉 (CV) 算法的优点之一是可以节省时间,因为推理时间预计只需几个小时。

机器学习管道

下图显示了该项目的整体 ML 工作流程。 AWS-TNC 合作的第一个目标是从航空图像中自动检测蕨类植物。第二个目标是评估 CV 算法可靠地将蕨类植物分类为原生或入侵的潜力。然后,CV 模型推理可以构成完全自动化的 AWS 云原生解决方案的基础,该解决方案增强了 TNC 高效、及时地检测入侵蕨类植物并将资源引导到严重受影响地区的能力。下图说明了这种架构。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

在以下部分中,我们将讨论以下主题:

  • 使用的数据处理和分析工具。
  • 蕨类植物检测模型管道,包括训练和评估。
  • 本地蕨类植物和入侵蕨类植物如何分类。
  • TNC 通过此次实施获得的好处。

数据处理与分析

跨国公司承包商通过在夏威夷群岛受影响地区上空飞行固定翼飞机来获取空中镜头。厚重且持续的云层阻碍了卫星图像的使用。 TNC 和 AWS 可用的数据包括原始图像和元数据,可以对推断的蕨类植物进行地理定位。

图像和地理坐标

从航空勘测收到的图像范围为 100,000 x 100,000 像素,并以 JPEG2000 (JP2) 格式存储,其中包含地理定位和其他元数据。每个像素都可以与特定的通用横轴墨卡托 (UTM) 地理空间坐标相关联。 UTM 坐标系将世界分为南北两个区域,每个区域的经度宽度为 6 度。第一个 UTM 坐标(北向)是指地理位置与赤道之间的距离,以北为正方向测量。第二个坐标(东距)测量从为每个区域唯一分配的中央子午线开始向东的距离(以米为单位)。按照惯例,每个区域的中央经线的值为 500,000,因此该区域中央经线以东一米的值为 500,001。为了在像素坐标和 UTM 坐标之间进行转换,我们利用仿射变换,如下式所示,其中 X', ' 是UTM坐标并且 x, y 是像素坐标。参数 a, b, C, d, ef 仿射变换的部分作为 JP2 文件元数据的一部分提供。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

出于标记、训练和推理的目的,原始 JP2 文件被分为不重叠的 512 x 512 像素 JPG 文件。从原始 JP2 中提取较小的子图像需要直接从每个提取的 JPG 文件中创建单独的仿射变换。这些操作是利用 rasterioaffine Python 包包含 AWS批处理 并促进了 UTM 坐标中推断的蕨类植物位置的报告。

数据标签

航拍图像中蕨类植物的视觉识别因多种因素而变得复杂。大多数信息都聚集在绿色通道中,并且树叶密度很高,附近的蕨类植物和其他植被经常部分遮挡蕨类植物。 TNC 感兴趣的信息是每英亩蕨类植物的相对密度,因此即使存在遮挡,对每棵蕨类植物进行计数也很重要。考虑到这些目标和限制,我们选择使用对象检测 CV 框架。

为了标记数据,我们设置了一个 Amazon 贤者地面真相  标签工作。每个边界框都旨在以蕨类植物的中心为中心,并覆盖大部分蕨类植物树枝,同时尝试尽量减少其他植被的包含。标签是由作者在咨询 TNC 领域专家后进行的。初始标记数据集包括 500 张图像,每张图像通常包含几种蕨类植物,如以下示例图像所示。在这个最初的标记集中,我们没有区分本地蕨类植物和入侵蕨类植物。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

Fern 对象检测模型训练和更新

在本节中,我们将讨论训练初始蕨类植物检测模型、Ground Truth 中的数据标记以及通过再训练进行的模型更新。我们还讨论使用 亚马逊增强AI (Amazon A2I)用于模型更新,并使用 AWS步骤功能 用于整个蕨类植物检测推理管道。

初始蕨类植物检测模型训练

我们利用了 亚马逊SageMaker 对象检测算法,因为它提供最先进的性能,并且可以轻松与其他 SageMaker 服务集成,例如 Ground Truth、端点和批量转换作业。我们利用了 Single Shot MultiBox Detector (SSD) 框架和基础网络 vgg-16。该网络针对 ImageNet 数据集中的数百万张图像和数千个类进行了预训练。我们将所有给定的 TNC JP2 图像分解为 512 x 512 像素的图块作为训练数据集。大约有 5,000 张小 JPG 图像,我们随机选择 4,500 张图像作为训练数据集,500 张图像作为验证数据集。经过超参数调整后,我们选择以下超参数进行模型训练: class=1, overlap_threshold=0.3, learning_rate=0.001epochs=50。在验证集上计算的初始模型的平均精度 (mAP) 为 0.49。检查检测结果和 TNC 标签后,我们发现许多被我们的目标检测模型检测为蕨类植物的蕨类植物并未被 TNC 蕨类植物标签标记为蕨类植物,如下图所示。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

因此,我们决定使用 Ground Truth 重新标记 fern 数据集的子集,以尝试提高模型性能,然后将 ML 推理结果与此初始模型进行比较,以检查哪种方法更好。

Ground Truth 中的数据标签

为了标记蕨类植物数据集,我们设置了由 500 张随机选择的 512 x 512 像素图像组成的 Ground Truth 作业。每个边界框都旨在以蕨类植物的中心为中心,并覆盖大部分蕨类植物树枝,同时尝试尽量减少其他植被的包含。该标签是由 AWS 数据科学家在咨询 TNC 领域专家后完成的。在这个标记数据集中,我们没有区分本地蕨类植物和入侵蕨类植物。

重新训练蕨类植物检测模型

第一次模型训练迭代使用了一组 500 个标记图像,其中 400 个在训练集中,100 个在验证集中。该模型的 mAP(根据验证集计算)得分为 0.46,这并不是很高。接下来,我们使用这个初始模型对从可用 JP3,888 数据中提取的更大的 2 张 JPG 图像集进行预测。使用更大的图像集进行训练,模型的 mAP 得分为 0.87。这一显着的改进(如以下示例图像所示)说明了自动标记和模型迭代的价值。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

基于这些发现,我们确定 Ground Truth 标记加上自动标记和模型迭代似乎可以显着提高预测性能。为了进一步量化所得模型的性能,随机选择了一组 300 张图像进行另一轮验证。我们发现,当使用 0.3 的阈值作为检测置信度时,标记器认为 84% 的图像具有正确的预测蕨类植物数量,其中 6.3% 被多计数,9.7% 被少计数。在大多数情况下,多计数/少计数仅导致图像中存在的五到六种蕨类植物中的一到两种存在偏差,因此预计不会显着影响每英亩蕨类植物密度的总体估计。

用于蕨类植物检测模型的 Amazon A2I 更新

该项目面临的一个挑战是,每年收到的图像都是从飞机上拍摄的,因此图像的高度、角度和光线条件可能会有所不同。在以前的数据集上训练的模型需要重新训练才能保持良好的性能,但为新数据集标记蕨类植物是劳动密集型的。因此,我们使用 Amazon A2I 来集成人工审核,以确保新数据的准确性。我们使用 360 度图像作为测试数据集; 35 张图像被发回进行审查,因为这些图像没有置信度得分超过 0.3 的预测。我们重新标记了这 35 张图像,并使用 Amazon A2I 中的增量学习重新训练了模型。重新训练的模型在许多方面都比之前的模型有了显着的改进,例如在较暗的光线条件下的检测,如下图所示。这些改进使得新模型在新数据集上表现得相当好,几乎不需要人工审查和重新标记工作。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

Fern 检测推理管道

TNC-AWS 合作伙伴关系的总体目标是创建一个自动化管道,该管道将 JP2 文件作为输入并生成预测蕨类植物的 UTM 坐标作为输出。主要任务有三项:

  • 第一个是摄取大型 JP2 文件并将其划分为较小的 512 x 512 JPG 文件。其中每一个都有一个关联的仿射变换,可以从像素坐标生成 UTM 坐标。
  • 第二个任务是实际推断和检测潜在的蕨类植物及其位置。
  • 最终任务将推理结果组装成单个 CSV 文件并交付给 TNC。

管道的编排是使用 Step Functions 实现的。正如推断的情况一样,这种选择可以根据需要自动执行配置和释放计算资源的许多方面。此外,还可以目视检查管道架构,从而增强向客户的传播。最后,随着更新的模型将来可能可用,它们可以在对工作流程造成很少或不中断的情况下进行交换。下图说明了此工作流程。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

当推理管道在 10,000 x 10,000 像素的源图像上以批处理模式使用,并将 m4.large 实例分配给 SageMaker 批量转换时,整个推理工作流程在 25 分钟内运行。其中,批量转换花费了 10 分钟,其余的则通过 Step Functions 步骤和 AWS Lambda 函数。 TNC 预计一次最多设置 24 个 JP2 图像,大约每年两次。通过调整批量转换使用的实例的大小和数量,我们预计推理管道可以在 24 小时内完全运行。

蕨类植物分类

在本节中,我们将讨论如何将 SageMaker 主成分分析 (PCA) 算法应用于边界框并验证分类结果。

PCA在蕨类边界框中的应用

为了确定是否可以在不花费大量精力标记大量图像的情况下区分澳大利亚树蕨和本地蕨类植物,我们实施了无监督图像分析程序。对于每个预测的蕨类植物,我们提取了边界框内的区域并将其保存为单独的图像。接下来,利用以下方法将这些图像嵌入到高维向量空间中: img2vec 方法。此过程为每个输入图像生成一个 2048 长的向量。通过利用 SageMaker PCA 算法中实现的主成分分析来分析这些向量。我们保留了前三个分量以供进一步分析,它们合计占矢量数据方差的 85% 以上。

对于前三个组件中的每一个,我们提取了该组件中得分最高和最低的相关图像。这些图像由 AWS 数据科学家和 TNC 领域专家进行了目视检查,目的是确定最高和最低分数是否与本地蕨类植物或入侵蕨类植物相关。我们通过手动将一小组 100 个蕨类植物图像标记为入侵性或原生性并利用 scikit-learn 用于获取指标的实用程序,例如三个 PCA 组件中每个组件的精确召回曲线下的面积。当将 PCA 分数用作二元分类器的输入时(见下图),我们发现 PCA2 最具辨别力,其次是 PCA3,PCA1 在区分本地蕨类植物和入侵蕨类植物方面仅表现出适度的性能。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

分类结果验证

然后,我们与 TNC 领域专家一起检查了具有最大和最小 PCA2 值的图像,以检查该算法是否可以有效区分本地蕨类植物和入侵蕨类植物。在检查了 100 多个蕨类植物图像样本后,TNC 专家确定 PCA2 值最小的图像很可能是原生蕨类植物,而 PCA2 值最大的图像很可能是入侵蕨类植物(请参阅以下示例图像)。我们希望在不久的将来与 TNC 进一步研究这种方法。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

结论

采用本文中提出的推理管道给 TNC 带来的主要好处是双重的。首先,通过用推理成本最低的自动管道取代人工贴标员长达数月的工作,可以节省大量成本。尽管确切的成本可能取决于多个因素,但我们估计成本至少会降低一个数量级。第二个好处是减少了从数据收集到启动缓解工作的时间。目前,十几个大型 JP2 文件的手动标记需要几周时间才能完成,而推理管道预计需要几个小时,具体取决于分配的推理实例的数量和大小。更快的周转时间将影响 TNC 为负责及时处理入侵蕨类植物的工作人员规划路线的能力,并可能考虑到岛上的季节性和天气模式找到适当的处理窗口。

要开始使用 Ground Truth,请参阅 使用 Amazon SageMaker Ground Truth 构建高度准确的训练数据集。另请访问以下网站了解有关 Amazon ML 的更多信息 亚马逊SageMaker 产品页面,并通过访问探索现代应用程序的可视化工作流程 AWS步骤功能 产品页面。


作者简介

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。丹·扬库 是 AWS 的数据科学家。他于三年前加入 AWS,并与包括医疗保健和生命科学、航天工​​业和公共部门在内的各种客户合作。他相信利用机器学习工具为客户带来价值以及为环境保护做出贡献的重要性。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。卡拉扬 是 AWS 专业服务的数据科学家。 她热衷于帮助客户使用 AWS 云服务实现业务目标。 她帮助组织在制造、汽车、环境可持续性和航空航天等多个行业构建了 ML 解决方案。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。阿尔卡约蒂米斯拉 是 Amazon LastMile Transport 的数据科学家。他热衷于应用计算机视觉技术来解决帮助地球的问题。他喜欢与非营利组织合作,并且是该组织的创始成员 埃基皮网.

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。吴安娜琳 是驻新加坡的高级解决方案架构师,她为公共部门机构设计和构建云解决方案。 Annalyn 毕业于剑桥大学,有关机器学习的博客位于 algobeans.com。 她的书, 胡言乱语!面向外行的数据科学,已被翻译成多种语言,并被顶尖大学用作参考文本。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。特里萨·卡布雷拉·梅纳德 是夏威夷大自然保护协会 (TNC) 的应用科学家/地理信息系统专家,负责管理夏威夷群岛各地高分辨率图像的大型数据集。她之前曾参与过夏威夷挑战赛,该挑战赛利用纸上谈兵的自然资源保护主义者来标记可爱岛森林中杂草的图像。

AWS 上的自动化、可扩展且经济高效的 ML:检测夏威夷森林中的入侵澳大利亚树蕨 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。维罗妮卡·梅格勒 是 AWS 专业服务大数据、分析和数据科学首席顾问。她拥有计算机科学博士学位,主要研究时空数据搜索。她专注于技术采用,帮助客户使用新技术解决新问题,并更高效、更有效地解决老问题。

时间戳记:

更多来自 AWS机器学习