使用 Amazon Forecast 持续监控预测器的准确性

由柏拉图重新发布

关注： 0

我们很高兴地宣布，您现在可以自动监控您的亚马逊预报随时间变化的预测因子。随着新数据的提供，Forecast 会自动计算新数据集上的预测器准确度指标，为您提供更多信息以决定是继续使用、重新训练还是创建新的预测器。

监控预测器质量并识别随时间推移的准确性下降对于实现业务目标很重要。但是，持续监控预测器准确度指标所需的流程设置起来可能很耗时，而且管理起来也很困难：必须评估预测，并且必须计算更新的准确度指标。此外，必须存储指标并绘制图表，以了解趋势并做出有关保留、再培训或重新创建预测变量的决策。这些流程可能会导致昂贵的开发和维护负担，并对数据科学和分析师团队造成重大的运营压力。而对于不愿意承担这个耗时过程的客户（即使不需要，他们也更愿意重新训练新的预测器），这会浪费时间和计算。

随着今天的发布，随着新数据的导入，Forecast 现在会随着时间的推移自动跟踪预测器的准确性。您现在可以量化您的预测器与初始质量指标的偏差，并通过可视化趋势来系统地评估模型质量，并在新数据进入时就保留、重新训练或重建您的模型做出更明智的决策。可以在开始时为新预测器启用预测器监控，或为现有模型打开。您可以一键启用此功能 AWS管理控制台或者使用预测 API.

随时间变化的预测精度

预测器是使用一组原始训练数据在某个时间点创建的机器学习模型。创建预测器后，它会在未来数天、数周或数月内持续使用，以生成时间序列预测，其中包含通过实际事务生成的新地面实况数据。导入新数据时，预测器会根据提供给它的最新数据生成新的预测数据点。

首次创建预测变量时，Forecast 会生成准确度指标，例如加权分位数损失 (wQL)、平均绝对百分比误差 (MAPE) 或均方根误差 (RMSE)，以量化预测变量的准确性。这些准确度指标用于确定预测器是否会投入生产。但是，预测器的性能会随着时间的推移而波动。外部因素，例如经济环境或消费者行为的变化，可以改变预测变量的基本因素。其他因素包括可能创建的新产品、项目和服务；金融或经济环境的变化；或数据分布的变化。

例如，考虑在产品的某种颜色流行时训练的预测器。几个月后，新颜色可能会出现或变得更流行，并且值的分布会发生变化。或者商业环境发生转变，改变了长期存在的购买模式（例如从高利润产品到低利润产品）。考虑到所有因素，可能需要重新训练预测器，或者可能需要创建新的预测器以确保继续进行高度准确的预测。

自动预测器监控

预测器监控旨在在新的地面实况时间序列数据可用时自动分析预测器的性能，并用于创建新的预测。这种监控为您提供持续的模型性能信息，并节省您的时间，因此您不必自己设置流程。

如果在 Forecast 中启用了预测器监控，则每次导入新数据并生成新预测时，性能统计信息都会自动更新。到目前为止，这些性能统计数据仅在最初训练预测器时可用；现在，这些统计数据是使用新的地面实况数据连续生成的，并且可以主动监控以衡量预测器的性能。

这允许您使用预测器性能统计信息来决定何时训练或重新训练新的预测器。例如，当平均 wQL 指标偏离初始基线值时，您可以确定是否重新训练新的预测器。如果您决定重新训练预测器或创建新的预测器，则可以开始使用更准确的预测器生成新的预测数据点。

下图提供了预测变量监控的两个示例。在第一个图表中，平均 wQL 指标从基线（训练预测器时的初始值）开始下降，表明预测准确度随着时间的推移而增加。该图表显示平均 wQL 在几天内从 0.3 下降到 0.15，这意味着预测准确性正在提高。在这种情况下，无需重新训练预测器，因为它产生的预测比首次训练时更准确。

在下图中，情况正好相反：平均 wQL 正在增加，这表明准确度随着时间的推移而降低。在这种情况下，您应该考虑使用新数据重新训练或重建预测器。

在 Forecast 中，您可以选择重新训练当前预测器或从头开始重建它。再培训一键完成，并包含更多最新数据以及预测算法中的任何更新和改进。重建预测器允许您提供新的输入（例如预测频率、范围或新维度）来创建新的预测器。

启用预测器监控

您可以在创建新预测器时启用预测器监控，或为现有预测器打开它。本节中的步骤演示如何使用 Forecast 控制台执行这些步骤。还有一个 Jupyter 笔记本它通过一系列步骤使用 API 启用预测器监控并生成预测器监控结果。

此示例使用可从预测器监控中获得的时间切片样本数据集笔记本. 在我们的示例中，我们从 100,000 行的纽约市出租车上车数据集开始，其中包含时间戳、位置 ID 和目标值（在位置 ID 的时间戳期间请求的上车次数）。

完成以下步骤：

在“预测”控制台上，选择 查看数据集组 在导航窗格中。
创建数据集组 并提供您的数据集组详细信息。
创建数据集组后，系统会提示您创建目标时间序列数据集。您使用此数据集来训练预测器并创建预测。
点击 创建目标时间序列数据集 页面，提供数据的架构、频率和位置。
Start 开始 导入您的目标数据集。
接下来，您构建预测器并使用初始数据集对其进行训练。
在导航窗格中，选择 预测因素.
训练新的预测器.
在 预测器设置 部分，输入您的预测变量的名称、您想要预测的未来多长时间和频率，以及您想要预测的分位数。
针对 优化指标, 你可以选择一个优化指标来优化 AutoPredictor 为您选择的特定准确度指标调整模型。我们将其保留为演练的默认设置。
要获取预测变量可解释性报告，请选择 启用预测器可解释性.
要启用预测器监控，请选择 启用预测器监控.
在输入数据配置下，您可以添加当地天气信息和国家法定节假日，以获得更准确的需求预测。
Start 开始 开始训练你的预测器。

Forecast 现在使用此初始数据集训练预测器。启用预测器监控后，每次在此数据集组中提供新数据时，Forecast 都能够计算更新的预测器准确度指标。
预测器经过训练后，选择它来评估初始准确度指标。

指标选项卡显示初始预测质量指标。因为您没有从您的预测器生成任何预测或导入任何新的地面实况数据，所以在 灭菌监测 标签。
下一步是使用新的预测器生成预测。
预测在导航窗格中。
创建预测 根据您刚刚导入的时间序列数据和预测器设置创建新预测。
提供预测名称、预测变量名称以及您希望计算的任何其他分位数指标。

创建预测后，您可以在 预测详情 页面上发布服务提醒。

预测器监控：随着时间的推移评估准确性

随着时间的推移，您的业务流程会创建新的真实数据，例如更新的销售数据、人员配备水平或制造产量。要基于该新数据创建新预测，您可以将数据导入您创建的数据集。

在 Amazon Forecast 控制台上，在 数据集组 页面，选择您的数据集组。
选择您的数据集。
在 数据集导入 部分中，选择 创建数据集导入.
提供有关更新数据的其他详细信息，包括其位置。
Start 开始.

借助预测器监控，Forecast 将此新数据与先前生成的预测进行比较，并计算预测器的准确度指标。随着新数据添加到数据集中，更新的预测器质量指标会持续计算。

您可以按照这些步骤导入其他数据，代表随着时间的推移发生的其他交易。

评估预测器监测结果

要查看预测器监控结果，您必须在生成初始预测后添加新的地面实况数据。预测将这个新的地面实况数据与之前的预测进行比较，并生成更新的模型精度值以进行监控。

点击 数据集组 页面，选择相关的数据集组并选择目标时间序列以使用新的地面实况数据对其进行更新。
创建数据集导入 并添加新的地面实况数据。

提供额外的基本事实数据后，您可以打开预测器并查看初始预测器监控统计信息。
选择您的预测器并导航到 灭菌监测 标签。

您可以按照这些步骤使用此预测器运行其他预测，并添加更多的地面实况数据迭代。您的预测器的模型准确性统计的进展可在 灭菌监测 标签。

此示例显示已使用四个附加数据更新评估的预测变量的模型准确度统计信息。预测器在最初训练时的初始基线 MAPE 为 0.55。随着附加数据的加载，第一个附加数据集的 MAPE 下降到 42，表明预测器更准确，随后的数据集在 42 到 48 的狭窄范围内波动。

您可以切换图表以查看其他指标。在以下示例中，MASE 和平均 wQL 显示出与基线相比随时间的类似波动。

监控历史 页面底部的部分提供了随时间跟踪的所有预测器准确性指标的完整详细信息。

在现有预测器上设置预测监控

您可以轻松启用对现有预测变量的监控。为此，请完成以下步骤：

在导航窗格中的数据集下，选择 预测因素.
从这里有两种方法可以启用监控：
1. 开始监控 在下面 灭菌监测 列。
2. 选择您的预测器并在 灭菌监测 标签，在 监控详情，选择 启动监视器.
在弹出的对话框中，选择 Start 开始 开始监控选定的预测变量。