使用 Amazon Fraud Detector 克服欺诈检测中的机器学习冷启动挑战

由柏拉图重新发布

关注： 0

随着越来越多的企业增加在线业务以更好地为客户服务，新的欺诈模式不断出现。在当今不断发展的数字环境中，欺诈者的策略变得越来越复杂，检测和预防此类欺诈活动已成为公司和金融机构的首要任务。

传统的基于规则的欺诈检测系统的快速迭代能力受到限制，因为它们依赖于预定义的规则和阈值来标记潜在的欺诈活动。这些系统会产生大量误报，从而显着增加欺诈团队执行的手动调查量。此外，人类也容易出错并且处理大量数据的能力有限，人工检测欺诈非常耗时，这可能导致错过欺诈交易、增加损失和声誉受损。

机器学习 (ML) 在检测欺诈方面起着至关重要的作用，因为它可以快速准确地分析大量数据以识别异常模式和可能的欺诈趋势。 ML 欺诈模型的性能在很大程度上依赖于它所训练的数据质量，特别是对于监督模型，准确的标记数据至关重要。在 ML 中，缺乏重要的历史数据来训练模型被称为 冷启动问题.

在欺诈检测领域，以下是一些传统的冷启动场景：

在缺乏交易或欺诈案例历史的情况下建立准确的欺诈模型
能够准确地区分新客户和账户的合法活动和欺诈行为
风险决定向欺诈系统从未见过的地址或收款人付款

有多种方法可以解决这些情况。例如，您可以使用通用模型，称为“一刀切”模型，这些模型通常在欺诈联盟等欺诈数据共享平台上进行训练。这种方法的挑战在于没有任何业务是平等的，欺诈攻击向量不断变化。

另一种选择是使用无监督异常检测模型来监视和显示客户事件中的异常行为。这种方法的挑战在于并非所有欺诈事件都是异常，也并非所有异常都是欺诈。因此，您可以预期更高的误报率。

在这篇文章中，我们展示了如何使用少至 100 个事件快速引导实时欺诈预防 ML 模型亚马逊欺诈检测器新功能，冷启动，从而大大降低许多根本没有时间或能力收集和准确标记大型数据集的组织进入自定义 ML 模型的门槛。此外，我们还讨论了如何通过使用 Amazon Fraud Detector 存储的事件来查看结果并正确标记事件以重新训练您的模型，从而随着时间的推移提高欺诈预防措施的有效性。

解决方案概述

Amazon Fraud Detector 是一种完全托管的欺诈检测服务，可自动检测在线潜在的欺诈活动。您可以使用 Amazon Fraud Detector 使用您自己的历史数据集构建自定义欺诈检测模型，使用内置规则引擎添加决策逻辑，并通过单击按钮来编排风险决策工作流。

以前，您必须提供超过 10,000 个标记事件和至少 400 个欺诈示例才能训练模型。随着冷启动功能的发布，您可以使用至少 100 个事件和至少 50 个归类为欺诈的事件快速训练模型。与初始数据要求相比，历史数据减少了 99%，标签要求减少了 87%。

新的冷启动功能提供了用于丰富、扩展和风险建模小型数据集的智能方法。此外，Amazon Fraud Detector 对未标记的事件执行标签分配和抽样。

使用公共数据集进行的实验表明，通过将限制降低到 50 个欺诈和仅 100 个事件，您可以构建始终优于无监督和半监督模型的欺诈 ML 模型。

冷启动模型性能

ML 模型对未见数据进行概括和准确预测的能力受到训练数据集的质量和多样性的影响。对于冷启动模型，这也不例外。随着收集更多数据以正确标记这些事件并重新训练模型，您应该制定流程，最终实现最佳模型性能。

在数据要求较低的情况下，由于模型方差的增加和测试数据大小的限制，报告性能的不稳定性会增加。为了帮助您建立正确的模型性能预期，除了模型 AUC 之外，Amazon Fraud Detector 还报告不确定性范围指标。下表定义了这些指标。

.	.	AUC
.	.	<0.6	0.6 - 0.8	> = 0.8
AUC 不确定区间	> 0.3	模型性能非常低，可能会有很大差异。预计欺诈检测性能较低。	模型性能低，可能相差很大。预计欺诈检测性能有限。	模型性能可能会有很大差异。
	0.1 - 0.3	模型性能非常低，可能会有很大差异。预计欺诈检测性能较低。	模型性能低，可能会有很大差异。预计欺诈检测性能有限。	模型性能可能会有很大差异。
	<0.1	模型性能非常低。预计欺诈检测性能较低。	模型性能低。预计欺诈检测性能有限。	没有警告

训练冷启动模型

训练冷启动欺诈模型与训练任何其他 Amazon Fraud Detector 模型相同；不同的是数据集的大小。您可以在我们的网站中找到用于冷启动训练的示例数据集 GitHub仓库。要训练 Amazon Fraud Detector 自定义模型，您可以按照我们的动手操作教程. 您可以使用 Amazon Fraud Detector 控制台教程或者 SDK教程构建、训练和部署欺诈检测模型。

训练模型后，您可以查看性能指标，然后通过将其状态更改为来部署它 现有的. 要了解有关模型分数和性能指标的更多信息，请参阅模型分数和模型绩效指标. 此时，您现在可以将模型添加到检测器中，添加业务规则解释模型输出的风险评分，并使用获取事件预测 API。

欺诈 ML 模型持续改进和反馈循环

借助 Amazon Fraud Detector 冷启动功能，您可以快速引导欺诈检测器端点并立即开始保护您的业务。然而，新的欺诈模式不断出现，因此使用更新的数据重新训练冷启动模型以随着时间的推移提高预测的准确性和有效性至关重要。

为了帮助您迭代模型，Amazon Fraud Detector 会自动存储所有发送到该服务以进行推理的事件。您可以在事件类型级别更改或验证事件摄取标志是否打开，如以下屏幕截图所示。

使用 Amazon Fraud Detector PlatoBlockchain 数据智能克服欺诈检测中的机器学习冷启动挑战。垂直搜索。人工智能。

借助存储的事件功能，您可以使用 Amazon Fraud Detector SDK 以编程方式访问事件、查看事件元数据和预测说明，并做出明智的风险决策。此外，您可以为未来的模型再训练和持续的模型改进标记事件。下图显示了此工作流程的示例。

使用 Amazon Fraud Detector PlatoBlockchain 数据智能克服欺诈检测中的机器学习冷启动挑战。垂直搜索。人工智能。

在以下代码片段中，我们演示了标记存储事件的过程：

要对事件进行实时欺诈预测，请调用 GetEventPrediction API：

import boto3 def get_event_prediction(): fraudDetector = boto3.client('frauddetector') prediction = fraudDetector.get_event_prediction( detectorId='your_detector_name', detectorVersionId='1', eventId='my-event-id-1234', eventTypeName='your_event_type', entities=[ { 'entityType': 'user', 'entityId': 'A12345' }, ], eventTimestamp= '2023-03-23T21:42:03.658Z', eventVariables={ 'email': 'test@anymockcompany.com', 'ip': '123.123.123.123', 'card_bin': '400022', 'billing_zip': '50401' } ) return(prediction)

API 响应：

{ "modelScores": [ { "modelVersion": { "modelId": "your_model_name", "modelType": "TRANSACTION_FRAUD_INSIGHTS", "modelVersionNumber": "1.0" }, "scores": { "your_model_insightscore": 932 } } ], "ruleResults": [ { "ruleId": "high_risk_score", "outcomes": [ "high_risk_send_for_manual_review" ] } ]

如响应中所示，根据匹配的决策引擎规则，应将事件发送给欺诈团队进行人工审核。通过收集预测解释元数据，您可以深入了解每个事件变量如何影响模型的欺诈预测分数。

为了收集这些见解，我们使用 get_event_prediction_metada API：

import boto3 def get_event_prediction_metadata(event, context): fraudDetector = boto3.client('frauddetector') prediction = fraudDetector.get_event_prediction_metadata( eventId = 'my-event-id-1234', eventTypeName = 'your_event_type', predictionTimestamp = '2023-03-23T21:44:39.318Z', detectorId = 'your_detector_name', detectorVersionId = '1' ) return(prediction)

API 响应：

{ "modelScores": [ { "modelVersion": { "modelId": "your_model_name", "modelType": "TRANSACTION_FRAUD_INSIGHTS", "modelVersionNumber": "1.0" }, "scores": { "your_model_insightscore": 932 } } ], "ruleResults": [ { "ruleId": "high_risk_score", "outcomes": [ "high_risk_send_for_manual_review" ] } ] { "eventId": "my-event-id-1234", … <REDACTED> … "eventVariables": [ { "name": "ip", "value": "123.123.123.123" }, { "name": "billing_zip", "value": "50401" }, { "name": "email", "value": "test@anymockcompany.com" }, { "name": "card_bin", "value": "400022" } ],
… <REDACTED>
… "evaluations": [ { "evaluationScore": "932.0", "predictionExplanations": { "variableImpactExplanations": [ { "eventVariableName": "billing_zip", "relativeImpact": "1", "logOddsImpact": 1.018196990713477135 }, { "eventVariableName": "ip", "relativeImpact": "0", "logOddsImpact": -0.23122438788414001 }, { "eventVariableName": "email", "relativeImpact": "0", "logOddsImpact": 0.004304269328713417 }, { "eventVariableName": "card_bin", "relativeImpact": "0", "logOddsImpact": -0.011150157079100609 } ],
}

有了这些洞察力，欺诈分析师可以就相关事件做出明智的风险决策并更新事件标签。

要更新事件标签，请调用 update_event_label API：

import boto3 def update_event_label(event, context): fraudDetector = boto3.client('frauddetector') prediction = fraudDetector.update_event_label( eventId = "my-event-id-1234", eventTypeName = "your_event_type", assignedLabel='1', # Fraud labelTimestamp='2023-03-25T11:20:03.658Z' ) return(prediction)

API 响应

{ "ResponseMetadata": { "RequestId": "3e28caa0-2a06-4b8d-9a10-9081811bf22d", "HTTPStatusCode": 200, … <REDACTED> … "RetryAttempts": 0 }
}

作为最后一步，您可以验证事件标签是否已正确更新。

要验证事件标签，请调用 get_event API：

import boto3 def get_event(): fraudDetector = boto3.client('frauddetector') event = fraudDetector.get_event( eventId='my-event-id-1234', eventTypeName=’your_event_type' ) return(event)

API 响应

{ "event": { "eventId": "my-event-id-1234", "eventTimestamp": "2023-03-23T21:42:03.658Z", "eventVariables": { "billing_zip": "50401", "card_bin": "400022", "email": "test@anymockcompany.com", "ip": "123.123.123.123" }, "currentLabel": "1", "labelTimestamp": "2023-03-25T11:20:03.658Z", "entities": [ { "entityType": "user", "entityId": "A12345" } ] }
}

清理

为避免将来产生费用，请删除为解决方案创建的资源。

结论

这篇博文演示了如何使用 Amazon Fraud Detector 的新冷启动功能快速引导具有少至 100 个事件的实时欺诈预防系统。我们讨论了如何使用存储的事件来审查结果并正确标记事件并重新训练您的模型，从而随着时间的推移提高欺诈预防措施的有效性。

Amazon Fraud Detector 等完全托管的 AWS 服务有助于减少企业分析用户行为以识别其平台中的欺诈行为的时间，并更加专注于推动业务价值。要详细了解 Amazon Fraud Detector 如何帮助您的业务，请访问亚马逊欺诈检测器。

作者简介

马塞尔·皮维达尔 是全球专家组织的全球高级 AI 服务解决方案架构师。 Marcel 在通过技术为金融科技公司、支付提供商、制药公司和政府机构解决业务问题方面拥有 20 多年的经验。他目前的重点领域是风险管理、欺诈预防和身份验证。

朱莉娅徐 是 Amazon Fraud Detector 的研究科学家。她热衷于使用机器学习技术解决客户面临的挑战。在空闲时间，她喜欢远足、绘画和探索新的咖啡店。

纪列美·里奇 是 AWS 的高级解决方案架构师，帮助初创公司实现应用程序的现代化和优化成本。他在金融领域的公司拥有超过 10 年的经验，目前正在与 AI/ML 专家团队合作。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
与 Adryenn Ashley 一起铸造未来。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/overcome-the-machine-learning-cold-start-challenge-in-fraud-detection-using-amazon-fraud-detector/

时间戳记： 2023 年 4 月 17 日

时间戳记： 2023 年 3 月 10 日

由柏拉图重新发布

在 Amazon SageMaker Studio 中使用具有默认生命周期配置的 Amazon SageMaker Data Wrangler

使用 AWS 专用加速器将机器学习工作负载的能耗降低高达 90% | 亚马逊网络服务

利用 Amazon Lex 中新的生成式 AI 功能提升您的自助服务助理 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理