这是 The Very Group 应用程序和可靠性框架首席平台工程师 Andy Whittle 的客座帖子。
At 非常小组经营数字零售商 Very,安全是处理数百万客户数据的重中之重。 The Very Group 保护和跟踪业务运营的部分方式是通过业务系统之间的活动日志记录(例如,跨客户订单的各个阶段)。 这是一项关键的运营要求,使 The Very Group 能够跟踪事件并主动识别问题和趋势。 但是,这可能意味着以个人身份信息 (PII) 的形式处理与购买、退货、灵活支付选项的使用和账户管理等活动相关的客户数据。
在这篇文章中,The Very Group 展示了他们如何使用 亚马逊领悟 在策略之上添加一层自动防御,将威胁建模设计到所有系统中,以防止 PII 在日志数据中发送到 Elasticsearch 进行索引。 Amazon Comprehend 是一种完全托管且持续训练的自然语言处理 (NLP) 服务,可以提取有关文档或文本内容的见解。
解决方案概述
The Very Group 工程团队的首要目标是防止任何 PII 数据到达 Elasticsearch 中的文档。 为了实现这一目标并自动从每天数百万条已识别记录中删除 PII,Very Group 的工程团队在 Terraform 中创建了一个应用程序可观察性模块。 该模块实现了一个可观察性解决方案,包括应用程序日志、应用程序性能监控 (APM) 和指标。 在该模块中,该团队使用 Amazon Comprehend 突出显示日志数据中的 PII,并可选择在发送到 Elasticsearch 之前将其删除。
Amazon Comprehend 被确定为内部平台工程计划的一部分,该计划旨在研究如何使用 AWS AI 服务来提高效率并降低重复性业务活动的风险。 Very Group 的学习和实验文化意味着使用 Java 应用程序对 Amazon Comprehend 的适用性进行了审查,以了解它如何处理测试 PII 数据。 该团队使用文档中的代码示例来加速概念验证,并在一天内迅速证明其潜力。
工程团队开发了一个示意图,展示了 PII 编辑服务如何与 Very Group 的日志记录集成。 它涉及开发一个微服务来 调用 Amazon Comprehend 检测 PII 数据. 该解决方案的工作原理是将 The Very Group 的日志数据传递给运行在 AWS 法门,它使用 Fargate 托管的另一个基于 Spring Boot Java 应用程序的 pii-logstash-redaction 服务清理数据,该应用程序调用 Amazon Comprehend 以删除 PII。 下图说明了此体系结构。
Very Group 的解决方案从 亚马逊CloudWatch 和 亚马逊弹性容器服务 (Amazon ECS) 并将清理后的版本传递给 Elasticsearch 以进行索引。 亚马逊Kinesis 在解决方案中用于短期捕获和存储日志,Logstash 每隔几秒拉取一次日志。
日志来源于许多业务流程,包括订购、退货和金融服务。 它们包括来自 Fargate 中跨测试和生产环境的 200 多个 Amazon ECS 应用程序的日志,这些应用程序将日志推送到 Logstash。 另一个来源是 AWS Lambda 被拉入 Kinesis,然后被拉入 Logstash 的日志。 最后,一个独立的 Filebeat 实例提取日志分析并将它们放入 CloudWatch,然后放入 Logstash。 结果是许多源日志被拉取或推送到 Logstash 并由应用程序可观察性模块和 Amazon Comprehend 处理,然后存储在 Elasticsearch 中。
一个单独的 Terraform 模块提供了建立 Logstash 服务所需的所有基础设施,该服务能够通过以下方式将日志从 CloudWatch 日志组导出到 Elasticsearch AWS私有链接 VPC 端点。 Logstash 服务还可以通过以下方式与 Amazon ECS 集成 firelens 日志配置, 与 Amazon ECS 通过一个建立连接 亚马逊路线53 记录。 可扩展性内置于 Kinesis 按需扩展中(尽管该团队从固定分片开始,但现在正在切换到按需使用),而 Logstash 可扩展到额外的 亚马逊弹性计算云 (Amazon EC2) 实例由于 Filebeat 使用的协议而位于 NLB 之后,并使 Logstash 能够更有效地从 Kinesis 中提取日志。
最后,Logstash 服务由包含 Logstash 容器和 PII 编辑容器的任务定义组成,确保在导出到 Elasticsearch 之前删除 PII。
成果
工程团队能够在一周内构建和测试解决方案,无需了解机器学习 (ML) 或 AI 的工作原理,使用 Amazon Comprehend 视频指导, API 参考文档及 示例代码. 如此迅速地展示了业务价值后,业务产品所有者已开始开发新的用例以利用该服务。 必须做出一些决定才能启用该解决方案。 尽管平台工程团队知道他们可以编辑数据,但他们想要拦截来自当前解决方案的日志(基于 Fluent Bit sidecar 将日志重定向到端点)。 他们决定采用 Logstash 来实现通过管道拦截日志字段,以与他们的 PII 服务(包括 Terraform 模块和 Java 服务)集成。
Logstash 的采用最初是无缝完成的。 Very Group 工程团队现在直接通过 API 端点使用该服务,将日志直接放入 Elasticsearch。 这使他们能够将端点从 Sidecar 切换到新端点,并通过 Terraform 模块进行部署。 该团队遇到的唯一问题是初始测试显示在使用峰值交易负载进行测试时存在速度问题。 这是通过调整 Java 代码克服的。
以下代码显示了 The Very Group 如何使用 Amazon Comprehend 从日志消息中删除 PII。 它检测任何 PII 并创建要记录的实体类型列表。 为了加速开发,代码取自 AWS 文档并经过调整以用于部署在 Fargate 上的 Java 应用程序服务。
以下屏幕截图显示了作为 PII 编辑过程的一部分发送到 Elasticsearch 的输出。 该服务每天生成 1 万条记录,每次进行编辑时都会生成一条记录。
日志消息被编辑,字段 redacted_entities 包含在消息中找到的实体类型列表。 在本例中,该示例找到了一个 URL,但它可能已经识别出主要基于 PII 内置类型的任何类型的 PII 数据。 通过 Amazon Comprehend 添加了用于客户帐号的额外定制 PII 类型,但目前还不需要。 GitHub 中记录了工程小队级别的覆盖,以了解如何使用它们。
结论
该项目使 The Very Group 能够实施一个快速简单的解决方案来编辑日志中的敏感 PII。 工程团队进一步增加了灵活性,允许覆盖实体类型,使用 Amazon Comprehend 提供根据业务需求编辑 PII 的灵活性。 将来,工程团队正在考虑培训各个 Amazon Comprehend 实体来编辑我们的客户 ID 等字符串。
解决方案的结果是 The Very Group 可以自由地通过日志而不需要担心。 它执行不将 PII 存储在日志中的策略,从而降低风险并提高合规性。 此外,正在编辑的元数据通过 Elasticsearch 仪表板报告回业务,从而启用警报和进一步的行动。
花时间评估您的组织尚未使用的 AWS AI/ML 服务,并培养试验文化。 正如 The Very Group 所证明的那样,从简单开始可以迅速带来商业利益。
关于作者
安迪惠特尔 是英国数字零售商 Very 运营商 The Very Group 的首席平台工程师 – 应用程序和可靠性框架。 Andy 帮助提供跨组织部落的性能监控,并且对应用程序监控、可观察性和性能特别感兴趣。 自 1998 年加入 Very 以来,Andy 担任过各种职务,包括内容管理和目录制作、库存管理、制作支持、DevOps 和融合中间件。 在过去的 4 年里,他一直是平台工程团队的一员。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- Able
- 关于
- 加快
- 账号管理
- 帐户管理
- 横过
- 操作
- 活动
- 活动
- 添加
- 额外
- 采用
- 采用
- 优点
- AI
- 人工智能服务
- AI / ML
- 所有类型
- 允许
- 尽管
- Amazon
- 亚马逊领悟
- Amazon EC2
- 分析
- 和
- 另一个
- API
- 应用领域
- 应用
- 架构
- 自动化
- 自动化
- AWS
- 背部
- 基于
- before
- 背后
- 作为
- 得益
- 之间
- 位
- 建立
- 建
- 内建的
- 商业
- 呼叫
- 能力
- 捕获
- 案件
- 例
- 检索目录
- 码
- 符合
- 理解
- 计算
- 概念
- 连接方式
- 容器
- 包含
- 内容
- 可以
- 覆盖
- 创建
- 创建
- 危急
- 文化塑造
- 电流
- 顾客
- 客户数据
- 合作伙伴
- XNUMX月XNUMX日
- data
- 天
- 决定
- 决定
- 国防
- 交付
- 需求
- 证明
- 示范
- 部署
- 部署
- 设计
- 开发
- 发达
- 发展
- 研发支持
- 数字
- 直接
- 文件
- 文件
- 文件
- 向下
- 每
- 只
- 效率
- enable
- 使
- 使
- 端点
- 工程师
- 工程师
- 保证
- 实体
- 实体
- 环境中
- 建立
- 例子
- 例子
- 实验
- 提取
- 少数
- 部分
- 字段
- 终于
- 金融
- 金融服务
- 固定
- 高度灵活
- 柔软
- 以下
- 申请
- 培育
- 发现
- 框架
- Freedom
- 止
- 充分
- 进一步
- 此外
- 聚变
- 未来
- 产生
- 发电
- GitHub上
- 目标
- 团队
- 组的
- 客人
- 游客发表
- 处理
- 有
- 帮助
- 近期亮点
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 确定
- 鉴定
- 实施
- 器物
- 改善
- 改善
- in
- 包括
- 包含
- 个人
- 信息
- 基础设施
- 初始
- 原来
- 倡议
- 洞察
- 例
- 整合
- 集成
- 兴趣
- 内部
- 调查
- 参与
- 问题
- IT
- 爪哇岛
- 加盟
- 标签
- 语言
- 在很大程度上
- 层
- 铅
- 学习用品
- 学习
- 清单
- 负载
- 寻找
- 机
- 机器学习
- 制成
- 制作
- 管理
- 颠覆性技术
- 许多
- 的话
- 条未读消息
- 元数据
- 指标
- 百万
- 百万
- ML
- 造型
- 模块
- 监控
- 更多
- 自然
- 自然语言处理
- 需要
- 需要
- 全新
- NLP
- 数
- 运营
- 操作
- 运营
- 附加选项
- 附加选项
- 秩序
- 组织
- 克服
- 压倒一切
- 业主
- 部分
- 特别
- 通行证
- 通过
- 过去
- 付款
- 高峰
- 性能
- 期
- 亲自
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 政策
- 政策
- 帖子
- 潜力
- 防止
- 校长
- 先
- 优先
- 私立
- 问题
- 过程
- 处理
- 过程
- 处理
- 产品
- 生产
- 项目
- 证明
- 概念验证
- 协议
- 证明
- 提供
- 提供
- 拉
- 拉
- 购买
- 推
- 放
- 认沽期权
- 快速
- 很快
- 记录
- 记录
- 重定向
- 减少
- 减少
- 关系
- 可靠性
- 切除
- 去掉
- 删除
- 报道
- 请求
- 必须
- 需求
- 响应
- 导致
- 零售商
- 回报
- 回报
- 揭密
- 审查
- 风险
- 角色
- 路线
- 运行
- 可扩展性
- 秤
- 缩放
- 无缝
- 秒
- 获得
- 保安
- 发送
- 敏感
- 服务
- 特色服务
- 短
- 作品
- 简易
- 自
- So
- 至今
- 方案,
- 一些
- 来源
- 来源
- 速度
- 弹簧
- 弹簧靴
- 实习
- 站
- 独立
- 开始
- 开始
- 库存
- 商店
- 存储
- 直
- 这样
- SUPPORT
- Switch 开关
- 产品
- 采取
- 需要
- 任务
- 团队
- Terraform
- test
- 测试
- 测试
- 其
- 从而
- 威胁
- 通过
- 次
- 至
- 最佳
- 追踪
- 交易
- 熟练
- 产品培训
- 趋势
- 类型
- Uk
- 理解
- 网址
- 用法
- 使用
- 折扣值
- 各种
- 通过
- 视频
- 通缉
- 周
- 这
- 宽
- 中
- 也完全不需要
- 工作
- 加工
- 年
- 您一站式解决方案
- 和风网