今天, 个人身份信息 (PII) 无处不在。 PII 存在于电子邮件、slack 消息、视频、PDF 等中。 它是指任何可以用来识别特定个人身份的数据或信息。 PII 本质上是敏感的,包括各种类型的个人数据,例如姓名、联系信息、身份证号码、财务信息、医疗信息、生物识别数据、出生日期等。
查找和编辑 PII 对于保护隐私、确保数据安全、遵守法律法规以及维持与客户和利益相关者的信任至关重要。 它是现代数据管理和网络安全实践的重要组成部分。 但在电子数据的泥沼中找到 PII 可能会给组织带来挑战。 这些挑战的出现是由于数据量巨大、种类繁多、数据碎片、加密、数据共享、动态内容、误报和漏报、上下文理解、法律复杂性、资源限制、不断变化的数据、用户生成的内容和自适应威胁。 然而,未能准确检测和编辑 PII 可能会给组织带来严重后果。 后果可能包括法律处罚、诉讼、声誉损害、数据泄露成本、监管调查、运营中断、信任侵蚀和制裁。
在法律体系中,证据开示是指管辖与任何一方在诉讼中的主张或抗辩相关的非特权事项的获取权利和义务的法律程序。 电子取证也称为 eDiscovery,是响应诉讼或调查中的生产请求而识别、收集和生成电子存储信息 (ESI) 的电子方面。 在法律领域,在诉讼或调查过程中经常需要识别、收集和生成ESI。 如果组织正在处理传票响应诉讼的电子取证,他们可能会担心意外共享 PII。 包括政府机构、学区和法律专业人士在内的许多组织都面临着大规模准确检测和编辑 PII 的挑战。 特别是如果他们是政府团体的一部分,通过《信息自由法》和《数字服务法》编辑 PII 对于保护个人隐私、确保遵守数据保护法、防止身份盗窃以及维护政府和数字领域的信任和透明度至关重要服务。 它在透明度和隐私之间取得了平衡,同时降低了法律和安全风险。
组织可以使用关键字搜索、模式匹配、数据丢失防护工具、机器学习 (ML)、元数据分析、数据分类软件、光学字符识别 (OCR)、文档指纹识别和加密等方法来搜索 PII。
现在是 Reveal 人工智能驱动的电子取证平台的一部分, 逻辑剔除 是一种自助服务解决方案,允许法律专业人员在诉讼或调查中处理、审查、标记和生成电子文档。 这一独特的服务可帮助律师发现与手头案件相关的有价值的信息,同时降低成本、加快解决速度并降低风险。
在这篇文章中,Reveal 专家展示了他们如何使用 亚马逊领悟 在其文档处理管道中检测和编辑 PII 的各个部分。 Amazon Comprehend 是一项完全托管且持续训练的自然语言处理 (NLP) 服务,可以提取有关文档或文本内容的见解。 您可以使用 Amazon Comprehend ML 功能来检测和编辑客户电子邮件、支持票证、产品评论、社交媒体等中的 PII。
解决方案概述
工程团队的首要目标是为客户从数百万份法律文档中检测和编辑 PII。 使用 Reveal 的 Logikcull 解决方案,工程团队实施了两个流程,即第一遍 PII 检测和第二遍 PII 检测和编辑。 这个两遍解决方案是通过使用 包含Pii实体 和 检测Pii实体 蜜蜂。
首次通过 PII 检测
首次通过 PII 检测的目标是找到可能包含 PII 的文档。
- 用户通过 Logikcull 的公共网站将他们想要执行 PII 检测和编辑的文件上传到项目文件夹中。 这些文件可以采用 Office 文档、.pdf 文件、电子邮件或包含所有支持的文件类型的 .zip 文件的形式。
- Logikcull 将这些项目文件夹安全地存储在 亚马逊简单存储服务(Amazon S3) 桶。 然后,文件通过 Logikcull 的大规模并行处理管道,该管道托管在 Amazon Elastic Compute Cloud(Amazon EC2),它处理文件、提取元数据并生成文本格式的工件以供数据审查。 Logikcull 的处理管道支持多种形式和文件的文本提取,包括音频和视频文件。
- 在以文本格式提供文件后,Logikcull 将输入文本与语言模型(英语)一起通过 Amazon Comprehend 传递,方法是将 包含Pii实体 API 调用。 Amazon EC2 上托管的处理管道服务器使 Amazon Comprehend
ContainsPiiEntities
通过将请求参数作为文本和语言代码传递来进行 API 调用。 这ContainsPiiEntities
API 调用分析输入文本是否存在 PII,并返回已识别 PII 实体类型的标签,例如姓名、地址、银行帐号或电话号码。 API 响应还包括置信度分数,该分数指示 Amazon Comprehend 分配给检测准确性的置信度级别。 置信度分数的值介于 0 和 1 之间,其中 1 表示 100% 置信度。 Logikcull 使用此置信度得分将“检测到的 PII”标签分配给文档。 Logikcull 仅将此标签分配给置信度得分超过 0.75 的文档。 - 检测到的 PII 标记文档将被输入 Logikcull 的搜索索引集群,以便用户快速识别包含 PII 实体的文档。
第二遍 PII 检测和编辑
首次通过 PII 检测过程通过识别哪些文档包含 PII 信息来缩小数据集的范围。 这加快了 PII 检测过程,并降低了总体成本。 第二遍 PII 检测的目标是识别 PII 的各个实例,并从第一遍中标记的文档中编辑它们。
- 用户使用 Logikcull 的高级搜索过滤器功能通过 Logikcull 的网站搜索包含 PII 的文档。
- 该请求由 Logikcull 的应用程序服务器托管在 Amazon EC2 服务器与搜索索引集群通信以查找文档。
- Logikcull 应用程序服务器能够通过以下方式识别 PII 的各个实例: 检测Pii实体 API 调用。 服务器通过传递输入文档的文本和语言来进行 API 调用。 这
DetectPiiEntities
API 操作检查包含 PII 的实体的输入文本。 对于每个实体,响应提供实体类型、实体文本的开始和结束位置以及 Amazon Comprehend 检测的置信度。 - 然后,用户使用 Logikcull 的 Web 界面选择他们想要编辑的特定实体。 应用程序服务器将这些请求发送到 Logikcull 的处理管道。 以下是上传到 Logikcull 应用程序的 PDF 屏幕截图。 从下面的屏幕截图中,您可以看到不同的 PII 实体(例如姓名、地址、电话号码、电子邮件地址等)已突出显示。
- 使用自定义业务逻辑,PII 修订可安全地应用在 Logikcull 的处理管道内。 从下面的屏幕截图中,您可以看到用户可以选择特定的 PII 实体类型或他们想要编辑的所有 PII 实体类型,然后单击一个按钮即可编辑所有 PII 信息。
成果
Logikcull 是一项 Reveal 技术,目前每周处理超过 20 万份文档,并且能够使用 ContainsPiiEntities
API 并使用以下方式向客户显示 PII 实体的各个实例 DetectPiiEntities
API。
“借助 Amazon Comprehend,Logikcull 能够快速部署强大的 NLP 功能,所需时间仅为定制解决方案所需时间的一小部分。”
– Steve Newhouse,Logikcull 产品副总裁。
结论
亚马逊领悟 允许 Reveal 的 Logikcull 技术使用 Amazon Comprehend 以相对较低的成本大规模运行 PII 检测。 这 ContainsPiiEntities
API 用于对数百万份文档进行初始扫描。 这 DetectPiiEntities
API 用于对数千个文档进行详细分析,并识别文档中的各个 PII。
看看所有 亚马逊领悟功能。 尝试一下这些功能并通过以下方式向我们发送反馈: AWS论坛 适用于Amazon Comprehend或通过您通常的AWS支持联系方式。
作者简介
阿曼蒂瓦里 是一名通用解决方案架构师,负责 AWS 的全球商业销售工作。 他与数字原生业务部门的客户合作,帮助他们使用 AWS 服务设计创新、有弹性且经济高效的解决方案。 他拥有东北大学电信网络硕士学位。 工作之余,他喜欢打草地网球和读书。
杰夫·纽伯恩 是一位高级软件工程经理,领导 Logikcull – A Reveal Technology 的数据工程团队。 他负责监督公司的数据计划,包括数据仓库、可视化、分析和机器学习。 他拥有从乘车共享到数据系统等领域的开发和管理经验,喜欢领导优秀的工程师团队开发令人兴奋的产品。
索伦·金发·道加德 是 Logikcull – A Reveal Technology 数据工程团队的一名高级工程师。 他将高度可扩展的人工智能和机器学习解决方案应用到 Logikcull 产品中,使我们的客户能够更高效、更高精度地完成工作。 他的专业知识涵盖数据管道、基于网络的系统和机器学习系统。
凯文·勒夫金 是 Logikcull – A Reveal Technology 搜索工程团队的高级软件工程师,他专注于开发面向客户和搜索相关的功能。 他在 UI/UX 方面的丰富专业知识与全栈 Web 开发背景相辅相成,重点关注将产品愿景变为现实。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- PlatoData.Network 垂直生成人工智能。 赋予自己力量。 访问这里。
- 柏拉图爱流。 Web3 智能。 知识放大。 访问这里。
- 柏拉图ESG。 碳, 清洁科技, 能源, 环境, 太阳能, 废物管理。 访问这里。
- 柏拉图健康。 生物技术和临床试验情报。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :具有
- :是
- :在哪里
- $UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- Able
- 关于
- 账号管理
- 准确
- 法案
- 操作
- 自适应
- 地址
- 高级
- 机构
- AI
- AI供电
- 所有类型
- 允许
- 沿
- 还
- Amazon
- 亚马逊领悟
- Amazon EC2
- 亚马逊网络服务
- 其中
- an
- 分析
- 分析
- 分析
- 和
- 任何
- API
- APIs
- 应用领域
- 应用领域
- 应用的
- 保健
- 地区
- 出现
- AS
- 方面
- 分配
- At
- 音频
- 可使用
- AWS
- 背景
- 当前余额
- 银行
- 银行账户
- BE
- 很
- 如下。
- 之间
- 生物识别
- 分娩
- 书籍
- 违反
- 光芒万丈
- 瞻
- 商业
- 但是
- 按键
- by
- 呼叫
- CAN
- 能力
- 挑战
- 挑战
- 字符
- 字符识别
- 索赔
- 分类
- 点击
- 云端技术
- 簇
- 码
- 收集
- 收藏
- 商业的
- 公司的
- 复杂性
- 符合
- 元件
- 理解
- 计算
- 关心
- 信心
- 后果
- 约束
- CONTACT
- 联系
- 包含
- 包含
- 内容
- 上下文
- 一直
- 价格
- 经济有效
- 成本
- 危急
- 关键
- 目前
- 习俗
- 量身定制
- 顾客
- 合作伙伴
- 网络安全
- 损伤
- data
- 数据泄露
- 数据丢失
- 数据管理
- 数据保护
- 数据安全
- 数据共享
- 日期
- 处理
- 学位
- 部署
- 设计
- 详细
- 检测
- 检测
- 检测
- 发展
- 研发支持
- 不同
- 数字
- 数字化服务
- 通过各种方式找到
- 发现
- 屏 显:
- 瓦解
- do
- 文件
- 文件
- 域
- 向下
- 两
- ,我们将参加
- 动态
- 每
- 有效
- 或
- 电子
- 电子
- 邮箱地址
- 电子邮件
- 使
- 环绕
- 加密
- 结束
- 工程师
- 工程师
- 工程师
- 英语
- 保证
- 实体
- 实体
- 特别
- 必要
- 到处
- 演变
- 令人兴奋的
- 体验
- 专门知识
- 专家
- 广泛
- 提取
- 萃取
- 提取物
- 面部彩妆
- 面对
- 失败
- false
- 专栏
- 特征
- 美联储
- 反馈
- 文件
- 档
- 过滤器
- 金融
- 财务信息
- 找到最适合您的地方
- 寻找
- 指印
- (名字)
- 专注焦点
- 重点
- 以下
- 如下
- 针对
- 申请
- 格式
- 形式
- 分数
- 碎片
- Freedom
- 止
- 充分
- 其他咨询
- 产生
- 给
- 目标
- 治理
- 政府
- 政府机构
- 团队
- 手
- 有
- he
- 帮助
- 更高
- 突出
- 高度
- 他的
- 持有
- 托管
- 创新中心
- 但是
- HTML
- HTTPS
- 鉴定
- 确定
- 鉴定
- 确定
- 身分
- if
- 实施
- 器物
- in
- 包括
- 包含
- 指数
- 表示
- 个人
- 信息
- 初始
- 项目
- 创新
- 输入
- 内
- 洞察
- 接口
- 成
- 调查
- IT
- 它的
- JPG
- 已知
- 标签
- 语言
- 大
- 法律
- 法律法规
- 诉讼
- 诉讼
- 铅
- 领导
- 学习
- 法律咨询
- Level
- 生活
- 喜欢
- 诉讼
- 逻辑
- 看
- 离
- 低
- 机
- 机器学习
- 制成
- 维护
- 使
- 制作
- 管理
- 颠覆性技术
- 经理
- 许多
- 大规模
- 硕士
- 匹配
- 问题
- 媒体
- 医生
- 条未读消息
- 元数据
- 方法
- 可能
- 百万
- 百万
- 缓解
- 降低风险
- ML
- 模型
- 现代
- 更多
- 姓名
- 亦即
- 狭窄
- 本地人
- 自然
- 自然语言处理
- 自然
- 底片
- 网络
- NLP
- 东北大学
- 数
- 数字
- 义务
- 获得
- OCR
- of
- 提供
- 办公
- 经常
- on
- 仅由
- 操作
- 光学字符识别
- or
- 组织
- 组织
- 我们的
- 学校以外
- 超过
- 最划算
- 总体
- 并行
- 参数
- 部分
- 通过
- 通行证
- 通过
- 模式
- 百分
- 演出
- 个人
- 个人资料
- 电话
- 件
- 管道
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 可能
- 帖子
- 强大
- 做法
- 平台精度
- 存在
- 当下
- 预防
- 预防
- 隐私
- 大概
- 过程
- 过程
- 处理
- 生产
- 生产
- 产品
- 产品评论
- 生产
- 核心产品
- 专业人士
- 项目
- 保护
- 保护
- 提供
- 国家
- 很快
- 急速
- 阅读
- 承认
- 减少
- 减少
- 指
- 法规
- 监管
- 有关
- 相对
- 相应
- 声誉
- 请求
- 要求
- 必须
- 弹性
- 资源
- 响应
- 回复
- 回报
- 揭示
- 检讨
- 评论
- 骑
- 右
- 风险
- 运行
- 保护
- 安然
- 销售
- 制裁
- 可扩展性
- 鳞片
- 浏览
- 学校
- 范围
- 得分了
- 搜索
- 搜索
- 其次
- 安全
- 保安
- 安全风险
- 看到
- 段
- 自助服务
- 提交
- 发送
- 前辈
- 敏感
- 服务器
- 服务器
- 服务
- 特色服务
- 严重
- 共享
- 展示
- 简易
- 单
- 松弛
- So
- 社会
- 社会化媒体
- 软件
- 软件工程师
- 软件工程
- 方案,
- 解决方案
- 张力
- 跨度
- 具体的
- 速度
- 团队
- 利益相关者
- Steve (史蒂夫)
- 存储
- 存储
- 商店
- 罢工
- 强烈
- 传票
- 这样
- SUPPORT
- 支持
- 支持
- 系统
- 产品
- 行李牌
- 团队
- 队
- 专业技术
- 电信
- 文本
- 这
- 盗窃
- 其
- 他们
- 然后
- 博曼
- 他们
- Free Introduction
- 数千
- 威胁
- 通过
- 门票
- 次
- 至
- 工具
- 熟练
- 用户评论透明
- 信任
- 尝试
- 二
- 类型
- 类型
- 理解
- 独特
- 大学
- 上传
- us
- 使用
- 用过的
- 用户
- 使用
- 运用
- 通常
- 有价值
- 折扣值
- 各种
- 各个
- 广阔
- 视频
- 视频
- 愿景
- 体积
- vp
- 想
- 是
- 卷筒纸
- Web开发
- Web服务
- 基于网络的
- 您的网站
- 周
- 这
- 而
- 宽
- 工作
- 加工
- 合作
- 全世界
- 将
- 完全
- 您一站式解决方案
- 和风网
- 压缩