今日、 個人を特定できる情報 (PII) はどこにでもあります。 PII は電子メール、Slack メッセージ、ビデオ、PDF などに含まれています。 特定の個人を識別するために使用できるあらゆるデータまたは情報を指します。 PII は本質的に機密性が高く、名前、連絡先情報、識別番号、財務情報、医療情報、生体認証データ、生年月日などのさまざまな種類の個人データが含まれます。
PII の検索と編集は、プライバシーの保護、データ セキュリティの確保、法律や規制の遵守、顧客や関係者との信頼の維持に不可欠です。 これは、最新のデータ管理とサイバーセキュリティ実践の重要な要素です。 しかし、電子データの泥沼の中から PII を見つけることは、組織にとって課題となる可能性があります。 これらの課題は、膨大な量と多様なデータ、データの断片化、暗号化、データ共有、動的コンテンツ、誤検知と誤検知、状況の理解、法的な複雑さ、リソースの制約、進化するデータ、ユーザー生成コンテンツ、および適応型の脅威によって発生します。 ただし、PII を正確に検出して編集できないと、組織に重大な結果が生じる可能性があります。 その結果には、法的罰則、訴訟、風評被害、データ侵害コスト、規制調査、業務の中断、信頼の低下、制裁が含まれる可能性があります。
法制度において、証拠開示は、訴訟における当事者の請求または弁護に関連する非特権事項を取得する権利および提出する義務を管理する法的手続きです。 電子証拠開示 (eDiscovery) とも呼ばれる電子証拠開示は、訴訟または捜査における作成要求に応じて、電子的に保存された情報 (ESI) を特定、収集、作成する電子的な側面です。 法的な分野では、訴訟や調査中に ESI を特定、収集、生成することが求められることがよくあります。 召喚状への回答に関する訴訟のために電子情報開示に取り組んでいる組織は、おそらく PII を誤って共有することを懸念しているでしょう。 政府機関、学区、法律専門家を含む多くの組織は、PII を大規模に正確に検出して編集するという課題に直面しています。 特に政府グループの一員である場合、個人のプライバシーを保護し、データ保護法の遵守を確保し、個人情報の盗難を防止し、政府とデジタルにおける信頼と透明性を維持するために、情報公開法とデジタルサービス法を通じて PII を編集することが重要です。サービス。 法的リスクとセキュリティリスクを軽減しながら、透明性とプライバシーのバランスを保ちます。
組織は、キーワード検索、パターン マッチング、データ損失防止ツール、機械学習 (ML)、メタデータ分析、データ分類ソフトウェア、光学式文字認識 (OCR)、文書フィンガープリンティング、暗号化などの方法を使用して PII を検索できます。
現在、Reveal の AI を活用した電子情報開示プラットフォームの一部となっており、 ロジックカル は、法律専門家が訴訟や調査の一環として電子文書を処理、レビュー、タグ付け、作成できるようにするセルフサービス ソリューションです。 このユニークなサービスは、弁護士がコストを削減し、解決を加速し、リスクを軽減しながら、担当する問題に関連する貴重な情報を発見するのに役立ちます。
この投稿では、Reveal の専門家がその使用方法を紹介しています。 Amazon Comprehend 文書処理パイプラインで PII の個々の部分を検出して編集します。 Amazon Comprehend は、ドキュメントまたはテキストの内容に関する洞察を抽出できる、フルマネージドで継続的にトレーニングされた自然言語処理 (NLP) サービスです。 Amazon Comprehend ML 機能を使用すると、顧客の電子メール、サポートチケット、製品レビュー、ソーシャルメディアなどにある PII を検出して編集できます。
ソリューションの概要
エンジニアリング チームの最も重要な目標は、顧客向けの何百万もの法的文書から PII を検出して編集することです。 Reveal の Logikcull ソリューションを使用して、エンジニアリング チームは、最初のパスの PII 検出と、XNUMX 番目のパスの PII 検出と編集という XNUMX つのプロセスを実装しました。 この XNUMX パス ソリューションは、 含まれているPiiエンティティ および PiiEntities の検出 API。
ファーストパス PII 検出
ファーストパス PII 検出の目的は、PII を含む可能性のあるドキュメントを見つけることです。
- ユーザーは、Logikcull の公開 Web サイトを通じて、PII の検出と編集を実行するファイルをプロジェクト フォルダーにアップロードします。 これらのファイルは、オフィス ドキュメント、.pdf ファイル、電子メール、またはサポートされているすべてのファイル タイプを含む .zip ファイルの形式にすることができます。
- Logikcull は、これらのプロジェクト フォルダーを安全に保存します。 Amazon Simple Storage Service(Amazon S3) バケツ。 その後、ファイルは Logikcull でホストされている超並列処理パイプラインを通過します。 Amazon Elastic Compute Cloud(Amazon EC2)、ファイルを処理し、メタデータを抽出し、データレビュー用にテキスト形式でアーティファクトを生成します。 Logikcull の処理パイプラインは、オーディオ ファイルやビデオ ファイルを含む、さまざまなフォームやファイルのテキスト抽出をサポートしています。
- ファイルがテキスト形式で利用可能になった後、Logikcull は、次のように作成することで、英語の言語モデルとともに入力テキストを Amazon Comprehend 経由で渡します。 含まれているPiiエンティティ API呼び出し。 Amazon EC2 でホストされている処理パイプライン サーバーにより、Amazon Comprehend が実現されます。
ContainsPiiEntities
リクエストパラメータをテキストおよび言語コードとして渡すことによる API 呼び出し。 のContainsPiiEntities
API 呼び出しは、PII の存在について入力テキストを分析し、名前、住所、銀行口座番号、電話番号など、識別された PII エンティティ タイプのラベルを返します。 API 応答には、Amazon Comprehend が検出精度に割り当てた信頼レベルを示す信頼スコアも含まれています。 信頼スコアの値は 0 ~ 1 で、1 は 100% の信頼を意味します。 Logikcull は、この信頼スコアを使用して、タグ PII 検出をドキュメントに割り当てます。 Logikcull は、信頼スコアが 0.75 を超えるドキュメントにのみこのタグを割り当てます。 - PII 検出されたタグ付きドキュメントは、ユーザーが PII エンティティを含むドキュメントを迅速に識別できるように、Logikcull の検索インデックス クラスターにフィードされます。
XNUMX 番目のパスの PII 検出と編集
最初のパスの PII 検出プロセスでは、どの文書に PII 情報が含まれているかを特定することで、データセットの範囲を絞り込みます。 これにより、PII 検出プロセスが高速化され、全体的なコストも削減されます。 XNUMX 番目のパスの PII 検出の目的は、PII の個々のインスタンスを識別し、最初のパスでタグ付けされたドキュメントからそれらを編集することです。
- ユーザーは、Logiccull の高度な検索フィルタ機能を使用して、PII を含む Logikcull の Web サイトを通じてドキュメントを検索します。
- リクエストは、上でホストされている Logikcull のアプリケーション サーバーによって処理されます。 Amazon EC2 そしてサーバーは検索インデックス クラスターと通信してドキュメントを検索します。
- Logikcull アプリケーション サーバーは、次のようにすることで PII の個々のインスタンスを識別できます。 PiiEntities の検出 API呼び出し。 サーバーは、入力ドキュメントのテキストと言語を渡すことによって API 呼び出しを行います。 の
DetectPiiEntities
API アクションは、PII を含むエンティティの入力テキストを検査します。 各エンティティについて、応答はエンティティ タイプ、エンティティ テキストの開始位置と終了位置、および Amazon Comprehend の検出の信頼レベルを提供します。 - 次に、ユーザーは Logikcull の Web インターフェイスを使用して、編集したい特定のエンティティを選択します。 アプリケーション サーバーは、これらのリクエストを Logikcull の処理パイプラインに送信します。 以下は、Logiccull のアプリケーションにアップロードされた PDF のスクリーンショットです。 以下のスクリーンショットから、名前、住所、電話番号、電子メール アドレスなどのさまざまな PII エンティティが強調表示されていることがわかります。
- PII 編集は、カスタム ビジネス ロジックを使用して Logikcull の処理パイプライン内で安全に適用されます。 次のスクリーンショットから、ユーザーが編集したい特定の PII エンティティ タイプまたはすべての PII エンティティ タイプを選択し、ボタン XNUMX 回クリックするだけですべての PII 情報を編集できることがわかります。
結果
Reveal テクノロジーの Logikcull は現在、毎週 20 万件を超えるドキュメントを処理しており、 ContainsPiiEntities
API を使用して、PII エンティティの個々のインスタンスを顧客に表示します。 DetectPiiEntities
APIです。
「Amazon Comprehend を使用することで、Logiccull は、カスタム構築されたソリューションに必要な時間のほんの一部で、強力な NLP 機能を迅速にデプロイすることができました。」
– Logikcull 社製品担当副社長、Steve Newhouse 氏。
まとめ
Amazon Comprehend Reveal の Logikcull テクノロジーにより、Amazon Comprehend を使用して比較的低コストで大規模な PII 検出を実行できるようになります。 の ContainsPiiEntities
API は、数百万のドキュメントの初期スキャンを実行するために使用されます。 の DetectPiiEntities
API は、数千の文書の詳細な分析を実行し、文書内の個々の PII を特定するために使用されます。
すべてを見てください Amazon Comprehend の機能。 機能を試して、次のいずれかの方法でフィードバックをお送りください。 AWSフォーラム Amazon Comprehendまたは通常のAWSサポートの連絡先。
著者について
アマン ティワリ は、AWS のワールドワイド コマーシャル セールスに携わるゼネラル ソリューション アーキテクトです。 彼はデジタル ネイティブ ビジネス セグメントの顧客と協力し、AWS のサービスを使用して革新的で回復力があり、コスト効率の高いソリューションを設計するのを支援しています。 彼はノースイースタン大学で電気通信ネットワークの修士号を取得しています。 仕事以外では、ローンテニスをしたり、本を読んだりすることが趣味です。
ジェフ・ニューバーン Logikcull – A Reveal Technology のデータ エンジニアリング チームを率いるシニア ソフトウェア エンジニアリング マネージャーです。 彼は、データ ウェアハウス、視覚化、分析、機械学習などの会社のデータ イニシアチブを監督しています。 ライドシェアリングからデータシステムに至るまでの分野の開発と管理に及ぶ経験を持ち、優秀なエンジニアのチームをエキサイティングな製品に導くことに喜びを感じています。
ソーレン・ブロンド・ダウガード Logikcull – A Reveal Technology のデータ エンジニアリング チームのスタッフ エンジニアです。 彼は、拡張性の高い AI および ML ソリューションを Logikcull 製品に実装し、お客様がより効率的かつ高精度で作業を行えるようにしています。 彼の専門知識は、データ パイプライン、Web ベースのシステム、機械学習システムに及びます。
ケビン・ラフキン Logikcull – A Reveal Technology の検索エンジニアリング チームのシニア ソフトウェア エンジニアであり、顧客対応機能と検索関連機能の開発に重点を置いています。 彼の UI/UX に関する広範な専門知識は、製品ビジョンを実現することに重点を置いたフルスタック Web 開発の背景によって補完されています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :持っている
- :は
- :どこ
- $UP
- 1
- 10
- 100
- 11
- 14
- 視聴者の38%が
- 150
- 20
- 7
- 75
- a
- できる
- 私たちについて
- 精度
- 正確にデジタル化
- 行為
- Action
- 適応
- 住所
- 高度な
- 機関
- AI
- AI電源
- すべて
- ことができます
- 沿って
- また
- Amazon
- Amazon Comprehend
- Amazon EC2
- Amazon Webサービス
- 間で
- an
- 分析
- 分析論
- 分析
- および
- どれか
- API
- API
- 申し込み
- 適用された
- です
- エリア
- 発生します
- AS
- 側面
- 割り当てられた
- At
- オーディオ
- 利用できます
- AWS
- 背景
- 銀行
- 預金
- BE
- き
- 以下
- の間に
- バイオメトリック
- 出産
- 本
- 違反
- 鮮やかな
- 持参
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- (Comma Separated Values) ボタンをクリックして、各々のジョブ実行の詳細(開始/停止時間、変数値など)のCSVファイルをダウンロードします。
- by
- コール
- 缶
- 機能
- 挑戦する
- 課題
- 文字
- 文字認識
- クレーム
- 分類
- クリック
- クラウド
- クラスタ
- コード
- 収集する
- 収集
- コマーシャル
- 会社の
- 複雑さ
- コンプライアンス
- コンポーネント
- 理解する
- 計算
- 心配
- 信頼
- 結果
- 制約
- 接触
- コンタクト
- 含む
- 含まれています
- コンテンツ
- 文脈上の
- 連続的に
- 費用
- コスト効率の良い
- コスト
- 重大な
- 重大な
- 現在
- カスタム
- 特注の
- 顧客
- Customers
- サイバーセキュリティ
- 損傷
- データ
- データ侵害
- データ損失
- データ管理
- データ保護
- データセキュリティ
- データ共有
- 日付
- 取引
- 度
- 展開します
- 設計
- 詳細な
- 検出
- 検出された
- 検出
- 開発
- 開発
- 異なります
- デジタル
- デジタルサービス
- 発見する
- 発見
- ディスプレイ
- 途絶
- do
- ドキュメント
- ドキュメント
- ドメイン
- ダウン
- 原因
- 間に
- ダイナミック
- 各
- 効率良く
- どちら
- エレクトロニック
- 電子的に
- メール
- 有効にする
- 含む
- 暗号化
- 終了
- エンジニア
- エンジニアリング
- エンジニア
- 英語
- 確保する
- エンティティ
- エンティティ
- 特に
- 本質的な
- 進化
- エキサイティング
- 体験
- 専門知識
- 専門家
- 広範囲
- エキス
- 抽出
- 抽出物
- 顔
- 向い
- 不良解析
- false
- 特徴
- 特徴
- FRBは
- フィードバック
- File
- フィルター
- ファイナンシャル
- 財務情報
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- デジタル指紋技術
- 名
- フォーカス
- 焦点を当てて
- フォロー中
- 次
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- フォーム
- 分数
- フラグメンテーション
- 自由
- から
- 完全に
- 生成
- 与える
- 目標
- 統治
- 政府・公共機関
- 政府機関
- グループ
- ハンド
- 持ってる
- he
- ことができます
- より高い
- 強調表示された
- 非常に
- 彼の
- 保持している
- 主催
- 認定条件
- しかしながら
- HTML
- HTTPS
- 識別
- 特定され
- 識別する
- 識別
- アイデンティティ
- if
- 実装
- 実装する
- in
- 含ま
- 含めて
- index
- を示し
- 個人
- 情報
- 初期
- イニシアチブ
- 革新的な
- 内部
- 洞察力
- インタフェース
- に
- 調査
- IT
- ITS
- JPG
- 既知の
- ラベル
- 言語
- 大
- 法制
- 法令
- 訴訟
- 訴訟
- つながる
- 主要な
- 学習
- リーガルポリシー
- レベル
- 生活
- ような
- 訴訟
- ロジック
- 見て
- 損失
- ロー
- 機械
- 機械学習
- 製
- 保守
- make
- 作成
- マネージド
- 管理
- マネージャー
- 多くの
- 大規模
- マスターの
- マッチング
- 問題
- メディア
- 医療の
- メッセージ
- メソッド
- かもしれない
- 百万
- 何百万
- 緩和する
- リスクの軽減
- ML
- モダン
- 他には?
- 名
- すなわち
- 狭い
- ネイティブ
- ナチュラル
- 自然言語処理
- 自然
- ネガ
- ネットワーク
- NLP
- 東北大学
- 数
- 番号
- 義務
- 入手する
- OCR
- of
- 提供すること
- Office
- 頻繁に
- on
- の
- オペレーショナル
- 光学式文字認識
- or
- 組織
- 組織
- 私たちの
- 外側
- が
- 全体
- 包括的
- 並列シミュレーションの設定
- パラメータ
- 部
- パス
- パス
- 通過
- パターン
- パーセント
- 実行する
- 個人的な
- 個人データ
- 電話
- ピース
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 可能
- ポスト
- 強力な
- プラクティス
- 精度
- プレゼンス
- 現在
- 予防
- 防止
- プライバシー
- 多分
- プロセス
- ラボレーション
- 処理
- 作り出す
- 作成
- プロダクト
- 商品レビュー
- 生産
- 製品
- 専門家
- プロジェクト
- 保護
- 保護
- は、大阪で
- 公共
- すぐに
- 急速に
- リーディング
- 認識
- 軽減
- 縮小
- 指し
- 規制
- レギュレータ
- 関連する
- 相対的に
- 関連した
- 評判
- 要求
- リクエスト
- の提出が必要です
- 弾力性のあります
- リソースを追加する。
- 応答
- 回答
- 収益
- 明らかにする
- レビュー
- レビュー
- Ride
- 右
- リスク
- ラン
- 保護
- 安全に
- セールス
- 制裁
- ド電源のデ
- 規模
- スキャン
- 学校
- スコープ
- スコア
- を検索
- 検索
- 二番
- しっかりと
- セキュリティ
- セキュリティリスク
- セグメント
- セルフサービス
- 送信
- 送る
- シニア
- 敏感な
- サーバー
- サービス
- サービス
- 厳しい
- シェアリング
- ショーケース
- 簡単な拡張で
- スラック
- So
- 社会
- ソーシャルメディア
- ソフトウェア
- ソフトウェアエンジニア
- ソフトウェア工学
- 溶液
- ソリューション
- 緊張
- スパン
- 特定の
- 速度
- スタッフ
- ステークホルダー
- スティーブ
- ストレージ利用料
- 保存され
- 店舗
- ストライキ
- 強い
- 召喚
- そのような
- サポート
- サポート
- サポート
- システム
- TAG
- チーム
- チーム
- テクノロジー
- 電気通信
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- それ
- 盗難
- アプリ環境に合わせて
- それら
- その後
- ボーマン
- 彼ら
- この
- 数千
- 脅威
- 介して
- チケット
- 時間
- 〜へ
- 豊富なツール群
- 訓練された
- 透明性
- 信頼
- 試します
- 2
- type
- 理解する
- ユニーク
- 大学
- アップロード
- us
- つかいます
- 中古
- users
- 使用されます
- いつもの
- 貴重な
- 値
- 多様
- さまざまな
- 広大な
- ビデオ
- 動画
- ビジョン
- ボリューム
- vp
- 欲しいです
- ました
- ウェブ
- ウェブ開発
- Webサービス
- ウェブベースの
- ウェブサイト
- 週間
- which
- while
- ワイド
- 仕事
- ワーキング
- 作品
- でしょう
- You
- あなたの
- ゼファーネット
- 〒