これは、The Very Group のプリンシパル プラットフォーム エンジニアであるアプリケーション & 信頼性フレームワークの Andy Whittle によるゲスト投稿です。
At 非常にグループは、デジタル小売業者 Very を運営しており、何百万人もの顧客のデータを処理する上でセキュリティが最優先事項です。 The Very Group がビジネス オペレーションを保護および追跡する方法の一部は、ビジネス システム間 (たとえば、顧客注文の段階全体) のアクティビティ ログです。 これは重要な運用要件であり、The Very Group がインシデントを追跡し、問題と傾向を積極的に特定することを可能にします。 ただし、これは、購入、返品、柔軟な支払いオプションの使用、アカウント管理などの活動に関連して、個人を特定できる情報 (PII) の形式で顧客データを処理することを意味する場合があります。
この投稿では、The Very Group がどのように使用しているかを示しています。 Amazon Comprehend ポリシーの上に自動化された防御のレイヤーをさらに追加して、脅威モデリングをすべてのシステムに設計し、PII がログ データで Elasticsearch に送信されてインデックス付けされるのを防ぎます。 Amazon Comprehend は、ドキュメントやテキストの内容に関する洞察を抽出できる、完全マネージド型で継続的にトレーニングされた自然言語処理 (NLP) サービスです。
ソリューションの概要
The Very Group のエンジニアリング チームの最も重要な目標は、PII データが Elasticsearch 内のドキュメントに到達しないようにすることでした。 これを達成し、XNUMX 日に何百万もの識別されたレコードから PII を自動的に削除するために、The Very Group のエンジニアリング チームは Terraform で Application Observability モジュールを作成しました。 このモジュールは、アプリケーション ログ、アプリケーション パフォーマンス モニタリング (APM)、メトリックなどのオブザーバビリティ ソリューションを実装します。 モジュール内で、チームは Amazon Comprehend を使用してログデータ内の PII を強調表示し、Elasticsearch に送信する前に削除するオプションを付けました。
Amazon Comprehend は、AWS AI サービスを使用して効率を改善し、反復的なビジネス活動のリスクを軽減する方法を調査するための内部プラットフォーム エンジニアリング イニシアチブの一部として特定されました。 Very Group の学習と実験の文化は、Amazon Comprehend が Java アプリケーションを使用して適用可能性についてレビューされ、テスト PII データでどのように機能するかを学習したことを意味します。 チームはドキュメントのコード例を使用して概念実証を加速し、その可能性を XNUMX 日で迅速に証明しました。
エンジニアリング チームは、PII リダクション サービスを The Very Group のログ記録と統合する方法を示す図を作成しました。 マイクロサービスを開発する必要がありました Amazon Comprehend を呼び出して PII データを検出する. このソリューションは、The Very Group のログ データを、Logstash で実行されているインスタンスに渡すことで機能しました。 AWSファーゲートこれは、Amazon Comprehend を呼び出して PII を削除する Spring Boot Java アプリケーションに基づいて、Fargate がホストする別の pii-logstash-redaction サービスを使用してデータをクレンジングします。 次の図は、このアーキテクチャを示しています。
Very Group のソリューションは、 アマゾンクラウドウォッチ & Amazon エラスティック コンテナ サービス (Amazon ECS) を作成し、クレンジングされたバージョンを Elasticsearch に渡してインデックスを作成します。 アマゾンキネシス Logstash が数秒ごとにログを取得して、短時間のログをキャプチャして保存するためにソリューションで使用されます。
ログは、注文、返品、金融サービスなど、多くのビジネス プロセスにわたって提供されます。 それらには、ログを Logstash にプッシュする Fargate のテスト環境と本番環境にわたる 200 を超える Amazon ECS アプリからのログが含まれます。 別のソースは AWSラムダ Kinesis にプルされてから Logstash にプルされるログ。 最後に、Filebeat の別のスタンドアロン インスタンスがログ分析をプルし、それらを CloudWatch に入れ、次に Logstash に入れます。 その結果、ログの多くのソースが Logstash にプルまたはプッシュされ、Elasticsearch に保存される前に Application Observability モジュールと Amazon Comprehend によって処理されます。
別の Terraform モジュールは、CloudWatch ログ グループから Elasticsearch にログをエクスポートできる Logstash サービスを立ち上げるために必要なすべてのインフラストラクチャを提供します。 AWS プライベートリンク VPC エンドポイント。 Logstash サービスは、Amazon ECS と統合することもできます。 firelens ログ構成、Amazon ECS が アマゾンルート53 記録。 スケーラビリティはオンデマンドでスケーリングする Kinesis に組み込まれており (チームは固定シャードで開始しましたが、現在はオンデマンドでの使用に切り替えています)、Logstash は追加でスケールアウトします。 アマゾン エラスティック コンピューティング クラウド (Amazon EC2) インスタンスは、Filebeat で使用されるプロトコルのために NLB の背後にあり、Logstash が Kinesis からより効果的にログをプルできるようにします。
最後に、Logstash サービスは、Logstash コンテナーと PII リダクション コンテナーを含むタスク定義で構成され、Elasticsearch にエクスポートする前に PII を確実に削除します。
結果
エンジニアリング チームは、機械学習 (ML) や AI の働きを理解する必要なく、XNUMX 週間以内にソリューションを構築してテストすることができました。 Amazon Comprehend ビデオガイダンス, API リファレンス ドキュメント, コード例. ビジネス バリューを非常に迅速に実証したビジネス プロダクトの所有者は、サービスを活用するための新しいユース ケースの開発を開始しました。 ソリューションを有効にするには、いくつかの決定を行う必要がありました。 プラットフォーム エンジニアリング チームは、データを編集できることはわかっていましたが、現在のソリューションからログを傍受したいと考えていました (ログをエンドポイントにリダイレクトする Fluent Bit サイドカーに基づく)。 同社は、Logstash を採用して、パイプラインを介してログ フィールドをインターセプトし、PII サービス (Terraform モジュールと Java サービスで構成される) と統合できるようにすることを決定しました。
Logstash の採用は当初、シームレスに行われました。 Very Group のエンジニアリング チームは現在、API エンドポイントを介してサービスを直接使用して、ログを Elasticsearch に直接入力しています。 これにより、エンドポイントをサイドカーから新しいエンドポイントに切り替え、Terraform モジュールを介してデプロイできるようになりました。 チームが抱えていた唯一の問題は、ピーク時の取引負荷でテストしたときに速度の問題が明らかになった最初のテストからでした。 これは、Java コードの調整によって克服されました。
次のコードは、The Very Group が Amazon Comprehend を使用してログ メッセージから PII を削除する方法を示しています。 PII を検出し、記録するエンティティ タイプのリストを作成します。 開発を加速するために、コードは AWS ドキュメントから取得され、Fargate にデプロイされた Java アプリケーション サービスで使用できるように調整されました。
次のスクリーンショットは、PII リダクション プロセスの一部として Elasticsearch に送信される出力を示しています。 このサービスは 1 日あたり XNUMX 万件のレコードを生成し、編集が行われるたびに XNUMX つのレコードを生成します。
ログ メッセージは編集され、フィールド redacted_entities には、メッセージで見つかったエンティティ タイプのリストが含まれます。 この例では、URL が検出されましたが、組み込みの PII の種類に基づいて、任意の種類の PII データを識別できた可能性があります。 Amazon Comprehend を介して顧客アカウント番号用の特注の PII タイプが追加されましたが、これまでのところ必要ありません。 エンジニアリング チーム レベルのオーバーライドは、その使用方法について GitHub に文書化されています。
まとめ
このプロジェクトにより、The Very Group は、ログ内の機密性の高い PII を編集するための迅速かつシンプルなソリューションを実装することができました。 エンジニアリングチームは、ビジネスニーズに基づいて PII を編集する柔軟性を提供するために Amazon Comprehend を使用して、エンティティタイプのオーバーライドを可能にする柔軟性をさらに追加しました。 将来、エンジニアリング チームは、個々の Amazon Comprehend エンティティをトレーニングして、顧客 ID などの文字列を編集することを検討しています。
このソリューションの結果、The Very Group は心配することなくログを自由に送信できるようになりました。 PII をログに保存しないというポリシーを適用することで、リスクを軽減し、コンプライアンスを向上させます。 さらに、編集中のメタデータは、Elasticsearch ダッシュボードを介してビジネスに報告され、アラートとさらなるアクションが可能になります。
組織がまだ使用していない AWS AI/ML サービスを評価し、実験の文化を育む時間を作ります。 The Very Group が証明したように、シンプルに始めることはすぐにビジネス上の利益につながります。
著者について
アンディ・ホイットル プリンシパル プラットフォーム エンジニア - 英国を拠点とするデジタル小売業者 Very を運営する The Very Group のアプリケーション & 信頼性フレームワーク。 Andy は、組織の部族全体にパフォーマンス監視を提供するのに役立ち、アプリケーションの監視、可観測性、およびパフォーマンスに特に関心があります。 1998 年に Very に入社して以来、Andy は、コンテンツ管理とカタログ作成、在庫管理、生産サポート、DevOps、および Fusion Middleware をカバーする幅広い役割を担ってきました。 過去 4 年間、彼はプラットフォーム エンジニアリング チームの一員でした。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- できる
- 私たちについて
- 加速する
- アカウント管理
- 越えて
- Action
- 活動
- アクティビティ
- 追加されました
- NEW
- 採用
- 養子縁組
- 利点
- AI
- AIサービス
- AI / ML
- すべて
- 許可
- しかし
- Amazon
- Amazon Comprehend
- Amazon EC2
- 分析
- &
- 別の
- API
- 申し込み
- アプリ
- 建築
- 自動化する
- 自動化
- AWS
- バック
- ベース
- 背後に
- さ
- 恩恵
- の間に
- ビット
- ビルド
- 内蔵
- 内蔵
- ビジネス
- コール
- できる
- キャプチャー
- 場合
- 例
- カタログ
- コード
- コンプライアンス
- 理解する
- 計算
- コンセプト
- 接続性
- コンテナ
- 含まれています
- コンテンツ
- 可能性
- カバーする
- 作成した
- 作成します。
- 重大な
- 文化
- 電流プローブ
- 顧客
- 顧客データ
- Customers
- ダッシュボード
- データ
- 中
- 決定しました
- 決定
- 防衛
- 配信する
- 需要
- 実証
- デモ
- 展開します
- 展開
- 設計
- 開発する
- 発展した
- 開発
- 開発
- デジタル
- 直接に
- ドキュメント
- ドキュメント
- ドキュメント
- ダウン
- 各
- 効果的に
- 効率
- enable
- 可能
- 有効にする
- エンドポイント
- エンジニア
- エンジニアリング
- 確保する
- エンティティ
- エンティティ
- 環境
- 確立
- 例
- 例
- 実験
- エキス
- 少数の
- フィールド
- フィールズ
- 最後に
- ファイナンシャル
- 金融業務
- 固定の
- 柔軟性
- フレキシブル
- フォロー中
- フォーム
- 育てる
- 発見
- フレームワーク
- 自由
- から
- 完全に
- さらに
- さらに
- 融合
- 未来
- 生成
- 生成
- GitHubの
- 目標
- グループ
- グループの
- ゲスト
- ゲストのポスト
- ハンドリング
- 持って
- ことができます
- 特徴
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 特定され
- 識別する
- 実装する
- 実装する
- 改善します
- 改善
- in
- include
- 含めて
- 個人
- 情報
- インフラ
- 初期
- 当初
- イニシアチブ
- 洞察力
- 統合する
- 統合された
- 関心
- 内部
- 調べる
- 関係する
- 問題
- IT
- Java
- 参加
- ラベル
- 言語
- 主として
- 層
- つながる
- LEARN
- 学習
- リスト
- 負荷
- 探して
- 機械
- 機械学習
- 製
- 作る
- マネージド
- 管理
- 多くの
- メッセージ
- メッセージ
- メトリック
- 百万
- 何百万
- ML
- モデリング
- モジュール
- モニタリング
- 他には?
- ナチュラル
- 自然言語処理
- 必要
- ニーズ
- 新作
- NLP
- 数
- 動作
- オペレーティング
- 業務執行統括
- オプション
- オプション
- 注文
- 組織
- 克服する
- オーバーライド
- 所有者
- 部
- 特定の
- パス
- 通過
- 過去
- 支払い
- ピーク
- パフォーマンス
- 期間
- 個人的に
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポリシー
- 方針
- ポスト
- 潜在的な
- 防ぐ
- 校長
- 事前の
- 優先順位
- プライベート
- 問題
- プロセス
- 処理済み
- ラボレーション
- 処理
- プロダクト
- 生産
- プロジェクト
- 証明
- 概念実証
- プロトコル
- 証明
- 提供します
- は、大阪で
- 引き
- 引っ張る
- 購入
- プッシュ
- プッシュ
- 置きます
- 置く
- クイック
- すぐに
- 記録
- 記録
- リダイレクト
- 減らします
- 縮小
- 関係
- 信頼性
- 除去
- 削除します
- 除去
- 報告
- 要求
- の提出が必要です
- 要件
- 応答
- 結果
- 小売業者
- return
- 収益
- 明らかに
- 日
- リスク
- 役割
- ルート
- ランニング
- スケーラビリティ
- 秤
- スケーリング
- シームレス
- 秒
- 確保
- セキュリティ
- 送信
- 敏感な
- サービス
- サービス
- ショート
- 作品
- 簡単な拡張で
- から
- So
- これまでのところ
- 溶液
- 一部
- ソース
- ソース
- スピード
- 春
- 春のブーツ
- ステージ
- スタンド
- スタンドアロン
- 開始
- 起動
- 株式
- 店舗
- 保存され
- ストレート
- そのような
- サポート
- スイッチ
- システム
- 取る
- 取り
- 仕事
- チーム
- テラフォーム
- test
- テスト
- テスト
- アプリ環境に合わせて
- それによって
- 脅威
- 介して
- 時間
- 〜へ
- top
- トレース
- トレーディング
- 訓練された
- トレーニング
- トレンド
- Uk
- わかる
- URL
- 使用法
- つかいます
- 値
- 多様
- 、
- ビデオ
- wanted
- 週間
- which
- ワイド
- 以内
- 無し
- 働いていました
- ワーキング
- 年
- あなたの
- ゼファーネット