The Very Group의 애플리케이션 및 안정성 프레임워크 부문 수석 플랫폼 엔지니어인 Andy Whittle의 게스트 게시물입니다.
At 바로 그룹디지털 소매업체 베리를 운영하는 , 수백만 고객의 데이터를 처리하는 데 있어 보안이 최우선입니다. The Very Group이 비즈니스 운영을 보호하고 추적하는 방법 중 일부는 비즈니스 시스템 간의 활동 로깅을 통해 이루어집니다(예: 고객 주문 단계 전체). 이는 중요한 운영 요구 사항이며 The Very Group이 사고를 추적하고 문제와 추세를 사전에 식별할 수 있도록 합니다. 그러나 이는 구매, 반품, 유연한 결제 옵션 사용 및 계정 관리와 같은 활동과 관련하여 개인 식별 정보(PII) 형식으로 고객 데이터를 처리하는 것을 의미할 수 있습니다.
이 게시물에서 The Very Group은 그들이 어떻게 사용하는지 보여줍니다. 아마존 이해 모든 시스템에 대한 위협 모델링을 설계하는 정책 위에 자동화된 방어 계층을 추가하여 PII가 인덱싱을 위해 로그 데이터로 Elasticsearch로 전송되는 것을 방지합니다. Amazon Comprehend는 문서 또는 텍스트의 콘텐츠에 대한 인사이트를 추출할 수 있는 완벽하게 관리되고 지속적으로 훈련되는 자연어 처리(NLP) 서비스입니다.
솔루션 개요
The Very Group 엔지니어링 팀의 최우선 목표는 PII 데이터가 Elasticsearch 내의 문서에 도달하지 못하도록 방지하는 것이었습니다. 이를 달성하고 매일 수백만 개의 식별된 레코드에서 PII를 자동으로 제거하기 위해 The Very Group의 엔지니어링 팀은 Terraform에서 애플리케이션 관찰 가능성 모듈을 만들었습니다. 이 모듈은 애플리케이션 로그, APM(애플리케이션 성능 모니터링) 및 메트릭을 포함한 관찰 가능성 솔루션을 구현합니다. 모듈 내에서 팀은 Amazon Comprehend를 사용하여 Elasticsearch로 보내기 전에 제거하는 옵션과 함께 로그 데이터 내의 PII를 강조 표시했습니다.
Amazon Comprehend는 AWS AI 서비스를 사용하여 반복적인 비즈니스 활동에서 효율성을 개선하고 위험을 줄이는 방법을 조사하기 위한 내부 플랫폼 엔지니어링 이니셔티브의 일부로 확인되었습니다. 학습 및 실험을 위한 Very Group의 문화는 Amazon Comprehend가 Java 애플리케이션을 사용하여 적용 가능성을 검토하여 테스트 PII 데이터와 함께 작동하는 방식을 학습한다는 것을 의미했습니다. 팀은 문서의 코드 예제를 사용하여 개념 증명을 가속화하고 하루 안에 신속하게 잠재력을 입증했습니다.
엔지니어링 팀은 PII 편집 서비스가 The Very Group의 로깅과 통합될 수 있는 방법을 보여주는 도식을 개발했습니다. 마이크로서비스를 개발하는 작업이 포함되었습니다. Amazon Comprehend를 호출하여 PII 데이터 감지. 이 솔루션은 The Very Group의 로그 데이터를 AWS 파게이트PII를 제거하기 위해 Amazon Comprehend를 호출하는 Spring Boot Java 애플리케이션을 기반으로 하는 또 다른 Fargate 호스팅 pii-logstash-redaction 서비스를 사용하여 데이터를 정리합니다. 다음 다이어그램은 이 아키텍처를 보여줍니다.
Very Group의 솔루션은 다음에서 로그를 가져옵니다. 아마존 클라우드 워치 와 Amazon 탄력적 컨테이너 서비스 (Amazon ECS) 정리된 버전을 Elasticsearch에 전달하여 인덱싱합니다. 아마존 키네 시스 Logstash는 몇 초마다 로그를 풀링하여 짧은 기간 동안 로그를 캡처하고 저장하는 솔루션에 사용됩니다.
로그는 주문, 반품 및 금융 서비스를 비롯한 여러 비즈니스 프로세스에서 소싱됩니다. 여기에는 로그를 Logstash로 푸시하는 Fargate의 테스트 및 프로덕션 환경에서 200개가 넘는 Amazon ECS 앱의 로그가 포함됩니다. 또 다른 출처는 AWS 람다 Kinesis로 가져온 다음 Logstash로 가져온 로그. 마지막으로 Filebeat의 별도 독립 실행형 인스턴스는 로그 분석을 가져와 CloudWatch에 넣은 다음 Logstash에 넣습니다. 그 결과 많은 로그 소스가 Logstash로 풀링되거나 푸시되고 Elasticsearch에 저장되기 전에 Application Observability 모듈과 Amazon Comprehend에서 처리됩니다.
별도의 Terraform 모듈은 다음을 통해 CloudWatch 로그 그룹에서 Elasticsearch로 로그를 내보낼 수 있는 Logstash 서비스를 유지하는 데 필요한 모든 인프라를 제공합니다. AWS 프라이빗링크 VPC 엔드포인트. Logstash 서비스는 다음을 통해 Amazon ECS와 통합할 수도 있습니다. firelens 로그 구성, Amazon ECS가 아마존 경로 53 기록. 확장성은 Kinesis 온디맨드 확장에 내장되어 있으며(팀이 고정 샤드로 시작했지만 지금은 온디맨드 사용으로 전환하고 있음) Logstash는 추가로 확장됩니다. 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 인스턴스는 Filebeat에서 사용하는 프로토콜로 인해 NLB 뒤에 있으며 Logstash가 Kinesis에서 로그를 보다 효과적으로 가져올 수 있습니다.
마지막으로 Logstash 서비스는 Elasticsearch로 내보내기 전에 PII 제거를 보장하는 Logstash 컨테이너 및 PII 수정 컨테이너를 포함하는 작업 정의로 구성됩니다.
결과
엔지니어링 팀은 기계 학습(ML)이나 AI 작업을 이해할 필요 없이 일주일 이내에 솔루션을 구축하고 테스트할 수 있었습니다. Amazon Comprehend 비디오 지침, API 참조 문서및 예제 코드. 비즈니스 가치를 너무 빨리 입증한 비즈니스 제품 소유자는 서비스를 활용하기 위해 새로운 사용 사례를 개발하기 시작했습니다. 솔루션을 구현하려면 몇 가지 결정을 내려야 했습니다. 플랫폼 엔지니어링 팀은 데이터를 수정할 수 있다는 것을 알고 있었지만 현재 솔루션에서 로그를 가로채고 싶었습니다(로그를 엔드포인트로 리디렉션하는 Fluent Bit 사이드카 기반). 그들은 PII 서비스(Terraform 모듈 및 Java 서비스로 구성)와 통합하기 위해 파이프라인을 통해 로그 필드를 가로챌 수 있도록 Logstash를 채택하기로 결정했습니다.
Logstash의 채택은 초기에 원활하게 이루어졌습니다. Very Group 엔지니어링 팀은 이제 API 엔드포인트를 통해 직접 서비스를 사용하여 로그를 Elasticsearch에 바로 넣습니다. 이를 통해 엔드포인트를 사이드카에서 새 엔드포인트로 전환하고 Terraform 모듈을 통해 배포할 수 있었습니다. 팀이 가진 유일한 문제는 최대 거래 부하로 테스트할 때 속도 문제를 드러낸 초기 테스트에서였습니다. 이것은 Java 코드 조정을 통해 극복되었습니다.
다음 코드는 The Very Group이 Amazon Comprehend를 사용하여 로그 메시지에서 PII를 제거하는 방법을 보여줍니다. 모든 PII를 감지하고 기록할 엔터티 유형 목록을 생성합니다. 개발을 가속화하기 위해 AWS 설명서에서 코드를 가져와 Fargate에 배포된 Java 애플리케이션 서비스에서 사용하도록 조정했습니다.
다음 스크린샷은 PII 수정 프로세스의 일부로 Elasticsearch로 전송된 출력을 보여줍니다. 이 서비스는 하루에 1만 개의 레코드를 생성하며 수정이 이루어질 때마다 레코드를 생성합니다.
로그 메시지가 수정되고 redacted_entities 필드에는 메시지에서 발견된 엔터티 유형 목록이 포함됩니다. 이 경우 예제는 URL을 찾았지만 주로 기본 제공 유형의 PII를 기반으로 모든 유형의 PII 데이터를 식별할 수 있었습니다. Amazon Comprehend를 통해 고객 계정 번호에 대한 추가 맞춤형 PII 유형이 추가되었지만 지금까지는 필요하지 않았습니다. 엔지니어링 분대 수준 재정의는 사용 방법에 대한 GitHub에 문서화되어 있습니다.
결론
The Very Group은 이 프로젝트를 통해 로그에서 민감한 PII를 수정하는 빠르고 간단한 솔루션을 구현할 수 있었습니다. 엔지니어링 팀은 비즈니스 요구 사항에 따라 PII를 수정할 수 있는 유연성을 제공하기 위해 Amazon Comprehend를 사용하여 엔터티 유형을 재정의할 수 있는 유연성을 추가했습니다. 앞으로 엔지니어링 팀은 고객 ID와 같은 문자열을 수정하도록 개별 Amazon Comprehend 엔터티를 교육하는 방법을 검토하고 있습니다.
솔루션의 결과 The Very Group은 걱정할 필요 없이 자유롭게 로그를 입력할 수 있습니다. PII를 로그에 저장하지 않는 정책을 시행하여 위험을 줄이고 규정 준수를 개선합니다. 또한 수정 중인 메타데이터는 Elasticsearch 대시보드를 통해 비즈니스에 다시 보고되어 경고 및 추가 조치를 가능하게 합니다.
시간을 내어 조직에서 아직 사용하지 않은 AWS AI/ML 서비스를 평가하고 실험 문화를 조성하십시오. The Very Group이 증명한 것처럼 단순하게 시작하면 빠르게 비즈니스 이점을 얻을 수 있습니다.
저자에 관하여
앤디 휘틀 영국에 기반을 둔 디지털 소매업체인 Very를 운영하는 The Very Group의 수석 플랫폼 엔지니어 – 애플리케이션 및 안정성 프레임워크입니다. Andy는 조직의 부족 전체에서 성능 모니터링을 제공하는 데 도움을 주며 애플리케이션 모니터링, 관찰 가능성 및 성능에 특히 관심이 있습니다. Andy는 1998년 Very에 합류한 이후 콘텐츠 관리 및 카탈로그 제작, 재고 관리, 제작 지원, DevOps 및 Fusion Middleware를 다루는 다양한 역할을 수행했습니다. 지난 4년 동안 그는 플랫폼 엔지니어링 팀의 일원이었습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- 플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/redacting-pii-data-at-the-very-group-with-amazon-comprehend/
- 1
- 10
- 100
- 1998
- 7
- a
- 할 수 있는
- 소개
- 가속
- 계정
- 계정 관리
- 가로질러
- 동작
- 방과 후 액티비티
- 활동
- 추가
- 추가
- 채택
- 양자
- 이점
- AI
- AI 서비스
- AI / ML
- All
- 허용
- 이기는하지만
- 아마존
- 아마존 이해
- Amazon EC2
- 분석
- 와
- 다른
- API를
- 어플리케이션
- 앱
- 아키텍처
- 자동화
- 자동화
- AWS
- 뒤로
- 기반으로
- 전에
- 뒤에
- 존재
- 이익
- 사이에
- 비트
- 빌드
- 내장
- 내장
- 사업
- 통화
- 수
- 포착
- 케이스
- 가지 경우
- 목록
- 암호
- compliance
- 이해하다
- 계산
- 개념
- 입/출력 라인
- 컨테이너
- 이 포함되어 있습니다
- 함유량
- 수
- 피복
- 만든
- 생성
- 임계
- 문화
- Current
- 고객
- 고객 데이터
- 고객
- 계기반
- 데이터
- 일
- 결정된
- 결정
- 방위산업
- 배달하다
- 수요
- 시연
- 시연하는
- 배포
- 배포
- 디자인
- 개발
- 개발
- 개발
- 개발
- 디지털
- 직접
- 문서
- 선적 서류 비치
- 서류
- 아래 (down)
- 마다
- 효과적으로
- 효율성
- 가능
- 수
- 가능
- 종점
- 기사
- 엔지니어링
- 보장
- 엔티티
- 실재
- 환경
- 설립
- 예
- 예
- 실험
- 추출물
- 를
- 들
- Fields
- 최종적으로
- 금융
- 금융 서비스
- 고정
- 유연성
- 융통성있는
- 수행원
- 형태
- 기르다
- 발견
- 프레임 워크
- 자유
- 에
- 충분히
- 추가
- 게다가
- 퓨전
- 미래
- 생성
- 생성
- GitHub의
- 골
- 그룹
- 여러 떼
- 손님
- 고객 포스트
- 처리
- 데
- 도움이
- 강조
- 방법
- How To
- 그러나
- HTML
- HTTPS
- 확인
- 확인
- 구현
- 구현하다
- 개선
- 개선
- in
- 포함
- 포함
- 개인
- 정보
- 인프라
- 처음에는
- 처음에는
- 발의
- 통찰력
- 예
- 통합
- 통합 된
- 관심
- 내부의
- 조사
- 참여
- 발행물
- IT
- 자바
- 가입
- 레이블
- 언어
- 크게
- 층
- 리드
- 배우다
- 배우기
- 명부
- 잔뜩
- 찾고
- 기계
- 기계 학습
- 만든
- 제작
- 관리
- 구축
- .
- 메시지
- 메시지
- 메타 데이터
- 통계
- 백만
- 수백만
- ML
- 모델링
- 모듈
- 모니터링
- 배우기
- 자연의
- 자연 언어 처리
- 필요
- 요구
- 신제품
- nlp
- 번호
- 운영
- 운영
- 행정부
- 선택권
- 옵션
- 주문
- 조직
- 극복하다
- 재정의
- 소유자
- 부품
- 특별한
- 패스
- 통과
- 과거
- 지불
- 피크 (캐노피 지붕쪽)
- 성능
- 미문
- 몸소
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 정책
- 정책
- 게시하다
- 가능성
- 예방
- 교장
- 이전에
- 우선
- 사설
- 문제
- 방법
- 처리됨
- 프로세스
- 처리
- 프로덕트
- 생산
- 프로젝트
- 증명
- 개념 증명
- 프로토콜
- 증명
- 제공
- 제공
- 당기
- 했었어요
- 구매
- 푸시
- 밀
- 놓다
- 퍼츠
- 빠른
- 빨리
- 기록
- 기록
- 리디렉션
- 감소
- 감소
- 관계
- 신뢰성
- 제거
- 제거
- 제거
- 보고
- 의뢰
- 필수
- 요구 사항
- 응답
- 결과
- 소매상 인
- return
- 반품
- 공개
- 검토
- 위험
- 역할
- 길
- 달리는
- 확장성
- 저울
- 스케일링
- 완벽하게
- 초
- 확보
- 보안
- 전송
- 민감한
- 서비스
- 서비스
- 짧은
- 쇼
- 단순, 간단, 편리
- 이후
- So
- 지금까지
- 해결책
- 일부
- 출처
- 지우면 좋을거같음 . SM
- 속도
- 봄
- 봄 부팅
- 단계
- 서다
- 독립
- 시작
- 시작 중
- 재고
- 저장
- 저장
- 직진
- 이러한
- SUPPORT
- 스위치
- 시스템은
- 받아
- 소요
- 태스크
- 팀
- 테라 폼
- test
- 지원
- 테스트
- XNUMXD덴탈의
- 그들의
- 그것에 의하여
- 위협
- 을 통하여
- 시간
- 에
- 상단
- 더듬다
- 트레이딩
- 훈련 된
- 트레이닝
- 트렌드
- 유형
- Uk
- 이해
- URL
- 용법
- 사용
- 가치
- 종류
- 를 통해
- Video
- 원
- 주
- 어느
- 넓은
- 이내
- 없이
- 일
- 일하는
- 년
- 너의
- 제퍼 넷