오늘, 개인 식별 정보 (PII)는 어디에나 있습니다. PII는 이메일, Slack 메시지, 비디오, PDF 등에 있습니다. 특정 개인을 식별하는 데 사용할 수 있는 모든 데이터나 정보를 말합니다. PII는 본질적으로 민감하며 이름, 연락처 정보, 식별 번호, 금융 정보, 의료 정보, 생체 인식 데이터, 생년월일 등과 같은 다양한 유형의 개인 데이터를 포함합니다.
PII를 찾고 수정하는 것은 개인 정보 보호, 데이터 보안 보장, 법률 및 규정 준수, 고객 및 이해관계자와의 신뢰 유지에 필수적입니다. 이는 현대 데이터 관리 및 사이버 보안 관행의 중요한 구성 요소입니다. 그러나 전자 데이터의 늪에서 PII를 찾는 것은 조직에 어려움을 초래할 수 있습니다. 이러한 문제는 데이터의 방대한 양과 다양성, 데이터 조각화, 암호화, 데이터 공유, 동적 콘텐츠, 오탐 및 부정, 상황에 따른 이해, 법적 복잡성, 리소스 제약, 진화하는 데이터, 사용자 생성 콘텐츠, 적응형 위협으로 인해 발생합니다. 그러나 PII를 정확하게 탐지하고 수정하지 못하면 조직에 심각한 결과를 초래할 수 있습니다. 결과에는 법적 처벌, 소송, 평판 훼손, 데이터 유출 비용, 규제 조사, 운영 중단, 신뢰 침식 및 제재가 포함될 수 있습니다.
법률 시스템에서 증거개시란 소송에서 당사자의 청구 또는 방어와 관련된 비특권 사안을 획득할 권리와 생성 의무를 규율하는 법적 절차입니다. eDiscovery라고도 알려진 전자 검색은 소송이나 조사에서 제출 요청에 따라 전자적으로 저장된 정보(ESI)를 식별, 수집 및 생성하는 전자적 측면입니다. 법적 영역에서는 소송이나 조사 중에 ESI를 식별, 수집 및 생성해야 하는 경우가 많습니다. 조직이 소환장 응답에 대한 소송을 위해 eDiscovery를 처리하는 경우 실수로 PII를 공유하는 것에 대해 우려할 것입니다. 정부 기관, 학군, 법률 전문가를 포함한 많은 조직은 PII를 대규모로 정확하게 탐지하고 수정해야 하는 과제에 직면해 있습니다. 특히 정부 그룹에 속한 경우 정보 자유법 및 디지털 서비스법을 통해 PII를 수정하는 것은 개인 정보 보호, 데이터 보호법 준수 보장, 신원 도용 방지, 정부 및 디지털에 대한 신뢰와 투명성 유지에 매우 중요합니다. 서비스. 법률 및 보안 위험을 완화하는 동시에 투명성과 개인 정보 보호 사이의 균형을 유지합니다.
조직은 키워드 검색, 패턴 일치, 데이터 손실 방지 도구, 기계 학습(ML), 메타데이터 분석, 데이터 분류 소프트웨어, 광학 문자 인식(OCR), 문서 지문 채취 및 암호화와 같은 방법을 사용하여 PII를 검색할 수 있습니다.
이제 Reveal의 AI 기반 eDiscovery 플랫폼의 일부가 되었습니다. 로직컬 법률 전문가가 소송이나 조사의 일환으로 전자 문서를 처리, 검토, 태그 지정 및 생성할 수 있는 셀프 서비스 솔루션입니다. 이 독특한 서비스는 변호사가 비용을 절감하고 해결 속도를 높이며 위험을 완화하면서 현재 진행 중인 문제와 관련된 귀중한 정보를 발견하는 데 도움이 됩니다.
이 게시물에서는 Reveal 전문가가 어떻게 사용했는지 보여줍니다. 아마존 이해 문서 처리 파이프라인에서 PII의 개별 부분을 감지하고 수정합니다. Amazon Comprehend는 문서나 텍스트의 내용에 대한 통찰력을 추출할 수 있는 완벽하게 관리되고 지속적으로 훈련되는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend ML 기능을 사용하면 고객 이메일, 지원 티켓, 제품 리뷰, 소셜 미디어 등에서 PII를 탐지하고 수정할 수 있습니다.
솔루션 개요
엔지니어링 팀의 가장 중요한 목표는 고객을 위해 수백만 개의 법률 문서에서 PII를 탐지하고 수정하는 것입니다. 엔지니어링 팀은 Reveal의 Logikcull 솔루션을 사용하여 XNUMX차 통과 PII 감지와 XNUMX차 통과 PII 감지 및 수정이라는 두 가지 프로세스를 구현했습니다. 이 XNUMX단계 솔루션은 다음을 사용하여 가능해졌습니다. 포함PiiEntities 및 DetectPii엔티티 아피스.
첫 번째 통과 PII 감지
첫 번째 패스 PII 감지의 목표는 PII가 포함될 수 있는 문서를 찾는 것입니다.
- 사용자는 Logikcull의 공개 웹사이트를 통해 PII 감지 및 수정을 수행하려는 파일을 프로젝트 폴더에 업로드합니다. 이러한 파일은 지원되는 모든 파일 형식이 포함된 Office 문서, .pdf 파일, 이메일 또는 .zip 파일 형식일 수 있습니다.
- Logikcull은 이러한 프로젝트 폴더를 Amazon Simple Storage Service(Amazon S3) 버킷. 그런 다음 파일은 다음에서 호스팅되는 Logikcull의 대규모 병렬 처리 파이프라인을 통과합니다. Amazon Elastic Compute Cloud(Amazon EC2)는 파일을 처리하고, 메타데이터를 추출하고, 데이터 검토를 위해 텍스트 형식의 아티팩트를 생성합니다. Logikcull의 처리 파이프라인은 오디오 및 비디오 파일을 포함하여 다양한 양식 및 파일에 대한 텍스트 추출을 지원합니다.
- 파일을 텍스트 형식으로 사용할 수 있게 되면 Logikcull은 다음을 수행하여 Amazon Comprehend를 통해 영어인 언어 모델과 함께 입력 텍스트를 전달합니다. 포함PiiEntities API 호출. Amazon EC2에 호스팅된 처리 파이프라인 서버는 Amazon Comprehend를
ContainsPiiEntities
요청 매개변수를 텍스트 및 언어 코드로 전달하여 API를 호출합니다. 그만큼ContainsPiiEntities
API 호출은 PII 존재에 대한 입력 텍스트를 분석하고 이름, 주소, 은행 계좌 번호 또는 전화번호와 같은 식별된 PII 엔터티 유형의 레이블을 반환합니다. API 응답에는 Amazon Comprehend가 탐지 정확도에 할당한 신뢰도 수준을 나타내는 신뢰도 점수도 포함되어 있습니다. 신뢰도 점수는 0에서 1 사이의 값을 가지며, 1은 100% 신뢰도를 나타냅니다. Logikcull은 이 신뢰도 점수를 사용하여 PII 감지됨 태그를 문서에 할당합니다. Logikcull은 신뢰도 점수가 0.75 이상인 문서에만 이 태그를 할당합니다. - PII 감지 태그가 지정된 문서는 사용자가 PII 엔터티가 포함된 문서를 신속하게 식별할 수 있도록 Logikcull의 검색 색인 클러스터에 제공됩니다.
두 번째 패스 PII 감지 및 수정
첫 번째 패스 PII 탐지 프로세스는 PII 정보가 포함된 문서를 식별하여 데이터세트의 범위를 좁힙니다. 이를 통해 PII 탐지 프로세스의 속도가 빨라지고 전체 비용도 절감됩니다. 두 번째 패스 PII 탐지의 목표는 PII의 개별 인스턴스를 식별하고 첫 번째 패스에서 태그가 지정된 문서에서 이를 수정하는 것입니다.
- 사용자는 Logikcull의 고급 검색 필터 기능을 사용하여 PII가 포함된 Logikcull 웹사이트를 통해 문서를 검색합니다.
- 요청은 다음에서 호스팅되는 Logikcull의 애플리케이션 서버에 의해 처리됩니다. Amazon EC2 서버는 검색 인덱스 클러스터와 통신하여 문서를 찾습니다.
- Logikcull 애플리케이션 서버는 다음을 수행하여 PII의 개별 인스턴스를 식별할 수 있습니다. DetectPii엔티티 API 호출. 서버는 입력 문서의 텍스트와 언어를 전달하여 API 호출을 수행합니다. 그만큼
DetectPiiEntities
API 작업은 PII가 포함된 엔터티에 대한 입력 텍스트를 검사합니다. 각 엔터티에 대해 응답은 엔터티 텍스트가 시작하고 끝나는 엔터티 유형과 Amazon Comprehend가 탐지에 대해 가지고 있는 신뢰도 수준을 제공합니다. - 그런 다음 사용자는 Logikcull의 웹 인터페이스를 사용하여 수정하려는 특정 엔터티를 선택합니다. 애플리케이션 서버는 이러한 요청을 Logikcull의 처리 파이프라인으로 보냅니다. 다음은 Logikcull 애플리케이션에 업로드된 PDF의 스크린샷입니다. 아래 스크린샷에서 이름, 주소, 전화번호, 이메일 주소 등과 같은 다양한 PII 엔터티가 강조 표시된 것을 볼 수 있습니다.
- PII 수정은 사용자 정의 비즈니스 로직을 사용하여 Logikcull의 처리 파이프라인 내부에 안전하게 적용됩니다. 다음 스크린샷에서는 사용자가 수정하려는 특정 PII 엔터티 유형 또는 모든 PII 엔터티 유형을 선택한 다음 버튼 하나만 클릭하여 모든 PII 정보를 수정할 수 있다는 것을 알 수 있습니다.
결과
Reveal 기술인 Logikcull은 현재 매주 20천만 건이 넘는 문서를 처리하고 있으며, ContainsPiiEntities
API를 사용하고 PII 엔터티의 개별 인스턴스를 고객에게 표시합니다. DetectPiiEntities
API.
"Amazon Comprehend를 통해 Logikcull은 맞춤형 솔루션에 필요한 시간보다 훨씬 짧은 시간에 강력한 NLP 기능을 신속하게 배포할 수 있었습니다."
– Steve Newhouse, Logikcull 제품 담당 부사장.
결론
아마존 이해 Reveal의 Logikcull 기술을 사용하면 Amazon Comprehend를 사용하여 비교적 저렴한 비용으로 대규모로 PII 탐지를 실행할 수 있습니다. 그만큼 ContainsPiiEntities
API는 수백만 개의 문서에 대한 초기 스캔을 수행하는 데 사용됩니다. 그만큼 DetectPiiEntities
API는 수천 개의 문서에 대한 자세한 분석을 실행하고 문서에서 PII의 개별 부분을 식별하는 데 사용됩니다.
모든 것을보세요 Amazon Comprehend 기능. 기능을 사용해 보고 피드백을 보내주십시오. AWS 포럼 Amazon Comprehend 또는 일반적인 AWS 지원 연락처를 통해.
저자에 관하여
아만 티와리 AWS에서 Worldwide Commercial Sales와 협력하는 General Solutions Architect입니다. 그는 디지털 네이티브 비즈니스 부문의 고객과 협력하여 고객이 AWS 서비스를 사용하여 혁신적이고 탄력적이며 비용 효율적인 솔루션을 설계하도록 돕습니다. 그는 Northeastern University에서 통신 네트워크 석사 학위를 취득했습니다. 업무 외에는 잔디 테니스와 책 읽기를 즐깁니다.
제프 뉴번 Logikcull – A Reveal Technology에서 데이터 엔지니어링 팀을 이끄는 수석 소프트웨어 엔지니어링 관리자입니다. 그는 데이터 웨어하우스, 시각화, 분석, 기계 학습을 포함한 회사의 데이터 이니셔티브를 감독합니다. 차량 공유부터 데이터 시스템까지 다양한 분야의 개발 및 관리 경험을 바탕으로 뛰어난 엔지니어들로 구성된 팀을 흥미로운 제품으로 이끄는 일을 즐깁니다.
금발의 쇠렌 도가드 Logikcull – A Reveal Technology의 데이터 엔지니어링 팀의 직원 엔지니어입니다. 그는 확장성이 뛰어난 AI 및 ML 솔루션을 Logikcull 제품에 구현하여 고객이 보다 효율적이고 정확하게 작업을 수행할 수 있도록 합니다. 그의 전문 지식은 데이터 파이프라인, 웹 기반 시스템, 기계 학습 시스템을 포괄합니다.
케빈 루프킨 Logikcull – A Reveal Technology의 검색 엔지니어링 팀의 수석 소프트웨어 엔지니어로서 고객 대응 및 검색 관련 기능 개발에 주력하고 있습니다. UI/UX에 대한 그의 광범위한 전문 지식은 제품 비전을 현실화하는 데 중점을 두고 있는 풀 스택 웹 개발 배경으로 보완됩니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/how-reveals-logikcull-used-amazon-comprehend-to-detect-and-redact-pii-from-legal-documents-at-scale/
- :있다
- :이다
- :어디
- $UP
- 1
- 10
- 100
- 11
- 14
- 15%
- 150
- 20
- 7
- 75
- a
- 할 수 있는
- 소개
- 계정
- 정확히
- 행동
- 동작
- 적응
- 주소
- 많은
- 기관
- AI
- AI 기반
- All
- 수
- 따라
- 또한
- 아마존
- 아마존 이해
- Amazon EC2
- Amazon Web Services
- 중
- an
- 분석
- 분석
- 복수
- 및
- 어떤
- API를
- API
- 어플리케이션
- 어플리케이션
- 적용된
- 있군요
- 지역
- 발생
- AS
- 양상
- 할당 된
- At
- 오디오
- 가능
- AWS
- 배경
- 잔액
- 은행
- 은행 계좌
- BE
- 된
- 이하
- 사이에
- 생체 인식
- 출생
- 도서
- 위반
- 빛나는
- 가져
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- 단추
- by
- 전화
- CAN
- 기능
- 도전
- 과제
- 문자
- 문자 인식
- 주장
- 분류
- 클릭
- 클라우드
- 클러스터
- 암호
- 수집
- 수집
- 상업
- 회사
- 복잡성
- compliance
- 구성 요소
- 이해하다
- 계산
- 관심
- 자신
- 결과
- 제약
- CONTACT
- 콘택트 렌즈
- 포함하는
- 이 포함되어 있습니다
- 함유량
- 문맥
- 지속적으로
- 비용
- 비용 효율적인
- 비용
- 임계
- 결정적인
- 현재
- 관습
- 맞춤형
- 고객
- 고객
- 사이버 보안
- 손해
- 데이터
- 데이터 위반
- 데이터 손실
- 데이터 관리
- 데이터 보호
- 데이터 보안
- 데이터 공유
- 날짜
- 취급
- 도
- 배포
- 디자인
- 상세한
- 검색
- 탐지 된
- Detection System
- 개발
- 개발
- 다른
- 디지털
- 디지털 서비스
- 발견
- 발견
- 디스플레이
- 붕괴
- do
- 문서
- 서류
- 도메인
- 아래 (down)
- 두
- ...동안
- 동적
- 마다
- 효율적으로
- 중
- 전자
- 전자적으로
- 이메일
- 이메일
- 가능
- 에워 싸다
- 암호화
- 종료
- 기사
- 엔지니어링
- 엔지니어
- 영어
- 보장
- 엔티티
- 실재
- 특히
- 필수
- 모든 곳
- 진화하는
- 흥미 진진한
- 경험
- 전문적 지식
- 전문가
- 광대 한
- 추출물
- 추출
- 추출물
- 페이스메이크업
- 마주보고
- 고장
- 그릇된
- 특색
- 특징
- 연방 준비 은행
- 피드백
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 필터
- 금융
- 금융 정보
- Find
- 발견
- 지문
- 먼저,
- 초점
- 집중
- 수행원
- 다음
- 럭셔리
- 형태
- 체재
- 양식
- 분수
- 분열
- 자유
- 에
- 충분히
- 일반
- 생성
- 주기
- 골
- 통치
- Government
- 정부 기관
- 그룹
- 손
- 있다
- he
- 도움이
- 더 높은
- 강조
- 고도로
- 그의
- 보유
- 호스팅
- 방법
- 그러나
- HTML
- HTTPS
- 식별
- 확인
- 확인
- 식별
- 통합 인증
- if
- 구현
- 구현하다
- in
- 포함
- 포함
- 색인
- 표시
- 개인
- 정보
- 처음에는
- 이니셔티브
- 혁신적인
- 입력
- 내부
- 통찰력
- 인터페이스
- 으로
- 조사
- IT
- 그
- JPG
- 알려진
- 레이블
- 언어
- 넓은
- 법규
- 법률 및 규정
- 소송
- 소송
- 리드
- 지도
- 배우기
- 이용약관
- 레벨
- 생활
- 처럼
- 소송
- 논리
- 보기
- 오프
- 낮은
- 기계
- 기계 학습
- 만든
- 유지 보수
- 확인
- 유튜브 영상을 만드는 것은
- 관리
- 구축
- 매니저
- .
- 거대한
- 석사
- 어울리는
- 문제
- 미디어
- 의료
- 메시지
- 메타 데이터
- 방법
- 수도
- 백만
- 수백만
- 완화시키는
- 위험 완화
- ML
- 모델
- 현대
- 배우기
- name
- 즉
- 폭이 좁은
- 출신
- 자연의
- 자연 언어 처리
- 자연
- 부정
- 네트워크
- nlp
- 노스 이스턴 대학 (Northeastern University)
- 번호
- 숫자
- 의무
- 획득
- OCR
- of
- 제공
- Office
- 자주
- on
- 만
- 운영
- 광학 문자 인식
- or
- 조직
- 조직
- 우리의
- 외부
- 위에
- 전체
- 가장 중요한
- 평행
- 매개 변수
- 부품
- 패스
- 패스
- 통과
- 무늬
- 퍼센트
- 수행
- 확인
- 개인 정보
- 전화
- 개
- 관로
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 연주
- 가능한
- 게시하다
- 강한
- 사례
- Precision
- 존재
- 제시
- 방지
- 예방
- 개인 정보 보호
- 아마
- 방법
- 프로세스
- 처리
- 생산
- 생산
- 프로덕트
- 제품 리뷰
- 생산
- 제품
- 전문가
- 프로젝트
- 보호
- 보호
- 제공
- 공개
- 빨리
- 빠르게
- 읽기
- 인식
- 감소
- 감소
- 의미
- 규정
- 규정하는
- 관련
- 상대적으로
- 관련된
- 평판
- 의뢰
- 요청
- 필수
- 탄력
- 의지
- 응답
- 응답
- 반품
- 공개
- 리뷰
- 리뷰
- 타기
- 연락해주세요
- 위험
- 달리기
- 보호
- 안전하게
- 판매
- 제재
- 확장성
- 규모
- 주사
- 학교
- 범위
- 점수
- 검색
- 검색
- 둘째
- 안전하게
- 보안
- 보안 위험
- 참조
- 분절
- 셀프 서비스
- 보내다
- 전송
- 연장자
- 민감한
- 섬기는 사람
- 서버
- 서비스
- 서비스
- 심한
- 공유
- 소개
- 단순, 간단, 편리
- 단일
- 느슨하게
- So
- 사회적
- 소셜 미디어
- 소프트웨어
- 소프트웨어 엔지니어
- 소프트웨어 공학
- 해결책
- 솔루션
- 스패닝
- 스팬
- 구체적인
- 속도
- 직원
- 이해 관계자
- 스티브
- 저장
- 저장
- 상점
- 타격
- 강한
- 소환장
- 이러한
- SUPPORT
- 지원
- 지원
- 체계
- 시스템은
- TAG
- 팀
- 팀
- Technology
- 통신
- 본문
- 그
- XNUMXD덴탈의
- 절도
- 그들의
- 그들
- 그때
- Bowman의
- 그들
- 이
- 수천
- 위협
- 을 통하여
- 티켓
- 시간
- 에
- 검색을
- 훈련 된
- 투명도
- 믿어
- 시도
- 두
- 유형
- 유형
- 이해
- 유일한
- 대학
- 업로드
- us
- 사용
- 익숙한
- 사용자
- 사용
- 사용
- 보통의
- 가치 있는
- 가치
- 종류
- 여러
- 거대한
- Video
- 동영상
- 비전
- 음량
- vp
- 필요
- 였다
- 웹
- 웹 개발
- 웹 서비스
- 웹 기반
- 웹 사이트
- 주
- 어느
- 동안
- 넓은
- 과
- 작업
- 일하는
- 일
- 전세계적인
- 겠지
- 자신의
- 너의
- 제퍼 넷
- 지퍼