보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

보험 업계에서 AWS AI 및 Analytics 서비스를 사용한 지능형 문서 처리: 2부

In 파트 1 이 시리즈에서는 지능형 문서 처리(IDP)와 IDP가 보험 업계에서 청구 처리 사용 사례를 가속화할 수 있는 방법에 대해 논의했습니다. AWS AI 서비스를 사용하여 지원 문서와 함께 청구 문서를 정확하게 분류하는 방법에 대해 논의했습니다. 또한 양식, 표 또는 송장, 영수증 또는 ID 문서와 같은 특수 문서와 같은 보험 청구 패키지에서 다양한 유형의 문서를 추출하는 방법에 대해 논의했습니다. 시간이 많이 걸리고 오류가 발생하기 쉽고 비용이 많이 들고 대규모로 처리하기 어려운 레거시 문서 프로세스의 문제와 AWS AI 서비스를 사용하여 IDP 파이프라인을 구현하는 방법을 살펴보았습니다.

이 게시물에서는 문서 추출, 쿼리 및 보강을 위한 고급 IDP 기능을 안내합니다. 또한 청구 데이터에서 추출한 구조화된 정보를 추가로 사용하여 AWS Analytics 및 시각화 서비스를 사용하여 통찰력을 얻는 방법을 살펴봅니다. IDP에서 추출한 구조화된 데이터가 AWS Analytics 서비스를 사용하여 사기 청구를 방지하는 데 어떻게 도움이 되는지 강조합니다.

솔루션 개요

다음 다이어그램은 AWS AI 서비스를 사용하는 IDP의 단계를 보여줍니다. 1부에서는 IDP 워크플로의 처음 세 단계에 대해 논의했습니다. 이 게시물에서는 추출 단계와 IDP를 AWS Analytics 서비스와 통합하는 것을 포함하는 나머지 단계를 확장합니다.

우리는 이러한 분석 서비스를 사용하여 추가 통찰력과 시각화를 제공하고 IDP의 구조화되고 정규화된 데이터를 사용하여 사기성 청구를 감지합니다. 다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

IDP 아키텍처 다이어그램

이 게시물에서 논의하는 단계에서는 다음과 같은 주요 서비스를 사용합니다.

  • 아마존 종합 의료 처방, 절차 또는 진단과 같은 의료 텍스트에서 건강 데이터를 이해하고 추출하도록 사전 훈련된 기계 학습(ML) 모델을 사용하는 HIPAA 적격 자연어 처리(NLP) 서비스입니다.
  • AWS 접착제 AWS Analytics 서비스 스택의 일부이며 분석, ML 및 애플리케이션 개발을 위한 데이터를 쉽게 검색, 준비 및 결합할 수 있는 서버리스 데이터 통합 ​​서비스입니다.
  • 아마존 레드 시프트 Analytics 스택의 또 다른 서비스입니다. Amazon Redshift는 클라우드에서 페타바이트 규모의 완전 관리형 데이터 웨어하우스 서비스입니다.

사전 조건

시작하기 전에 다음을 참조하십시오. 파트 1 IDP를 사용한 보험 사용 사례의 개괄적인 개요와 데이터 캡처 및 분류 단계에 대한 세부 정보.

코드 샘플에 대한 자세한 내용은 다음을 참조하십시오. GitHub 레포.

추출 단계

1부에서는 Amazon Textract API를 사용하여 문서에서 양식 및 테이블과 같은 정보를 추출하는 방법과 송장 및 신원 문서를 분석하는 방법을 살펴보았습니다. 이 게시물에서는 Amazon Comprehend로 추출 단계를 개선하여 사용자 지정 사용 사례와 관련된 기본 및 사용자 지정 엔터티를 추출합니다.

보험 회사는 종종 환자의 퇴원 요약 서신과 같은 보험 청구 신청서에서 밀집된 텍스트를 접하게 됩니다(다음 예시 이미지 참조). 명확한 구조가 없는 이러한 유형의 문서에서 정보를 자동으로 추출하는 것은 어려울 수 있습니다. 이 문제를 해결하기 위해 다음 방법을 사용하여 문서에서 주요 비즈니스 정보를 추출할 수 있습니다.

방전 요약 샘플

Amazon Comprehend DetectEntities API로 기본 엔터티 추출

샘플 의료 기록 문서에서 다음 코드를 실행합니다.

comprehend = boto3.client('comprehend') 

response = comprehend.detect_entities( Text=text, LanguageCode='en')

#print enitities from the response JSON

for entity in response['Entities']:
    print(f'{entity["Type"]} : {entity["Text"]}')

다음 스크린샷은 입력 텍스트에서 식별된 엔터티 컬렉션을 보여줍니다. 이 게시물의 목적을 위해 출력을 줄였습니다. 참조 GitHub 레포 엔터티의 자세한 목록을 보려면

보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Amazon Comprehend 사용자 지정 엔터티 인식으로 사용자 지정 엔터티 추출

의 응답 DetectEntities API에는 기본 엔터티가 포함됩니다. 그러나 우리는 환자의 이름(기본 엔터티로 표시됨)과 같은 특정 엔터티 값을 알고 싶습니다. PERSON) 또는 환자의 ID(기본 엔터티로 표시됨 OTHER). 이러한 사용자 지정 엔터티를 인식하기 위해 Amazon Comprehend 사용자 지정 엔터티 인식기 모델을 교육합니다. 사용자 지정 엔터티 인식 모델을 교육하고 배포하는 방법에 대한 포괄적인 단계를 따르는 것이 좋습니다. GitHub 레포.

사용자 지정 모델을 배포한 후 도우미 기능을 사용할 수 있습니다. get_entities() 다음과 같은 사용자 지정 엔터티를 검색하려면 PATIENT_NAMEPATIENT_D API 응답에서:

def get_entities(text):
try:
    #detect entities
    entities_custom = comprehend.detect_entities(LanguageCode="en",
                      Text=text, EndpointArn=ER_ENDPOINT_ARN) 
    df_custom = pd.DataFrame(entities_custom["Entities"], columns = ['Text',  
                'Type', 'Score'])
    df_custom = df_custom.drop_duplicates(subset=['Text']).reset_index()
    return df_custom
except Exception as e:
    print(e)

# call the get_entities() function 
response = get_entities(text) 
#print the response from the get_entities() function
print(response)

다음 스크린샷은 결과를 보여줍니다.

보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

강화 단계

문서 보강 단계에서는 의료 관련 문서에 대한 보강 기능을 수행하여 귀중한 통찰력을 도출합니다. 다음 유형의 강화를 살펴봅니다.

  • 도메인별 언어 추출 – Amazon Comprehend Medical을 사용하여 ICD-10-CM, RxNorm 및 SNOMED CT와 같은 의료 관련 온톨로지를 추출합니다.
  • 민감한 정보 수정 – Amazon Comprehend를 사용하여 개인 식별 정보(PII)를 수정하고 Amazon Comprehend Medical을 사용하여 PHI(보호된 건강 정보) 수정을 수정합니다.

구조화되지 않은 의료 텍스트에서 의료 정보 추출

의료 제공자의 메모 및 임상 시험 보고서와 같은 문서에는 밀집된 의료 텍스트가 포함됩니다. 보험 청구 회사는 이 밀집된 텍스트에서 추출된 건강 정보 간의 관계를 식별하고 ICD-10-CM, RxNorm 및 SNOMED CT 코드와 같은 의료 온톨로지에 연결해야 합니다. 이는 보험 회사가 청구 처리를 가속화하고 단순화할 수 있도록 청구 캡처, 검증 및 승인 워크플로를 자동화하는 데 매우 유용합니다. Amazon Comprehend Medical을 사용하는 방법을 살펴보겠습니다. InferICD10CM 가능한 의학적 상태를 엔티티로 감지하고 해당 코드에 연결하는 API:

cm_json_data = comprehend_med.infer_icd10_cm(Text=text)

print("nMedical codingn========")

for entity in cm_json_data["Entities"]:
      for icd in entity["ICD10CMConcepts"]:
           description = icd['Description']
           code = icd["Code"]
           print(f'{description}: {code}')

Amazon Textract에서 전달할 수 있는 입력 텍스트의 경우 DetectDocumentText API, InferICD10CM API는 다음 출력을 반환합니다(출력은 간결함을 위해 축약되었습니다).

구조화되지 않은 의료 텍스트에서 의료 정보 추출

마찬가지로 Amazon Comprehend Medical을 사용할 수 있습니다. InferRxNorm 약물을 식별하는 API 및 InferSNOMEDCT 의료 관련 보험 문서에서 의료 항목을 감지하는 API입니다.

PII 및 PHI 수정 수행

보험 청구 패키지에는 PII 및 PHI 데이터가 모두 포함되어 있기 때문에 많은 개인 정보 보호 규정 준수 및 규정이 필요합니다. 보험사는 보험 증권 번호나 환자 이름과 같은 정보를 수정하여 규정 준수 위험을 줄일 수 있습니다.

환자의 퇴원 요약의 예를 살펴보겠습니다. 우리는 Amazon Comprehend를 사용합니다. DetectPiiEntities 문서 내에서 PII 엔터티를 감지하고 다음 엔터티를 수정하여 환자의 개인 정보를 보호하는 API:

resp = call_textract(input_document = f's3://{data_bucket}/idp/textract/dr-note-sample.png')
text = get_string(textract_json=resp, output_type=[Textract_Pretty_Print.LINES])

# call Amazon Comprehend Detect PII Entities API
entity_resp = comprehend.detect_pii_entities(Text=text, LanguageCode="en") 

pii = []
for entity in entity_resp['Entities']:
      pii_entity={}
      pii_entity['Type'] = entity['Type']
      pii_entity['Text'] = text[entity['BeginOffset']:entity['EndOffset']]
      pii.append(pii_entity)
print(pii)

응답에서 다음 PII 엔터티를 얻습니다. detect_pii_entities() API:

detect_pii_entities() API의 응답

그런 다음 문서에서 엔티티의 경계 상자 형상을 활용하여 문서에서 감지된 PII 엔티티를 수정할 수 있습니다. 이를 위해 우리는 라는 도우미 도구를 사용합니다. amazon-textract-overlayer. 자세한 내용은 다음을 참조하십시오. Textract 오버레이. 다음 스크린샷은 수정 전과 후의 문서를 비교합니다.

보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Amazon Comprehend 과 유사함 DetectPiiEntities API, 우리도 사용할 수 있습니다 DetectPHI 검사 중인 임상 텍스트에서 PHI 데이터를 감지하는 API입니다. 자세한 내용은 다음을 참조하십시오. PHI를 감지합니다.

검토 및 검증 단계

문서 검토 및 검증 단계에서 이전 단계에서 패키지의 문서에서 모든 정보를 수집했기 때문에 청구 패키지가 비즈니스 요구 사항을 충족하는지 확인할 수 있습니다. 다운스트림 애플리케이션으로 패키지를 보내기 전에 모든 필드를 검토하고 검증할 수 있는 루프에 사람을 도입하거나 저렴한 청구에 대한 자동 승인 프로세스를 도입함으로써 이를 수행할 수 있습니다. 우리는 사용할 수 있습니다 아마존 증강 AI (Amazon A2I) 보험 청구 처리를 위한 인적 검토 프로세스를 자동화합니다.

보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

이제 IDP용 AI 서비스를 사용하여 청구 처리에서 필요한 모든 데이터를 추출하고 정규화했으므로 AWS Glue 및 Amazon Redshift와 같은 AWS Analytics 서비스와 통합하도록 솔루션을 확장하여 추가 사용 사례를 해결하고 추가 분석 및 시각화를 제공할 수 있습니다.

사기 보험금 청구 탐지

이 게시물에서는 추출 및 처리된 데이터가 데이터 레이크에 저장되고 ML을 사용하여 사기 보험 청구를 감지하는 데 사용되는 서버리스 아키텍처를 구현합니다. 우리는 사용 아마존 단순 스토리지 서비스 (Amazon S3) 처리된 데이터를 저장합니다. 그런 다음 사용할 수 있습니다. AWS 접착제 or 아마존 EMR 데이터를 정리하고 보고 및 ML에 사용할 수 있도록 필드를 추가합니다. 그 후, 우리는 사용 아마존 레드시프트 ML 사기 탐지 ML 모델을 구축합니다. 마지막으로 다음을 사용하여 보고서를 작성합니다. 아마존 퀵 사이트 데이터에 대한 통찰력을 얻을 수 있습니다.

Amazon Redshift 외부 스키마 설정

이 예의 목적을 위해 우리는 샘플 데이터 세트 ETL(추출, 변환 및 로드) 프로세스의 출력을 에뮬레이트하고 AWS Glue 데이터 카탈로그를 메타데이터 카탈로그로 사용합니다. 먼저 다음과 같은 데이터베이스를 생성합니다. idp_demo 데이터 카탈로그 및 Amazon Redshift의 외부 스키마 idp_insurance_demo (다음 코드 참조). 우리는 사용 AWS 자격 증명 및 액세스 관리 (IAM) 역할은 Amazon Redshift 클러스터에 Amazon S3에 액세스할 수 있는 권한을 부여하고 아마존 세이지 메이커. 최소 권한으로 이 IAM 역할을 설정하는 방법에 대한 자세한 내용은 다음을 참조하십시오. Amazon Redshift ML 관리를 위한 클러스터링 및 구성 설정.

CREATE EXTERNAL SCHEMA idp_insurance_demo
FROM DATA CATALOG
DATABASE 'idp_demo' 
IAM_ROLE '<<>>'
CREATE EXTERNAL DATABASE IF NOT EXISTS;

Amazon Redshift 외부 테이블 생성

다음 단계는 파일이 있는 S3 위치를 참조하는 Amazon Redshift에 외부 테이블을 생성하는 것입니다. 이 경우 파일은 쉼표로 구분된 텍스트 파일입니다. 또한 테이블 속성 섹션에서 구성할 수 있는 파일의 헤더 행을 건너뛰고 싶습니다. 다음 코드를 참조하십시오.

create external table idp_insurance_demo.claims(id INTEGER,
date_of_service date,
patients_address_city VARCHAR,
patients_address_state VARCHAR,
patients_address_zip VARCHAR,
patient_status VARCHAR,
insured_address_state VARCHAR,
insured_address_zip VARCHAR,
insured_date_of_birth date,
insurance_plan_name VARCHAR,
total_charges DECIMAL(14,4),
fraud VARCHAR,
duplicate varchar,
invalid_claim VARCHAR
)
row format delimited
fields terminated by ','
stored as textfile
location '<<>>'
table properties ( 'skip.header.line.count'='1');

훈련 및 테스트 데이터 세트 생성

외부 테이블을 생성한 후 훈련 세트와 테스트 세트로 분할하여 ML용 데이터 세트를 준비합니다. 라는 새로운 외부 테이블을 생성합니다. claim_train, 이는 클레임 ​​테이블에서 ID <= 85000인 모든 레코드로 구성됩니다. 이것은 ML 모델을 훈련하는 훈련 세트입니다.

CREATE EXTERNAL TABLE
idp_insurance_demo.claims_train
row format delimited
fields terminated by ','
stored as textfile
location '<<>>/train'
table properties ( 'skip.header.line.count'='1')
AS select * from idp_insurance_demo.claims where id <= 850000

라는 다른 외부 테이블을 만듭니다. claim_test ML 모델을 테스트하는 테스트 세트가 될 ID가 85000 이상인 모든 레코드로 구성됩니다.

CREATE EXTERNAL TABLE
idp_insurance_demo.claims_test
row format delimited
fields terminated by ','
stored as textfile
location '<<>>/test'
table properties ( 'skip.header.line.count'='1')
AS select * from idp_insurance_demo.claims where id > 850000

Amazon Redshift ML로 ML 모델 생성

이제 다음을 사용하여 모델을 만듭니다. 모델 만들기 명령(다음 코드 참조). 에서 관련 열을 선택합니다. claims_train 사기 거래를 판별할 수 있는 테이블입니다. 이 모델의 목표는 다음 값을 예측하는 것입니다. fraud 열; 그러므로, fraud 예측 대상으로 추가됩니다. 모델이 학습된 후에는 다음과 같은 함수를 생성합니다. insurance_fraud_model. 이 함수는 SQL 문을 실행하여 값을 예측하는 동안 추론에 사용됩니다. fraud 새 레코드에 대한 열입니다.

CREATE MODEL idp_insurance_demo.insurance_fraud_model
FROM (SELECT 
total_charges ,
fraud ,
duplicate,
invalid_claim
FROM idp_insurance_demo.claims_train
)
TARGET fraud
FUNCTION insurance_fraud_model
IAM_ROLE '<<>>'
SETTINGS (
S3_BUCKET '<<>>'
);

ML 모델 측정항목 평가

모델을 만든 후 쿼리를 실행하여 모델의 정확성을 확인할 수 있습니다. 우리는 사용 insurance_fraud_model 의 값을 예측하는 함수 fraud 새 레코드에 대한 열입니다. 에서 다음 쿼리를 실행합니다. claims_test 혼동 행렬을 만드는 테이블:

SELECT 
fraud,
idp_insurance_demo.insurance_fraud_model (total_charges ,duplicate,invalid_claim ) as fraud_calculcated,
count(1)
FROM idp_insurance_demo.claims_test
GROUP BY fraud , fraud_calculcated;

ML 모델을 사용하여 사기 탐지

새 모델을 만든 후 새 청구 데이터가 데이터 웨어하우스 또는 데이터 레이크에 삽입되면 다음을 사용할 수 있습니다. insurance_fraud_model 사기 거래를 계산하는 기능. 먼저 새 데이터를 임시 테이블에 로드하여 이를 수행합니다. 그런 다음 우리는 insurance_fraud_model 계산하는 함수 fraud 각각의 새 트랜잭션에 대한 플래그를 지정하고 플래그와 함께 데이터를 최종 테이블에 삽입합니다. 이 경우 claims 테이블.

클레임 데이터 시각화

Amazon Redshift에서 데이터를 사용할 수 있게 되면 QuickSight를 사용하여 시각화를 생성할 수 있습니다. 그런 다음 QuickSight 대시보드를 비즈니스 사용자 및 분석가와 공유할 수 있습니다. QuickSight 대시보드를 생성하려면 먼저 QuickSight에서 Amazon Redshift 데이터 세트를 생성해야 합니다. 지침은 다음을 참조하십시오. 데이터베이스에서 데이터세트 만들기.

데이터 세트를 생성한 후 데이터 세트를 사용하여 QuickSight에서 새 분석을 생성할 수 있습니다. 다음은 우리가 만든 몇 가지 샘플 보고서입니다.

  • 주별로 분류된 총 청구 건수 fraud – 이 차트는 특정 상태의 총 거래 수와 비교한 사기 거래의 비율을 보여줍니다.
  • 다음으로 그룹화된 청구의 총 달러 가치 합계 fraud – 이 차트는 특정 주에서 발생한 총 거래 금액 대비 사기 거래 금액의 비율을 보여줍니다.
  • 보험사별 총 거래 건수 fraud – 이 차트는 각 보험사에 대해 얼마나 많은 청구가 접수되었고 그 중 사기가 몇 건인지를 보여줍니다.

• 사기 필드별로 그룹화된 보험사별 총 거래 수

  • 미국 지도에 표시된 주별 사기 거래 총계 – 이 차트는 사기 거래를 보여주고 해당 거래에 대한 총 요금을 지도에 주별로 표시합니다. 더 어두운 파란색 음영은 더 높은 총 요금을 나타냅니다. 추세를 더 잘 이해하기 위해 해당 주 내의 도시와 도시의 우편 번호를 추가로 분석할 수 있습니다.

보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

정리

AWS 계정에 향후 요금이 발생하지 않도록 하려면 다음 지침에 따라 설정에서 프로비저닝한 리소스를 삭제하십시오. 정리 섹션 우리 레포에서.

결론

2부로 구성된 이 시리즈에서는 ML 경험이 거의 또는 전혀 없이 종단 간 IDP 파이프라인을 구축하는 방법을 살펴보았습니다. 보험 업계의 청구 처리 사용 사례와 Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical 및 Amazon A1I와 같은 서비스를 사용하여 IDP가 이 사용 사례를 자동화하는 데 어떻게 도움이 되는지 살펴보았습니다. 2부에서는 문서 추출을 위해 AWS AI 서비스를 사용하는 방법을 시연했습니다. XNUMX부에서는 추출 단계를 확장하고 데이터 보강을 수행했습니다. 마지막으로 추가 분석을 위해 IDP에서 추출한 구조화된 데이터를 확장하고 AWS Analytics 서비스를 사용하여 사기 청구를 감지하는 시각화를 만들었습니다.

보안 섹션을 검토하는 것이 좋습니다. 아마존 텍사스, 아마존 이해아마존 A2I 문서화하고 제공된 지침을 따릅니다. 솔루션 가격에 대해 자세히 알아보려면 다음의 가격 세부 정보를 검토하십시오. 아마존 텍사스, 아마존 이해아마존 A2I.


저자에 관하여

저자친마이 레인 Amazon Web Services의 AI/ML 전문가 솔루션 아키텍트입니다. 그녀는 응용 수학 및 기계 학습에 열정적입니다. 그녀는 AWS 고객을 위한 지능형 문서 처리 솔루션 설계에 중점을 두고 있습니다. 일 외에는 살사와 바차타 댄스를 즐깁니다.


보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
우다이 나라야난
AWS의 분석 전문가 솔루션 아키텍트입니다. 그는 고객이 복잡한 비즈니스 과제에 대한 혁신적인 솔루션을 찾도록 돕는 것을 즐깁니다. 그의 핵심 초점 영역은 데이터 분석, 빅 데이터 시스템 및 기계 학습입니다. 여가 시간에는 스포츠를 하고, TV 프로그램을 폭식하고, 여행을 즐깁니다.


보험 업계에서 AWS AI 및 분석 서비스를 사용한 지능형 문서 처리: 2부 PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.
소날리 사후
Amazon Web Services에서 Intelligent Document Processing AI/ML Solutions Architect 팀을 이끌고 있습니다. 그녀는 열정적인 기술 애호가이며 혁신을 사용하여 복잡한 문제를 해결하기 위해 고객과 함께 일하는 것을 즐깁니다. 그녀의 핵심 초점 영역은 지능형 문서 처리를 위한 인공 지능 및 기계 학습입니다.

타임 스탬프 :

더보기 AWS 기계 학습