지능형 문서 처리를 위해 Amazon Comprehend를 사용한 원스텝 분류 및 엔터티 인식 소개

플라톤에 의해 재발행

팔로워 : 0

“지능형 문서 처리(IDP) 솔루션은 대량의 반복적인 문서 처리 작업의 자동화를 지원하고 분석 및 통찰력을 위해 데이터를 추출합니다. IDP는 자연어 기술과 컴퓨터 비전을 사용하여 정형 및 비정형 콘텐츠, 특히 문서에서 데이터를 추출하여 자동화 및 증강을 지원합니다.” – 가트너

Amazon의 지능형 문서 처리(IDP)의 목표는 기계 학습(ML)을 사용하여 대량의 문서 처리를 자동화하여 생산성을 높이고 인건비와 관련된 비용을 줄이며 원활한 사용자 경험을 제공하는 것입니다. 고객은 다양한 사용 사례를 위해 문서를 식별하고 문서에서 중요한 정보를 추출하는 데 상당한 시간과 노력을 소비합니다. 오늘, 아마존 이해 반구조화된 형식(스캔한 디지털 PDF 또는 PNG, JPG, TIFF와 같은 이미지)의 문서를 사전 처리한 다음 일반 텍스트 출력을 사용하여 사용자 정의 분류 모델. 마찬가지로, 사용자 지정 엔터티 인식 실시간으로 PDF, 이미지 파일과 같은 반정형 문서는 텍스트를 추출하기 위한 전처리가 필요합니다. 이 XNUMX단계 프로세스로 인해 문서 처리 워크플로우가 복잡해집니다.

작년에, 우리 기본 문서 형식에 대한 지원 발표 사용자 지정 개체 인식(NER) 사용 비동기 작업. 오늘 Amazon Comprehend를 사용하여 네이티브 형식(PDF, TIFF, JPG, PNG)의 반구조화된 문서에 대한 NER용 원스텝 문서 분류 및 실시간 분석을 발표하게 되어 기쁩니다. 구체적으로 다음과 같은 기능을 발표합니다.

사용자 지정 분류 실시간 분석 및 비동기 작업을 위한 기본 형식의 문서 지원
맞춤형 엔터티 인식 실시간 분석을 위한 기본 형식의 문서 지원

이 새로운 릴리스에서 Amazon Comprehend 사용자 지정 분류 및 사용자 지정 엔터티 인식(NER)은 UTF8로 인코딩된 일반 텍스트를 추출할 필요 없이 PDF, TIFF, PNG 및 JPEG와 같은 형식의 문서를 직접 지원합니다. 다음 그림은 이전 프로세스를 새로운 절차 및 지원과 비교합니다.

이 기능은 문서에서 일반 텍스트를 추출하는 데 필요한 사전 처리 단계를 제거하여 문서 처리 워크플로를 단순화하고 처리에 필요한 전체 시간을 줄입니다.

이 게시물에서는 높은 수준의 IDP 워크플로 솔루션 설계, 몇 가지 업계 사용 사례, Amazon Comprehend의 새로운 기능 및 사용 방법에 대해 설명합니다.

솔루션 개요

보험 업계의 일반적인 사용 사례를 살펴보는 것으로 시작하겠습니다. 일반적인 보험 청구 프로세스에는 여러 문서가 포함될 수 있는 청구 패키지가 포함됩니다. 보험 청구가 접수되면 보험 청구 양식, 사고 보고서, 신원 문서 및 제XNUMX자 청구 문서와 같은 문서가 포함됩니다. 보험 청구를 처리하고 판결하는 데 필요한 문서의 양은 청구 유형 및 관련 비즈니스 프로세스에 따라 최대 수백, 심지어 수천 페이지에 달할 수 있습니다. 보험 청구 담당자와 심사관은 일반적으로 수백 또는 수천 건의 청구 서류에서 정보를 수동으로 선별, 분류 및 추출하는 데 수백 시간을 소비합니다.

보험 업계 사용 사례와 유사하게 결제 업계에서도 국경 간 결제 계약, 송장 및 외환 명세서를 위해 대량의 반구조화된 문서를 처리합니다. 비즈니스 사용자는 필요한 정보를 식별, 구성, 검증, 추출 및 다운스트림 애플리케이션에 전달하는 것과 같은 수동 활동에 대부분의 시간을 보냅니다. 이 수동 프로세스는 지루하고 반복적이며 오류가 발생하기 쉽고 비용이 많이 들며 확장하기 어렵습니다. 유사한 문제에 직면한 다른 산업에는 모기지 및 대출, 의료 및 생명 과학, 법률, 회계 및 세금 관리가 포함됩니다. 높은 수준의 정확성과 명목상의 수작업으로 적시에 대량의 문서를 처리하는 것은 기업에게 매우 중요합니다.

Amazon Comprehend는 확장 가능하고 비용 효율적인 방식으로 높은 정확도로 대량의 문서에서 문서 분류 및 정보 추출을 자동화하는 핵심 기능을 제공합니다. 다음 다이어그램은 Amazon Comprehend를 사용하는 IDP 논리적 워크플로를 보여줍니다. 워크플로의 핵심은 Amazon Comprehend 사용자 지정 모델과 함께 NER를 사용한 문서 분류 및 정보 추출로 구성됩니다. 다이어그램은 또한 문서 및 비즈니스 프로세스가 발전함에 따라 더 높은 정확도를 제공하기 위해 사용자 지정 모델을 지속적으로 개선할 수 있는 방법을 보여줍니다.

사용자 지정 문서 분류

Amazon Comprehend 사용자 지정 분류를 사용하면 문서를 미리 정의된 범주(클래스)로 구성할 수 있습니다. 다음은 사용자 정의 문서 분류자를 설정하고 문서 분류를 수행하는 단계입니다.

사용자 지정 문서 분류자를 교육하기 위한 교육 데이터를 준비합니다.
교육 데이터로 고객 문서 분류기를 교육합니다.
모델이 학습된 후 선택적으로 실시간 엔드포인트를 배포합니다.
비동기 작업 또는 엔드포인트를 사용하여 실시간으로 문서 분류를 수행합니다.

1단계와 2단계는 일반적으로 비즈니스 프로세스와 관련된 문서 클래스가 식별된 후 IDP 프로젝트를 시작할 때 수행됩니다. 그런 다음 사용자 지정 분류자 모델을 주기적으로 재훈련하여 정확성을 개선하고 새로운 문서 클래스를 도입할 수 있습니다. 다음 중 하나에서 사용자 지정 분류 모델을 교육할 수 있습니다. 멀티 클래스 모드 or 다중 라벨 모드. 교육은 CSV 파일을 사용하거나 증강 매니페스트 파일을 사용하는 두 가지 방법 중 하나로 각각에 대해 수행할 수 있습니다. 인용하다 훈련 데이터 준비 사용자 지정 분류 모델 교육에 대한 자세한 내용은 사용자 지정 분류자 모델이 훈련된 후 다음을 사용하여 문서를 분류할 수 있습니다. 실시간 분석 또는 비동기 작업. 실시간 분석에는 배포할 엔드포인트 사용 사례에 따라 작은 문서에 가장 적합합니다. 많은 문서의 경우 비동기 분류 작업이 가장 적합합니다.

사용자 지정 문서 분류 모델 학습

새로운 기능을 시연하기 위해 보험 문서를 XNUMX가지 클래스 중 하나로 분류할 수 있는 다중 레이블 모드에서 사용자 지정 분류 모델을 교육했습니다. 수업은 INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY및 CMS1500. 샘플 문서를 기본 PDF, PNG 및 JPEG 형식으로 분류하여 아마존 단순 스토리지 서비스 (Amazon S3) 버킷, 분류 모델 사용. 비동기 분류 작업을 시작하려면 다음 단계를 완료하세요.

Amazon Comprehend 콘솔에서 분석 작업 탐색 창에서
왼쪽 메뉴에서 직업 만들기.
럭셔리 성함, 분류 작업의 이름을 입력합니다.
럭셔리 분석 유형¸ 선택 맞춤 분류.
럭셔리 분류기 모델, 적절한 학습된 분류 모델을 선택합니다.
럭셔리 버전, 적절한 모델 버전을 선택하십시오.

. 입력 데이터 섹션에서는 문서가 저장된 위치를 제공합니다.

럭셔리 입력 형식선택한다. 파일당 하나의 문서.
럭셔리 문서 읽기 모드¸ 선택 강제 문서 읽기 조치.
럭셔리 문서 읽기 작업선택한다. Textract 감지 문서 텍스트.

이렇게 하면 Amazon Comprehend에서 아마존 텍사스 문서 텍스트 감지 분류를 실행하기 전에 문서를 읽는 API. 그만큼 DetectDocumentText API는 문서에서 텍스트의 줄과 단어를 추출하는 데 유용합니다. 당신은 또한 선택할 수 있습니다 Textract 분석 문서 for 문서 읽기 작업, 이 경우 Amazon Comprehend는 Amazon Textract를 사용합니다. 문서 분석 문서를 읽는 API. 이랑 AnalyzeDocument API, 추출하도록 선택할 수 있습니다. 테이블, 양식, 아니면 둘다. 그만큼 문서 읽기 모드 옵션을 사용하면 Amazon Comprehend가 백그라운드에서 문서에서 텍스트를 추출할 수 있으므로 문서 처리 워크플로에 필요한 문서에서 텍스트를 추출하는 추가 단계를 줄이는 데 도움이 됩니다.

Amazon Comprehend 사용자 지정 분류자는 다음에서 생성된 원시 JSON 응답도 처리할 수 있습니다. DetectDocumentText 와 AnalyzeDocument 수정이나 사전 처리가 없는 API. 이는 Amazon Textract가 이미 문서에서 텍스트를 추출하는 데 관여하는 기존 워크플로에 유용합니다. 이 경우 Amazon Textract의 JSON 출력을 Amazon Comprehend 문서 분류 API에 직접 공급할 수 있습니다.

. 출력 데이터 섹션 S3 위치, 비동기 작업이 추론 결과를 쓸 Amazon S3 위치를 지정합니다.
나머지 옵션은 기본값으로 둡니다.
왼쪽 메뉴에서 직업 만들기 작업을 시작합니다.

에서 작업 상태를 볼 수 있습니다. 분석 작업 페이지.

작업이 완료되면 작업 구성 중에 제공된 Amazon S3 위치에 저장되는 분석 작업의 출력을 볼 수 있습니다. 단일 페이지 PDF 샘플 CMS1500 문서의 분류 출력은 다음과 같습니다. 출력은 가독성을 향상시키기 위해 형식이 지정된 JSON 라인 형식의 파일입니다.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

앞의 샘플은 단일 페이지 PDF 문서입니다. 그러나 사용자 정의 분류는 다중 페이지 PDF 문서도 처리할 수 있습니다. 다중 페이지 문서의 경우 출력에는 여러 JSON 행이 포함되며 각 행은 문서의 각 페이지에 대한 분류 결과입니다. 다음은 샘플 다중 페이지 분류 출력입니다.

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

커스텀 엔티티 인식

Amazon Comprehend 사용자 지정 엔터티 인식기를 사용하면 문서를 분석하고 특정 요구 사항에 맞는 제품 코드 또는 비즈니스별 엔터티와 같은 엔터티를 추출할 수 있습니다. 높은 수준에서 다음은 사용자 지정 엔터티 인식기를 설정하고 엔터티 검색을 수행하는 단계입니다.

사용자 지정 엔터티 인식기를 교육하기 위한 교육 데이터를 준비합니다.
교육 데이터로 사용자 지정 엔터티 인식기를 교육합니다.
모델이 학습된 후 선택적으로 실시간 엔드포인트를 배포합니다.
비동기 작업 또는 엔드포인트를 사용하여 실시간으로 엔터티 감지를 수행합니다.

사용자 지정 엔터티 인식기 모델은 정확성을 개선하고 새로운 엔터티 유형을 도입하기 위해 주기적으로 재훈련될 수 있습니다. 다음 중 하나를 사용하여 사용자 정의 엔터티 인식기 모델을 교육할 수 있습니다. 엔터티 목록 or 주석. 두 경우 모두 Amazon Comprehend는 새 엔터티를 감지하기 위해 일반화할 수 있는 엔터티 인식기 모델을 구축하기 위해 엔터티가 발생하는 문서의 종류와 컨텍스트에 대해 학습합니다. 인용하다 훈련 데이터 준비 사용자 지정 엔터티 인식기에 대한 교육 데이터 준비에 대해 자세히 알아보세요.

사용자 지정 엔터티 인식기 모델을 학습한 후 다음을 사용하여 엔터티 감지를 수행할 수 있습니다. 실시간 분석 또는 비동기 작업. 실시간 분석에는 배포할 엔드포인트 사용 사례에 따라 작은 문서에 가장 적합합니다. 많은 문서의 경우 비동기 분류 작업이 가장 적합합니다.

사용자 지정 엔터티 인식 모델 교육

실시간으로 엔터티 감지를 시연하기 위해 보험 문서 및 사용자 지정 주석을 사용하여 증강된 매니페스트 파일로 사용자 지정 엔터티 인식기 모델을 교육하고 교육된 모델을 사용하여 엔드포인트를 배포했습니다. 엔터티 유형은 다음과 같습니다. Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action및 Sender. 인식기 모델을 사용하여 S3 버킷에 저장된 기본 PDF, PNG 및 JPEG 형식의 샘플 문서에서 엔터티를 감지하려고 합니다.

PDF 문서로 훈련된 사용자 지정 엔터티 인식 모델을 사용하여 PDF, TIFF, 이미지, Word 및 일반 텍스트 문서에서 사용자 지정 엔터티를 추출할 수 있습니다. 모델이 텍스트 문서와 엔터티 목록을 사용하여 학습된 경우 일반 텍스트 문서만 사용하여 엔터티를 추출할 수 있습니다.

인식기 모델을 사용하여 기본 PDF, PNG 및 JPEG 형식의 샘플 문서에서 엔터티를 감지해야 합니다. 동기 엔티티 감지 작업을 시작하려면 다음 단계를 완료하십시오.

Amazon Comprehend 콘솔에서 실시간 분석 탐색 창에서
$XNUMX Million 미만 분석 유형, 고르다 관습.
럭셔리 커스텀 엔티티 인식, 사용자 지정 모델 유형을 선택합니다.
럭셔리 종점에서 엔터티 인식기 모델에 대해 생성한 실시간 엔드포인트를 선택합니다.
선택 파일을 업로드 선택하고 파일 선택 추론을 위해 PDF 또는 이미지 파일을 업로드합니다.
확장 고급 문서 입력 섹션 및 문서 읽기 모드선택한다. 서비스 기본값.
럭셔리 문서 읽기 작업선택한다. Textract 감지 문서 텍스트.
왼쪽 메뉴에서 분석 문서를 실시간으로 분석합니다.

인식된 엔터티는 인사이트 부분. 각 엔터티에는 엔터티 값(텍스트), 교육 프로세스 중에 정의한 엔터티 유형 및 해당 신뢰도 점수가 포함됩니다.

사용자 지정 엔터티 인식기 모델을 교육하고 이를 사용하여 비동기 분석 작업을 사용하여 비동기 추론을 수행하는 방법에 대한 자세한 내용과 전체 연습은 다음을 참조하세요. Amazon Comprehend를 사용하여 기본 형식의 문서에서 사용자 지정 엔터티 추출.

결론

이 게시물은 반구조화된 문서를 기본 형식으로 분류 및 분류하고 Amazon Comprehend를 사용하여 문서에서 비즈니스별 엔터티를 감지하는 방법을 보여주었습니다. 대기 시간이 짧은 사용 사례에 실시간 API를 사용하거나 대량 문서 처리에 비동기 분석 작업을 사용할 수 있습니다.

다음 단계로 Amazon Comprehend를 방문하는 것이 좋습니다. GitHub 저장소 이러한 새로운 기능을 사용해 볼 수 있는 전체 코드 샘플을 확인하세요. 당신은 또한 방문 할 수 있습니다 Amazon Comprehend 개발자 안내서 와 Amazon Comprehend 개발자 리소스 비디오, 자습서, 블로그 등을 위해.

저자 소개

릭 탈룩다르 Amazon Comprehend Service 팀의 수석 설계자입니다. 그는 AWS 고객과 협력하여 그들이 대규모로 기계 학습을 채택하도록 돕습니다. 업무 외에는 독서와 사진 촬영을 즐깁니다.

안잔 비스와스 AI/ML 및 데이터 분석에 중점을 둔 선임 AI 서비스 솔루션 설계자입니다. Anjan은 전 세계 AI 서비스 팀의 일원이며 고객과 협력하여 고객이 AI 및 ML을 통해 비즈니스 문제에 대한 솔루션을 이해하고 개발하도록 돕습니다. Anjan은 글로벌 공급망, 제조 및 소매 조직에서 14년 이상 일한 경험이 있으며 고객이 AWS AI 서비스를 시작하고 확장할 수 있도록 적극적으로 돕고 있습니다.

고드윈 사하야라즈 빈센트 머신 러닝에 열정을 갖고 고객에게 AWS 워크로드 및 아키텍처를 설계, 배포 및 관리하도록 지침을 제공하는 AWS의 Enterprise Solutions Architect입니다. 여가 시간에는 친구들과 크리켓 경기를, 세 자녀와 테니스 경기를 즐깁니다.

타임 스탬프 : 2022 년 12 월 2 일2022 년 12 월 2 일

Amazon SageMaker Feature Store는 이제 계정 간 공유, 검색 및 액세스를 지원합니다. 아마존 웹 서비스

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1947390

타임 스탬프 : 13년 2024월 XNUMX일

AWS는 LLM(Large Language Model)에서 미세 조정을 수행하여 대형 게임 회사의 독성 발언을 분류합니다. | 아마존 웹 서비스

AWS 기계 학습

소스 노드 : 1822975

타임 스탬프 : 7년 2023월 XNUMX일

지능적인 문서 처리를 위해 Amazon Comprehend를 사용한 원스텝 분류 및 엔터티 인식 소개

플라톤에 의해 재발행

솔루션 개요

사용자 지정 문서 분류

사용자 지정 문서 분류 모델 학습

커스텀 엔티티 인식

사용자 지정 엔터티 인식 모델 교육

결론

저자 소개

더보기 AWS 기계 학습

AWS Accelerator의 스타트업은 AI 및 ML을 사용하여 미션 크리티컬 고객 과제를 해결합니다.

Amazon Rekognition Custom Labels로 컴퓨터 비전을 사용하여 농업 수확량 측정

AutoGluon-TimeSeries로 쉽고 정확한 예측

Amazon SageMaker를 사용하여 이메일 스팸 탐지기 구축 | 아마존 웹 서비스

Amazon SageMaker 지리 공간적 기능을 사용하여 메탄 배출 지점 소스 감지 및 고주파수 모니터링 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정