Amazon Comprehend를 사용하여 PDF 문서에 대한 사용자 지정 엔터티 인식기 구축

플라톤에 의해 재발행

팔로워 : 0

많은 산업에서 문서에서 사용자 지정 엔터티를 적시에 추출하는 것이 중요합니다. 이것은 도전적일 수 있습니다. 예를 들어 보험 청구에는 종종 길고 조밀한 문서에 걸쳐 수십 개의 중요한 속성(예: 날짜, 이름, 위치, 보고서)이 포함되어 있습니다. 이러한 정보를 수동으로 스캔하고 추출하면 오류가 발생하기 쉽고 시간이 많이 소요될 수 있습니다. 규칙 기반 소프트웨어가 도움이 될 수 있지만 궁극적으로 너무 경직되어 다양한 문서 유형과 레이아웃에 적응할 수 없습니다.

이 프로세스를 자동화하고 속도를 높이려면 다음을 사용할 수 있습니다. 아마존 이해 머신 러닝(ML)을 사용하여 사용자 지정 엔터티를 빠르고 정확하게 감지합니다. 이 접근 방식은 시스템이 과거에 학습한 내용을 사용하여 새 문서에 적응할 수 있기 때문에 유연하고 정확합니다. 그러나 최근까지 이 기능은 일반 텍스트 문서에만 적용할 수 있었습니다. 즉, 기본 형식에서 문서를 변환할 때 위치 정보가 손실되었습니다. 이를 해결하기 위해, 최근 발표 된 Amazon Comprehend는 PDF, 이미지 및 Word 파일 형식으로 사용자 지정 엔터티를 추출할 수 있습니다.

이 게시물에서는 PDF 주석을 사용하여 사용자 지정 인식기를 구축하는 방법에 대한 보험 업계의 구체적인 예를 살펴봅니다.

솔루션 개요

다음과 같은 상위 단계를 안내합니다.

PDF 주석을 만듭니다.
PDF 주석을 사용하여 Python API를 사용하여 사용자 지정 모델을 교육합니다.
훈련된 모델에서 평가 메트릭을 가져옵니다.
보이지 않는 문서에 대한 추론을 수행합니다.

이 게시물이 끝날 때까지 우리는 원시 PDF 문서를 훈련된 모델에 보내고 관심 레이블에 대한 정보가 포함된 구조화된 파일을 출력할 수 있기를 원합니다. 특히, 보험 청구와의 관련성 때문에 선택한 다음 XNUMX개 엔터티를 감지하도록 모델을 훈련합니다. DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss및 InsuredMailingAddress. 구조화된 출력을 읽은 후 다음 이미지와 같이 PDF 문서에서 레이블 정보를 직접 시각화할 수 있습니다.

이 게시물에는 동일한 단계가 포함된 Jupyter 노트북이 함께 제공됩니다. 해당 단계를 실행하는 동안 자유롭게 따르십시오. 수첩. 설정해야 하는 점 참고하세요. 아마존 세이지 메이커 Amazon Comprehend가 읽을 수 있는 환경 아마존 단순 스토리지 서비스 (Amazon S3) 노트북 상단에 설명된 대로.

PDF 주석 만들기

PDF 문서에 대한 주석을 만들려면 다음을 사용할 수 있습니다. 아마존 세이지 메이커 그라운드 진실, ML용으로 매우 정확한 교육 데이터 세트를 쉽게 구축할 수 있는 완전 관리형 데이터 레이블 지정 서비스입니다.

이 자습서에서는 Ground Truth를 사용하여 PDF를 기본 형식(일반 텍스트로 변환하지 않음)으로 이미 주석 처리했습니다. Ground Truth 작업은 사용자 지정 Amazon Comprehend 모델을 교육하는 데 필요한 세 가지 경로를 생성합니다.

지우면 좋을거같음 . SM – 입력 PDF의 경로입니다.
주석 – 레이블이 지정된 엔티티 정보가 포함된 주석 JSON 파일의 경로입니다.
적하 목록 – 주석 및 원본 PDF의 위치를 가리키는 파일. 이 파일은 Amazon Comprehend 사용자 지정 엔터티 인식 교육 작업을 생성하고 사용자 지정 모델을 교육하는 데 사용됩니다.

다음 스크린샷은 샘플 주석을 보여줍니다.

사용자 정의 Ground Truth 작업은 엔티티에 대한 블록 수준 정보를 캡처하는 PDF 주석을 생성합니다. 이러한 블록 수준 정보는 엔티티의 정확한 위치 좌표를 제공합니다(엔티티 블록 내의 각 단어를 나타내는 하위 블록 포함). 이것은 PDF의 데이터가 텍스트 형식으로 병합되고 주석 중에 오프셋 정보(정확한 좌표 정보가 아님)만 캡처되는 표준 Ground Truth 작업과 다릅니다. 이 사용자 지정 주석 패러다임으로 얻은 풍부한 위치 정보를 통해 보다 정확한 모델을 훈련할 수 있습니다.

이 유형의 작업에서 생성된 매니페스트를 표준 주석에 사용되는 CSV와 달리 증강 매니페스트라고 합니다. 자세한 내용은 주석.

PDF 주석을 사용하여 Python API를 사용하여 사용자 지정 모델 학습

증강 매니페스트 파일은 JSON Lines 형식으로 지정해야 합니다. JSON 라인 형식에서 파일의 각 라인은 완전한 JSON 객체와 개행 구분 기호가 뒤따릅니다.

다음 코드는 이 증강 매니페스트 파일 내의 항목입니다.

주목해야 할 몇 가지 사항 :

이 작업에는 다섯 가지 레이블 지정 유형이 연결되어 있습니다. DateOfForm, DateOfLoss, NameOfInsured, LocationOfLoss및 InsuredMailingAddress.
매니페스트 파일은 원본 PDF 위치와 주석 위치를 모두 참조합니다.
주석 작업에 대한 메타데이터(예: 생성 날짜)가 캡처됩니다.
Use-textract-only 가 False, 이는 주석 도구가 PDFPlumber(기본 PDF의 경우)를 사용할지 또는 아마존 텍사스 (스캔한 PDF의 경우). 로 설정하면 true, Amazon Textract는 두 경우 모두 사용됩니다(비용이 더 많이 들지만 잠재적으로 더 정확함).

이제 다음 예제 코드와 같이 인식기를 훈련할 수 있습니다.

다섯 가지 유형의 엔터티를 모두 인식하는 인식기를 만듭니다. 우리가 원한다면 이러한 엔터티의 하위 집합을 사용할 수 있습니다. 최대 25개의 항목을 사용할 수 있습니다.

각 매개변수에 대한 자세한 내용은 create_entity_recognizer.

훈련 세트의 크기에 따라 훈련 시간이 달라질 수 있습니다. 이 데이터 세트의 경우 학습에는 약 1시간이 걸립니다. 훈련 작업의 상태를 모니터링하려면 다음을 사용할 수 있습니다. describe_entity_recognizer API.

훈련된 모델에서 평가 지표 얻기

Amazon Comprehend는 훈련된 모델에 대한 모델 성능 지표를 제공하며, 이는 훈련된 모델이 유사한 입력을 사용하여 예측을 얼마나 잘 할 것으로 예상되는지 나타냅니다. 전역 정밀도 및 재현율 메트릭과 엔터티별 메트릭을 모두 얻을 수 있습니다. 정확한 모델은 높은 정밀도와 높은 재현율을 갖습니다. 높은 정밀도는 모델이 특정 레이블을 나타낼 때 일반적으로 정확함을 의미합니다. 높은 재현율은 모델이 대부분의 레이블을 찾았음을 의미합니다. F1은 이러한 측정의 복합 메트릭(조화 평균)이므로 두 구성 요소가 모두 높을 때 높습니다. 메트릭에 대한 자세한 설명은 다음을 참조하십시오. 맞춤 엔티티 인식 지표.

훈련 작업에 문서를 제공하면 Amazon Comprehend가 문서를 훈련 및 테스트 세트로 자동으로 분리합니다. 모델이 도달했을 때 TRAINED 상태, 당신은 사용할 수 있습니다 describe_entity_recognizer API를 다시 사용하여 테스트 세트에 대한 평가 메트릭을 가져옵니다.

다음은 글로벌 메트릭의 예입니다.

다음은 엔터티별 측정항목의 예입니다.

높은 점수는 모델이 이러한 엔터티를 감지하는 방법을 잘 학습했음을 나타냅니다.

보이지 않는 문서에 대한 추론 수행

훈련 절차의 일부가 아닌 문서에서 훈련된 모델로 추론을 실행해 보겠습니다. 표준 또는 사용자 정의 NER에 대해 이 비동기 API를 사용할 수 있습니다. 사용자 지정 NER에 사용하는 경우(이 게시물에서와 같이) 훈련된 모델의 ARN을 전달해야 합니다.

응답을 인쇄하여 제출된 작업을 검토할 수 있습니다.

Pandas를 사용한 감지 작업의 출력을 테이블로 형식화할 수 있습니다. 그만큼 Score 값은 모델이 엔터티에 대해 갖는 신뢰 수준을 나타냅니다.

마지막으로, 우리는 보이지 않는 문서에 예측을 오버레이할 수 있으며, 이는 이 게시물의 상단에 표시된 것과 같은 결과를 제공합니다.

결론

이 게시물에서는 Amazon Comprehend를 사용하여 기본 PDF 형식으로 사용자 지정 엔터티를 추출하는 방법을 살펴보았습니다. 다음 단계로 더 깊이 다이빙하는 것을 고려하십시오.

함께 제공되는 노트북을 사용하여 자신의 인식기 훈련 여기에서 지금 확인해 보세요.. 나중에 요금이 청구되지 않도록 완료되면 리소스를 삭제하는 것을 잊지 마십시오.
관심 엔티티에 대한 PDF 주석을 수집하기 위해 고유한 사용자 정의 주석 작업을 설정합니다. 자세한 내용은 다음을 참조하십시오. Amazon Comprehend를 사용하여 문서에서 명명된 엔터티를 추출하기 위한 사용자 지정 문서 주석.
Amazon Comprehend 콘솔에서 사용자 지정 NER 모델을 교육합니다. 자세한 내용은 Amazon Comprehend를 사용하여 기본 형식의 문서에서 사용자 지정 엔터티 추출.

저자에 관하여

조슈아 레비 Amazon Machine Learning Solutions 연구실의 수석 응용 과학자로서 고객이 주요 비즈니스 문제를 해결하기 위한 AI/ML 솔루션을 설계하고 구축하도록 돕습니다.

앤드류 앙 Amazon Machine Learning Solutions Lab의 기계 학습 엔지니어로 다양한 산업 분야의 고객이 AI/ML 솔루션을 식별하고 구축하여 가장 시급한 비즈니스 문제를 해결하도록 돕습니다. 그는 일 외에는 여행 및 음식 블로그를 즐겨 봅니다.

알렉스 치라 야스 실제 비즈니스 문제를 해결하기 위해 AWS AI/ML 서비스의 힘을 활용하는 방법을 고객에게 보여주는 사용 사례 기반 솔루션 구축에 중점을 둔 Amazon Machine Learning Solutions Lab의 소프트웨어 엔지니어입니다.

제니퍼 주 Amazon AI Machine Learning Solutions Lab의 응용 과학자입니다. 그녀는 우선 순위가 높은 비즈니스 요구 사항에 맞는 AI/ML 솔루션을 구축하는 AWS 고객과 협력합니다.

니하리카 자얀티 Amazon Machine Learning Solutions Lab – Human in the Loop 팀의 프론트 엔드 엔지니어입니다. 그녀는 Amazon SageMaker Ground Truth 고객을 위한 사용자 경험 솔루션을 만드는 데 도움을 줍니다.

보리스 아론치크 Amazon AI Machine Learning Solutions Lab의 관리자로 ML 과학자 및 엔지니어 팀을 이끌고 AWS 고객이 AI/ML 솔루션을 활용하여 비즈니스 목표를 실현할 수 있도록 지원합니다.

타임 스탬프 : 2022 년 4 월 8 일

타임 스탬프 : 월 29, 2022

Amazon Comprehend를 사용하여 PDF 문서에 대한 사용자 지정 엔터티 인식기 구축

플라톤에 의해 재발행

솔루션 개요

PDF 주석 만들기

PDF 주석을 사용하여 Python API를 사용하여 사용자 지정 모델 학습

훈련된 모델에서 평가 지표 얻기

보이지 않는 문서에 대한 추론 수행

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon SageMaker의 다중 프레임워크 모델을 사용한 비용 효율적인 ML 추론

Amazon Rekognition, 스트리밍 비디오 이벤트를 도입하여 라이브 비디오 스트림에 대한 실시간 알림 제공

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90%까지 절감 | 아마존 웹 서비스

Chronomics는 Amazon Rekognition Custom Labels로 COVID-19 테스트 결과를 감지합니다.

T-Mobile US, Inc.는 Amazon Transcribe 및 Amazon Translate를 통해 인공 지능을 사용하여 고객이 선택한 언어로 음성 메일을 전달합니다 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정