Amazon Comprehend Document Classifier에 더 높은 정확도를 위한 레이아웃 지원 추가

플라톤에 의해 재발행

팔로워 : 0

방대한 양의 문서를 효과적으로 처리하고 처리하는 능력은 현대 사회에서 기업의 필수 요소가 되었습니다. 모든 기업이 처리하는 정보의 지속적인 유입으로 인해 문서를 수동으로 분류하는 것은 더 이상 실행 가능한 옵션이 아닙니다. 문서 분류 모델은 절차를 자동화하고 조직이 시간과 리소스를 절약할 수 있도록 도와줍니다. 수동 처리 및 키워드 기반 검색과 같은 기존의 분류 기술은 문서의 양이 증가함에 따라 효율성이 떨어지고 시간이 많이 걸립니다. 이러한 비효율성으로 인해 생산성이 저하되고 운영 비용이 높아집니다. 또한 필요할 때 중요한 정보에 액세스할 수 없도록 하여 고객 경험을 저하시키고 의사 결정에 영향을 미칠 수 있습니다. AWS re:Invent 2022에서, 아마존 이해, 기계 학습(ML)을 사용하여 텍스트에서 통찰력을 발견하는 자연어 처리(NLP) 서비스, 시작 기본 문서 유형 지원. 이 새로운 기능을 통해 Amazon Comprehend를 사용하여 기본 형식(PDF, TIFF, JPG, PNG, DOCX)으로 문서를 분류할 수 있습니다.

오늘 Amazon Comprehend가 이제 PDF, Word 및 이미지 형식과 같은 문서로 사용자 지정 분류 모델 교육을 지원한다는 소식을 발표하게 되어 기쁩니다. 이제 텍스트 외에도 레이아웃을 지원하는 기본 문서에서 맞춤형 문서 분류 모델을 학습하여 결과의 정확도를 높일 수 있습니다.

이 게시물에서는 Amazon Comprehend 사용자 지정 문서 분류 모델 교육을 시작하는 방법에 대한 개요를 제공합니다.

살펴보기

정의된 공간 내에서 객체의 상대적 배치를 이해하는 능력을 레이아웃 인식. 이 경우 모델이 문서 내에서 머리글, 부제, 표 및 그래픽이 서로 어떻게 관련되어 있는지 이해하는 데 도움이 됩니다. 모델은 텍스트의 구조와 레이아웃을 인식할 때 콘텐츠를 기반으로 문서를 보다 효과적으로 분류할 수 있습니다.

Amazon Comprehend 문서 분류자는 더 높은 정확도의 PlatoBlockchain 데이터 인텔리전스를 위해 레이아웃 지원을 추가합니다. 수직 검색. 일체 포함.

이 게시물에서는 관련된 데이터 준비 단계를 살펴보고, 모델 교육 프로세스를 시연하고, Amazon Comprehend에서 새로운 사용자 지정 문서 분류 모델을 사용할 때의 이점에 대해 논의합니다. 가장 좋은 방법은 사용자 지정 문서 분류 모델 학습을 시작하기 전에 다음 사항을 고려하는 것입니다.

문서 분류 요구 사항 평가

사용 사례를 지원하기 위해 다양한 클래스 또는 범주와 함께 분류해야 할 수 있는 다양한 유형의 문서를 식별합니다. 분류해야 하는 문서의 양과 유형을 평가한 후 적합한 분류 구조 또는 분류법을 결정합니다. 문서 유형은 PDF, Word, 이미지 등에서 다를 수 있습니다. 문서 관리 시스템 또는 기타 저장 메커니즘을 통해 다양한 레이블이 지정된 문서에 대한 액세스 권한이 있는지 확인하십시오.

데이터 준비

모델 교육에 사용하려는 문서 파일이 암호화되거나 잠기지 않았는지 확인합니다. 예를 들어 PDF 파일이 암호화되고 암호로 잠기지 않았는지 확인합니다. 이러한 파일을 교육용으로 사용하려면 먼저 암호를 해독해야 합니다. 문서 샘플에 적절한 범주 또는 레이블(수업). 단일 레이블 분류(멀티 클래스 모드) 또는 다중 레이블 분류 사용 사례에 적합합니다. 다중 클래스 모드는 단일 클래스만 각 문서와 연관시키는 반면 다중 레이블 모드는 하나 이상의 클래스를 문서와 연관시킵니다.

모델 평가 고려

레이블이 지정된 데이터 세트를 사용하여 모델을 교육하면 새 문서를 정확하게 분류하는 방법을 학습하고 모델 메트릭을 이해하여 새로 교육된 모델 버전의 성능을 평가할 수 있습니다. Amazon Comprehend 사후 모델 교육에서 제공하는 지표를 이해하려면 다음을 참조하십시오. 맞춤 분류 기준. 학습 프로세스가 완료되면 비동기식 또는 실시간으로 문서 분류를 시작할 수 있습니다. 다음 섹션에서 사용자 지정 분류 모델을 훈련하는 방법을 살펴봅니다.

훈련 데이터 준비

사용자 지정 분류 모델을 교육하기 전에 교육 데이터를 준비해야 합니다. 교육 데이터는 이미 액세스 권한이 있는 문서 저장소에서 사전 식별된 문서일 수 있는 레이블이 지정된 문서 세트로 구성됩니다. 이 예에서는 건강 보험 청구 심사 프로세스에서 일반적으로 발견되는 몇 가지 다른 문서 유형(환자 퇴원 요약, 송장, 영수증 등)을 사용하여 사용자 지정 분류 모델을 교육했습니다. CSV 형식의 주석 파일도 준비해야 합니다. 다음은 교육에 필요한 주석 파일 CSV 데이터의 예입니다.

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

주석 CSV 파일에는 XNUMX개의 열이 포함되어야 합니다. 첫 번째 열은 문서에 대해 원하는 클래스(레이블)를 포함하고 두 번째 열은 문서 이름(파일 이름)이며 마지막 열은 훈련 데이터 세트에 포함하려는 문서의 페이지 번호입니다. 학습 프로세스는 기본 다중 페이지 PDF 및 DOCX 파일을 지원하므로 문서가 다중 페이지 문서인 경우 페이지 번호를 지정해야 합니다. 교육 데이터 세트에 여러 페이지 문서의 모든 페이지를 포함하려면 CSV 주석 파일에서 각 페이지를 별도의 줄로 지정해야 합니다. 예를 들어 앞의 주석 파일에서 invoice-1.pdf 는 두 페이지로 된 문서이며 분류 데이터 세트에 두 페이지를 모두 포함하려고 합니다. PDF, PNG 및 TIFF와 같은 파일은 이미지 형식이므로 페이지 번호(세 번째 열) 값은 항상 1이어야 합니다. 데이터세트에 다중 프레임(다중 페이지) TIF 파일이 포함된 경우 해당 파일을 교육 과정에서 사용하기 위해.

라는 주석 파일을 준비했습니다. test.csv 사용자 지정 분류 모델을 교육하는 데 적합한 데이터와 함께. 각 샘플 문서에 대해 CSV 파일에는 문서가 속한 클래스, 아마존 단순 스토리지 서비스 (아마존 S3)와 같은 path/to/prefix/document.pdf, 및 페이지 번호(해당되는 경우). 대부분의 문서는 단일 페이지 DOCX, PDF 파일 또는 TIF, JPG 또는 PNG 파일이므로 할당된 페이지 번호는 1입니다. 주석 CSV 및 샘플 문서는 모두 동일한 Amazon S3 접두사 아래에 있기 때문에 두 번째 열에 접두사를 명시적으로 지정해야 합니다. 또한 각 클래스에 대해 최소 10개 이상의 문서 샘플을 준비했으며 모델 교육을 위해 JPG, PNG, DOCX, PDF 및 TIF 파일을 혼합하여 사용했습니다. 일반적으로 새 문서를 인식하는 기능에 영향을 미치는 모델의 과적합을 방지하기 위해 모델 훈련을 위한 다양한 샘플 문서 세트를 보유하는 것이 좋습니다. 또한 클래스당 샘플 수가 정확히 동일할 필요는 없지만 클래스당 샘플 수가 균형을 이루는 것이 좋습니다. 다음으로 업로드합니다. test.csv 주석 파일과 모든 문서를 Amazon S3에 저장합니다. 다음 이미지는 주석 CSV 파일의 일부를 보여줍니다.

Amazon Comprehend 문서 분류자는 더 높은 정확도의 PlatoBlockchain 데이터 인텔리전스를 위해 레이아웃 지원을 추가합니다. 수직 검색. 일체 포함.

커스텀 분류 모델 학습

이제 주석 파일과 모든 샘플 문서가 준비되었으므로 사용자 지정 분류 모델을 설정하고 훈련합니다. 사용자 지정 분류 모델 교육 설정을 시작하기 전에 주석 CSV 및 샘플 문서가 Amazon S3 위치에 있는지 확인하십시오.

Amazon Comprehend 콘솔에서 맞춤 분류 탐색 창에서
왼쪽 메뉴에서 새 모델 만들기.
럭셔리 모델 이름, 고유한 이름을 입력합니다.
럭셔리 버전 이름, 고유한 버전 이름을 입력하십시오.
럭셔리 학습 모델 유형, 고르다 네이티브 문서.

이렇게 하면 직렬화된 텍스트 대신 기본 문서 유형을 사용하여 모델을 교육할 것임을 Amazon Comprehend에 알립니다.

럭셔리 분류기 모드, 고르다 단일 레이블 모드 사용.

이 모드는 분류자에게 문서를 단일 클래스로 분류할 것임을 알려줍니다. 문서가 하나 이상의 클래스에 속할 수 있음을 의미하는 다중 레이블 모드로 모델을 교육해야 하는 경우 주석 CSV에서 특수 문자로 구분된 문서의 클래스를 지정하여 주석 파일을 적절하게 설정해야 합니다. 파일. 이 경우 다음을 선택합니다. 다중 레이블 모드 사용 옵션을 선택합니다.

럭셔리 S3의 주석 위치, 주석 CSV 파일의 경로를 입력합니다.
럭셔리 S3의 교육 데이터 위치, 문서가 있는 Amazon S3 위치를 입력합니다.
이 섹션에서 다른 모든 옵션은 기본값으로 둡니다.
. 출력 데이터 섹션에서 출력에 대한 Amazon S3 위치를 지정합니다.

이는 선택 사항이지만 Amazon Comprehend가 이 위치에서 사후 모델 훈련 평가 메트릭을 생성하기 때문에 출력 위치를 제공하는 것이 좋습니다. 이 데이터는 모델 성능을 평가하고, 반복하고, 모델의 정확도를 개선하는 데 유용합니다.

. IAM 역할 섹션, 적절한 선택 AWS 자격 증명 및 액세스 관리 (IAM) Amazon Comprehend가 Amazon S3 위치에 액세스하고 쓰고 읽을 수 있도록 허용하는 역할.
왼쪽 메뉴에서 만들기 모델 교육을 시작합니다.

클래스 수와 데이터 세트 크기에 따라 모델을 훈련하는 데 몇 분 정도 걸릴 수 있습니다. 에서 교육 상태를 검토할 수 있습니다. 맞춤 분류 페이지. 훈련 과정은 제출 교육 프로세스가 시작된 직후 상태로 변경됩니다. 트레이닝 훈련 과정이 시작될 때의 상태. 모델이 학습된 후 버전 상태 ~로 바뀔 것이다. 훈련 된. Amazon Comprehend가 교육 데이터에서 불일치를 발견하면 상태가 표시됩니다. 문제있는 적절한 오류 메시지를 표시하는 경고와 함께 수정 조치를 취하고 수정된 데이터로 교육 프로세스를 다시 시작할 수 있습니다.

Amazon Comprehend 문서 분류자는 더 높은 정확도의 PlatoBlockchain 데이터 인텔리전스를 위해 레이아웃 지원을 추가합니다. 수직 검색. 일체 포함.

이 게시물에서는 Amazon Comprehend 콘솔을 사용하여 사용자 지정 분류자 모델을 교육하는 단계를 시연했습니다. 당신은 또한 사용할 수 있습니다 AWS SDK 모든 언어(예: 파이썬용 Boto3) 아니면 그 AWS 명령 줄 인터페이스 (AWS CLI) 사용자 지정 분류 모델 교육을 시작합니다. SDK 또는 AWS CLI를 사용하여 다음을 사용할 수 있습니다. 문서 분류자 만들기 모델 교육을 시작하고 이후에 설명문서 분류자 모델의 상태를 확인하는 API입니다.

모델이 학습된 후 다음 중 하나를 수행할 수 있습니다. 실시간 분석 or 비동기식(배치) 분석 작업 새 문서에. 문서에 대한 실시간 분류를 수행하려면 훈련된 사용자 지정 분류 모델을 사용하여 Amazon Comprehend 실시간 엔드포인트를 배포해야 합니다. 실시간 엔드포인트는 대기 시간이 짧은 실시간 추론 결과가 필요한 사용 사례에 가장 적합한 반면 대규모 문서 세트를 분류하는 데에는 비동기 분석 작업이 더 적합합니다. 학습된 분류 모델을 사용하여 새 문서에서 비동기 추론을 수행하는 방법을 알아보려면 다음을 참조하십시오. 지능적인 문서 처리를 위해 Amazon Comprehend를 사용한 원스텝 분류 및 엔터티 인식 소개.

레이아웃 인식 사용자 지정 분류 모델의 이점

새로운 분류자 모델은 여러 가지 개선 사항을 제공합니다. 새 모델을 교육하는 것이 더 쉬울 뿐만 아니라 각 클래스에 대한 몇 가지 샘플만으로 새 모델을 교육할 수도 있습니다. 또한 교육 데이터 세트를 준비하기 위해 더 이상 스캔한 문서나 이미지 또는 PDF와 같은 디지털 문서에서 직렬화된 일반 텍스트를 추출할 필요가 없습니다. 다음은 새 분류 모델에서 기대할 수 있는 몇 가지 주목할 만한 추가 개선 사항입니다.

향상된 정확도 – 이제 모델은 문서의 레이아웃과 구조를 고려하므로 문서의 구조와 내용을 더 잘 이해할 수 있습니다. 이렇게 하면 텍스트는 비슷하지만 레이아웃이나 구조가 다른 문서를 구분하는 데 도움이 되므로 분류 정확도가 높아집니다.
견고성 – 모델은 이제 문서 구조 및 서식의 변형을 처리합니다. 따라서 실제 문서 분류 작업에서 흔히 발생하는 문제인 다양한 레이아웃 또는 서식 스타일을 사용하여 다양한 소스의 문서를 분류하는 데 더 적합합니다. 기본적으로 여러 문서 유형과 호환되므로 다재다능하고 다양한 산업 및 사용 사례에 적용할 수 있습니다.
수동 개입 감소 – 정확도가 높을수록 분류 프로세스에서 수동 개입이 줄어듭니다. 이를 통해 시간과 리소스를 절약하고 문서 처리 워크로드의 운영 효율성을 높일 수 있습니다.

결론

레이아웃 인식을 통합한 새로운 Amazon Comprehend 문서 분류 모델은 대량의 문서를 처리하는 비즈니스를 위한 게임 체인저입니다. 문서의 구조와 레이아웃을 이해함으로써 이 모델은 향상된 분류 정확도와 효율성을 제공합니다. 레이아웃 인식 모델을 사용하여 강력하고 정확한 문서 분류 솔루션을 구현하면 비즈니스에서 시간을 절약하고 운영 비용을 절감하며 의사 결정 프로세스를 향상시킬 수 있습니다.

다음 단계로 다음을 통해 새로운 Amazon Comprehend 사용자 지정 분류 모델을 사용해 보시기 바랍니다. 아마존 종합 콘솔. 또한 에서 사용자 지정 분류 모델 개선 발표를 다시 방문하는 것이 좋습니다. 작년 방문 GitHub 저장소 코드 샘플용.

저자 소개

안잔 비스와스 AI/ML 및 데이터 분석에 중점을 둔 선임 AI 서비스 솔루션 설계자입니다. Anjan은 전 세계 AI 서비스 팀의 일원이며 고객과 협력하여 고객이 AI 및 ML을 통해 비즈니스 문제에 대한 솔루션을 이해하고 개발하도록 돕습니다. Anjan은 글로벌 공급망, 제조 및 소매 조직에서 14년 이상 일한 경험이 있으며 고객이 AWS AI 서비스를 시작하고 확장할 수 있도록 적극적으로 돕고 있습니다.

고드윈 사하야라즈 빈센트 머신 러닝에 대한 열정이 있고 고객이 AWS 워크로드 및 아키텍처를 설계, 배포 및 관리할 수 있도록 지침을 제공하는 AWS의 엔터프라이즈 솔루션 아키텍트입니다. 여가 시간에는 친구들과 크리켓을 하고 세 자녀와 테니스를 치는 것을 좋아합니다.

릭 탈룩다르 Amazon Comprehend Service 팀의 수석 설계자입니다. 그는 AWS 고객과 협력하여 그들이 대규모로 기계 학습을 채택하도록 돕습니다. 업무 외에는 독서와 사진 촬영을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
미래 만들기 w Adryenn Ashley. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/amazon-comprehend-document-classifier-adds-layout-support-for-higher-accuracy/

타임 스탬프 : 2023 년 4 월 19 일

플라톤에 의해 재발행

Amazon SageMaker의 TensorFlow 이미지 분류 모델에 대한 전이 학습

Amazon SageMaker Canvas 빠른 빌드로 시계열 예측 모델을 더 빠르게 교육

새로운 Amazon Kendra Alfresco 커넥터를 사용하여 Alfresco 콘텐츠 인덱싱 | 아마존 웹 서비스

Amazon SageMaker로 의료용 요약 옵션 살펴보기 | 아마존 웹 서비스

Amazon Titan Text Embeddings V2 시작하기: Amazon Bedrock의 새로운 최첨단 임베딩 모델 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

살펴보기

문서 분류 요구 사항 평가

데이터 준비

모델 평가 고려

훈련 데이터 준비

커스텀 분류 모델 학습

레이아웃 인식 사용자 지정 분류 모델의 이점

결론

저자 소개

더보기 AWS 기계 학습

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정