Amazon Textract를 사용하여 추적 가능한 사용자 지정 다중 형식 문서 구문 분석 파이프라인 구축

플라톤에 의해 재발행

팔로워 : 0

조직 형태는 금융 서비스에서 의료 등에 이르기까지 산업 전반에 걸쳐 주요 비즈니스 도구 역할을 합니다. 예를 들어, 세금 관리 산업의 세금 신고 양식을 생각해 보십시오. 이 양식에서는 매년 거의 동일한 정보를 포함하는 새로운 양식이 나옵니다. 여러 부문의 AWS 고객은 일상적인 비즈니스 관행의 일부로 정보를 처리하고 형식으로 저장해야 합니다. 이러한 형식은 종종 데이터 캡처의 기술적 수단이 비실용적인 조직으로 정보가 유입되는 주요 수단으로 사용됩니다.

양식을 사용하여 정보를 캡처하는 것 외에도 수년 동안 아마존 텍사스, 우리는 AWS 고객이 구조 변경, 필드 추가 또는 변경, 연도 또는 양식 버전 변경과 같은 기타 고려 사항을 기반으로 조직 양식을 자주 버전화하는 것을 관찰했습니다.

양식의 구조나 내용이 변경되면 매년 동일한 정보를 캡처하고 형식에 관계 없이 사용할 데이터를 집계해야 하는 경우에도 기존 OCR 시스템에 문제를 일으키거나 정보 캡처에 사용되는 다운스트림 도구에 영향을 줄 수 있습니다. 문서의.

이 문제를 해결하기 위해 이 게시물에서는 Amazon Textract를 사용하여 이벤트 기반, 서버리스, 다중 형식 문서 구문 분석 파이프라인을 구축하고 배포하는 방법을 보여줍니다.

솔루션 개요

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

첫째, 솔루션은 다음을 사용하여 파이프라인 수집을 제공합니다. 아마존 단순 스토리지 서비스 (Amazon S3), Amazon S3 이벤트 알림 및 아마존 단순 대기열 서비스 (Amazon SQS) 대기열에서 양식이 대상 Amazon S3 파티션에 도착하면 처리가 시작됩니다. 이벤트 아마존 이벤트 브리지 생성되어 다음으로 전송됩니다. AWS 람다 Amazon Textract 작업을 트리거하는 대상입니다.

Lambda와 같은 서버리스 AWS 서비스를 사용할 수 있습니다. AWS 단계 함수 웨어하우징, 분석, AI 및 기계 학습(ML)을 위해 AWS AI 서비스와 AWS Analytics 및 데이터베이스 서비스 간에 비동기식 서비스 통합을 생성합니다. 이 게시물에서는 Step Functions를 사용하여 Amazon Textract 비동기식 API에 대한 요청 상태를 비동기식으로 제어하고 유지 관리하는 방법을 보여줍니다. 이는 호출 및 응답을 관리하기 위한 상태 머신을 사용하여 달성됩니다. 상태 머신 내에서 Lambda를 사용하여 Amazon Textract의 페이지를 매긴 API 응답 데이터를 OCR을 사용하여 추출된 반구조화된 텍스트 데이터가 포함된 단일 JSON 객체로 병합합니다.

그런 다음 표준화된 접근 방식을 사용하여 다양한 형식을 필터링하여 이 OCR 데이터를 다음을 사용하여 일반적인 구조화된 형식으로 집계합니다. 아마존 아테나 및 SQL Amazon Textract JSON 세르데.

서버리스 Step Functions를 사용하여 이 파이프라인을 통해 수행한 단계를 추적하여 처리 상태를 추적하고 각 상태의 출력을 유지할 수 있습니다. 이는 일부 산업의 고객이 장기적으로 파이프라인 결과의 설명 가능성을 촉진하기 위해 Amazon Textract와 같은 서비스의 모든 예측 결과를 유지해야 하는 데이터 작업 시 선호하는 것입니다.

마지막으로 Athena 테이블에서 추출된 데이터를 쿼리할 수 있습니다.

다음 섹션에서는 다음을 사용하여 파이프라인을 설정하는 과정을 안내합니다. AWS 클라우드 포메이션, 파이프라인 테스트 및 새 양식 버전 추가. 이 파이프라인은 모든 구성 요소(수집, 텍스트 추출, 텍스트 처리)가 독립적이고 격리되어 있기 때문에 유지 관리 가능한 솔루션을 제공합니다.

CloudFormation 스택에 대한 기본 입력 매개변수 정의

CloudFormation 스택에 대한 입력 매개변수를 정의하려면 다음을 엽니다. default.properties 아래 params 폴더에 다음 코드를 입력합니다.

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

솔루션 배포

파이프라인을 배포하려면 다음 단계를 완료하세요.

왼쪽 메뉴에서 발사 스택:
왼쪽 메뉴에서 다음 보기.
다음 스크린샷과 같이 스택 세부 정보를 지정하고 다음을 선택합니다. 다음 보기.
. 스택 옵션 구성 섹션에서 선택적 태그, 권한 및 기타 고급 설정을 추가합니다.
왼쪽 메뉴에서 다음 보기.
스택 세부 정보를 검토하고 선택 AWS CloudFormation이 사용자 지정 이름으로 IAM 리소스를 생성 할 수 있음을 인정합니다.
왼쪽 메뉴에서 스택 생성.

그러면 AWS 계정에서 스택 배포가 시작됩니다.

스택이 성공적으로 배포되면 다음 섹션에 설명된 대로 파이프라인 테스트를 시작할 수 있습니다.

파이프라인 테스트

성공적인 배포 후 다음 단계를 완료하여 파이프라인을 테스트하십시오.

를 다운로드 샘플 파일 컴퓨터에.
를 생성 /uploads 새로 생성된 입력 S3 버킷 아래의 폴더(파티션).
다음과 같이 별도의 폴더(파티션)를 만듭니다. jobapplications 아래에 /uploads.
샘플 문서 폴더에서 작업 응용 프로그램의 첫 번째 버전을 /uploads/jobapplications 분할.

파이프라인이 완료되면 이 버전의 문서에 대해 추출된 키-값을 찾을 수 있습니다. /OuputS3/03-textract-parsed-output/jobapplications Amazon S3 콘솔에서.

Athena 테이블(applications_data_table)에 데이터베이스 메뉴 (jobapplicationsdatabase).

샘플 문서 폴더에서 두 번째 버전의 작업 응용 프로그램을 /uploads/jobapplications 분할.

파이프라인이 완료되면 이 버전에 대해 추출된 키-값을 찾을 수 있습니다. /OuputS3/03-textract-parsed-output/jobapplications Amazon S3 콘솔에서.

Athena 테이블(applications_data_table)에 데이터베이스 메뉴 (jobapplicationsdatabase).

완료되었습니다! 파이프라인을 성공적으로 배포했습니다.

새 양식 버전 추가

새 양식 버전에 대한 솔루션 업데이트는 간단합니다. 각 양식 버전은 처리 스택에서 쿼리를 테스트하여 업데이트하기만 하면 됩니다.

업데이트를 수행한 후 AWS CloudFormation API를 사용하여 업데이트된 파이프라인을 재배포하고 새 문서를 처리하여 파이프라인 변경에 필요한 개발 노력과 중단을 최소화하면서 스키마에 대해 동일한 표준 데이터 포인트에 도달할 수 있습니다. 구문 분석 및 추출 동작을 분리하고 Athena의 JSON SerDe 기능을 사용하여 얻을 수 있는 이러한 유연성 덕분에 이 파이프라인은 조직에서 정보를 수집하기 위해 처리해야 하는 양식 버전의 수에 관계없이 유지 가능한 솔루션이 됩니다.

수집 솔루션을 실행하면 들어오는 양식의 데이터가 자동으로 Athena에 입력되고 파일과 관련된 입력 정보가 채워집니다. 양식의 데이터가 구조화되지 않은 데이터에서 구조화된 데이터로 이동하면 분석, ML 모델링 등과 같은 다운스트림 애플리케이션에 사용할 준비가 된 것입니다.

정리

지속적인 요금이 발생하지 않도록 하려면 완료되면 이 솔루션의 일부로 생성한 리소스를 삭제하십시오.

Amazon S3 콘솔에서 CloudFormation 스택의 일부로 생성한 버킷을 수동으로 삭제합니다.
AWS CloudFormation 콘솔에서 스택 탐색 창에서
메인 스택을 선택하고 ..

그러면 중첩 스택이 자동으로 삭제됩니다.

결론

이 게시물에서는 문서 처리를 추적 및 사용자 지정하려는 고객이 Amazon Textract를 사용하여 이벤트 기반의 서버리스, 다중 형식 문서 구문 분석 파이프라인을 구축 및 배포할 수 있는 방법을 보여주었습니다. 이 파이프라인은 모든 구성 요소(수집, 텍스트 추출, 텍스트 처리)가 독립적이고 격리되어 있기 때문에 유지 관리 가능한 솔루션을 제공하므로 조직에서 다양한 처리 요구 사항을 해결하기 위해 솔루션을 운영할 수 있습니다.

오늘 솔루션을 시도하고 의견 섹션에 피드백을 남겨주세요.

저자에 관하여

에밀리 소워드 AWS Professional Services의 데이터 과학자입니다. 그녀는 영국 스코틀랜드 에든버러 대학교에서 자연어 처리(NLP)에 중점을 둔 인공 지능 분야의 이학 석사 학위를 취득했습니다. Emily는 공공 및 민간 부문의 조직에서 실행되는 AI 워크로드에 대한 AI 지원 제품 연구 및 개발, 운영 우수성, 거버넌스에 중점을 둔 응용 과학 및 엔지니어링 역할을 수행했습니다. 그녀는 AWS 선임 연사로, 최근에는 Machine Learning Lens에서 AWS Well-Architected의 저자로 고객 안내에 기여하고 있습니다.

산딥 싱 AWS Professional Services의 데이터 과학자입니다. 그는 캘리포니아 샌디에이고 주립대학교(SDSU)에서 AI 및 데이터 과학에 집중하여 정보 시스템 과학 석사를 취득했습니다. 그는 강력한 컴퓨터 과학 배경을 가진 풀 스택 데이터 과학자이자 AI 시스템 및 제어 설계를 전문으로 하는 신뢰할 수 있는 고문입니다. 그는 고객이 영향력 있는 프로젝트를 올바른 방향으로 이끌도록 돕고, 클라우드 여정에서 고객에게 조언 및 안내하고, 최첨단 AI/ML 지원 솔루션을 구축하는 데 열정을 쏟고 있습니다.

타임 스탬프 : 2022 년 3 월 17 일

타임 스탬프 : 18년 2023월 XNUMX일

Amazon Textract를 사용하여 추적 가능한 사용자 지정 다중 형식 문서 구문 분석 파이프라인 구축

플라톤에 의해 재발행

솔루션 개요

CloudFormation 스택에 대한 기본 입력 매개변수 정의

솔루션 배포

파이프라인 테스트

새 양식 버전 추가

정리

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Bedrock에 대한 기술 자료는 이제 검색 정확도를 향상하기 위해 메타데이터 필터링을 지원합니다. 아마존 웹 서비스

Hugging Face Transformers로 텍스트 요약 프로젝트 설정: 1부

Amazon SageMaker를 사용하여 이메일 스팸 탐지기 구축 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정