아마존 텍사스 모든 문서나 이미지에서 텍스트, 필기, 데이터를 자동으로 추출하는 머신러닝(ML) 서비스입니다. Amazon Textract에는 테이블 기능이 있습니다. 문서 분석 모든 문서에서 표 구조를 자동으로 추출하는 기능을 제공하는 API입니다. 이 게시물에서는 개선된 사항에 대해 논의합니다. 테이블 기능과 다양한 문서에서 표 구조의 정보를 쉽게 추출하는 방법을 설명합니다.
재무 보고서, 급여명세서, 분석 증명서 파일과 같은 문서의 표 구조는 종종 정보를 쉽게 해석할 수 있는 방식으로 형식화됩니다. 또한 더 나은 가독성과 구성을 위해 테이블 형식 구조 내에 테이블 제목, 테이블 바닥글, 섹션 제목 및 요약 행과 같은 정보를 포함하는 경우가 많습니다. 이 개선 이전의 유사한 문서의 경우 테이블 기능은 AnalyzeDocument
해당 요소를 셀로 식별했을 것이며 테이블 범위 밖에 있는 제목과 바닥글은 추출하지 않았습니다. 이러한 경우 이러한 정보를 식별하거나 API의 JSON 출력에서 별도로 추출하기 위한 사용자 지정 사후 처리 논리가 필요했습니다. 이번 표 기능 개선 발표로 표 데이터의 다양한 측면 추출이 훨씬 더 간단해졌습니다.
2023년 XNUMX월 Amazon Textract는 테이블 기능을 통해 문서에 있는 제목, 바닥글, 섹션 제목 및 요약 행을 자동으로 감지하는 기능을 도입했습니다. 이 게시물에서는 이러한 개선 사항에 대해 설명하고 문서 처리 워크플로에서 이를 이해하고 사용하는 데 도움이 되는 예를 제공합니다. 코드 예제를 통해 이러한 개선 사항을 사용하여 API를 사용하고 응답을 처리하는 방법을 살펴봅니다. Amazon Textract Textractor 라이브러리.
솔루션 개요
다음 이미지는 업데이트된 모델이 문서의 테이블뿐만 아니라 모든 해당 테이블 머리글 및 바닥글을 식별함을 보여줍니다. 이 샘플 재무 보고서 문서에는 테이블 제목, 바닥글, 섹션 제목 및 요약 행이 포함되어 있습니다.
향상된 테이블 기능은 이러한 각 테이블 요소를 쉽게 추출할 수 있도록 API 응답에 XNUMX개의 새로운 요소에 대한 지원을 추가하고 테이블 유형을 구별하는 기능을 추가합니다.
테이블 요소
Amazon Textract는 테이블 셀 및 병합된 셀과 같은 테이블의 여러 구성 요소를 식별할 수 있습니다. 이러한 구성 요소는 Block
개체는 경계 지오메트리, 관계 및 신뢰 점수와 같은 구성 요소와 관련된 세부 정보를 캡슐화합니다. ㅏ Block
서로 가까운 픽셀 그룹 내에서 문서에서 인식되는 항목을 나타냅니다. 다음은 새로운 테이블 블록 이 개선 사항에 도입된 사항:
- 테이블 제목 – 새로운
Block
호출된 유형TABLE_TITLE
주어진 테이블의 제목을 식별할 수 있습니다. 제목은 일반적으로 테이블 위에 있거나 테이블 내에 셀로 포함된 하나 이상의 행일 수 있습니다. - 표 바닥글 – 새로운
Block
호출된 유형TABLE_FOOTER
주어진 테이블과 관련된 바닥글을 식별할 수 있습니다. 바닥글은 일반적으로 테이블 아래에 있거나 테이블 내에 셀로 포함된 하나 이상의 행일 수 있습니다. - 섹션 제목 – 새로운
Block
호출된 유형TABLE_SECTION_TITLE
감지된 셀이 섹션 제목인지 식별할 수 있습니다. - 요약 셀 – 새로운
Block
호출된 유형TABLE_SUMMARY
셀이 급여 명세서의 합계 셀과 같은 요약 셀인지 식별할 수 있습니다.
테이블 유형
Amazon Textract가 문서에서 테이블을 식별하면 테이블의 모든 세부 정보를 최상위 수준으로 추출합니다. Block
유형 TABLE
. 테이블은 다양한 모양과 크기로 제공될 수 있습니다. 예를 들어, 문서에는 종종 식별 가능한 테이블 머리글이 있거나 없을 수 있는 테이블이 포함되어 있습니다. 이러한 유형의 테이블을 구별하는 데 도움이 되도록 다음과 같은 두 가지 새 항목 유형을 추가했습니다. TABLE Block
: SEMI_STRUCTURED_TABLE
및 STRUCTURED_TABLE
. 이러한 엔터티 유형은 구조화된 테이블과 반구조화된 테이블을 구별하는 데 도움이 됩니다.
구조화된 테이블은 명확하게 정의된 열 머리글이 있는 테이블입니다. 그러나 반구조화된 테이블을 사용하면 데이터가 엄격한 구조를 따르지 않을 수 있습니다. 예를 들어 데이터는 헤더가 정의된 테이블이 아닌 테이블 구조로 나타날 수 있습니다. 새로운 엔터티 유형은 사후 처리 중에 유지하거나 제거할 테이블을 선택할 수 있는 유연성을 제공합니다. 다음 이미지는 STRUCTURED_TABLE
및 SEMI_STRUCTURED_TABLE
.
API 출력 분석
이 섹션에서는 Amazon Textract Textractor 라이브러리 의 API 출력을 후처리하기 위해 AnalyzeDocument
테이블 기능이 향상되었습니다. 이를 통해 테이블에서 관련 정보를 추출할 수 있습니다.
Textractor는 Amazon Textract API 및 유틸리티와 원활하게 작동하도록 생성된 라이브러리로 이후에 API에서 반환된 JSON 응답을 프로그래밍 가능한 객체로 변환합니다. 또한 이를 사용하여 문서의 엔터티를 시각화하고 CSV(쉼표로 구분된 값) 파일과 같은 형식으로 데이터를 내보낼 수 있습니다. Amazon Textract 고객이 사후 처리 파이프라인을 설정하는 데 도움을 주기 위한 것입니다.
예제에서는 10-K SEC 제출 문서의 다음 샘플 페이지를 사용합니다.
다음 코드는 GitHub 저장소. 이 문서를 처리하기 위해 Textractor 라이브러리를 사용하고 가져와서 API 출력을 후처리하고 데이터를 시각화합니다.
첫 번째 단계는 Amazon Textract를 호출하는 것입니다. AnalyzeDocument
로 표시되는 테이블 기능 포함 features=[TextractFeatures.TABLES]
테이블 정보를 추출하는 매개변수. 이 메서드는 실시간(또는 동기식) 문서 분석 단일 페이지 문서를 지원하는 API. 그러나 다음을 사용할 수 있습니다. 비 동시성의 StartDocumentAnalysis
다중 페이지 문서(최대 3,000페이지)를 처리하는 API입니다.
XNUMXD덴탈의 document
개체에는 검토할 수 있는 문서에 대한 메타데이터가 포함되어 있습니다. 문서의 다른 엔터티와 함께 문서의 한 테이블을 인식합니다.
이제 테이블 정보가 포함된 API 출력이 있으므로 앞에서 설명한 응답 구조를 사용하여 테이블의 다양한 요소를 시각화합니다.
Textractor 라이브러리는 각 테이블 요소에 대해 서로 다른 색상 코드를 사용하여 감지된 테이블 내의 다양한 엔터티를 강조 표시합니다. 각 요소를 추출하는 방법에 대해 자세히 살펴보겠습니다. 다음 코드 스니펫은 테이블 제목을 추출하는 방법을 보여줍니다.
마찬가지로 다음 코드를 사용하여 테이블의 바닥글을 추출할 수 있습니다. table_footers는 목록이며, 이는 테이블과 연결된 하나 이상의 바닥글이 있을 수 있음을 의미합니다. 이 목록을 반복하여 존재하는 모든 바닥글을 볼 수 있으며 다음 코드 스니펫과 같이 출력에 세 개의 바닥글이 표시됩니다.
다운스트림 수집을 위한 데이터 생성
Textractor 라이브러리는 테이블 데이터를 다운스트림 시스템이나 다른 워크플로우로 간편하게 수집하는 데도 도움이 됩니다. 예를 들어 추출된 테이블 데이터를 사람이 읽을 수 있는 Microsoft Excel 파일로 내보낼 수 있습니다. 이 문서를 작성할 당시에는 이것이 병합된 테이블을 지원하는 유일한 형식입니다.
우리는 또한 그것을 팬더 데이터 프레임. DataFrame은 Python 및 R과 같은 프로그래밍 언어에서 데이터 조작, 분석 및 시각화를 위한 인기 있는 선택입니다.
Python에서 DataFrame은 Pandas 라이브러리의 기본 데이터 구조입니다. 유연하고 강력하며 다양한 데이터 분석 및 ML 작업을 위해 데이터 분석 전문가가 가장 먼저 선택하는 경우가 많습니다. 다음 코드 스니펫은 한 줄의 코드를 사용하여 추출된 테이블 정보를 DataFrame으로 변환하는 방법을 보여줍니다.
마지막으로 테이블 데이터를 CSV 파일로 변환할 수 있습니다. CSV 파일은 종종 데이터를 관계형 데이터베이스 또는 데이터 웨어하우스로 수집하는 데 사용됩니다. 다음 코드를 참조하십시오.
결론
이러한 새로운 블록 및 엔티티 유형의 도입(TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
및 TABLE_SUMMARY
)는 Amazon Textract를 사용하여 문서에서 표 구조를 추출하는 데 있어 상당한 발전을 이뤘습니다.
이러한 도구는 보다 미묘하고 유연한 접근 방식을 제공하여 구조화된 테이블과 반구조화된 테이블을 모두 제공하고 문서에서의 위치에 관계없이 중요한 데이터가 간과되지 않도록 합니다.
이는 이제 향상된 효율성과 정확성으로 다양한 데이터 유형과 테이블 구조를 처리할 수 있음을 의미합니다. 문서 처리 워크플로에서 자동화 기능을 지속적으로 수용함에 따라 이러한 개선 사항은 의심할 여지 없이 보다 간소화된 워크플로, 더 높은 생산성 및 보다 통찰력 있는 데이터 분석을 위한 길을 열어줄 것입니다. 자세한 내용은 AnalyzeDocument
및 테이블 기능은 다음을 참조하십시오. 문서 분석.
저자 소개
라지 파탁 금융 서비스(보험, 은행, 자본 시장) 및 기계 학습을 전문으로 하는 선임 솔루션 설계자 및 기술자입니다. 그는 자연어 처리(NLP), 대규모 언어 모델(LLM) 및 기계 학습 인프라 및 운영 프로젝트(MLOps)를 전문으로 합니다.
안잔 비스와스 AI/ML 및 데이터 분석에 중점을 둔 수석 AI 서비스 솔루션 설계자입니다. Anjan은 전 세계 AI 서비스 팀의 일원이며 고객과 협력하여 AI 및 ML을 사용하여 비즈니스 문제를 이해하고 솔루션을 개발할 수 있도록 지원합니다. Anjan은 글로벌 공급망, 제조 및 소매 조직과 협력한 14년 이상의 경험을 가지고 있으며 고객이 AWS AI 서비스를 시작하고 확장하도록 적극적으로 돕고 있습니다.
랄리타 레디 Amazon Textract 팀의 선임 기술 제품 관리자입니다. 그녀는 AWS 고객을 위한 기계 학습 기반 서비스 구축에 주력하고 있습니다. Lalita는 여가 시간에 보드 게임과 하이킹을 즐깁니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- EVM 금융. 탈중앙화 금융을 위한 통합 인터페이스. 여기에서 액세스하십시오.
- 퀀텀미디어그룹. IR/PR 증폭. 여기에서 액세스하십시오.
- PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :있다
- :이다
- :아니
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- 능력
- 소개
- 위의
- 계정
- 활발히
- 추가
- 추가
- 진보
- 정부 기관
- AI
- AI 서비스
- AI / ML
- 도움
- All
- 수
- 따라
- 또한
- 아마존
- 아마존 텍사스
- Amazon Web Services
- 금액
- an
- 분석
- 분석
- 및
- 강의자료
- 발표
- 어떤
- API를
- API
- 표시
- 접근
- 대략
- Apr
- 있군요
- AS
- 측면
- 자산
- 관련
- At
- 자동적으로
- 자동화
- AWS
- 잔액
- 대차 대조표
- 은행
- 기초
- BE
- 된다
- 이하
- 더 나은
- 사이에
- 억원
- 블록
- 판
- 보드 게임
- 두
- 건물
- 사업
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- 전화
- 라는
- CAN
- 자본
- 자본 시장
- 가지 경우
- 현금
- 셀
- 어떤
- 증명서
- 체인
- 선택
- 왼쪽 메뉴에서
- 분류
- 명확하게
- 클라이언트
- 닫기
- 암호
- 담보
- 색
- 단
- 왔다
- 약속
- 구성 요소
- 구성 요소들
- 자신
- 포함하는
- 이 포함되어 있습니다
- 계속
- 변하게 하다
- Corporate
- 동
- 비용
- 만든
- 신용
- 관습
- 고객
- 데이터
- 데이터 분석
- 데이터 분석
- 데이터 구조
- 데이터베이스
- 빚
- XNUMX월
- 깊이
- 한정된
- 보여줍니다
- 세부설명
- 탐지 된
- 개발
- 다른
- 방향
- 할인
- 토론
- 논의 된
- 디스플레이
- 드러내다
- 몇몇의
- 문서
- 서류
- 의심
- 두
- ...동안
- 마다
- 완화
- 쉽게
- 쉽게
- 효율성
- 요소
- 요소
- 임베디드
- 포옹
- 수
- 강화
- 향상
- 엔티티
- 실재
- 공평
- 등가물
- 재산
- 예상
- 예
- 예
- 뛰어나다
- 경험
- 탐험
- 수출
- 추출물
- 추출물
- 공정한
- 특색
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 철하기
- 금융
- 재무 보고서
- 금융 서비스
- 먼저,
- 고정
- 고정 수입
- 유연성
- 융통성있는
- 초점
- 집중
- 따라
- 수행원
- 럭셔리
- 외국의
- 체재
- 발견
- 사
- 에
- 자금
- 이득
- 이익
- Games
- 얻을
- GitHub의
- 주기
- 주어진
- 글로벌
- Go
- Government
- 심한
- 그룹
- 했다
- 핸들
- 있다
- he
- 헤더
- 도움
- 도움이
- 도움이
- 그녀의
- 계층
- 더 높은
- 강조
- 하이라이트
- 하이킹
- 보유
- 방법
- How To
- 그러나
- HTML
- HTTPS
- 사람의
- 확인
- 식별하다
- 확인
- 통합 인증
- if
- 영상
- import
- 중대한
- 개량
- in
- 포함
- 수입
- 정보
- 인프라
- 설치
- 보험
- 예정된
- 해석
- 으로
- 소개
- 개요
- 투자
- 호출
- IT
- 항목
- 그
- JPG
- JSON
- 관할 구역
- 유지
- 알려진
- 결핍
- 언어
- 언어
- 넓은
- 배우기
- 적게
- 레벨
- 도서관
- 좋아하는
- 라인
- 라인
- 명부
- LLM
- 잔뜩
- 위치
- 논리
- 이상
- 오프
- 사상자 수
- 기계
- 기계 학습
- 만든
- 주요한
- 확인
- 제작
- 유튜브 영상을 만드는 것은
- 매니저
- 시장 조작
- 제조
- 시장
- 시장
- XNUMX월..
- 방법
- 메타 데이터
- 방법
- Microsoft
- 수도
- 백만
- 수백만
- ML
- MLOps
- 모델
- 모델
- 수정
- 돈
- 머니 마켓
- 개월
- 배우기
- 많은
- 자연의
- 자연 언어 처리
- 필요한
- 그물
- 신제품
- nlp
- 아니
- 알아채다..
- 지금
- 대상
- 사물
- of
- 제공
- 제공
- 자주
- on
- ONE
- 만
- 행정부
- or
- 조직
- 조직
- 기타
- 그렇지 않으면
- 우리의
- 출력
- 외부
- 위에
- 페이지
- 팬더
- 매개 변수
- 부품
- 포장길
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 연극
- 인기 문서
- 일부
- 게시하다
- 힘
- 강한
- 제시
- 이전에
- 주로
- 일차
- 인쇄
- 이전에
- 문제
- 방법
- 처리
- 프로덕트
- 제품 관리자
- 생산력
- 전문가
- 프로그램 작성
- 프로그래밍 언어
- 프로젝트
- 제공
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- 쿼리
- 현실
- 부동산
- 실시간
- 인정
- 인정하다
- 기록
- 반복
- 관계없이
- 지방
- 규정하는
- 관련
- 관계
- 관련된
- 제거
- 신고
- 보고서
- 대표
- 필수
- 각기
- 응답
- 응답
- 얽매다
- 한정된
- 제한
- 결과
- 소매
- 검토
- s
- 판매
- 규모
- 점수
- 완벽하게
- SEC
- SEC 접수
- 섹션
- 증권
- 보안
- 참조
- 판매자
- 연장자
- XNUMX월
- 서비스
- 서비스
- 설정
- 몇몇의
- 모양
- 그녀
- 표시
- 쇼
- 서명
- 상당한
- 비슷한
- 단순화
- 단일
- 크기
- 솔루션
- 전문적으로
- 전문
- 시작
- 단계
- 간소화 된
- 엄격한
- 구조
- 구조화
- 제목
- 그후
- 이러한
- 개요
- 공급
- 공급망
- SUPPORT
- 지원
- 시스템은
- 테이블
- 작업
- 팀
- 테크니컬
- 과학 기술자
- 보다
- 그
- XNUMXD덴탈의
- 그들의
- 그들
- 그곳에.
- Bowman의
- 그들
- 타사
- 이
- 그
- 세
- 을 통하여
- 시간
- Title
- 제목들
- 에
- 검색을
- 최고 수준
- 금액
- 교환
- 두
- 유형
- 유형
- 일반적으로
- 우리
- 미국 정부
- 이해
- 미실현 손실
- 업데이트
- us
- 사용
- 익숙한
- 사용
- 유용
- 가치
- 마케팅은:
- 종류
- 여러
- 대
- 를 통해
- 심상
- 였다
- 방법..
- we
- 웹
- 웹 서비스
- 어느
- 넓은
- 의지
- 과
- 이내
- 말
- 작업
- 워크 플로우
- 일하는
- 일
- 겠지
- 쓰기
- 년
- 자신의
- 너의
- 제퍼 넷