LayoutLM 설명

플라톤에 의해 재발행

팔로워 : 0

문서 처리란 무엇입니까?

LayoutLM 설명

문서 처리는 문서에서 구조화된 데이터 추출을 자동화하는 프로세스입니다. 이것은 송장, 이력서, ID 카드 등과 같은 모든 문서에 사용할 수 있습니다. 여기서 어려운 부분은 OCR만이 아닙니다. 텍스트를 추출하고 위치를 제공할 수 있는 저렴한 비용으로 사용할 수 있는 옵션이 많이 있습니다. 진짜 문제는 이러한 텍스트 조각에 정확하고 자동으로 레이블을 지정하는 것입니다.

문서 처리의 비즈니스 영향

여러 산업에서 일상 업무를 문서 처리에 크게 의존합니다. 금융 기관은 SEC 서류, 보험 서류에 액세스해야 하며, 전자 상거래 또는 공급망 회사는 사용 중인 송장에 액세스해야 할 수 있습니다. 목록은 계속됩니다. 이 정보의 정확성은 절약되는 시간만큼 중요하므로 더 일반화되고 더 정확한 고급 딥 러닝 방법을 사용하는 것이 좋습니다.

PwC의 이 보고서에 따르면 [링크] 가장 기초적인 양의 구조화된 데이터 추출만으로도 PDF에서 Excel 스프레드시트로 데이터를 수동으로 복사하여 붙여넣는 직원의 시간을 30-50% 절약할 수 있습니다. LayoutLM과 같은 모델은 확실히 기초가 아니며 다양한 사용 사례에서 대규모로 정확한 데이터 추출이 가능한 매우 지능적인 에이전트로 구축되었습니다. 많은 우리 고객들이 데이터를 수동으로 추출하는 데 필요한 시간을 문서당 20분에서 10초 미만으로 줄였습니다. 이는 작업자의 생산성을 높이고 전반적으로 처리량을 높일 수 있는 대규모 전환입니다.

그렇다면 LayoutLM과 유사한 AI는 어디에 적용될 수 있을까요? Nanonets에서는 이러한 기술을 사용하여

및 기타 많은 사용 사례.

왜 LayoutLM인가?

딥 러닝 모델은 주어진 텍스트가 인보이스의 항목 설명인지 아니면 인보이스 번호인지 어떻게 이해합니까? 간단히 말해서 모델은 레이블을 올바르게 할당하는 방법을 어떻게 학습합니까?

한 가지 방법은 BERT 또는 GPT-3과 같은 대규모 언어 모델에서 텍스트 임베딩을 사용하고 분류기를 통해 실행하는 것입니다. 하지만 이는 그다지 효과적이지는 않습니다. 텍스트만으로는 측정할 수 없는 정보가 많이 있습니다. 또는 이미지 기반 정보를 사용할 수 있습니다. 이것은 R-CNN 및 Faster R-CNN 모델을 사용하여 달성되었습니다. 그러나 이것은 여전히 문서에서 사용 가능한 정보를 완전히 활용하지 않습니다. 사용된 또 다른 접근 방식은 위치 정보와 텍스트 정보를 모두 결합했지만 이미지 정보는 고려하지 않은 Graph Convolutional Neural Networks를 사용하는 것입니다.

그렇다면 텍스트, 이미지 및 주어진 텍스트의 위치와 같은 XNUMX차원 정보를 모두 어떻게 사용합니까? 그것이 바로 LayoutLM과 같은 모델이 등장하는 곳입니다. LayoutLM은 수년 동안 활발한 연구 영역이었음에도 불구하고 위치 정보, 텍스트 기반 정보, 또한 이미지 정보.

LayoutLM 튜토리얼

이 문서에서는 언어 모델이 무엇인지 이해하고 있다고 가정합니다. 그렇지 않은 경우 걱정하지 마십시오. 우리는 그것에 대한 기사도 썼습니다! 트랜스포머 모델이 무엇인지, 어떤 주의가 필요한지 더 자세히 알고 싶다면 여기를 클릭하세요. Jay Alammar의 놀라운 기사입니다..

이러한 것들을 해결했다고 가정하고 튜토리얼을 시작하겠습니다. 우리는 원본 LayoutLM 논문을 주요 참고 자료로 사용할 것입니다.

OCR 텍스트 추출

문서로 가장 먼저 하는 일은 문서에서 텍스트 기반 정보를 추출하고 해당 위치를 찾는 것입니다. 위치별로는 '경계 상자'라고 합니다. 경계 상자는 페이지의 텍스트 조각을 캡슐화하는 직사각형입니다.

대부분의 경우 경계 상자는 왼쪽 상단 모서리에 원점이 있고 양의 x축은 원점에서 페이지 오른쪽으로 향하고 양의 y축은 원점에서 원점으로 향한다고 가정합니다. XNUMX픽셀이 측정 단위로 간주되는 페이지 하단.

언어 및 위치 임베딩

다음으로 XNUMX가지 다른 임베딩 레이어를 사용합니다. 하나는 언어 관련 정보(예: 텍스트 임베딩)를 인코딩하는 것입니다.

나머지 XNUMX개는 위치 임베딩용으로 예약되어 있습니다. xmin, ymin, xmax 및 ymax의 값을 알고 있다고 가정하면 전체 경계 상자를 결정할 수 있습니다. (시각화 할 수 없다면, 여기 당신을 위한 링크가 있습니다). 이러한 좌표는 위치에 대한 정보를 인코딩하기 위해 각각의 임베딩 레이어를 통해 전달됩니다.

XNUMX개의 임베딩(텍스트용 XNUMX개, 좌표 XNUMX개)을 합산하여 LayoutLM을 통해 전달되는 임베딩의 최종 값을 생성합니다. 출력을 LayoutLM 임베딩이라고 합니다.

이미지 임베딩

좋아요, 그래서 우리는 임베딩을 결합하고 언어 모델을 통해 전달하여 텍스트 및 위치 관련 정보를 찾을 수 있었습니다. 이제 이미지 관련 정보를 결합하는 프로세스를 어떻게 진행합니까?

텍스트 및 레이아웃 정보가 인코딩되는 동안 병렬로 Faster R-CNN을 사용하여 문서와 관련된 텍스트 영역을 추출합니다. Faster R-CNN은 객체 감지에 사용되는 이미지 모델입니다. 우리의 경우 이를 사용하여 다른 텍스트 조각(각 문구가 객체라고 가정)을 감지한 다음 분할된 이미지를 완전히 연결된 레이어를 통해 전달하여 이미지에 대한 임베딩을 생성하는 데 도움을 줍니다.

LayoutLM 임베딩과 이미지 임베딩을 결합하여 최종 임베딩을 생성한 다음 다운스트림 처리를 수행하는 데 사용할 수 있습니다.

사전 학습 LayoutLM

위의 모든 것은 LayoutLM이 훈련된 방법을 이해하는 경우에만 의미가 있습니다. 결국, 우리가 신경망에서 어떤 종류의 연결을 설정하든지, 올바른 학습 목표로 훈련될 때까지 그리고 그렇지 않다면 그것은 그다지 똑똑하지 않습니다. LayoutLM의 저자는 BERT 사전 훈련에 사용된 것과 유사한 방법을 추구하기를 원했습니다.

마스크된 시각적 언어 모델(MVLM)

모델이 특정 위치에 있을 수 있는 텍스트를 학습하는 데 도움이 되도록 저자는 위치 관련 정보 및 임베딩을 유지하면서 몇 가지 텍스트 토큰을 무작위로 마스킹했습니다. 이를 통해 LayoutLM은 단순한 Masked Language Modeling을 넘어 텍스트 임베딩을 위치 관련 양식과 연결하는 데 도움이 되었습니다.

다중 레이블 문서 분류(MDC)

문서의 모든 정보를 사용하여 문서를 범주로 분류하면 모델이 특정 문서 클래스와 관련된 정보를 이해하는 데 도움이 됩니다. 그러나 저자는 더 큰 데이터 세트의 경우 문서 클래스에 대한 데이터를 쉽게 사용할 수 없을 수 있다고 말합니다. 따라서 그들은 MVLM 교육 단독과 MVLM + MDC 교육 모두에 기초한 결과를 제공했습니다.

다운스트림 작업을 위한 LayoutLM 미세 조정

LayoutLM으로 실행할 수 있는 여러 다운스트림 작업이 있습니다. 우리는 저자들이 착수한 것들에 대해 논의할 것입니다.

형태이해

이 작업에는 레이블 유형을 주어진 텍스트 조각에 연결하는 작업이 포함됩니다. 이를 사용하여 모든 종류의 문서에서 구조화된 데이터를 추출할 수 있습니다. LayouLM 임베딩 + 이미지 임베딩과 같은 최종 출력이 주어지면 완전히 연결된 레이어를 통과한 다음 softmax를 통해 전달되어 주어진 텍스트 조각의 레이블에 대한 클래스 확률을 예측합니다.

영수증 이해

이 작업에서 여러 정보 슬롯이 영수증에 비어 있었고 모델은 텍스트 조각을 해당 슬롯에 올바르게 배치해야 했습니다.

문서 이미지 분류

문서의 텍스트와 이미지의 정보가 결합되어 단순히 softmax 레이어를 통해 문서의 클래스를 전달함으로써 문서의 클래스를 이해하는 데 도움이 됩니다.

허깅페이스 레이아웃LM

LayoutLM이 많이 논의되는 주된 이유 중 하나는 모델이 얼마 전에 오픈 소스였기 때문입니다. 그것은 허깅페이스에서 가능, 따라서 LayoutLM을 사용하는 것이 훨씬 쉬워졌습니다.

LayoutLM을 자신의 필요에 맞게 미세 조정할 수 있는 방법에 대해 자세히 알아보기 전에 고려해야 할 몇 가지 사항이 있습니다.

라이브러리 설치

LayoutLM을 실행하려면 PyTorch 라이브러리에 의존하는 Hugging Face의 변환기 라이브러리가 필요합니다. 설치하려면(아직 설치되지 않은 경우) 다음 명령을 실행합니다.

경계 상자에서

이미지 크기에 관계없이 균일한 임베딩 방식을 만들기 위해 경계 상자 좌표를 1000 스케일로 정규화합니다.

구성

변환기.LayoutLMConfig 클래스를 사용하면 요구 사항에 가장 적합하도록 모델의 크기를 설정할 수 있습니다. 이러한 모델은 일반적으로 무겁고 상당한 컴퓨팅 성능이 필요하기 때문입니다. 더 작은 모델로 설정하면 로컬에서 실행하는 데 도움이 될 수 있습니다. 당신은 할 수 있습니다 여기에서 수업에 대해 자세히 알아보십시오..

문서 분류를 위한 LayoutLM((링크))

문서 분류를 수행하려면 변환기.LayoutLMForSequenceClassification 클래스가 필요합니다. 여기서 시퀀스는 추출한 문서의 텍스트 시퀀스입니다. 사용 방법을 설명하는 Hugging Face.co의 작은 코드 샘플이 있습니다.

텍스트 레이블 지정을 위한 LayoutLM((링크))

시맨틱 라벨링을 수행하려면, 즉 문서에서 텍스트의 다른 부분에 라벨을 할당하려면 변환기.LayoutLMForTokenClassification 클래스가 필요합니다. 자세한 내용은 여기에 같은.여기에 어떻게 작동하는지 확인할 수 있는 작은 코드 샘플이 있습니다.

포옹 얼굴 LayoutLM에 대한 몇 가지 주의 사항

현재 Hugging Face LayoutLM 모델은 텍스트 추출을 위해 Tesseract 오픈 소스 라이브러리를 사용하는데, 이는 그다지 정확하지 않습니다. AWS Textract 또는 Google Cloud Vision과 같은 다른 유료 OCR 도구 사용을 고려할 수 있습니다.
기존 모델은 언어 모델, 즉 LayoutLM 임베딩만 제공하며 시각적 기능을 결합하는 최종 레이어는 제공하지 않습니다. 레이아웃LMv2(다음 섹션에서 논의) Detectron 라이브러리를 사용하여 시각적 기능 임베딩도 활성화합니다.
레이블 분류는 단어 수준에서 발생하므로 필드의 모든 단어가 연속적인 순서로 있는지 확인하는 것은 실제로 OCR 텍스트 추출 엔진에 달려 있습니다. 그렇지 않으면 한 필드가 두 개로 예측될 수 있습니다.

레이아웃LMv2

LayoutLM은 문서에서 데이터를 추출하는 방식의 혁명으로 등장했습니다. 그러나 딥 러닝 연구가 진행되는 한 모델은 시간이 지남에 따라 점점 더 개선될 뿐입니다. LayoutLM은 LayoutLMv2로 유사하게 성공했으며, 여기서 작성자는 모델 학습 방법에 몇 가지 중요한 변경 사항을 적용했습니다.

1차원 공간 임베딩 및 시각적 토큰 임베딩 포함

LayoutLMv2에는 1차원 상대 위치 정보와 전체 이미지 관련 정보가 포함되어 있습니다. 이것이 중요한 이유는 지금 논의할 새로운 교육 목표 때문입니다.

새로운 교육 목표

LayoutLMv2에는 일부 수정된 교육 목표가 포함되었습니다. 다음과 같습니다.

Masked Visual Language Modeling: LayoutLM과 동일
텍스트 이미지 정렬: 텍스트는 이미지에서 무작위로 가려졌고 텍스트 토큰은 모델에 제공되었습니다. 각 토큰에 대해 모델은 주어진 텍스트가 포함되었는지 여부를 학습해야 했습니다. 이를 통해 모델은 시각적 및 텍스트 양식 모두에서 정보를 결합할 수 있었습니다.
텍스트 이미지 매칭: 모델은 주어진 이미지가 주어진 텍스트와 일치하는지 확인하도록 요청받습니다. 음수 샘플은 거짓 이미지로 제공되거나 이미지 임베딩이 전혀 제공되지 않습니다. 이는 모델이 텍스트와 이미지가 어떻게 관련되어 있는지에 대해 더 많이 학습하도록 하기 위해 수행됩니다.

이러한 새로운 방법과 임베딩을 사용하여 모델은 LayoutLM과 같은 거의 모든 테스트 데이터 세트에서 더 높은 F1 점수를 얻을 수 있었습니다.

타임 스탬프 : 2022 년 3 월 7 일

타임 스탬프 : 7년 2023월 XNUMX일