LayoutLMの説明

プラトン再発行

フォロワー： 0

文書処理とは何ですか？

LayoutLMの説明

文書処理は、文書からの構造化データの抽出を自動化するプロセスです。これは、請求書、履歴書、ID カードなど、あらゆる文書に当てはまります。ここでの課題は OCR だけではありません。テキストを抽出して場所を提供できる、低コストで利用できるオプションがたくさんあります。本当の課題は、これらのテキストに正確かつ自動的にラベルを付けることです。

文書処理によるビジネスへの影響

いくつかの業界は、日常業務で文書処理に大きく依存しています。金融機関は SEC 申請書や保険申請書にアクセスする必要があり、電子商取引やサプライチェーン企業は使用されている請求書にアクセスする必要があるなど、リストは続きます。この情報の正確性は時間の節約と同じくらい重要です。そのため、より一般化され、より正確な高度な深層学習手法を使用することを常にお勧めします。

PwC によるこのレポートによると、[ ] 最も初歩的な量の構造化データ抽出であっても、PDF から Excel スプレッドシートにデータを手動でコピーして貼り付ける従業員の時間を 30 ～ 50% 節約できます。 LayoutLM のようなモデルは確かに初歩的なものではなく、さまざまなユースケースにわたって大規模かつ正確なデータ抽出が可能な非常にインテリジェントなエージェントとして構築されています。弊社の顧客の多くでも、データを手動で抽出するのに必要なダウンタイムをドキュメントあたり 20 分から 10 秒未満に短縮しました。これは大規模な変化であり、従業員の生産性が向上し、全体的なスループットが向上します。

では、LayoutLM に似た AI はどこに適用できるのでしょうか? Nanonets では、このようなテクノロジーを次の目的に使用してきました。

などの多くの使用例があります。

なぜLayoutLMなのか?

深層学習モデルは、特定のテキストが請求書の商品説明なのか請求書番号なのかをどのように理解するのでしょうか?簡単に言えば、モデルはラベルを正しく割り当てる方法をどのように学習するのでしょうか?

3 つの方法は、BERT や GPT-XNUMX などの大規模な言語モデルからのテキスト埋め込みを使用し、それを分類子を通して実行することですが、これはあまり効果的ではありません。文字だけでは測りきれない情報がたくさんあります。あるいは、画像ベースの情報を利用することもできます。これは、R-CNN モデルと Faster R-CNN モデルを使用することで実現されました。ただし、これではまだ文書で入手可能な情報が十分に活用されていません。使用されたもう XNUMX つのアプローチは、位置情報とテキスト情報の両方を組み合わせたグラフ畳み込みニューラルネットワークを使用したものでしたが、画像情報は考慮されていませんでした。

では、情報の 3 つの側面、つまりテキスト、画像、および指定されたテキストの位置をすべて使用するにはどうすればよいでしょうか?そこで、LayoutLM のようなモデルが登場します。LayoutLM は、何年も前から活発な研究分野であったにもかかわらず、位置情報、テキストベースの情報、そして画像情報も。

LayoutLM チュートリアル

この記事は、言語モデルとは何かを理解していることを前提としています。そうでない場合でも、心配しないでください。それについても記事を書きました！トランスモデルとは何か、注意点について詳しく知りたい方はこちら Jay Alammar による素晴らしい記事です.

これらのことを理解したら、チュートリアルを始めましょう。オリジナルの LayoutLM 論文を主な参考資料として使用します。

OCRテキスト抽出

文書に対して最初に行うことは、文書からテキストベースの情報を抽出し、それぞれの場所を見つけることです。場所によって、「バウンディングボックス」と呼ばれるものを指します。境界ボックスは、ページ上のテキストをカプセル化する四角形です。

ほとんどの場合、境界ボックスの原点は左上隅にあり、正の x 軸は原点からページの右に向かって、正の y 軸は原点からページの右側に向かうと想定されます。ページの下部。1 ピクセルが測定単位とみなされます。

言語と場所の埋め込み

次に、5 つの異なる埋め込み層を利用します。 1 つは、言語関連情報、つまりテキスト埋め込みをエンコードすることです。

他の 4 つは位置の埋め込み用に予約されています。 xmin、ymin、xmax、ymax の値がわかっていると仮定すると、境界ボックス全体を決定できます。 (イメージできない場合は、 ここにあなたのためのリンクがあります). これらの座標は、位置情報をエンコードするためにそれぞれの埋め込み層を介して渡されます。

次に、5 つの埋め込み (テキスト用に 1 つ、座標用に 4 つ) が合計されて、LayoutLM に渡される埋め込みの最終値が作成されます。出力は LayoutLM 埋め込みと呼ばれます。

画像の埋め込み

さて、埋め込みを組み合わせて言語モデルに渡すことで、テキストと位置に関連する情報を見つけることができました。では、画像関連情報を結合するプロセスをどのように実行すればよいでしょうか?

テキストとレイアウト情報がエンコードされている間、並行して Faster R-CNN を使用して、ドキュメントに関連するテキストの領域を抽出します。 Faster R-CNN は、物体検出に使用される画像モデルです。私たちのケースでは、これを使用してさまざまなテキストの部分を検出し (各フレーズがオブジェクトであると仮定)、次にセグメント化された画像を完全に接続されたレイヤーに渡して、画像の埋め込みの生成も支援します。

LayoutLM 埋め込みと画像埋め込みを組み合わせて最終的な埋め込みを作成し、これを使用してダウンストリーム処理を実行できます。

事前トレーニング LayoutLM

上記のすべては、LayoutLM がトレーニングされた方法を理解している場合にのみ意味を持ちます。結局のところ、ニューラルネットワーク内でどのような種類の接続を確立しても、適切な学習目標に基づいてトレーニングされない限り、ニューラルネットワークは完全にスマートとは言えません。 LayoutLM の作成者は、BERT の事前トレーニングに使用されたものと同様の方法を追求したいと考えていました。

マスクされたビジュアル言語モデル (MVLM)

モデルが特定の場所にどのようなテキストが存在したかを学習できるようにするために、作成者は、場所に関連する情報と埋め込みを保持しながら、テキストのいくつかのトークンをランダムにマスクしました。これにより、LayoutLM は単純なマスク言語モデリングを超えて、テキストの埋め込みを位置関連のモダリティに関連付けることができました。

マルチラベル文書分類 (MDC)

ドキュメント内のすべての情報を使用してカテゴリに分類すると、モデルはどの情報が特定のクラスのドキュメントに関連しているかを理解するのに役立ちます。ただし、著者らは、データセットが大きくなると、ドキュメントクラスのデータがすぐに入手できない可能性があることに注意しています。したがって、彼らは MVLM トレーニング単独と MVLM + MDC トレーニングの両方の結果に基づいた結果を提供しました。

ダウンストリームタスク向けの LayoutLM の微調整

LayoutLM で実行できるダウンストリームタスクがいくつかあります。著者が取り組んだものについて説明します。

フォームの理解

このタスクには、ラベルタイプを特定のテキストにリンクすることが含まれます。これを使用すると、あらゆる種類のドキュメントから構造化データを抽出できます。最終出力、つまり LayouLM 埋め込み + 画像埋め込みが与えられると、それらは完全に接続された層を通過し、次にソフトマックスを通過して、特定のテキストのラベルのクラス確率を予測します。

領収書の理解

このタスクでは、レシートの情報のいくつかのスロットが空のままになっており、モデルはテキストをそれぞれのスロットに正しく配置する必要がありました。

文書画像の分類

文書のテキストと画像からの情報は、ソフトマックス層を通過させるだけで文書のクラスを理解できるように結合されます。

ハグフェイスレイアウトLM

LayoutLM がこれほど議論される主な理由の 1 つは、このモデルが少し前にオープンソース化されたためです。それはハグフェイスで入手可能そのため、LayoutLM の使用が大幅に簡単になりました。

独自のニーズに合わせて LayoutLM を微調整する方法を詳しく説明する前に、考慮すべき点がいくつかあります。

ライブラリのインストール

LayoutLM を実行するには、Hugging Face のトランスフォーマーライブラリが必要です。これは PyTorch ライブラリに依存しています。これらをインストールするには (まだインストールされていない場合)、次のコマンドを実行します。

境界ボックスについて

画像サイズに関係なく均一な埋め込みスキームを作成するために、境界ボックスの座標は 1000 のスケールで正規化されます。

これらのモデルは通常重く、かなりの計算能力を必要とするため、transformers.LayoutLMConfig クラスを使用すると、要件に最も適したモデルのサイズを設定できます。より小さいモデルに設定すると、ローカルで実行しやすくなる場合があります。あなたはできるクラスの詳細についてはこちらをご覧ください.

文書分類用の LayoutLM (リンク)

ドキュメントの分類を実行したい場合は、transformers.LayoutLMForSequenceClassification クラスが必要になります。ここでのシーケンスは、抽出した文書からのテキストのシーケンスです。これは、Hugging Face.co の使用方法を説明する小さなコードサンプルです。

テキストラベル用の LayoutLM (リンク)

セマンティックラベル付けを実行するには、つまりドキュメント内のテキストのさまざまな部分にラベルを割り当てるには、transformers.LayoutLMForTokenClassification クラスが必要です。詳細については、こっちも一緒以下は、それがどのように機能するかを確認するための小さなコードサンプルです。

ハグ顔レイアウトLMの注意点

現在、Hugging Face LayoutLM モデルはテキスト抽出に Tesseract オープンソースライブラリを使用していますが、これはあまり正確ではありません。 AWS Textract や Google Cloud Vision などの別の有料 OCR ツールの使用を検討することもできます。
既存のモデルは言語モデル、つまり LayoutLM 埋め込みのみを提供し、視覚的な機能を組み合わせる最終層は提供しません。レイアウトLMv2 (次のセクションで説明します) は、Detectron ライブラリを使用して、視覚的な機能の埋め込みも有効にします。
ラベルの分類は単語レベルで行われるため、フィールド内のすべての単語が連続したシーケンスであることを確認するかどうかは、実際には OCR テキスト抽出エンジン次第です。そうしないと、1 つのフィールドが 2 つのフィールドとして予測される可能性があります。

レイアウトLMv2

LayoutLM は、ドキュメントからデータを抽出する方法における革命として登場しました。ただし、ディープラーニングの研究に関する限り、モデルは時間の経過とともにますます改善されるだけです。 LayoutLM も同様に LayoutLMv2 に引き継がれ、作成者はモデルのトレーニング方法にいくつかの重要な変更を加えました。

1-D 空間埋め込みと視覚トークン埋め込みを含む

LayoutLMv2 には、全体的な画像関連情報だけでなく、1 次元の相対位置に関する情報も含まれています。これが重要な理由は、これから説明する新しいトレーニング目標のためです。

新しいトレーニング目標

LayoutLMv2 には、いくつかの変更されたトレーニング目標が含まれていました。これらは次のとおりです。

マスクされたビジュアル言語モデリング: これは LayoutLM と同じです
テキスト画像の配置: テキストトークンがモデルに提供されている間、テキストは画像からランダムにカバーされました。モデルはトークンごとに、指定されたテキストがカバーされているかどうかを学習する必要がありました。これにより、モデルは視覚的モダリティとテキストモダリティの両方からの情報を組み合わせることができました。
テキスト画像のマッチング: モデルは、指定された画像が指定されたテキストに対応するかどうかを確認するように求められます。ネガティブサンプルは偽の画像として供給されるか、画像の埋め込みがまったく提供されないかのいずれかです。これは、モデルがテキストと画像がどのように関連しているかを確実に学習するために行われます。

これらの新しい方法と埋め込みを使用することで、モデルは LayoutLM としてほぼすべてのテストデータセットでより高い F1 スコアを達成することができました。

タイムスタンプ： 2022 年 3 月 7 日

タイムスタンプ： 2023 年 2 月 7 日