アマゾンテキストラック は、あらゆるドキュメントや画像からテキスト、手書き文字、データを自動的に抽出する機械学習 (ML) サービスです。 Amazon Textract にはテーブル機能があります。 ドキュメントの分析 あらゆるドキュメントから表構造を自動的に抽出する機能を提供する API。 この投稿では、 テーブル類 機能と、それを使用してさまざまなドキュメントから表構造の情報を簡単に抽出できる方法について説明します。
財務報告書、給与明細、分析証明書ファイルなどの文書内の表構造は、情報を簡単に解釈できるようにフォーマットされていることがよくあります。 多くの場合、読みやすさと構成を向上させるために、表のタイトル、表のフッター、セクションのタイトル、表構造内の要約行などの情報も含まれます。 この機能強化以前の同様のドキュメントでは、テーブル機能が AnalyzeDocument
これらの要素はセルとして識別され、テーブルの境界外に存在するタイトルとフッターは抽出されませんでした。 このような場合、そのような情報を識別するか、API の JSON 出力とは別に抽出するためのカスタム後処理ロジックが必要でした。 今回のテーブル機能の機能強化の発表により、表形式データのさまざまな側面の抽出がはるかに簡単になりました。
2023 年 XNUMX 月、Amazon Textract は、テーブル機能を介してドキュメント内に存在するタイトル、フッター、セクション タイトル、概要行を自動的に検出する機能を導入しました。 この投稿では、これらの機能強化について説明し、文書処理ワークフローでの機能強化の理解と使用に役立つ例を示します。 API を使用し、 Amazon Textract テキストラクター ライブラリ.
ソリューションの概要
次の図は、更新されたモデルがドキュメント内のテーブルだけでなく、対応するすべてのテーブル ヘッダーとフッターを識別することを示しています。 このサンプル財務レポート ドキュメントには、テーブル タイトル、フッター、セクション タイトル、および概要行が含まれています。
テーブル機能の強化により、API 応答に XNUMX つの新しい要素のサポートが追加され、これらの各テーブル要素を簡単に抽出できるようになり、テーブルの種類を区別する機能が追加されました。
テーブル要素
Amazon Textract は、テーブルのセルや結合されたセルなど、テーブルのいくつかのコンポーネントを識別できます。 これらのコンポーネントは、 Block
オブジェクトは、境界ジオメトリ、関係、信頼スコアなど、コンポーネントに関連する詳細をカプセル化します。 あ Block
は、文書内で互いに近いピクセルのグループ内で認識される項目を表します。 以下は新しいものです テーブルブロック この機能強化で導入されたのは次のとおりです。
- 表のタイトル –新しい
Block
と呼ばれるタイプTABLE_TITLE
これにより、特定のテーブルのタイトルを識別できるようになります。 タイトルは XNUMX 行以上の場合があり、通常は表の上にあるか、表内のセルとして埋め込まれています。 - 表のフッター –新しい
Block
と呼ばれるタイプTABLE_FOOTER
これにより、特定のテーブルに関連付けられたフッターを識別できるようになります。 フッターは XNUMX つ以上の行で、通常はテーブルの下にあるか、テーブル内のセルとして埋め込まれています。 - セクションのタイトル –新しい
Block
と呼ばれるタイプTABLE_SECTION_TITLE
これにより、検出されたセルがセクション タイトルかどうかを識別できます。 - 概要セル –新しい
Block
と呼ばれるタイプTABLE_SUMMARY
これにより、セルが給与明細の合計のセルなどの集計セルであるかどうかを識別できます。
テーブルの種類
Amazon Textract は、ドキュメント内のテーブルを識別すると、テーブルのすべての詳細をトップレベルのファイルに抽出します。 Block
の種類 TABLE
。 テーブルにはさまざまな形やサイズがあります。 たとえば、ドキュメントには、識別可能な表ヘッダーがある場合とない場合がある表が含まれることがよくあります。 これらのタイプのテーブルを区別しやすくするために、テーブルに XNUMX つの新しいエンティティ タイプを追加しました。 TABLE Block
: SEMI_STRUCTURED_TABLE
および STRUCTURED_TABLE
。 これらのエンティティ タイプは、構造化テーブルと半構造化テーブルを区別するのに役立ちます。
構造化テーブルとは、明確に定義された列ヘッダーを持つテーブルです。 ただし、半構造化テーブルの場合、データは厳密な構造に従っていない可能性があります。 たとえば、データは、ヘッダーが定義されたテーブルではない表構造で表示される場合があります。 新しいエンティティ タイプでは、後処理中にどのテーブルを保持するか削除するかを柔軟に選択できます。 次の図は例を示しています STRUCTURED_TABLE
および SEMI_STRUCTURED_TABLE
.
API出力の分析
このセクションでは、 Amazon Textract テキストラクター ライブラリ API 出力を後処理するには AnalyzeDocument
テーブル機能が強化されました。 これにより、テーブルから関連情報を抽出できます。
Textractor は、Amazon Textract API およびユーティリティとシームレスに連携して、API から返された JSON 応答をプログラム可能なオブジェクトに変換するために作成されたライブラリです。 また、これを使用してドキュメント上のエンティティを視覚化し、データをコンマ区切り値 (CSV) ファイルなどの形式でエクスポートすることもできます。 これは、Amazon Textract の顧客が後処理パイプラインをセットアップできるようにすることを目的としています。
この例では、10-K SEC 提出文書の次のサンプル ページを使用します。
次のコードは、 GitHubリポジトリ。 このドキュメントを処理するには、Textractor ライブラリを利用してインポートし、API 出力を後処理してデータを視覚化します。
最初のステップは、Amazon Textract を呼び出すことです AnalyzeDocument
テーブル機能を使用すると、 features=[TextractFeatures.TABLES]
パラメータを使用してテーブル情報を抽出します。 このメソッドはリアルタイム (または同期) メソッドを呼び出すことに注意してください。 ドキュメントの分析 単一ページのドキュメントをサポートする API。 ただし、使用できます 非同期 StartDocumentAnalysis
複数ページのドキュメント (最大 3,000 ページ) を処理するための API。
document
オブジェクトには、レビューできるドキュメントに関するメタデータが含まれています。 ドキュメント内の XNUMX つのテーブルがドキュメント内の他のエンティティとともに認識されることに注意してください。
テーブル情報を含む API 出力が得られたので、前に説明した応答構造を使用してテーブルのさまざまな要素を視覚化します。
Textractor ライブラリは、検出されたテーブル内のさまざまなエンティティをテーブル要素ごとに異なるカラー コードで強調表示します。 各要素を抽出する方法を詳しく見てみましょう。 次のコード スニペットは、テーブルのタイトルを抽出する方法を示しています。
同様に、次のコードを使用してテーブルのフッターを抽出できます。 table_footers はリストであることに注意してください。これは、テーブルに XNUMX つ以上のフッターを関連付けることができることを意味します。 このリストを反復処理して、存在するすべてのフッターを確認できます。次のコード スニペットに示すように、出力には XNUMX つのフッターが表示されます。
ダウンストリーム取り込み用のデータの生成
Textractor ライブラリは、ダウンストリーム システムまたは他のワークフローへのテーブル データの取り込みを簡素化するのにも役立ちます。 たとえば、抽出されたテーブル データを人間が判読できる Microsoft Excel ファイルにエクスポートできます。 この記事の執筆時点では、これがマージされたテーブルをサポートする唯一の形式です。
に変換することもできます。 パンダDataFrame。 DataFrame は、Python や R などのプログラミング言語でのデータ操作、分析、視覚化によく使用されます。
Python では、DataFrame は Pandas ライブラリの主要なデータ構造です。 これは柔軟で強力であり、多くの場合、データ分析の専門家がさまざまなデータ分析や ML タスクを行う際の最初の選択肢になります。 次のコード スニペットは、抽出されたテーブル情報を XNUMX 行のコードで DataFrame に変換する方法を示しています。
最後に、テーブル データを CSV ファイルに変換できます。 CSV ファイルは、リレーショナル データベースやデータ ウェアハウスにデータを取り込むためによく使用されます。 次のコードを参照してください。
まとめ
これらの新しいブロックとエンティティ タイプの導入 (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
, TABLE_SUMMARY
) Amazon Textract を使用したドキュメントからの表構造の抽出が大幅に進歩しました。
これらのツールは、より微妙で柔軟なアプローチを提供し、構造化テーブルと半構造化テーブルの両方に対応し、ドキュメント内の場所に関係なく、重要なデータが見落とされないようにします。
これは、多様なデータ型とテーブル構造をより効率的かつ正確に処理できるようになったということを意味します。 私たちは文書処理ワークフローにおける自動化の力を継続的に取り入れており、これらの機能強化により、ワークフローの合理化、生産性の向上、より洞察力に富んだデータ分析への道が開かれることは間違いありません。 詳細については、 AnalyzeDocument
およびテーブル機能については、を参照してください。 ドキュメントの分析.
著者について
ラジ・パタク 金融サービス (保険、銀行、資本市場) と機械学習を専門とするシニア ソリューション アーキテクト兼テクノロジストです。 自然言語処理 (NLP)、大規模言語モデル (LLM)、機械学習インフラストラクチャおよび運用プロジェクト (MLOps) を専門としています。
アンジャンビスワス は、AI/MLとデータ分析に重点を置いたシニアAIサービスソリューションアーキテクトです。 Anjanは世界規模のAIサービスチームの一員であり、顧客と協力してAIとMLのビジネス上の問題を理解し、解決策を開発するのを支援しています。 Anjanは、グローバルなサプライチェーン、製造、小売組織で14年以上の経験があり、お客様がAWSAIサービスを開始して拡張できるよう積極的に支援しています。
ラリタ・レディ Amazon Textract チームのシニアテクニカルプロダクトマネージャーです。 彼女は、AWS の顧客向けに機械学習ベースのサービスを構築することに重点を置いています。 ラリータは余暇には、ボード ゲームをしたり、ハイキングに出かけたりするのが好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :持っている
- :は
- :not
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 視聴者の38%が
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 視聴者の38%が
- 30
- 31
- 7
- 8
- a
- 能力
- 私たちについて
- 上記の.
- アカウント
- 精度
- 積極的に
- 追加されました
- 追加
- アドバンス
- 代理店
- AI
- AIサービス
- AI / ML
- 援助
- すべて
- ことができます
- 沿って
- また
- Amazon
- アマゾンテキストラック
- Amazon Webサービス
- 金額
- an
- 分析
- 分析論
- および
- お知らせ
- 発表
- どれか
- API
- API
- 現れる
- アプローチ
- 約
- 4月
- です
- AS
- 側面
- 資産
- 関連する
- At
- 自動的に
- オートメーション
- AWS
- バランスシート
- バンキング
- 基礎
- BE
- になる
- 以下
- より良いです
- の間に
- 10億
- ブロック
- ボード
- ボードゲーム
- 両言語で
- 建物
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 呼ばれます
- 缶
- 資本
- 資本市場
- 例
- 現金
- 細胞
- 一定
- 証明書
- チェーン
- 選択
- 選択する
- 分類します
- はっきりと
- クライアント
- 閉じる
- コード
- 担保
- カラー
- コラム
- 来ます
- 約束
- コンポーネント
- コンポーネント
- 信頼
- 含む
- 含まれています
- 続ける
- 変換
- 企業
- 対応する
- 費用
- 作成した
- クレジット
- カスタム
- Customers
- データ
- データ分析
- データ分析
- データ構造
- データベースを追加しました
- 借金
- 12月
- より深い
- 定義済みの
- 実証
- 細部
- 検出された
- 開発する
- 異なります
- 方向
- お得な商品
- 話し合います
- 議論する
- ディスプレイ
- 見分けます
- 異なる
- ドキュメント
- ドキュメント
- 疑い
- 原因
- 間に
- 各
- 緩和する
- 容易
- 簡単に
- 効率
- 素子
- 要素は
- 埋め込まれた
- 受け入れる
- 可能
- 強化された
- 強化
- エンティティ
- エンティティ
- 株式
- 同等物
- 不動産
- 推定
- 例
- 例
- Excel
- 体験
- 探る
- export
- エキス
- 抽出物
- フェア
- 特徴
- File
- ファイリング
- ファイナンシャル
- 財務報告書
- 金融業務
- 名
- 固定の
- 固定収入
- 柔軟性
- フレキシブル
- フォーカス
- 焦点を当て
- フォロー中
- 外国の
- 形式でアーカイブしたプロジェクトを保存します.
- 発見
- 4
- から
- 資金
- 利得
- 利益
- Games
- 取得する
- GitHubの
- 与える
- 与えられた
- グローバル
- Go
- 政府・公共機関
- 総
- グループ
- 持っていました
- ハンドル
- 持ってる
- he
- ヘッダーの
- 助けます
- 助け
- ことができます
- 彼女の
- 階層
- より高い
- 強調表示された
- ハイライト
- ハイキング
- 保持している
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 人間
- 特定され
- 識別する
- 識別する
- アイデンティティ
- if
- 画像
- import
- 重要
- 改善
- in
- include
- 所得
- 情報
- インフラ
- install
- 保険
- 意図された
- 解釈
- に
- 導入
- 概要
- 投資
- 呼び出す
- IT
- リーディングシート
- ITS
- JPG
- JSON
- 管轄区域
- キープ
- 既知の
- 欠如
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 学習
- less
- レベル
- 図書館
- 好き
- LINE
- ライン
- リスト
- LLM
- 負荷
- 場所
- ロジック
- より長いです
- 損失
- 損失
- 機械
- 機械学習
- 製
- 主要な
- make
- 作る
- 作成
- マネージャー
- 操作
- 製造業
- 市場
- マーケット
- 五月..
- 手段
- 方法
- Microsoft
- かもしれない
- 百万
- 何百万
- ML
- MLOps
- モデル
- 修正する
- お金
- 金融市場
- ヶ月
- 他には?
- ずっと
- ナチュラル
- 自然言語処理
- 必要
- net
- 新作
- NLP
- いいえ
- 知らせ..
- 今
- オブジェクト
- オブジェクト
- of
- 提供
- オファー
- 頻繁に
- on
- ONE
- の
- 業務執行統括
- or
- 組織
- 組織
- その他
- さもないと
- 私たちの
- 出力
- 外側
- が
- ページ
- パンダ
- パラメーター
- 部
- 舗装する
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 人気
- 部分
- ポスト
- 電力
- 強力な
- 現在
- 前に
- 主に
- 主要な
- 印刷物
- 事前の
- 問題
- プロセス
- 処理
- プロダクト
- プロダクトマネージャー
- 生産性
- 専門家
- プログラミング
- プログラミング言語
- プロジェクト(実績作品)
- 提供します
- Python
- Q1
- Q3
- 3 Q2021
- q3 2022
- クエリ
- リアル
- 不動産
- への
- 認識
- 認識
- 記録された
- 繰り返し
- 関係なく
- 地域
- レギュレータ
- 関連する
- の関係
- 関連した
- 削除します
- レポート
- レポート
- 表し
- の提出が必要です
- それぞれ
- 応答
- 回答
- 制限する
- 制限されました
- 制限
- 結果として
- 小売
- 日
- s
- セールス
- 規模
- スコア
- シームレス
- SEC
- SECファイリング
- セクション
- 有価証券
- セキュリティ
- 販売
- シニア
- 9月
- サービス
- サービス
- 設定
- いくつかの
- シェイプ
- 彼女
- 示す
- 作品
- 署名
- 重要
- 同様の
- 簡素化する
- サイズ
- ソリューション
- 専門にする
- 特化
- 開始
- 手順
- 合理化された
- 厳格な
- 構造
- 構造化された
- テーマ
- 続いて
- そのような
- 概要
- 供給
- サプライチェーン
- サポート
- サポート
- システム
- テーブル
- タスク
- チーム
- 技術的
- 技術者
- より
- それ
- アプリ環境に合わせて
- それら
- そこ。
- ボーマン
- 彼ら
- サードパーティ
- この
- それらの
- 三
- 介して
- 時間
- 役職
- タイトル
- 〜へ
- 豊富なツール群
- トップレベル
- トータル
- トレード
- 2
- type
- 一般的に
- 私達
- アメリカ政府
- わかる
- 未実現損失
- 更新しました
- us
- つかいます
- 中古
- 公益事業
- 値
- 価値観
- 多様
- さまざまな
- 対
- 、
- 可視化
- ました
- 仕方..
- we
- ウェブ
- Webサービス
- which
- ワイド
- 意志
- 以内
- 言葉
- 仕事
- ワークフロー
- ワーキング
- 作品
- でしょう
- 書き込み
- 年
- You
- あなたの
- ゼファーネット