Python を使用して PDF からテキストを抽出する方法

プラトン再発行

フォロワー： 0

Portable Document Format (PDF) ファイルは、ドキュメントを電子的に共有するために一般的に使用されます。個人も企業も、PDF ファイルを使用して情報を共有しています。多くの場合、さらに処理するために PDF ファイルから情報を抽出する必要があります。ただし、PDF ファイルからテキストを抽出することは、特に文書に複雑な書式設定とレイアウトが含まれている場合は困難な場合があります。幸いなことに、これを行うにはいくつかの方法があります。

ここでは、Python を使用して PDF からテキストを抽出するために最も一般的に使用される方法を提供します。 Python は、効率的な PDF テキスト抽出を可能にするいくつかのライブラリで構成されています。

この記事では、PDF ファイルからテキストを抽出するためのいくつかの一般的な Python ライブラリと、PDF からの段階的なテキスト抽出プロセスについて説明します。

PDF 処理用の Python ライブラリ

Python には、PDF ファイルなどの非構造化データソースを効果的に処理する、適切に統合されたライブラリがいくつかあります。 PDF 処理用のいくつかの Python ライブラリのリストを次に示します。

PyPDF2: これは、PDF ファイルのページの分割、マージ、トリミング、および変換を支援できる PDF 用の Python ライブラリです。 pyPDF2 また、PDF ファイルからテキストを抽出することもできます。
PyMuPDF: PyMuPDF は、MuPDF C ライブラリの Python ラッパーです。 Python で PDF ファイルの読み取り、書き込み、および操作を行うことができます。また、PDF ドキュメントのメタデータにアクセスし、テキストと画像を抽出し、PyMuPDF を使用して PDF ドキュメントを復号化できます。
レポートラボ: これは、PDF ファイルの作成と操作に使用できるオープンソースの Python ライブラリです。 PDF ドキュメントを最初から作成するための高レベル API を提供し、画像とフォントの埋め込みをサポートします。
PDF2dox: PDFファイルからPyMuPDFライブラリを利用してデータを抽出するPythonライブラリです。

PDF からテキストへのコンバーターを使用して、複雑な PDF をテキスト形式に即座に変換します。無料でお試しください。

Pythonを使用してPDFからテキストを抽出するにはどうすればよいですか? PlatoBlockchain データインテリジェンス。垂直検索。あい。

開発環境のセットアップ

PDF からのテキスト抽出の手順について説明する前に、開発環境をセットアップし、テキストを抽出するために必要な Python ライブラリをインストールすることが不可欠です。

Pythonをインストールします。 まだインストールしていない場合は、システムに Python をインストールする必要があります。から最新バージョンの Python をダウンロードできます。こちら.
pipをインストールします。 Python に pip がインストールされているかどうかを確認するには、次を実行します。

py -m ensurepip --default-pip

pip が自動的に実行されない場合は、ダウンロードしますこちら次のコードを実行して、インストールまたはアップグレードします

pip.python get-pip.py

必要なライブラリをインストールします。 PDF ファイルを操作するには、任意の Python ライブラリをインストールします。ここでは、よく使われるライブラリ PyPDF2 をインストールします。インストールするには、次のコマンドを実行します。

pip install PyPDF2

Python と必要なライブラリをインストールすると、開発環境が設定されます。任意のテキストエディターまたは IDE を使用して、Visual Studio Code、PyCharm、Sublime Text などの Python コードを記述できます。

PyPDF2 Python ライブラリを使用してファイルを抽出します。

入力 PDF:

# 必要なモジュールのインポート
から pyPDF2 import PDFリーダー

# PDF リーダーオブジェクトの作成
リーダー = PdfReader(「ナノネット.pdf」)

# PDFファイルのページ数を出力
print(len(reader.pages))

# PDFファイルから特定のページを取得
ページ = リーダー.ページ[0]

# ページからテキストを抽出
テキスト = page.extract_text()
印刷（テキスト）

出力：

それでは、各コードを個別に理解しましょう。

リーダー = PdfReader('nanonets.pdf')

PyPDF2 モジュールから、PDFReader クラスのオブジェクトを作成しました。 pdf ファイルへのパスの必要な位置引数を取ります。

print(len(reader.pages))

pages プロパティは、PageObjects のリストを提供します。ここでは、組み込みの len() Python 関数を使用して、pdf ファイルのページ数を取得できます。

ページ = リーダー.ページ[0]

ページインデックスを利用して、特定の pdf ファイルページを取得することもできます。リストのインデックスは Python では 0 から始まるため、このコマンドはファイルの最初のページを表示します。

テキスト = page.extract_text()

印刷（テキスト）

このコマンドを使用して、pdf ページからテキストを抽出します。

抽出されたテキストを前処理してクリーンアップおよび正規化する

ストップワードの削除、小文字化、句読点の削除、ステミング、レンマタイゼーションなどのさまざまな前処理手法を使用して、Python で抽出されたテキストをクリーンアップおよび正規化します。

入力： Python は、データ分析や機械学習に使用される人気のあるプログラミング言語です。習得が容易で、さまざまなアプリケーション用の幅広いライブラリがあります。

コード：

テキスト= 「Python は、データ分析と機械学習に使用される人気のあるプログラミング言語です。習得が容易で、さまざまなアプリケーション用の幅広いライブラリがあります。」
トークン=word_tokenize（text）
stop_words = set(stopwords.words('英語'))
filtered_text = [単語 for 単語 in トークン if ワード.ロワー() in ストップワード]
clean_text = [単語.lower() for 単語 in フィルタリングされた_テキスト if 単語.isalpha()]

print（clean_text）

出力： [「パイソン」「ポピュラー」「プログラミング」「言語」「中古」「データ」「分析」「機械」「学習」「簡単」「学ぶ」「広い」範囲、「ライブラリ」、「さまざまな」、「アプリケーション」]

この手順では、「is」、「a」、「for」、「and」、「it」、「has」などのストップワードを削除し、テキスト内のすべての単語を小文字にしました。

抽出したテキストをファイルまたはデータベースに保存する

次のコードを実行します。

　開いた（'extracted_text.txt', 「w」) as f:
f.write(「」.join(クリーンテキスト))

このコードは、という名前のファイルを開きます 抽出されたテキスト.txt 書き込みモードで。の f.write() メソッドは、前処理されたテキストをファイルに書き込みます。単語のリストを変換します クリーンテキスト 単語を空白文字 (' ') で結合して文字列に変換し、結果の文字列をファイルに書き込みます。

その結果、前処理されたテキストは次の名前のファイルに保存されます。 抽出されたテキスト.txt 現在の作業ディレクトリにあります。

PDF からテキストへのコンバーターを使用して、複雑な PDF をテキスト形式に即座に変換します。無料でお試しください。

いくつかの高度な手法を使用して、テキスト抽出の精度を向上させることができます。ここにいくつかのテクニックがあります：

光学式文字認識（OCR）： OCR は、スキャンした画像を機械でエンコードされたテキストに変換するプロセスです。 OCR を使用して、画像またはスキャンしたページを含む PDF ファイルからテキストを抽出できます。 Tesseract、Google Cloud Vision、Amazon Textract など、いくつかの OCR エンジンが利用可能です。
前処理技術: 前処理技術には、実際の抽出プロセスの前に PDF ファイルを操作することが含まれます。これには、抽出プロセスの精度に影響を与える可能性のあるノイズ、スキュー、およびその他の歪みを除去するための、歪み除去、ノイズ除去、しきい値処理などの手法が含まれます。
レイアウト分析: これには、テキストブロック、表、画像など、PDF ファイルのさまざまな要素を識別して分類することが含まれます。この情報により、ドキュメントの構造が識別されるため、テキスト抽出の精度が向上します。
機械学習ツール: などのいくつかのテキスト抽出ツールナノネット、機械学習技術を使用して PDF ファイルからテキストを正確に抽出します。

Python でパフォーマンスを最適化し、メモリ使用量を削減するためのヒント

Python でメモリを効果的に管理することは複雑になる可能性があり、Python のデータ構造とオブジェクトを理解する必要があります。 Python でコードを実行する際のパフォーマンスを最適化し、メモリ使用量を削減するためのヒントをいくつか紹介します。

1. 組み込みの Python 関数とライブラリを使用する

組み込みの Python 関数を使用することは、コードを高速化する効果的な方法です。これらの関数は最適化され、パフォーマンスが十分にテストされているため、必要に応じてコードに組み込むことをお勧めします。

これらの関数は、高性能言語である C で実行されるため高速です。これらの関数の例には、max、min、all、map などがあります。

2. Pytorch DataLoader を利用する

大規模なデータセットのトレーニングは、メモリを大量に消費する可能性があります。 PyTorch の DataLoader を使用すると、データセット全体からデータの複数のミニバッチを作成できるようになるため、この問題を解決できます。使用可能なメモリによって決定される複数のサンプルを含むことができる各ミニバッチは、モデルにシームレスに読み込まれるため、大規模なデータセットの効率的なトレーニングが可能になります。

3.ループでリスト内包表記を使用する

Python では、ループは一般的ですが、リスト内包表記は、新しいリストを作成するためのより簡潔で高速な方法を提供します。 Python リストに要素を追加するには、append メソッドよりも優れています。

4. import ステートメントのオーバーヘッド

Python では、インポートステートメントの配置がコードのパフォーマンスとメモリ使用量に影響を与える可能性があります。関数の外部にパッケージをインポートすると、コードの実行が速くなる可能性がありますが、関数の内部にパッケージをインポートするよりも多くのメモリが必要になる場合があります。 Python で import ステートメントを配置する場所を決定する際には、パフォーマンスとメモリ使用量のトレードオフを考慮することが重要です。

5. データチャンク

小さなバッチでのデータのチャンク化または読み込みは、Python で大規模なデータセットを操作する際のメモリエラーを防ぐのに役立つ手法です。多くの場合、一度にすべてのデータが必要になるわけではなく、すべてを XNUMX 回のバッチでロードしようとすると、メモリの制限によりプログラムがクラッシュする可能性があります。データを小さなチャンクで処理することにより、これらのメモリエラーを回避し、必要に応じて結果を保存することができます。したがって、メモリ関連の問題を防ぐために、データの処理と分析ではデータのチャンク化が一般的です。

6. 文字列の連結

Python で文字列を連結する一般的な XNUMX つの方法は、'+' 演算子または join() メソッドを使用することです。「+」演算子が広く使用されていますが、文字列を連結するには join() メソッドの方が効果的で高速です。主な理由は、各ステップで「+」演算子が新しい文字列を作成し、古い文字列をコピーするのに対し、join() メソッドの動作が異なるため、連結が高速になるためです。

PDF からテキストへのコンバーターを使用して、複雑な PDF をテキスト形式に即座に変換します。無料でお試しください。

取り除く

Python でメモリエラーを処理するのは難しい場合がありますが、メモリの使用を最適化し、メモリオーバーフローを防ぐためのさまざまな方法が存在します。最初のステップは、問題の主な理由を特定し、適用可能なメモリ最適化方法を適用することです。問題が解決しない場合は、関連するプロセスを最適化するか、外部データベースサービスを使用して操作を小さなチャンクに分割することができます。

これらのヒントとテクニックを使用すると、メモリ使用量を最適化し、Python で大規模なデータセットを操作する際のメモリ関連の問題を回避できます。 Python ライブラリは PDF ファイルからテキストを抽出する便利な方法を提供しますが、次のようなテキスト抽出用の他の自動化ツールを検討する価値があります。ナノネット。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://nanonets.com/blog/extract-text-from-pdf-file-using-python/

タイムスタンプ： 2023 年 3 月 8 日

プラトン再発行

メールを Google スプレッドシートに変換する方法

2022 年のトップ請求書スキャンソフトウェア

請求書処理とは何ですか? | 請求書処理手順の説明

売掛金回転率: 完全ガイド

非構造化データ抽出による洞察の生成 | ナノネットのブログ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー