画像からテキストまたはデータを抽出する方法

プラトン再発行

フォロワー： 0

画像からテキストを抽出するのは面倒なプロセスになる可能性があります。ほとんどの人は、画像からテキスト/データを手動で入力します。しかし、処理する画像がたくさんある場合、これは時間がかかり、非効率的です。

画像からテキストへのコンバーター画像からテキストを抽出するためのきちんとした方法を提供します。

このようなツールはうまく機能しますが、抽出されたテキスト/データは構造化されていない方法で表示されることが多く、その結果、多くの後処理が発生します。

An AI主導のOCR Nanonetsのように、画像からテキストを引き出し、抽出されたデータをきちんと整理された構造化された方法で表示できます。

Nanonetsは、画像から正確に、大規模に、複数の言語でデータを抽出します。 Nanonetsは、抽出されたテキストを完全にカスタマイズ可能なきちんと構造化された形式で表示する唯一のテキスト認識OCRです。キャプチャされたデータは、テーブル、ラインアイテム、またはその他の形式で表示できます。

下の画像をクリックしてアップロードしてください
NanonetsのOCRは、ファイル内のコンテンツを自動的に認識し、テキストに変換します
抽出されたテキストを生のテキストファイルとしてダウンロードするか、APIを介して統合します

Nanonetsには、以下にリストされている特定の画像タイプ用に事前にトレーニングされたOCRモデルがあります。事前にトレーニングされた各OCRモデルは、画像タイプのテキストを名前、住所、日付、有効期限などの適切なフィールドに正確に関連付け、抽出されたテキストをきちんと整理された方法で表示するようにトレーニングされています。

請求書
領収書
運転免許証（米国）
パスポート

ナノネットオンラインOCR＆OCR API 多くの興味深いものがありますユースケース.

[埋め込まれたコンテンツ]

領収書の画像からテキストを抽出するナノネット

ステップ1：適切なOCRモデルを選択する

ログイン Nanonetsに移動し、テキストとデータを抽出する画像に適したOCRモデルを選択します。事前にトレーニングされたOCRモデルのいずれも要件に適合しない場合は、スキップしてカスタムOCRモデルの作成方法を確認できます。

ステップ2：ファイルを追加する

テキストを抽出するファイル/画像を追加します。画像はいくつでも追加できます。

ステップ3：テスト

モデルが実行され、画像からテキストが抽出されるまで数秒待ちます。

ステップ4：確認

右側のテーブルビューを確認して、各ファイルから抽出されたテキストをすばやく確認します。テキストが正しく認識され、適切なフィールドまたはタグと一致しているかどうかを簡単に再確認できます。

この段階で、フィールド値とラベルを編集/修正することもできます。ナノネットは画像のテンプレートに拘束されません。

抽出されたデータは、「リストビュー」または「JSON」形式で表示できます。

画像PlatoBlockchainデータインテリジェンスからテキストまたはデータを抽出する方法。垂直検索。愛。 — リストまたはJSON出力として表示される抽出されたテキスト

確認する各値またはフィールドの横にあるチェックボックスをオンにするか、[データの確認]をクリックしてすぐに続行できます。

ステップ5：エクスポート

すべてのファイルが検証されたら。きちんと整理されたデータをxml、xlsx、またはcsvファイルとしてエクスポートできます。

Nanonetsには興味深いものがありますユースケースそして、ユニークカスタマーサクセスストーリー. Nanonetsがビジネスの生産性を向上させる方法をご覧ください。

Nanonetsを使用してカスタムOCRモデルを構築するのは簡単です。通常、任意の画像またはドキュメントタイプのモデルを、任意の言語で、すべて25分以内に構築、トレーニング、および展開できます（モデルのトレーニングに使用されるファイルの数によって異なります）。

この方法の最初の4つの手順を実行するには、以下のビデオをご覧ください。

[埋め込まれたコンテンツ]

ナノネットを使用して独自のOCRモデルをトレーニングする方法

ステップ1：独自のOCRモデルを作成する

ログイン Nanonetsに移動し、「独自のOCRモデルを作成する」をクリックします。

ステップ2：トレーニングファイル/画像をアップロードする

OCRモデルのトレーニングに使用されるサンプルファイルをアップロードします。作成するOCRモデルの精度は、この段階でアップロードされるファイル/画像の質と量に大きく依存します。

ステップ3：ファイル/画像のテキストに注釈を付ける

次に、テキストまたはデータの各部分に適切なフィールドまたはラベルで注釈を付けます。この重要なステップでは、OCRモデルに、画像から適切なテキストを抽出し、それをニーズに関連するカスタムフィールドに関連付けるように指示します。

新しいラベルを追加して、テキストまたはデータに注釈を付けることもできます。 Nanonetsは画像のテンプレートに拘束されないことを忘れないでください！

ステップ4：カスタムOCRモデルをトレーニングする

すべてのトレーニングファイル/画像の注釈が完成したら、「トレーニングモデル」をクリックします。トレーニングには通常、トレーニング用のファイルとキューに入れられたモデルの数に応じて、20分から2時間かかります。あなたはできるアップグレードこの段階（通常は20分未満）でより速い結果を得るための有料プランに。

Nanonetsは、ディープラーニングを活用してさまざまなOCRモデルを構築し、それらを相互にテストして精度を確認します。次に、Nanonetsは（入力と精度レベルに基づいて）最適なOCRモデルを選択します。

「モデルメトリクス」タブには、Nanonetsが構築されたすべてのモデルの中から最適なOCRモデルを選択できるようにするさまざまな測定値と比較分析が表示されます。モデルを再トレーニングして（トレーニング画像の範囲を広げ、注釈を改善することで）、より高いレベルの精度を実現できます。

または、精度に満足している場合は、[テスト]をクリックして、このカスタムOCRモデルが、テキスト/データの抽出が必要な画像またはファイルのサンプルで期待どおりに機能するかどうかをテストおよび確認します。

ステップ5：データをテストおよび検証する

カスタムOCRモデルをテストおよび検証するために、いくつかのサンプル画像を追加します。

抽出されたテキストの正確さを確認します — 抽出されたテキストの正確性をテストおよび検証します

テキストが認識され、抽出され、適切に表示されている場合は、ファイルをエクスポートします。以下に示すように、抽出されたデータは整理され、きちんとした形式で表示されています。

おめでとうございます。これで、特定の種類の画像からテキストを抽出するためのカスタムOCRモデルを構築してトレーニングしました。

あなたのビジネスは、デジタルドキュメント、画像、またはPDFのテキスト認識を扱っていますか？画像からテキストを正確に抽出する方法を知りたいですか？

NanoNetsAPIを使用して独自のOCRモデルをトレーニングする

ここにあるのですトレーニングの詳細ガイドを使用して独自のOCRモデルナノネットAPI。の中にドキュメント、Python、Shell、Ruby、Golang、Java、C＃でコードサンプルを起動する準備ができているほか、さまざまなエンドポイントの詳細なAPI仕様があります。

NanonetsAPIを使用して独自のモデルをトレーニングするためのステップバイステップガイドは次のとおりです。

ステップ1：レポのクローンを作成する

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

ステップ2：無料のAPIキーを取得する

から無料のAPIキーを取得 https://app.nanonets.com/#/keys

ステップ3：APIキーを環境変数として設定する

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

ステップ4：新しいモデルを作成する

python ./code/create-model.py

注：これにより、次のステップに必要なMODEL_IDが生成されます

ステップ5：モデルIDを環境変数として追加する

export NANONETS_MODEL_ID=YOUR_MODEL_ID

ステップ6：トレーニングデータをアップロードする

検出したい物体の画像を収集します。フォルダーでデータセットの準備ができたら images （画像ファイル）、データセットのアップロードを開始します。

python ./code/upload-training.py

ステップ7：モデルのトレーニング

画像がアップロードされたら、モデルのトレーニングを開始します

python ./code/train-model.py

ステップ8：モデルの状態を取得する

モデルのトレーニングには約30分かかります。モデルがトレーニングされると、メールが届きます。その間、モデルの状態を確認します

watch -n 100 python ./code/model-state.py

ステップ9：予測を行う

モデルがトレーニングされたら。モデルを使用して予測を行うことができます

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

他のOCRAPIよりもNanonetsを使用する利点は、画像からテキストを抽出することに関して、精度が向上するだけではありません。代わりにテキスト認識にNanonetsOCRを使用することを検討する必要がある7つの理由は次のとおりです。

1.カスタムデータの操作

ほとんどのOCRソフトウェアは、処理できるデータの種類に非常に厳格です。ユースケース向けにOCRモデルをトレーニングするには、その要件と仕様に関してかなりの柔軟性が必要です。請求書処理のOCRは、パスポートのOCRとは大きく異なります。ナノネットは、そのような厳格な制限に縛られることはありません。 Nanonetsは、独自のデータを使用して、ビジネスの特定のニーズを満たすのに最適なOCRモデルをトレーニングします。

2.英語以外または複数の言語での作業

Nanonetsはカスタムデータを使用したトレーニングに重点を置いているため、任意の言語または複数の言語の画像から同時にテキストを抽出できる単一のOCRモデルを構築するために独自に配置されています。

3.後処理は不要です

OCRモデルを使用して抽出されたテキストは、インテリジェントに構造化され、わかりやすい形式で表示される必要があります。そうしないと、データを意味のある情報に再編成するためにかなりの時間とリソースが費やされます。ほとんどのOCRツールは画像からデータを取得してダンプするだけですが、Nanonetsは関連するデータのみを抽出し、それらをインテリジェントに構造化されたフィールドに自動的に分類して、表示と理解を容易にします。

4.継続的に学習します

多くの場合、企業は動的に変化する要件やニーズに直面します。潜在的な障害を克服するために、Nanonetsを使用すると、新しいデータを使用してモデルを簡単に再トレーニングできます。これにより、OCRモデルを予期しない変更に適応させることができます。

5.一般的なデータの制約を簡単に処理します

Nanonetsは、AI、ML、ディープラーニングの手法を活用して、テキストの認識と抽出に大きな影響を与える一般的なデータの制約を克服します。 Nanonets OCRは、手書きのテキスト、複数の言語のテキストの画像、低解像度の画像、新しいまたは曲線のフォントとさまざまなサイズの画像、影のあるテキスト、傾斜したテキスト、ランダムな非構造化テキスト、画像ノイズ、ぼやけた画像を認識して処理できますもっと。従来のOCRAPIは、このような制約の下で実行できるように装備されていません。それらは、実際のシナリオでは標準ではない非常に高いレベルの忠実度のデータを必要とします。

6.社内の開発者チームは必要ありません

ビジネス要件に合わせてNanonetsAPIをパーソナライズするために、開発者を雇ったり、人材を獲得したりすることを心配する必要はありません。 Nanonetsは、手間のかからない統合のために構築されました。 NanonetをほとんどのCRM、ERP、またはRPAソフトウェアと簡単に統合することもできます。

7.カスタマイズ、カスタマイズ、カスタマイズ

Nanonets OCRを使用すると、テキスト/データのフィールドをいくつでもキャプチャできます。特定のテキスト認識およびテキスト抽出の要件に対応するカスタム検証ルールを作成することもできます。 Nanonetsは、ドキュメントのテンプレートにまったく拘束されません。テーブルやラインアイテム、またはその他の形式でデータをキャプチャできます。

Nanonetsには、ビジネスパフォーマンスを最適化し、コストを節約し、成長を促進する可能性のある多くのユースケースがあります。 詳細 Nanonetsのユースケースを製品にどのように適用できるか。

またはチェックアウトナノネット OCR API アクションでカスタムの構築を開始します OCR 無料のモデル！

アップデイト 7月 2022：この投稿はもともとで公開されました 10月 2020 その後更新されました定期的に.

これがスライドですこの記事の調査結果を要約します。これが代替バージョンこの記事の。

タイムスタンプ：２０２２年７月１１日２０２２年７月１１日

タイムスタンプ： 2023 年 4 月 10 日

目次