平均的な人は、週に少なくとも 10 件の請求書を送受信していると言っても過言ではありません。 デジタル化の進展に伴い、企業は毎日大量の請求書を処理しています。 従来、請求書処理は手作業で時間のかかるプロセスであり、多大なリソースが必要であり、エラーが発生しやすいものでした。
AI と自然言語処理の出現により、請求書処理が自動化および合理化され、効率と精度の向上につながります。 GPT は「Generative Pre-trained Transformer」の略で、によって開発された強力な言語処理モデルのファミリーを指します。 OpenAI。 GPT モデルは大量のテキスト データで事前トレーニングされており、請求書処理などの特定のタスクに合わせて微調整できます。
書店の注文に対する請求書処理の場合を考えてみましょう。請求書のサンプルを下の画像に示します。 この請求書には、配送、請求、商品、価格に関する情報が記載されています。 何千もの請求書からデータを手動で収集しなければならないことを想像してみてください。 幸いなことに、私たちはプロセスをスピードアップする AI ツールを持っています。
このブログでは、GPT-4 と Nanonets を使用して請求書を処理する手順を説明します。 コーヒーを飲んで準備を整えましょう!
ステップ 1: Nanonets アカウントを作成し、イメージをアップロードする
最初のステップは、請求書の画像からテキスト データを抽出することです。 OCR (光学文字認識) 技術は、パターン認識アルゴリズムを使用して、画像またはスキャンした文書上の文字を識別し、テキストに変換します。 Nanonets が提供するクラウドベースの人工知能 (AI) プラットフォームは、請求書 OCR など、特定のタスク向けに厳選された OCR ツールを提供します。 簡単にサインアップできます こちら 請求書 OCR ツールに無料でアクセスできます。
ログインして請求書 OCR をクリックすると、「ファイルのアップロード」オプションが表示されます。 Nanonets は非常にユーザーフレンドリーで、6 つ以上のアプリからファイルをアップロードできます。
Agatha Book Store の請求書のサンプルをここにアップロードしました。 抽出は数分で完了し、次のような破棄された結果が得られます。 ここでは、エンティティとその値を抽出するために、事前トレーニングされた深層学習モデルが使用されます。
Nanonets によって識別されるすべてのテキスト フィールドは、個別のボックスで囲まれています。 これらのフィールドから抽出された値は、右側の「最終結果」タブに表示されます。 Nanonets によって行われるこのエンティティ抽出は、GPT-4 を使用することで強化できます。 Nanonets は、フィールド名を追加または変更するオプションも提供しており、これにより顧客のカスタマイズとユーザー エクスペリエンスが向上します。
手動の AP プロセスの自動化を検討していますか? 30 分間のライブ デモを予約して、ナノネットがチームのエンドツーエンドの実装にどのように役立つかを確認してください APオートメーション.
ステップ 2: OCR テキスト データをダウンロードする
抽出されたOCRテキストデータは、複数の形式でダウンロードできます。 請求書データを Excel または CSV ファイルにダウンロードするデモを確認するには、以下の GIF を確認してください。 CSV ファイルでは、すべてのエンティティ/データ フィールド名が列として保存され、それらの値は対応する行に格納されます。
ダウンロードした CSV からデータをコピーして貼り付け、OCR で生成されたテキストを取得します。 これは、Nanonets のサンプル請求書からダウンロードしたテキストです。
OCR で生成されたテキストは、次の手順で Chat GPT3 を使用して強化できます。
Nanonets で処理されたテキストに加えて GPT4 モデルを使用する場合、エンティティ抽出を拡張してさまざまなクエリをサポートできます。 Open AI アカウントには次からサインアップできます。 こちら ラージ言語モデルにアクセスします。 アカウントを設定すると、固有の API キーを受け取ります。 これはセキュリティ対策のためであり、OpenAIのサーバーに対して行われたリクエストを認証および認可するためのものです。 OpenAI パッケージをインポートし、API キーの値を設定します。
明確で構造化された方法でプロンプトをデザインすることが、大規模な言語モデルの力を解き放つ秘訣です。 データ フィールドまたはエンティティとその値を抽出するには、以下のプロンプトを使用できます。
#プロンプトを定義する
プロンプト_テキスト= これは、書店注文の請求書の OCR 生成テキストです。" +ocr_generated_text" + "提供された OCR テキストからエンティティとその値をキーと値のペアとして抽出し、キー:値の形式で出力します。"
プロンプトを取得したら、それを OpenAI の事前トレーニング済みモデルに渡し、「 openai.Completion.create()」関数。 最良の出力を得るために選択できるパラメータがいくつかあります。
GPT のパラメータ:
- エンジン: このパラメーターを使用すると、テキストの生成に使用する特定の事前トレーニングされたラージ言語モデル (LLM) を選択できます。 事前トレーニングされたモデルまたはカスタムの微調整されたモデルに設定できます。 Text Davinci は強力かつ効率的な選択肢です。
- プロンプト: これは、テキストの生成を開始するためにモデルに与える最初のテキスト プロンプトです。 この例では、前に定義した「prompt_text」変数です。
- 最大トークン数: モデルが特定のプロンプトに対して生成できるトークンの最大数を示します。 これにより、生成されるテキストの長さを制御できます。
- 温度: これを使用して、生成されるテキストのランダム性や創造性の程度を制御します。 温度の値が低いと、より保守的で予測可能な出力が生成され、温度の値が高いと、より創造的で多様な出力が生成されます。 温度値の範囲は 0 ~ 1 で、1 が最もクリエイティブになります。
GPT パラメーターについては理解できたので、プロンプト テキストを他のパラメーターとともに渡して出力を生成するコードを作成してみましょう。
次のような出力が得られました。
エンティティとその値は、わずか数ステップですぐに抽出されました。
ステップ 4: データ修正の改善
あらゆるビジネスで流通する何千もの請求書では、顧客データの不一致や軽微なエラーは避けられません。 たとえば、一部の顧客が無効な電子メール形式または連絡先番号を指定したり、日付の形式が異なる可能性があります。 Nanonets と GPT-4 を使用すると、これらの問題を簡単に特定し、データ修正を実行できます。 ルールベースの検証を実装して、正確さと形式を検証し、矛盾がないかチェックすることもできます。
GPT に日付と電子メールの検証を実行するようプロンプトを出します。
プロンプト_テキスト= 「上記で抽出されたエンティティ データで、日付の形式 (DD/MM/YYYY) と電子メールが正しいかどうかを検証します?」
LLM は、次の図に示すように、正規表現を使用して形式をチェックする Python コードを提供します。 正規表現では、特定のパターンを検索して一致させます。 抽出されたエンティティは辞書に保存され、電子メールと請求書の日付を検証するための関数が個別に定義されます。
定義した後、('請求書日付') などの任意の日付、販売者または購入者の電子メール ID をこれらの関数に渡して結果を取得できます。
GPT は、データの修正や変更を迅速かつ便利な方法で行うのにも役立ちます。 請求書の日付は「02/05/2023」であることに注意してください。 以下のプロンプトを表示して、日付を「MM/DD/YY」の形式に変換します。
プロンプト=” 抽出されたエンティティのデータの形式を 'MM/DD/YY' に変更します。 西暦の下 2 桁のみを保持してください。」
出力では、データは希望どおりに修正されています。 同様のプロンプトを表示して、連絡先番号が 10 桁であるかどうか、住所が目的の形式であるかどうかを確認し、欠落しているデータ値がないかどうかを確認することもできます。
タッチレス AP ワークフローをセットアップし、 買掛金プロセスを合理化する すぐに。 今すぐ 30 分間のライブ デモを予約してください。
ステップ 5: データの問題を確認する
データ内の矛盾は GPT-4 で簡単に特定できます。 この例では、支払総額が個々の商品価格の合計と一致していないかどうかを確認できます。 それに対するプロンプトを提供しましょう。
プロンプト=” 請求書の合計残高が請求書の数量および商品価格と一致しているかどうかを確認してください”
GPT-4 は、数量と個々の品目の価格を乗算して、すべての注文の価格の合計を計算する Python の関数を出力します。 合計残高が請求書に記載された金額と一致しない場合、特定の請求書にフラグが付けられ、調査されます。 これは、企業がエラーや矛盾を回避し、財務データを検証するのに役立つ可能性があります。
請求書の大規模なデータセットがある場合は、複数の請求書の一貫性をチェックすることもできます。 たとえば、複数の請求書にわたる売り手と買い手の情報を比較して、矛盾や異常を特定できます。
ステップ 6: GPT を使用してクエリを実行する
エンティティを抽出したら、GPT を使用して、情報全体から特定のクエリに対する回答を取得することもできます。 たとえば、特定の請求書番号の発送詳細に関する情報を知りたい場合はどうすればよいでしょうか。
それに対するプロンプトを作成しましょう:
#プロンプトを定義する
プロンプト_テキスト= 「エンティティのキーと値のペアから配送に関する詳細を抽出します」
このプロンプトに対して生成された補完は次のとおりです。
>> 確かに! 提供された OCR データに基づいて、次のように配送情報と請求情報を XNUMX つのグループとして抽出できます。
出荷情報:
「請求書番号」: 「3522」
船名: ガヤスリ・ナタラジャン
ship_to_address: 600053 No.22B、チェットペット、チェンナイ、タミル・ナードゥ州、インド: Tanaya Pakahale
同様のクエリを実行して販売者の詳細を取得することもできます。 提供されたデータから抽出された販売者に関する情報は次のとおりです。
- 販売者名: アガタブックハウス
- 販売者住所: No.13 , 2nd avenue , Indiranagar, Bangalore , Karnataka , India , 721302
- 販売者の電話番号: 6783456723
複数のドキュメントを操作する場合、合計残高が Rs.5000 を超える請求書を検索およびフィルタリングして、一括注文を分析することもできます。 GPT には過去のプロンプトをメモリに保持する機能があるため、最高の使いやすさを実現します。
手動の AP プロセスの自動化を検討していますか? 30 分間のライブ デモを予約して、ナノネットがチームのエンドツーエンドの実装にどのように役立つかを確認してください APオートメーション.
請求書処理に Nanonets + Chat GPT を選択する理由?
- GPT は、請求書のテキストを分析し、異なる形式で書かれている場合や、スペルや言葉遣いが異なる場合でも、関連するエンティティを正確に識別して抽出できます。 これはエラーを減らし、精度を高めるのに役立ちます
- Automate ビジネス向けのデータ パイプラインをスケールアップします
- 大量の請求書を処理する最も効率的な方法。 データ入力と処理に必要な時間を大幅に短縮します。
- このツールは柔軟性と適応性を提供します。 これらのツールは、 簡単に統合できる 既存のシステムに組み込むことができ、特定のビジネス ニーズに合わせてカスタマイズできます
- Nanonets の請求書 OCR ソリューションの利点の XNUMX つは、次の機能です。 その間違いから学びましょう。 このシステムは機械学習を使用して時間の経過とともに精度を向上させ、新しい請求書が処理されるたびに精度を高めます。 このプラットフォームでは、ユーザーが手動でエラーを確認して修正することもでき、抽出されたデータが正確で信頼できるものであることを確認できます。
多くの利点がありますが、この方法の限界も理解する必要があります。 画像/PDF の品質が低い状況では精度が低くなります。 Al ベースのツールは、トレーニング データに固有のバイアスやエラーの影響も受けます。
全体として、請求書処理におけるエンティティ抽出に GPT を活用すると、企業の業務の合理化、手作業の削減、精度の向上に役立ち、財務管理と意思決定の向上につながります。
タッチレス AP ワークフローをセットアップし、 買掛金プロセスを合理化する すぐに。 今すぐ 30 分間のライブ デモを予約してください。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://nanonets.com/blog/improving-invoice-processing-accuracy-nanonets-chat-gpt-4/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 13
- 5000
- 7
- 72
- a
- 能力
- 私たちについて
- アクセス
- アカウント
- 買掛金勘定
- 精度
- 正確な
- 正確にデジタル化
- 越えて
- 加えます
- 住所
- 利点
- 出現
- AI
- アルゴリズム
- すべて
- ことができます
- 沿って
- また
- 量
- 金額
- an
- 分析します
- および
- 回答
- どれか
- API
- アプリ
- です
- 人工の
- 人工知能
- 人工知能(AI)
- AS
- At
- 認証
- 認める
- 自動化する
- 自動化
- 大通り
- 平均
- 避ける
- ベース
- BE
- き
- さ
- 以下
- BEST
- より良いです
- バイアス
- 請求
- ブログ
- 本
- ボックス
- ビジネス
- ビジネス
- 買い手..
- by
- 缶
- 場合
- 変化する
- 変更
- 文字
- 文字認識
- 文字
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チェック
- チェンナイ
- 選択
- 選択する
- クリア
- クリック
- コード
- コーヒー
- 収集する
- コラム
- COM
- 比較します
- 記入済みの
- 完成
- 保守的な
- 整合性のある
- 接触
- コントロール
- 便利
- 変換
- 正しい
- 訂正さ
- 補正
- 対応する
- 可能性
- 作ります
- クリエイティブ
- 創造性
- カップ
- キュレーション
- カスタム
- 顧客
- 顧客データ
- Customers
- カスタム化
- カスタマイズ
- データ
- データ入力
- 日付
- 試合日
- 中
- 取引
- 意思決定
- 深いです
- 深い学習
- 定義済みの
- 定義
- 度
- デモ
- 希望
- 細部
- 発展した
- 異なります
- デジタル化
- 数字
- ドキュメント
- ありません
- 行われ
- ダウンロード
- 原因
- 各
- 前
- 緩和する
- 使いやすさ
- 簡単に
- 効率
- 効率的な
- 端から端まで
- 強化された
- 強化
- 確保する
- 全体
- エンティティ
- エンティティ
- エントリ
- エラー
- さらに
- あらゆる
- 毎日
- 例
- Excel
- 既存の
- 体験
- 表現
- 表現
- エキス
- おなじみの
- 家族
- スピーディー
- 少数の
- フィールド
- フィールズ
- File
- filter
- ファイナンシャル
- 財務データ
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フィット
- フラグが立てられた
- 柔軟性
- 次
- 形式でアーカイブしたプロジェクトを保存します.
- フォーム
- 無料版
- から
- function
- 機能
- ギア
- 生成する
- 生成された
- 生成
- 生々しい
- 取得する
- GIF
- 与える
- 与えられた
- グラブ
- グループの
- 成長
- 持ってる
- 持って
- 助けます
- ことができます
- こちら
- 認定条件
- HTTPS
- i
- 私は
- ID
- 特定され
- 識別する
- if
- 画像
- 画像
- 絵
- 実装する
- import
- 改善します
- 改善されました
- 改善
- in
- 含めて
- 増える
- インド
- 個人
- 情報
- 固有の
- 初期
- インテリジェンス
- に
- 請求書ocr
- 請求書の処理
- 問題
- IT
- リーディングシート
- ITS
- ただ
- キープ
- キー
- 知っている
- 言語
- 大
- 姓
- 主要な
- リード
- LEARN
- 学習
- 最低
- 長さ
- ことができます
- 活用
- 制限
- ライブ
- LLM
- ログ
- たくさん
- ロー
- 機械
- 機械学習
- 製
- make
- 作成
- 管理
- マニュアル
- 手仕事
- 手動で
- 大規模な
- 一致
- 五月..
- 措置
- メモリ
- 方法
- かもしれない
- マイナー
- 分
- 行方不明
- ミス
- モデル
- 修正する
- 他には?
- 最も
- の試合に
- 掛け算
- 名
- ナチュラル
- 自然言語処理
- 必要
- 必要とされる
- ニーズ
- 新作
- 次の
- いいえ
- 今
- 数
- 番号
- 入手する
- 入手
- OCR
- OCRソリューション
- ocr ツール
- of
- オファー
- on
- かつて
- ONE
- の
- 開いた
- OpenAI
- 業務執行統括
- 光学式文字認識
- オプション
- オプション
- or
- 注文
- 受注
- その他
- 私たちの
- 出力
- が
- パッケージ
- ペア
- パラメーター
- パラメータ
- 特定の
- パス
- 通過
- 過去
- パターン
- 実行する
- 実行
- 人
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 貧しいです
- 電力
- 強力な
- 正確な
- 予測可能な
- ブランド
- 価格、またオプションについて
- プロセス
- 処理済み
- ラボレーション
- 処理
- 生産する
- 提供します
- 提供
- は、大阪で
- Python
- 品質
- 量
- クエリ
- すぐに
- ランダム
- 受け取ります
- 認識
- 減らします
- 軽減
- 指し
- レギュラー
- 関連した
- 信頼性のある
- リクエスト
- リソース
- 応答
- 結果
- 結果
- リテンションを維持
- レビュー
- 右
- s
- 前記
- 規模
- を検索
- 秒
- 秘密
- セキュリティ
- セキュリティー対策
- 見て
- 販売
- 別
- サーバー
- セッションに
- 発送
- オンラインストア
- 示す
- 符号
- 重要
- 著しく
- 同様の
- 単に
- から
- 状況
- 溶液
- 一部
- 特定の
- スピード
- スタンド
- start
- 手順
- ステップ
- 店舗
- 保存され
- 流線
- 合理化された
- 構造化された
- テーマ
- そのような
- サポート
- システム
- 取る
- タスク
- チーム
- テクニック
- より
- それ
- 情報
- アプリ環境に合わせて
- その後
- そこ。
- ボーマン
- 彼ら
- この
- 数千
- 介して
- 時間
- 時間がかかる
- 〜へ
- トークン
- あまりに
- ツール
- 豊富なツール群
- top
- トータル
- タッチレス
- 伝統的に
- トレーニング
- トランス
- 2
- わかる
- ユニーク
- ロック解除
- アップロード
- us
- つかいます
- 中古
- ユーザー
- 操作方法
- 「DeckleBenchは非常に使いやすく最適なソリューションを簡単に見つけることができるため、稼働率が向上しコストも削減した。当社の旧システムは良かったが改善は期待していなかった。
- users
- 使用されます
- 検証
- 値
- 価値観
- 確認する
- 非常に
- ボリューム
- 欲しいです
- ました
- 仕方..
- we
- 週間
- この試験は
- いつ
- which
- while
- 意志
- 言い回し
- 仕事
- ワークフロー
- ワーキング
- でしょう
- 書きます
- 書かれた
- You
- あなたの
- ゼファーネット