大規模言語モデル (LLM) を使用すると、複雑なドキュメントを分析し、質問に対する要約と回答を提供できます。 ポスト ドメイン適応 財務データの Amazon SageMaker JumpStart での基盤モデルの微調整 独自のデータセットを使用して LLM を微調整する方法について説明します。 安定した LLM を取得したら、その LLM をビジネス ユーザーに公開して、数百ページにもなる新しいドキュメントを処理することをお勧めします。 この投稿では、ビジネス ユーザーが任意の長さの PDF ドキュメントを処理できるようにするリアルタイム ユーザー インターフェイスを構築する方法を示します。 ファイルが処理されたら、文書を要約したり、内容について質問したりできます。 この投稿で説明されているサンプル ソリューションは、次のサイトから入手できます。 GitHubの.
財務書類の操作
四半期収益報告書や株主向けの年次報告書などの財務諸表は、多くの場合、数十ページまたは数百ページに及びます。 これらの文書には、免責事項や法律用語などの定型文が多数含まれています。 これらの文書の XNUMX つから重要なデータ ポイントを抽出したい場合は、興味深い事実を特定できるように、時間と定型言語の知識が必要です。 そしてもちろん、一度も見たことのない文書について LLM に質問することはできません。
要約に使用される LLM には、モデルに渡されるトークン (文字) の数に制限があり、一部の例外を除いて、通常は数千トークンを超えません。 これにより、通常、長い文書を要約することができなくなります。
私たちのソリューションは、LLM の最大トークン シーケンス長を超えるドキュメントを処理し、そのドキュメントを LLM が質問応答に利用できるようにします。
ソリューションの概要
私たちのデザインには XNUMX つの重要な要素があります。
- ビジネス ユーザーが PDF をアップロードして処理できるインタラクティブな Web アプリケーションがあります。
- langchain ライブラリを使用して、大きな PDF をより管理しやすいチャンクに分割します。
- 検索拡張生成技術を使用して、LLM がこれまでに見たことのない新しいデータについてユーザーが質問できるようにします。
次の図に示すように、React JavaScript で実装されたフロントエンドを使用します。 Amazon シンプル ストレージ サービス (Amazon S3) バケットの前にある アマゾンCloudFrontの。 フロントエンド アプリケーションを使用すると、ユーザーは PDF ドキュメントを Amazon S3 にアップロードできます。 アップロードが完了したら、次の機能を利用してテキスト抽出ジョブをトリガーできます。 アマゾンテキストラック。 後処理の一環として、 AWSラムダ 関数は、ページ境界を示す特別なマーカーをテキストに挿入します。 そのジョブが完了したら、テキストを要約したり、テキストに関する質問に答えたりする API を呼び出すことができます。
これらの手順の一部には時間がかかる場合があるため、アーキテクチャでは分離された非同期アプローチが使用されます。 たとえば、ドキュメントを要約する呼び出しは、メッセージを Amazon シンプル キュー サービス (Amazon SQS) キュー。 別の Lambda 関数がそのメッセージを取得し、 Amazon エラスティック コンテナ サービス (アマゾン ECS) AWSファーゲート タスク。 Fargate タスクは アマゾンセージメーカー 推論エンドポイント。 非常に長い PDF を要約するには、Lambda 関数が使用できる以上の時間とメモリが必要になる可能性があるため、ここでは Fargate タスクを使用します。 要約が完了すると、フロントエンド アプリケーションは結果を Amazon DynamoDB 列で番号の横にあるXをクリックします。
要約には、AI21 の Summarize モデルを使用します。これは、 Amazon SageMaker ジャンプスタート。 このモデルは最大 10,000 ワード (約 40 ページ) のドキュメントを処理しますが、langchain のテキスト スプリッターを使用して、LLM への各要約呼び出しの長さが 10,000 ワード以下であることを確認します。 テキスト生成には Cohere の Medium モデルを使用し、埋め込みには GPT-J を、どちらも JumpStart 経由で使用します。
要約処理
大きなドキュメントを処理する場合は、ドキュメントをより小さな部分に分割する方法を定義する必要があります。 Amazon Textract からテキスト抽出結果を取得すると、大きなテキストの塊 (構成可能なページ数)、個々のページ、および改行にマーカーを挿入します。 Langchain はこれらのマーカーに基づいて分割し、トークン制限を下回る小さなドキュメントを組み立てます。 次のコードを参照してください。
要約チェーン内の LLM は、SageMaker エンドポイントの薄いラッパーです。
質問に答える
検索拡張生成方法では、最初に文書を小さなセグメントに分割します。 各セグメントのエンベディングを作成し、langchain のインターフェイスを介してオープンソースの Chroma ベクトル データベースに保存します。 データベースを AmazonElasticファイルシステム 後で使用するための (Amazon EFS) ファイル システム。 次のコードを参照してください。
埋め込みの準備ができたら、ユーザーは質問することができます。 ベクトル データベースを検索して、質問に最もよく一致するテキスト チャンクを見つけます。
最もよく一致するチャンクを取得し、それをテキスト生成モデルのコンテキストとして使用して質問に答えます。
ユーザーエクスペリエンス
LLM は高度なデータ サイエンスを表しますが、LLM のユースケースのほとんどは、最終的には非技術ユーザーとの対話を伴います。 このサンプル Web アプリケーションは、ビジネス ユーザーが新しい PDF ドキュメントをアップロードして処理できる対話型の使用例を処理します。
次の図は、ユーザー インターフェイスを示しています。 ユーザーはまず PDF をアップロードします。 ドキュメントが Amazon S3 に保存されると、ユーザーはテキスト抽出ジョブを開始できるようになります。 それが完了すると、ユーザーは要約タスクを呼び出したり、質問したりできます。 ユーザー インターフェイスには、チャンク サイズやチャンクのオーバーラップなどのいくつかの高度なオプションが表示されます。これは、新しいドキュメントでアプリケーションをテストする上級ユーザーにとって役立ちます。
次のステップ
LLM は、重要な新しい情報検索機能を提供します。 ビジネス ユーザーは、これらの機能に簡単にアクセスできる必要があります。 今後の取り組みについては、次の XNUMX つの方向性を考慮する必要があります。
- Jumpstart 基盤モデルですでに利用可能な強力な LLM を活用してください。 わずか数行のコードで、サンプル アプリケーションは AI21 と Cohere の高度な LLM をデプロイし、テキストの要約と生成に利用できます。
- これらの機能を技術者以外のユーザーも利用できるようにします。 PDF ドキュメントを処理するための前提条件はドキュメントからテキストを抽出することであり、要約ジョブの実行には数分かかる場合があります。 そのためには、非同期バックエンド処理機能を備えたシンプルなユーザー インターフェイスが必要になります。これは、Lambda や Fargate などのクラウドネイティブ サービスを使用して簡単に設計できます。
PDF ドキュメントは半構造化情報であることにも注意してください。 セクション見出しなどの重要な手がかりは、フォント サイズやその他の視覚的な指標に依存しているため、プログラムで識別するのが困難です。 情報の基礎となる構造を特定すると、少なくとも LLM が無制限の長さの入力を処理できるようになるまでは、LLM がデータをより正確に処理するのに役立ちます。
まとめ
この投稿では、ビジネス ユーザーが要約や質問に答えるために PDF ドキュメントをアップロードおよび処理できる対話型 Web アプリケーションを構築する方法を説明しました。 Jumpstart 基盤モデルを利用して高度な LLM にアクセスし、テキスト分割と検索拡張生成技術を使用して長いドキュメントを処理し、LLM が情報として利用できるようにする方法を確認しました。
現時点では、これらの強力な機能をユーザーが利用できるようにしない理由はありません。 を使用し始めることをお勧めします。 ジャンプスタート基盤モデル 。
著者,
ランディ・デフォー AWS のシニア プリンシパル ソリューション アーキテクトです。 彼はミシガン大学で修士号を取得しており、そこで自動運転車のコンピューター ビジョンに取り組みました。 彼はコロラド州立大学で MBA も取得しています。 Randy は、ソフトウェア エンジニアリングから製品管理に至るまで、テクノロジー分野でさまざまな役職を歴任してきました。 氏は 2013 年にビッグデータ分野に参入し、引き続きその分野の探索を続けています。 彼は ML 分野のプロジェクトに積極的に取り組んでおり、Strata や GlueCon などの数多くのカンファレンスで講演を行っています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/use-a-generative-ai-foundation-model-for-summarization-and-question-answering-using-your-own-data/
- :持っている
- :は
- :not
- :どこ
- $UP
- 000
- 10
- 100
- 13
- 14
- 視聴者の38%が
- 2013
- 25
- 40
- 500
- 7
- a
- 能力
- できる
- 私たちについて
- それについて
- アクセス
- アクセス可能な
- 正確にデジタル化
- 積極的に
- 高度な
- 利点
- 後
- AI
- 既に
- また
- しかし
- Amazon
- アマゾンセージメーカー
- Amazon SageMaker ジャンプスタート
- アマゾンテキストラック
- Amazon Webサービス
- an
- 分析します
- および
- 毎年恒例の
- 別の
- 回答
- 回答
- API
- 申し込み
- アプローチ
- 約
- 建築
- です
- AREA
- 周りに
- AS
- At
- 増強された
- 著者
- 自律的
- 自律車両
- 利用できます
- AWS
- バック
- バックエンド
- ベース
- BE
- なぜなら
- ビッグ
- ビッグデータ
- 両言語で
- 境界
- 休憩
- ビルド
- ビジネス
- by
- コール
- コール
- 缶
- 機能
- 場合
- 例
- チェーン
- 文字
- 密接に
- コード
- コロラド州
- コンプリート
- 複雑な
- コンピュータ
- Computer Vision
- 会議
- 検討
- 構築する
- 含む
- コンテナ
- コンテンツ
- コンテキスト
- 続ける
- 便利
- 可能性
- コース
- 作ります
- データ
- データポイント
- データサイエンス
- データベース
- 分離された
- 定義します
- 実証します
- 展開します
- 記載された
- 設計
- 難しい
- ドキュメント
- ドキュメント
- 行われ
- 各
- 利益
- 簡単に
- 奨励する
- end
- エンドポイント
- エンジニアリング
- 入力されました
- 例
- 超えます
- 探る
- エキス
- 事実
- 親しみ
- 少数の
- File
- ファイナンシャル
- 名
- フォロー中
- Foundation
- から
- フロント
- フロントエンド
- function
- 未来
- 世代
- 生々しい
- 生成AI
- 取得する
- ハンドル
- ハンドル
- ハンドリング
- 持ってる
- he
- ヒーロー
- ことができます
- こちら
- 保持している
- 主催
- 認定条件
- How To
- HTTP
- HTTPS
- 何百
- 識別する
- 識別
- if
- 実装
- 重要
- in
- 含めて
- インジケータ
- 個人
- 情報
- インサート
- 相互作用
- 相互作用的
- 興味深い
- インタフェース
- に
- 呼び出す
- 巻き込む
- IT
- JavaScriptを
- ジョブ
- Jobs > Create New Job
- JPG
- ただ
- キー
- 言語
- 大
- より大きい
- 後で
- 最低
- リーガルポリシー
- 長さ
- う
- ことができます
- 図書館
- ような
- LIMIT
- LINE
- ライン
- LLM
- ローダ
- 長い
- より長いです
- たくさん
- make
- 扱いやすいです
- 管理
- 一致
- マッチング
- 五月..
- ミディアム
- メモリ
- メッセージ
- 方法
- ミシガン州
- 分
- ML
- モデル
- 他には?
- 最も
- 必要
- 決して
- 新作
- いいえ
- 非技術的な
- 通常は
- 数
- 多数の
- of
- 頻繁に
- on
- かつて
- ONE
- オープンソース
- オプション
- or
- その他
- 私たちの
- 自分の
- ページ
- ページ
- 部
- 渡された
- 選ぶ
- ピック
- 画像
- ピース
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポイント
- ポジション
- ポスト
- 投稿
- パワード
- 強力な
- PLM platform.
- 校長
- プロセス
- 処理済み
- 処理
- プロダクト
- 製品管理
- プロジェクト(実績作品)
- 提供します
- 質問
- 質問
- 測距
- 反応する
- 準備
- への
- 理由
- 頼る
- レポート
- 表す
- 応答
- 回答
- 結果
- return
- ラン
- セージメーカー
- Save
- 見ました
- 科学
- を検索
- セクション
- 見て
- セグメント
- セグメント
- 自己
- シニア
- シーケンス
- サービス
- いくつかの
- 株主総会
- 示されました
- 示す
- 作品
- 重要
- 簡単な拡張で
- サイズ
- サイズ
- より小さい
- So
- ソフトウェア
- ソフトウェア工学
- 固体
- 溶液
- ソリューション
- 一部
- スペース
- 特別
- split
- 分割
- start
- 開始
- 都道府県
- 文
- ステップ
- Force Stop
- ストレージ利用料
- 店舗
- 保存され
- 構造
- そのような
- まとめる
- 概要
- 確か
- テーブル
- 取る
- 仕事
- テクニック
- テクノロジー
- 十
- テスト
- より
- それ
- それら
- そこ。
- ボーマン
- 彼ら
- この
- それらの
- 三
- 介して
- 時間
- 〜へ
- 今日
- トークン
- トークン
- トリガー
- 2
- 一般的に
- 最終的に
- 下
- 根本的な
- 大学
- まで
- アップロード
- つかいます
- 使用事例
- 中古
- ユーザー
- ユーザーインターフェース
- users
- 使用されます
- 多様
- 車
- 非常に
- 、
- ビジョン
- 欲しいです
- we
- ウェブ
- ウェブアプリケーション
- Webサービス
- いつ
- which
- 誰
- 意志
- 言葉
- 仕事
- 働いていました
- ワーキング
- でしょう
- You
- あなたの
- ゼファーネット