さまざまな業界の組織が、自動テキスト要約を使用して、膨大な量の情報をより効率的に処理し、より適切な意思決定を行っています。金融セクターでは、投資銀行は四半期業績を迅速に分析するために、重要なポイントに絞って収益レポートを作成します。メディア企業は要約を使用してニュースやソーシャル メディアを監視し、ジャーナリストが発展途上の問題について記事を迅速に作成できるようにします。政府機関は、政策立案者が戦略を立て、目標に優先順位を付けるのに役立つよう、長大な政策文書や報告書を要約しています。
要約テクノロジーを使用すると、長く複雑な文書の要約バージョンを作成することで、ユーザーは最も重要なコンテンツに焦点を当てることができます。これにより、重要な情報の理解と保持が向上します。時間の節約により、関係者はより短い時間でより多くの資料をレビューでき、より広い視野を得ることができます。理解を強化し、より総合的な洞察を得ることで、組織はより適切な情報に基づいた戦略的意思決定を行い、研究を加速し、生産性を向上させ、その影響力を高めることができます。あふれる情報ストリームを活用するために人工知能 (AI) を導入する業界が増えるにつれて、高度な要約機能の変革力は今後も増大し続けるでしょう。
この投稿では、ROUGE メトリクス、METEOR、BERTScore など、要約の精度を客観的に評価するための主要なアプローチを検討します。これらの手法の長所と短所を理解することは、選択と改善の取り組みをガイドするのに役立ちます。この投稿の全体的な目標は、要約評価をわかりやすく説明し、チームが価値の最大化を目指す際に、この重要な機能のベンチマーク パフォーマンスを向上できるようにすることです。
要約の種類
要約は一般に、抽出的要約と抽象的要約の 2 つの主なタイプに分類できます。どちらのアプローチも、長いテキストを短い形式に圧縮して、元のコンテンツの最も重要な情報や本質を捉えることを目的としていますが、その方法は根本的に異なります。
抽出的要約では、元のテキストからキーフレーズ、センテンス、セグメントを変更せずに特定して抽出します。システムは、テキストの中で最も有益または全体を代表していると思われる部分を選択します。抽出的要約は、正確さが重要であり、要約が元のテキストからの正確な情報を反映する必要がある場合に役立ちます。これらは、利用規約に概説されている特定の法的条件、義務、権利を強調するなどのユースケースである可能性があります。抽出的要約に使用される最も一般的な手法は、用語頻度 - 逆文書頻度 (TF-IDF)、文スコアリング、テキスト ランク アルゴリズム、および教師あり機械学習 (ML) です。
抽象的な要約は、元のテキストにはない新しいフレーズや文を生成することでさらに一歩進み、基本的に元の内容を言い換えて要約します。このアプローチでは、AI が意味を解釈して新しい簡潔な形式で表現する必要があるため、テキストをより深く理解する必要があります。大規模言語モデル (LLM) は、要約を生成するときに、トランスフォーマー モデルがアテンション メカニズムを使用して入力テキストの関連部分に焦点を当てるため、抽象的な要約に最適です。アテンション メカニズムにより、モデルは入力シーケンス内のさまざまな単語またはトークンにさまざまな重みを割り当てることができ、長距離の依存関係や文脈に関連した情報をキャプチャできるようになります。
これら 2 つの主要なタイプに加えて、抽出メソッドと抽象メソッドを組み合わせたハイブリッド アプローチもあります。これらのアプローチは、最も重要なコンテンツを特定するための抽出的な要約から開始し、次に抽象的な手法を使用してそのコンテンツを流暢な要約に書き直すか圧縮する場合があります。
課題
概要の品質を評価する最適な方法を見つけることは、依然として未解決の課題です。組織が文書から重要な情報を抽出するために自動テキスト要約への依存が高まるにつれ、要約の精度を測定するための標準化された技術の必要性が高まっています。理想的には、これらの評価指標は、機械生成された要約が原文から最も重要な内容をどの程度うまく抽出し、元の意味と文脈を反映した一貫した要約を提示するかを定量化します。
ただし、テキスト要約のための堅牢な評価方法を開発するには、次のような困難が伴います。
- 比較に使用される人間が作成した参考概要は、重要性の主観的な判断に基づいて大きなばらつきを示すことがよくあります。
- 流暢さ、読みやすさ、一貫性などの要約品質の微妙な側面は、プログラムで定量化することが難しいことが判明しています
- 統計アルゴリズムからニューラル ネットワークに至るまで、集計方法には幅広いバリエーションが存在し、直接比較が複雑になっています。
要点評価のための想起指向の代役調査 (ROUGE)
ルージュの指標ROUGE-N や ROUGE-L などの要約は、人間が作成した参考要約と比較して、機械によって生成された要約の品質を評価する際に重要な役割を果たします。これらの指標は、単語またはトークンのグループである N グラムを分析することによって、機械が生成した要約の内容と人間が作成した要約の内容の重複を評価することに焦点を当てています。たとえば、ROUGE-1 は個々の単語 (ユニグラム) の一致を評価しますが、ROUGE-2 は単語のペア (バイグラム) を考慮します。さらに、ROUGE-N は XNUMX つのテキスト間で共通する最長の単語部分列を評価し、語順の柔軟性を可能にします。
これを説明するために、次の例を考えてみましょう。
- ROGUE-1 メトリクス – ROUGE-1 は、生成された要約と参照要約の間のユニグラム (単一の単語) の重複を評価します。たとえば、参照概要に「茶色のキツネは素早くジャンプします」が含まれており、生成された概要が「茶色のキツネは素早くジャンプします」である場合、ROUGE-1 メトリクスは「茶色」、「キツネ」、および「ジャンプ」が重複しているとみなします。ユニグラム。 ROUGE-1 は、要約内の個々の単語の存在に焦点を当て、生成された要約が参考要約からのキーワードをどの程度うまく捉えているかを測定します。
- ROGUE-2 メトリクス – ROUGE-2 は、生成された要約と参照要約の間のバイグラム (隣接する単語のペア) の重複を評価します。たとえば、参照概要に「猫は眠っている」があり、生成された概要が「猫が眠っている」である場合、ROUGE-2 は「猫がいる」と「眠っている」を重複するバイグラムとして識別します。 ROUGE-2 は、生成された要約が参照要約と比較して単語ペアの順序と文脈をどの程度維持しているかについての洞察を提供します。
- ROUGE-N メトリクス – ROUGE-N は、N が任意の数値を表す一般化された形式であり、n グラム (N 個の単語のシーケンス) に基づいて評価できます。 N=3 と考えると、参照サマリーに「太陽が明るく輝いている」と記載されており、生成されたサマリーが「太陽が明るく輝いている」である場合、ROUGE-3 は「太陽が明るく輝いている」を一致するトリグラムとして認識します。 ROUGE-N は、さまざまな長さの単語シーケンスに基づいて要約を評価する柔軟性を提供し、コンテンツの重複についてより包括的な評価を提供します。
これらの例は、生成された要約をさまざまなレベルの単語シーケンスに基づいて参照要約と比較することによって、自動要約または機械翻訳タスクを評価する際に ROUGE-1、ROUGE-2、および ROUGE-N メトリクスがどのように機能するかを示しています。
ROUGE-N スコアを計算する
次の手順を使用して、ROUGE-N スコアを計算できます。
- 空白や自然言語処理 (NLP) ライブラリによる分割などの基本的なトークン化方法を使用して、生成された概要と参照概要を個々の単語またはトークンにトークン化します。
- 生成された要約と参照要約の両方から n グラム (N 個の単語の連続シーケンス) を生成します。
- 生成されたサマリーと参照サマリーの間で重複する n グラムの数をカウントします。
- 適合率、再現率、および F1 スコアを計算します。
- 精度 – 生成されたサマリー内の重複する n グラムの数を n グラムの総数で割った値。
- リコール – 重複する n グラムの数を参考資料の要約内の n グラムの総数で割った値。
- F1スコア – 適合率と再現率の調和平均。(2 * 適合率 * 再現率) / (適合率 + 再現率) として計算されます。
- データセット内の各行の適合率、再現率、および F1 スコアを計算して得られた集計 F1 スコアは、ROUGE-N スコアと見なされます。
制限事項
ROGUE には次の制限があります。
- 語彙の重複に重点を置く – ROUGE の背後にある中心的なアイデアは、システムが生成した要約を一連の参照または人間が作成した要約と比較し、それらの間の語彙の重複を測定することです。これは、ROUGE が単語レベルの類似性に非常に限定的に焦点を当てていることを意味します。実際には、要約の意味論的な意味、一貫性、読みやすさは評価されません。システムは、一貫した簡潔な要約を生成しなくても、元のテキストから文を一語一語抽出するだけで、高い ROUGE スコアを達成できます。
- 言い換えに対する鈍感さ – ROUGE は語彙一致に依存しているため、単語とフレーズ間の意味上の同等性を検出できません。したがって、たとえ意味が保たれていたとしても、言い換えや同義語の使用は ROUGE スコアの低下につながることがよくあります。これは、抽象的な方法で言い換えたり要約したりするシステムにとって不利になります。
- 意味的理解の欠如 – ROUGE は、システムが原文の意味や概念を本当に理解したかどうかを評価しません。要約では、主要なアイデアが欠落していたり、事実の矛盾が含まれたりする一方で、参考文献と語彙的に重複する可能性が高くなります。 ROUGE はこれらの問題を特定しません。
ルージュを使うタイミング
ROUGE はシンプルかつ高速に計算できます。コンテンツの選択に関連する要約品質のベースラインまたはベンチマークとして使用します。 ROUGE メトリックは、抽象的な要約タスク、自動要約評価、LLM の評価、およびさまざまな要約アプローチの比較分析を含むシナリオで最も効果的に使用されます。こうした状況で ROUGE メトリクスを使用することで、関係者は概要生成プロセスの品質と有効性を定量的に評価できます。
明示的な順序付けによる翻訳の評価指標 (METEOR)
要約システムを評価する際の大きな課題の 1 つは、単にソース テキストから関連する単語や語句を選択するのではなく、生成された要約がどの程度論理的に流れているかを評価することです。関連するキーワードや文章を抽出するだけでは、必ずしも一貫性のある要約が得られるとは限りません。たとえ元の文書と同じ順序で提示されていなくても、要約はスムーズに流れ、アイデアを論理的に結び付ける必要があります。
単語をルートまたは基本形式に減らすことによる照合の柔軟性 (たとえば、ステミング後、「running」、「runs」、「ran」などの単語はすべて「run」になります) と同義語が意味します。 METEOR 要約の質に関する人間の判断との相関性が高くなります。たとえ表現が異なっていても、重要なコンテンツが保存されているかどうかを識別できます。これは、トークンの正確な一致のみを検索する ROUGE のような N グラム ベースのメトリクスに比べて重要な利点です。 METEOR は、リファレンスの最も顕著な内容に焦点を当てた要約にも高いスコアを与えます。繰り返しの情報や無関係な情報には低いスコアが与えられます。これは、最も重要なコンテンツのみを保持するという要約の目的とよく一致しています。 METEOR は、テキスト要約を評価するための N グラム マッチングの制限の一部を克服できる、意味的に意味のあるメトリックです。ステミングと同義語を組み込むことで、情報の重複とコンテンツの正確性をより適切に評価できるようになります。
これを説明するために、次の例を考えてみましょう。
参考資料の概要: 秋には葉が落ちます。
生成された概要 1: 秋には葉が落ちます。
生成された概要 2: 夏には緑の葉を残します。
参照と生成された要約 1 の間で一致する単語が強調表示されます。
参考資料の概要: 葉 秋 秋の間に。
生成された概要 1: 葉 ドロップイン 秋.
「秋」と「秋」は異なるトークンですが、METEOR は同義語マッチングによってこれらを同義語として認識します。 「Drop」と「fall」は語幹一致として識別されます。生成されたサマリー 2 では、「Leaves」以外に参照サマリーとの一致がないため、このサマリーははるかに低い METEOR スコアを受け取ります。意味的に意味のある一致が多いほど、METEOR スコアは高くなります。これにより、METEOR は、単純な N グラム マッチングと比較して、概要の内容と精度をより適切に評価できるようになります。
METEORスコアを計算する
METEOR スコアを計算するには、次の手順を実行します。
- 空白や NLP ライブラリによる分割などの基本的なトークン化方法を使用して、生成された概要と参照概要を個々の単語またはトークンにトークン化します。
- ユニグラム精度、再現率、および F 平均スコアを計算し、精度よりも再現率に重みを付けます。
- 完全一致が強調されすぎないように、完全一致にはペナルティを適用します。ペナルティは、データセットの特性、タスク要件、精度と再現率のバランスに基づいて選択されます。ステップ 2 で計算された F 平均スコアからこのペナルティを減算します。
- ステム形式 (単語を基本形式またはルート形式に還元) およびユニグラムの同義語 (該当する場合) の F 平均スコアを計算します。これを以前に計算された F 平均スコアと集計して、最終的な METEOR スコアを取得します。 METEOR スコアの範囲は 0 ~ 1 で、0 は生成された要約と参照要約の間に類似性がないことを示し、1 は完全に一致していることを示します。通常、要約スコアは 0 ~ 0.6 の範囲にあります。
制限事項
要約タスクの評価に METEOR メトリックを使用する場合、いくつかの課題が発生する可能性があります。
- 意味の複雑さ – METEOR は意味上の類似性を重視しているため、複雑な要約タスクで微妙な意味や文脈を捉えるのが難しく、評価が不正確になる可能性があります。
- 基準の変動性 – 参照内容の違いは機械が生成した概要の評価に影響を与える可能性があるため、人間が作成した参照概要のばらつきは METEOR スコアに影響を与える可能性があります。
- 言語の多様性 – METEOR の有効性は、言語の違い、構文の違い、意味上のニュアンスにより言語によって異なる可能性があり、多言語要約の評価に課題をもたらします。
- 長さの不一致 – さまざまな長さの要約を評価することは、METEOR にとって困難な場合があります。これは、参照要約と比較した長さの不一致がペナルティや評価の不正確さにつながる可能性があるためです。
- パラメータチューニング – さまざまなデータセットや要約タスクに合わせて METEOR のパラメータを最適化するには時間がかかり、メトリクスが正確な評価を提供できるようにするために慎重な調整が必要です。
- 評価の偏り – 特定の要約ドメインまたはタスクに対して適切に調整または校正されていない場合、METEOR では評価にバイアスが生じるリスクがあります。これにより、結果が歪む可能性があり、評価プロセスの信頼性に影響を与える可能性があります。
これらの課題を認識し、METEOR を要約タスクの指標として使用するときに考慮することで、研究者や実務者は潜在的な制限を回避し、評価プロセスにおいてより多くの情報に基づいた意思決定を行うことができます。
METEORを使用する場合
METEOR は、テキストの概要の品質を自動的に評価するためによく使用されます。概要内のアイデア、コンセプト、またはエンティティの順序が重要な場合は、評価指標として METEOR を使用することが望ましいです。 METEOR は順序を考慮して、生成されたサマリーと参照サマリーの間で N-gram を照合します。連続した情報を保持する要約に報酬を与えます。 N-gram と参照概要の重複に依存する ROUGE のような指標とは異なり、METEOR は語幹、同義語、言い換えを照合します。 METEOR は、元のテキストを要約する正しい方法が複数ある場合に、より効果的に機能します。 METEOR には、N グラムの照合時に WordNet の同義語と語幹付きトークンが組み込まれています。つまり、意味的には似ていても、異なる単語やフレーズが使用されている要約でも、高いスコアが得られます。 METEOR には、n グラムが繰り返される要約に対するペナルティが組み込まれています。したがって、単語ごとの抽出や抽象化の欠如を妨げます。 METEOR は、概要の品質を判断するために意味上の類似性、アイデアの順序、流暢な表現が重要な場合に適しています。参考文献の概要との語彙の重複のみが問題となるタスクにはあまり適していません。
BERTScore
ROUGE や METEOR などの表面レベルの語彙測定では、要約候補と参照要約の間の単語の重複を比較することで要約システムを評価します。ただし、単語やフレーズ間の文字列の正確な一致に大きく依存しています。これは、表面的な形式は異なるが、根底にある意味は似ている単語やフレーズ間の意味上の類似性を見逃してしまう可能性があることを意味します。これらの指標は表面一致のみに依存するため、同義語を使用したり、参照概要とは異なる概念を言い換えたりするシステム概要の品質を過小評価する可能性があります。 2 つの要約はほぼ同じ情報を伝えますが、語彙の違いにより表面レベルのスコアが低くなります。
BERTScore これは、人間が作成した参考要約と比較することで、その要約がどの程度優れているかを自動的に評価する方法です。一般的な NLP 手法である BERT を使用して、候補の概要と参考資料の概要内の単語の意味とコンテキストを理解します。具体的には、候補概要内の各単語またはトークンを調べ、各単語の意味とコンテキストのベクトル表現である BERT 埋め込みに基づいて、参照概要内で最も類似した単語を見つけます。ベクトルが互いにどれだけ近いかを示すコサイン類似度を使用して類似性を測定します。候補概要内の単語ごとに、BERT の言語理解に基づいて、参考資料概要内で最も関連性の高い単語が検索されます。これらすべての単語の類似性をサマリー全体にわたって比較し、候補サマリーが参照サマリーと意味的にどの程度似ているかの総合スコアを取得します。 BERT によって取得された単語と意味が類似しているほど、BERTScore は高くなります。これにより、毎回人間による評価を必要とせずに、生成された概要を人間の参照と比較することで、その品質を自動的に評価できます。
これを説明するために、「機敏な茶色のキツネが怠惰な犬を飛び越える」という機械が生成した要約があると想像してください。ここで、人間が作成した参考文献の要約を考えてみましょう。「足の速い茶色のキツネが、眠っているイヌの上を飛び越えます。」
BERTScore を計算する
BERTScore を計算するには、次の手順を実行します。
- BERTScore は、コンテキスト埋め込みを使用して、候補 (機械生成) 文と参照 (人間が作成した) 文の両方で各トークンを表します。コンテキスト埋め込みは、NLP における単語表現の一種で、文またはテキスト内のコンテキストに基づいて単語の意味を捕捉します。コンテキストに関係なく各単語に固定ベクトルを割り当てる従来の単語埋め込みとは異なり、コンテキスト埋め込みは周囲の単語を考慮して、特定の文での使用方法に応じて各単語に固有の表現を生成します。
- 次に、メトリックは、コサイン類似度を使用して、候補文の各トークンと参照文の各トークンの間の類似性を計算します。コサイン類似度は、多次元空間内でデータが指す方向に焦点を当てることで、2 セットのデータがどの程度密接に関連しているかを定量化するのに役立ち、検索アルゴリズム、NLP、レコメンデーション システムなどのタスクにとって貴重なツールになります。
- BERTScore は、コンテキストの埋め込みを比較し、すべてのトークンの類似性スコアを計算することで、人間が作成した参照と比較して、生成された概要の意味論的な関連性とコンテキストを捉える包括的な評価を生成します。
- 最終的な BERTScore 出力は、機械生成された概要が意味とコンテキストの点で参照概要とどの程度一致しているかを反映する類似性スコアを提供します。
本質的に、BERTScore は文の意味上のニュアンスとコンテキストを考慮することで従来の指標を超え、人間の判断を忠実に反映したより洗練された評価を提供します。この高度なアプローチにより、要約タスクの評価の精度と信頼性が向上し、BERTScore がテキスト生成システムを評価する際の貴重なツールになります。
制限事項:
BERTScore は要約タスクの評価において大きな利点を提供しますが、考慮する必要がある特定の制限もあります。
- 計算強度 – BERTScore は、BERT のような事前トレーニングされた言語モデルに依存しているため、計算負荷が高くなる可能性があります。これにより、特に大量のテキスト データを処理する場合、評価時間が長くなる可能性があります。
- 事前トレーニングされたモデルへの依存性 – BERTScore の有効性は、使用される事前トレーニング済み言語モデルの品質と関連性に大きく依存します。事前トレーニングされたモデルがテキストのニュアンスを適切に捉えていないシナリオでは、評価結果が影響を受ける可能性があります。
- スケーラビリティ – 大規模なデータセットまたはリアルタイム アプリケーション向けに BERTScore をスケーリングすることは、計算上の需要があるため、困難になる場合があります。実稼働環境に BERTScore を実装するには、効率的なパフォーマンスを提供するための最適化戦略が必要になる場合があります。
- ドメインの特異性 – BERTScore のパフォーマンスは、ドメインや特殊なテキスト タイプによって異なる場合があります。メトリクスを特定のドメインまたはタスクに適合させるには、正確な評価を生成するために微調整または調整が必要になる場合があります。
- 解釈可能性 – BERTScore はコンテキストの埋め込みに基づいて包括的な評価を提供しますが、各トークンに対して生成された類似性スコアの背後にある特定の理由の解釈は複雑になる可能性があり、追加の分析が必要になる場合があります。
- 参照なしの評価 – BERTScore は評価における参考資料の要約への依存度を減らしますが、この参考資料を使用しないアプローチでは、特に内容の関連性と一貫性を評価するために人間が作成した参考資料が不可欠なシナリオでは、要約の品質のすべての側面を完全には捉えられない可能性があります。
これらの制限を認識すると、要約タスクを評価するための指標として BERTScore を使用するときに情報に基づいた意思決定を行うことができ、その長所と制約をバランスよく理解できるようになります。
BERTScore を使用する場合
BERTScore は、生成された要約を参照要約と比較することによって、テキスト要約の品質を評価できます。 BERT のようなニューラル ネットワークを使用して、単語やフレーズの正確な一致だけでなく、意味的な類似性を測定します。これにより、完全な意味と内容を保持するセマンティック忠実度が要約タスクで重要な場合に、BERTScore が非常に役立ちます。 BERTScore は、異なる単語や文構造が使用されている場合でも、参考要約と同じ情報を伝える要約に高いスコアを与えます。要するに、BERTScore は、キーワードやトピックだけでなく完全な意味の意味を保持することが重要な要約タスクに最適であるということです。高度なニューラル スコアリングにより、表面レベルの単語の一致を超えて意味を比較できます。これにより、言葉遣いの微妙な違いが全体の意味や含意を大きく変える可能性がある場合に適しています。 BERTScore は、特に、意味的類似性の捕捉に優れています。これは、検索拡張生成 (RAG) モデルによって生成されるような抽象的な要約の品質を評価するために重要です。
モデル評価フレームワーク
モデル評価フレームワークは、さまざまな要約モデルのパフォーマンスを正確に測定するために不可欠です。これらのフレームワークは、モデルを比較し、生成された概要とソース コンテンツ間の一貫性を提供し、評価方法の不備を正確に指摘するのに役立ちます。これらのフレームワークは、徹底した評価と一貫したベンチマークを実施することで、標準化された評価実践を提唱し、多面的なモデル比較を可能にすることで、テキスト要約研究を推進します。
AWS では、 FMEval ライブラリ 以内 Amazon SageMaker の明確化 テキストの要約、質問応答、分類などのタスクのための基礎モデル (FM) の評価と選択を効率化します。これにより、精度、堅牢性、創造性、バイアス、有害性などの指標に基づいて FM を評価できるようになり、LLM の自動評価と人間による LLM 評価の両方をサポートします。 FMEval は、UI ベースまたはプログラムによる評価を使用して、不正確さ、毒性、バイアスなどのモデルのリスクを定量化するための視覚化を含む詳細なレポートを生成し、組織が責任ある生成 AI ガイドラインに準拠できるように支援します。このセクションでは、FMEval ライブラリの使用方法を説明します。
Amazon Bedrock を使用して要約精度について Claude v2 を評価する
次のコード スニペットは、Python コードを使用して Anthropic Claude モデルを操作する方法の例です。
簡単に言えば、このコードは次のアクションを実行します。
- 必要なライブラリをインポートします。
json
、JSON データを操作します。 - モデル ID を次のように定義します。
anthropic.claude-v2
リクエストのコンテンツ タイプを設定します。 - 作る
prompt_data
クロード モデルの入力データを構造化する変数。この場合、「バラク・オバマとは誰ですか?」という質問が投げかけられます。モデルからの応答を期待します。 - プロンプト データを含む body という名前の JSON オブジェクトを構築し、生成するトークンの最大数などの追加パラメーターを指定します。
- 次を使用してクロード モデルを呼び出します。
bedrock_runtime.invoke_model
定義されたパラメータを使用して。 - モデルからの応答を解析し、補完 (生成されたテキスト) を抽出し、出力します。
ことを確認してください AWS IDおよびアクセス管理 に関連付けられた (IAM) ロール Amazon SageMakerスタジオ ユーザープロファイルにはアクセス権があります アマゾンの岩盤 呼び出されるモデル。参照する Amazon Bedrock の ID ベースのポリシーの例 Amazon Bedrock のベストプラクティスとアイデンティティベースのポリシーの例に関するガイダンスについては、こちらをご覧ください。
FMEval ライブラリを使用して Claude からの要約出力を評価する
次のコードを使用して、要約された出力を評価します。
前述のコード スニペットでは、FMEval ライブラリを使用してテキストの要約を評価するために、次の手順を実行します。
- 作る
ModelRunner
LLM で呼び出しを実行します。 FMEval ライブラリは、以下の組み込みサポートを提供します。 アマゾンセージメーカー エンドポイントと Amazon SageMaker ジャンプスタート LLM。延長することもできますModelRunner
任意の場所でホストされる LLM のインターフェイス。 - サポートされている使用方法
eval_algorithms
評価のニーズに基づいて、毒性、要約、正確性、意味論、堅牢性など。 - 特定の使用例に合わせて評価構成パラメータをカスタマイズします。
- 組み込みデータセットまたはカスタム データセットのいずれかで評価アルゴリズムを使用して、LLM モデルを評価します。このケースで使用されるデータセットは次のものから取得されています。 GitHubレポ.
Job Status ページの下部にある 開発者ガイドと例 評価アルゴリズムの詳細な使用方法については、こちらを参照してください。
評価結果を次の表にまとめます。
モデル_入力 | モデル出力 | ターゲット出力 | プロンプト | スコア | 流星スコア | ルージュスコア | ベルトスコア |
ジョン·エドワード 0 ベイツ、元スポルディング、リンコ…。 |
決定的なことは言えない 判決としては… |
前者 リンカンシャー警察が運び出したのは… |
人間: ジョン エドワード・ベイツ、元スポルディング… |
[{'名前': '流星', '値': 0.101010101010101 ... |
0.10101 | 0 | 0.557155 |
23年 2015月日 最終更新日 17:44 BST|それでは… |
ハリケーン/トロップに関する重要なポイントをいくつか紹介します。 | ハリケーン・パトリシアは、カテゴリーとして評価されています。 | 人間: 23 2015年17月 最終更新日 44:XNUMX B..。 |
[{'名前': 流星', “値': 0.102339181286549 .. |
0.102339 | 0.018265 | 0.441421 |
フェラーリは、世界に挑戦する立場にある… | この記事の重要なポイントは次のとおりです:nin… | ルイス・ハミルトンが決勝レースでポールポジションを獲得した。 | 人間: フェラーリは挑戦できる立場に現れました… | [{'名前': '流星', '値': 0.322543352601156 ... |
0.322543 | 0.078212 | 0.606487 |
バース生まれの28歳の選手は36得点を記録した 現れる… |
さて、重要なポイントを要約しましょう:/nin- E….. | ニューポート・グウェント・ドラゴンズの8番、エド・ジャクソン | 人間: バース生まれの 28 歳のプレーヤーは、36 試合で成績を残しました。 | [{'名前': '流星', '値': 0105740181268882 ... |
0.10574 | 0.012987 | 0.539488 |
マウスがマウスとデータを交換する方法の弱点… | 調査結果から私が収集した重要なポイントは次のとおりです。 | ハッカーが自宅にアクセスしたり、 | 人間: の弱点 swar マウスがデータを交換した |
[{'名前': '流星', '値': 0.201048289433848 ... |
0.201048 | 0.021858 | 0.526947 |
サンプルをチェックしてください ノート この投稿で説明した要約評価の詳細については、をご覧ください。
まとめ
ROUGE、METEOR、BERTScore はすべて、機械生成された要約の品質を測定しますが、語彙の重複、流暢さ、意味上の類似性などのさまざまな側面に焦点を当てています。特定の要約ユースケースの「良い」の定義に一致する指標を必ず選択してください。メトリクスを組み合わせて使用することもできます。これにより、より包括的な評価が提供され、個々の指標の潜在的な弱点を防ぐことができます。適切な測定を行うことで、最も重要な精度の概念を満たすようにサマライザーを繰り返し改善できます。
さらに、これらのモデルを大規模に実稼働できるようにするには、FM および LLM の評価が必要です。 FMEval を使用すると、多くの NLP タスクにわたる膨大な組み込みアルゴリズムのセットが得られるだけでなく、独自のモデル、データセット、アルゴリズムの大規模評価のためのスケーラブルで柔軟なツールも得られます。スケールアップするには、LLMOps パイプラインでこのパッケージを使用して、 複数のモデルを評価する。 AWS の FMEval とそれを効果的に使用する方法の詳細については、以下を参照してください。 SageMaker Clear を使用して大規模な言語モデルを評価する。 FM を評価する際の SageMaker Clear の機能についてのさらなる理解と洞察については、以下を参照してください。 Amazon SageMaker Clarify により、基盤モデルの評価と選択が容易になります.
著者について
ディネシュ・クマール・スブラマニ は、スコットランドのエディンバラを拠点とするシニア ソリューション アーキテクトです。彼は人工知能と機械学習を専門とし、Amazon の技術分野コミュニティのメンバーです。 Dinesh は英国中央政府の顧客と緊密に連携し、AWS のサービスを使用して問題を解決しています。仕事以外では、ディネシュは家族と充実した時間を過ごしたり、チェスをしたり、さまざまな音楽を探索したりすることを楽しんでいます。
プラナフ・シャルマ は、ヨーロッパ、中東、アフリカ全体でテクノロジーとビジネス変革の取り組みを推進する AWS のリーダーです。彼は、数百万の顧客をサポートし、ビジネス成果をもたらす人工知能プラットフォームを実稼働環境で設計および実行した経験があります。彼は、グローバル金融サービス組織でテクノロジーと人事のリーダーとしての役割を果たしてきました。仕事以外では、読書、息子とテニス、映画鑑賞が好きです。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/evaluate-the-text-summarization-capabilities-of-llms-for-enhanced-decision-making-on-aws/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 100
- 11
- 視聴者の38%が
- 16
- 17
- 20
- 2015
- 28
- 32
- 36
- 7
- a
- できる
- 私たちについて
- 抽象化
- 加速する
- 同意
- アクセス
- 精度
- 正確な
- 正確にデジタル化
- 達成する
- 越えて
- 行動
- 実際に
- 適応する
- 添加
- NEW
- さらに
- 十分に
- 隣接
- 調整
- 調整
- 採用
- 高度な
- 利点
- 利点
- 主張する
- 影響を及ぼす
- 影響を受けました
- アフリカ
- 後
- に対して
- 機関
- 集計
- AI
- 目指す
- アルゴリズム
- アルゴリズム
- 整列する
- アラインメント
- 整列
- すべて
- 許す
- 許可
- ことができます
- また
- 変更する
- しかし
- Amazon
- Amazon Webサービス
- 金額
- an
- 分析
- 分析
- 分析します
- 分析する
- および
- 応答
- 人間原理
- どれか
- どこにでも
- 登場
- 適用可能な
- アプローチ
- アプローチ
- 適切な
- です
- 発生します
- 記事
- 人工の
- 人工知能
- 人工知能(AI)
- 人工知能と機械学習
- AS
- 側面
- 評価する
- 評価中
- 評価
- アセスメント
- アシスタント
- 関連する
- At
- 注意
- 増強された
- 自動化
- オートマチック
- 自動的に
- 利用できます
- 避ける
- 知って
- AWS
- 銀行
- バラク・オバマ
- ベース
- ベース
- ベースライン
- 基本
- BE
- なぜなら
- になる
- き
- 背後に
- さ
- ベンチマーク
- ベンチマーク
- ほかに
- BEST
- ベストプラクティス
- より良いです
- の間に
- 越えて
- バイアス
- ボディ
- 両言語で
- ボトム
- より広い
- 褐色
- 内蔵
- ビジネス
- ビジネス変革
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算する
- 計算された
- 計算
- 缶
- 候補者
- 機能
- 機能
- キャプチャー
- 捕捉した
- キャプチャ
- キャプチャ
- 注意深い
- 実施
- 場合
- 例
- CAT
- 中央の
- 一定
- 挑戦する
- 課題
- 挑戦
- 特性
- チェス
- 選択
- 選ばれた
- 分類
- 閉じる
- 密接に
- コード
- コヒーレント
- 凝集
- 組み合わせ
- 組み合わせる
- 来ます
- コマンドと
- 一般に
- コミュニティ
- 企業
- 比較します
- 比べ
- 比較
- 比較
- 比較
- コンプリート
- 完成
- 複雑な
- 包括的な
- 計算的
- 計算的に
- コンピューティング
- コンセプト
- 特徴
- 導電性
- お問合せ
- 検討
- 見なさ
- 考えると
- 考慮する
- 整合性のある
- 制約
- 含まれています
- コンテンツ
- コンテキスト
- 文脈
- 文脈上の
- 続ける
- 基本
- 正しい
- 可能性
- 作成
- 創造性
- 重大な
- 重大な
- カスタム
- Customers
- データ
- データセット
- 意思決定
- 決定
- 考える
- より深い
- 欠陥
- 定義済みの
- 定義する
- 配信する
- 需要
- 実証します
- 分かりやすくする
- 依存関係
- 依存
- によっては
- 設計
- 詳細な
- 細部
- 検出
- 開発
- の違い
- 異なります
- 異なって
- 難しい
- 困難
- 直接
- 方向
- 議論する
- 異なる
- 分割された
- do
- ドキュメント
- ドキュメント
- そうではありません
- 犬
- ドメイン
- ダウン
- 運転
- Drop
- 原因
- 間に
- 各
- 前
- 利益
- 容易
- 東
- ed
- 効果的に
- 有効
- 効率的な
- 効率良く
- 努力
- 8
- どちら
- 強調
- 採用
- 採用
- 力を与える
- 可能
- 有効にする
- 強化された
- 強化
- エンティティ
- 環境
- 同値
- 特に
- 本質
- 本質的な
- 本質的に
- ヨーロッパ
- 評価する
- 評価します
- 評価
- 評価
- さらに
- 正確な
- 例
- 例
- 優れている
- 展示
- 存在
- 期待する
- 体験
- 探る
- 探る
- 表現します
- 伸ばす
- エキス
- 抽出
- f1
- 秋
- 家族
- スピーディー
- フェラーリ
- 忠実
- フィールド
- ファイナル
- ファイナンシャル
- 金融部門
- 金融業務
- 発見
- 固定の
- 柔軟性
- フレキシブル
- フロー
- 流れ
- フォーカス
- 焦点を当てて
- 焦点
- フォロー中
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- 以前は
- フォーム
- Foundation
- キツネ
- フレームワーク
- 周波数
- から
- フル
- 完全に
- function
- 根本的に
- さらに
- 利得
- 獲得
- 集まった
- 一般化
- 一般に
- 生成する
- 生成された
- 生成
- 生成
- 世代
- 生々しい
- 生成AI
- 取得する
- 与える
- 与えられた
- 与える
- 与え
- グローバル
- グローバルファイナンシャル
- 目標
- 目標
- ゴエス
- 良い
- 政府・公共機関
- 政府機関
- グリーン
- グループの
- 成長
- 育ちます
- ガイダンス
- ガイド
- ガイドライン
- ハミルトン
- ハンドル
- ハーネス
- 持ってる
- he
- 重く
- 助けます
- 助け
- ことができます
- こちら
- ハイ
- より高い
- 強調表示された
- 強調表示
- 非常に
- 彼の
- ホーム
- 主催
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- 人間
- ハイブリッド
- i
- ID
- アイデア
- 理想
- 理想的には
- 考え
- 同一の
- 特定され
- 識別する
- 識別
- アイデンティティ
- イド
- if
- 説明します
- 絵
- 影響
- 実装
- 意義
- import
- 重要
- 改善します
- 改善
- in
- 含まれました
- 含ま
- 含めて
- 矛盾
- 組み込む
- 増える
- ますます
- を示し
- 個人
- 産業
- 情報
- 有益な
- 情報に基づく
- イニシアチブ
- 洞察力
- 洞察
- 説明書
- インストルメンタル
- インテリジェンス
- 対話
- インタフェース
- 解釈する
- 通訳
- に
- 投資
- 投資銀行
- 呼び出された
- 関与
- 関与
- 問題
- IT
- ITS
- ジャーナリスト
- JPG
- JSON
- ジャンプ
- ただ
- キープ
- キー
- キーワード
- クマー
- 欠如
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 大規模
- 姓
- つながる
- リーダー
- リーダーシップ
- 主要な
- リード
- 飛躍
- LEARN
- 学習
- リーガルポリシー
- 長さ
- less
- う
- レベル
- ライブラリ
- 図書館
- ような
- 好き
- 制限
- LINE
- リスト
- LLM
- 論理的に
- 長い
- より長いです
- 見て
- LOOKS
- ロー
- 下側
- 機械
- 機械学習
- 製
- メイン
- 維持
- 主要な
- make
- 作る
- 作成
- 多くの
- 一致
- マッチ
- マッチング
- 材料
- 事態
- 最大化します
- 五月..
- me
- 意味する
- 意味
- 意味のある
- 意味
- 手段
- だけど
- 測定結果
- 措置
- 計測
- メカニズム
- メカニズム
- メディア
- 大会
- メンバー
- 方法
- 方法論
- メソッド
- メトリック
- メトリック
- Microsoft
- 真ん中
- 中東
- かもしれない
- 何百万
- ミス
- 行方不明
- ML
- モデル
- モニター
- 他には?
- 最も
- 動画
- ずっと
- 多面
- の試合に
- 音楽を聴く際のスピーカーとして
- 名前付き
- 狭い
- ナチュラル
- 自然言語処理
- ナビゲート
- ほぼ
- 必ずしも
- 必要
- 必要
- 必要
- ニーズ
- ネットワーク
- ニューラル
- ニューラルネットワーク
- 新作
- ニュース
- NLP
- いいえ
- 概念
- 今
- 微妙
- ニュアンス
- 数
- オバマ
- オブジェクト
- 客観的に
- 義務
- 入手する
- 得
- 10月
- of
- 提供すること
- オファー
- 役員
- 頻繁に
- on
- ONE
- の
- 開いた
- 最適な
- 最適化
- 最適化
- or
- 注文
- 組織
- オリジナル
- その他
- でる
- 成果
- 概説
- 出力
- 外側
- が
- 全体
- 克服する
- オーバーラップ
- 自分の
- パッケージ
- 足
- パラメータ
- 特定の
- 特に
- 部品
- 罰則
- 違約金
- のワークプ
- 完璧
- 実行する
- パフォーマンス
- 実行する
- 視点
- フレーズ
- ピース
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 演奏
- プレイヤー
- 再生
- ポイント
- ポイント
- 警察
- ポリシー
- 方針
- 政策立案
- 人気
- ポーズ
- 位置
- ポスト
- 潜在的な
- :
- 電力
- プラクティス
- 開業医
- 先行
- 精度
- 好ましいです
- プレゼンス
- 現在
- PLM platform.
- プレゼント
- 保存する
- 主要な
- 印刷物
- 優先順位をつける
- 問題
- プロセス
- ラボレーション
- 処理
- 作り出す
- 生産された
- 生産
- 生産性
- プロフィール
- プログラム的な
- 推進します
- 正しく
- 受験する
- 提供します
- は、大阪で
- 提供
- Python
- 品質
- 季刊
- 質問
- クイック
- すぐに
- ぼろ
- 範囲
- 範囲
- ランク
- 急速に
- 定格の
- むしろ
- 読む
- 読み込み
- への
- 理由は
- 受け取ります
- 認識する
- 認識
- おすすめ
- 軽減
- 縮小
- 参照する
- 参照
- リファレンス
- 反映する
- 反射
- 反映
- 関係なく
- 関連する
- 関連性
- 関連した
- 信頼性
- 依存
- 信頼する
- 頼る
- 信頼
- 残っている
- 反復的な
- レポート
- 表す
- 表現
- 代表者
- 表し
- 要求
- 必要とする
- 要件
- 必要
- 研究
- 研究者
- 応答
- 責任
- 結果
- 結果
- 保持
- 保持
- 検索
- レビュー
- 報酬
- 右
- 権利
- リスク
- リスク
- 堅牢な
- 丈夫
- 職種
- 役割
- ルート
- 行
- ランニング
- セージメーカー
- 同じ
- サンプル
- 貯蓄
- ド電源のデ
- 規模
- スケーリング
- シナリオ
- スコア
- スコア
- 得点
- を検索
- セクション
- セクター
- Seek
- セグメント
- select
- 選択
- 選択
- 選択する
- セマンティック
- シニア
- 文
- シーケンス
- サービス
- セッションに
- セット
- いくつかの
- 輝く
- ショート
- 短い
- すべき
- 重要
- 同様の
- 類似
- 簡単な拡張で
- 単に
- スムーズに
- スニペット
- So
- 社会
- ソーシャルメディア
- ソリューション
- 解決する
- 一部
- 息子
- 洗練された
- ソース
- 調達
- スペース
- 専門の
- 専門にする
- 特定の
- 特に
- 支出
- ステークホルダー
- start
- 米国
- 統計的
- 抑えた
- 茎
- 手順
- ステップ
- まだ
- ストーリー
- 戦略的
- 作戦
- 流線
- ストリーム
- 強み
- 文字列
- 構造化された
- 構造
- 奮闘
- 主観的
- 実質上
- そのような
- 適当
- 適した
- まとめる
- 概要
- 夏
- 日
- サポート
- サポート
- 支援する
- 確か
- 表面
- 周囲の
- スワップされた
- 同義語
- 同義語
- 構文
- システム
- テーブル
- まとめ
- 仕事
- タスク
- チーム
- 技術的
- 技術
- テクニック
- テクノロジー
- 伝える
- テニス
- 期間
- 条件
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- ソース
- アプリ環境に合わせて
- それら
- その後
- そこ。
- したがって、
- ボーマン
- 彼ら
- この
- 完全な
- それらの
- しかし?
- 介して
- 時間
- 時間がかかる
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- トークン
- トークン化
- トークン
- ツール
- トピック
- トータル
- 伝統的な
- 変換
- 変形させる
- トランス
- インタビュー
- 真に
- チューニング
- 2
- type
- 一般的に
- Uk
- 根本的な
- わかる
- 理解する
- 理解された
- ユニーク
- 異なり、
- 更新しました
- us
- 使用法
- つかいます
- 使用事例
- 中古
- 便利
- ユーザー
- users
- 使用されます
- 貴重な
- 値
- 変数
- バリエーション
- さまざまな
- 変わります
- 変化する
- 広大な
- バージョン
- 非常に
- 極めて重要な
- ボリューム
- よく見る
- 仕方..
- 方法
- we
- 弱点
- ウェブ
- Webサービス
- WELL
- した
- この試験は
- いつ
- 一方
- かどうか
- which
- while
- 誰
- 全体
- 意志
- 以内
- 無し
- Word
- 言い回し
- 言葉
- 仕事
- 作品
- でしょう
- 書きます
- 書かれた
- You
- あなたの
- ゼファーネット