Amazon SageMaker で顔を抱きしめた言い換えテキストを識別する

プラトン再発行

フォロワー： 0

言い換えられたテキストを特定することは、多くのユースケースでビジネス上の価値があります。たとえば、文の言い換えを識別することにより、テキスト要約システムは冗長な情報を削除できます。別の用途は、盗用された文書を特定することです。この投稿では、ハグ顔トランスオンアマゾンセージメーカーいくつかのステップで言い換えられた文のペアを特定します。

真に堅牢なモデルは、使用されている言語が完全に異なる場合でも言い換えられたテキストを識別でき、また、使用されている言語に語彙の重複が多い場合にも相違点を識別できます。この投稿では、後者の側面に焦点を当てます。具体的には、語彙の重複が多く、意味が大きく異なる、または正反対である XNUMX つの文の違いを識別できるモデルをトレーニングできるかどうかを検討します。たとえば、次の文はまったく同じ単語ですが、反対の意味を持ちます。

ニューヨークからパリまで飛行機に乗りました
パリからニューヨーク行きの飛行機に乗りました

ソリューションの概要

次の大まかな手順を説明します。

環境をセットアップします。
データを準備します。
データセットをトークン化します。
モデルを微調整します。
モデルをデプロイして推論を実行します。
モデルのパフォーマンスを評価します。

環境のセットアップを省略したい場合は、次のノートブックを使用できます。 GitHubの SageMaker でコードを実行します。

Hugging Face と AWS は、SageMaker での Hugging Face モデルのトレーニングをさらに容易にするパートナーシップを 2022 年初めに発表しました。この機能は、Hugging Face の開発を通じて利用可能です。 AWS ディープラーニングコンテナ (DLC)。これらのコンテナには、Hugging Face Transformers、Tokenizer、および Datasets ライブラリが含まれており、これらのリソースをトレーニングや推論ジョブに使用できるようになります。利用可能な DLC イメージのリストについては、を参照してください。利用可能なディープラーニングコンテナの画像。これらは維持され、セキュリティパッチで定期的に更新されます。これらの DLC とフェイスPythonSDKを抱き締める以下では GitHubレポ.

PAWS データセット

言い換えることなく高度な語彙の重複を示す効率的な文ペアのデータセットが不足していることに気づきました。 PAWS 2019 年にリリースされたデータセットは、自然言語処理 (NLP) コミュニティに言い換え検出モデルのトレーニングと評価のための新しいリソースを提供することを目的としていました。 PAWS 文ペアは、次の XNUMX つのステップで生成されます。 Wikipedia と Quoraの質問ペア (QQP) データセット。言語モデルは、まず文ペア内の単語を同じ Bag of Words (BOW) と交換して、文ペアを生成します。次に、逆翻訳ステップにより、BOW の重複が多いが異なる語順を使用した言い換えが生成されます。最終的な PAWS データセットには、合計 108,000 個の人間ラベル付きペアと 656,000 個のノイズラベル付きペアが含まれています。

この投稿では、 PAWS-Wiki ラベル付き (最終版) ハグフェイスからのデータセット。 Hugging Face はすでにデータ分割を実行しており、その結果、トレーニングデータセットには 49,000 の文のペアが、検証データセットとテストデータセットにはそれぞれ 8,000 の文のペアが生成されます。トレーニングデータセットからの 1 つの文ペアの例を次の例に示します。ラベル XNUMX は、XNUMX つの文が互いの言い換えであることを示します。

文 1	文 2	ラベル
交換可能ですが、2 台の車両の車体部分は似ていません。	似ていますが、2 台の車両のボディ部分は交換できません。	0
カッツは 1947 年にスウェーデンで生まれ、1 歳のときにニューヨーク市に移りました。	カッツは 1947 年にスウェーデンで生まれ、XNUMX 歳のときにニューヨークに移りました。	1

前提条件

次の前提条件を満たしている必要があります。

AWS アカウントをお持ちでない場合は、アカウントにサインアップしてください。詳細については、「」を参照してください。 Amazon SageMaker の前提条件をセットアップする.
使い始める SageMakerノートブックインスタンス.
権利を設定する AWS IDおよびアクセス管理 (IAM) 権限。詳細については、「」を参照してください。 SageMakerの役割.

環境をセットアップする

モデルの微調整のためにデータの調査と準備を開始する前に、環境をセットアップする必要があります。まず、SageMaker ノートブックインスタンスを起動しましょう。 AWS アカウントで AWS リージョンを選択し、指示に従ってください。 SageMaker ノートブックインスタンスを作成する。ノートブックインスタンスが起動するまでに数分かかる場合があります。

ノートブックインスタンスの実行中に、 conda_pytorch_p38 カーネルタイプとして。 Hugging Face データセットを使用するには、まず Hugging Face ライブラリをインストールしてインポートする必要があります。

!pip --quiet install "sagemaker" "transformers==4.17.0" "datasets==1.18.4" --upgrade
!pip --quiet install sentence-transformers import sagemaker.huggingface
import sagemaker
from datasets import load_dataset

次に、SageMaker セッションを確立しましょう。デフォルトを使用します Amazon シンプルストレージサービス PAWS データセットとモデルアーティファクトを保存するための SageMaker セッションに関連付けられた (Amazon S3) バケット:

sess = sagemaker.Session()
role = sagemaker.get_execution_role()
bucket = sess.default_bucket()

データを準備する

PAWS データセットの Hugging Face バージョンをロードできます。 load_dataset() 指図。この呼び出しでは、Hugging Face GitHub リポジトリから PAWS Python 処理スクリプトをダウンロードしてインポートします。次に、スクリプトに保存されている元の URL から PAWS データセットをダウンロードし、データをドライブ上の Arrow テーブルとしてキャッシュします。次のコードを参照してください。

dataset_train, dataset_val, dataset_test = load_dataset("paws", "labeled_final", split=['train', 'validation', 'test'])

事前トレーニングされた BERT モデルの微調整を始める前に、ターゲットクラスの分布を見てみましょう。このユースケースでは、PAWS データセットにはバイナリラベルがあります (0 は文のペアが言い換えではないことを示し、1 は言い換えであることを示します)。次のコードに示すように、クラス分布を表示するための縦棒グラフを作成してみましょう。トレーニングセットにわずかなクラスの不均衡の問題があることがわかります (陰性サンプル 56% 対陽性サンプル 44%)。ただし、不均衡は十分に小さいため、クラスの不均衡緩和手法の採用を回避できます。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns df = dataset_train.to_pandas() ax = sns.countplot(x="label", data=df)
ax.set_title('Label Count for PAWS Dataset', fontsize=15)
for p in ax.patches: ax.annotate(f'n{p.get_height()}', (p.get_x()+0.4, p.get_height()), ha='center', va='top', color='white', size=13)

データセットをトークン化する

微調整を始める前に、データセットをトークン化する必要があります。出発点として、 roberta-base 変成器。私たちが選んだのは roberta-base これは、英語データの大規模なコーパスで事前トレーニングされた汎用トランスフォーマーであり、さまざまな NLP タスクで高いパフォーマンスを頻繁に示しているためです。このモデルは最初に論文で紹介されました RoBERTa：ロバストに最適化されたBERT事前トレーニングアプローチ.

文に対してトークン化を実行します。 roberta-base Hugging Face のトークナイザー。バイトレベルのバイトペアエンコーディングを使用してドキュメントをトークンに分割します。 RoBERTa トークナイザーの詳細については、以下を参照してください。ロベルタトークナイザー。入力は文のペアであるため、両方の文を同時にトークン化する必要があります。ほとんどの BERT モデルでは、入力が固定のトークン化された入力長を持つ必要があるため、次のパラメーターを設定します。 max_len=128 & truncation=True。次のコードを参照してください。

from transformers import AutoTokenizer
tokenizer_and_model_name = 'roberta-base' # Download tokenizer
tokenizer = AutoTokenizer.from_pretrained(tokenizer_and_model_name) # Tokenizer helper function
def tokenize(batch, max_len=128): return tokenizer(batch['sentence1'], batch['sentence2'], max_length=max_len, truncation=True) dataset_train_tokenized = dataset_train.map(tokenize, batched=True, batch_size=len(dataset_train))
dataset_val_tokenized = dataset_val.map(tokenize, batched=True, batch_size=len(dataset_val))

BERT モデルを微調整するための最後の前処理ステップは、トークン化されたトレーニングデータセットと検証データセットを PyTorch テンソルに変換し、S3 バケットにアップロードすることです。

import botocore
from datasets.filesystems import S3FileSystem s3 = S3FileSystem()
s3_prefix = 'sts-sbert-paws/sts-paws-datasets' # convert and save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/train'
dataset_train_tokenized = dataset_train_tokenized.rename_column("label", "labels")
dataset_train_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_train_tokenized.save_to_disk(training_input_path,fs=s3) # convert and save val_dataset to s3
val_input_path = f's3://{sess.default_bucket()}/{s3_prefix}/val'
dataset_val_tokenized = dataset_val_tokenized.rename_column("label", "labels")
dataset_val_tokenized.set_format('torch', columns=['input_ids', 'attention_mask', 'labels'])
dataset_val_tokenized.save_to_disk(val_input_path,fs=s3)

モデルを微調整する

データの準備が完了したので、事前トレーニングされたデータを微調整する準備が整いました。 roberta-base 言い換え識別タスクのモデル。 SageMaker Hugging Face Estimator クラスを使用して、XNUMX つのステップで微調整プロセスを開始できます。最初のステップは、トレーニングハイパーパラメーターとメトリック定義を指定することです。メトリクス定義変数は、Hugging Face Estimator にモデルのトレーニングログからどのタイプのメトリクスを抽出するかを指示します。ここでは、各トレーニングエポックで検証セットのメトリクスを抽出することに主に興味があります。

# Step 1: specify training hyperparameters and metric definitions
hyperparameters = {'epochs': 4, 'train_batch_size': 16, 'model_name': tokenizer_and_model_name} metric_definitions=[ {'Name': 'loss', 'Regex': "'loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_loss', 'Regex': "'eval_loss': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_accuracy', 'Regex': "'eval_accuracy': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_f1', 'Regex': "'eval_f1': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_precision', 'Regex': "'eval_precision': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'eval_recall', 'Regex': "'eval_recall': ([0-9]+(.|e-)[0-9]+),?"}, {'Name': 'epoch', 'Regex': "'epoch': ([0-9]+(.|e-)[0-9]+),?"}
]

XNUMX 番目のステップでは、Hugging Face Estimator をインスタンス化し、微調整プロセスを開始します。 .fit() 方法：

# Step 2: instantiate estimator and begin fine-tuning
from sagemaker.huggingface import HuggingFace huggingface_estimator = HuggingFace( entry_point='train.py', source_dir='./scripts', output_path=f's3://{sess.default_bucket()}', base_job_name='huggingface-sdk-extension', instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, transformers_version='4.17.0', pytorch_version='1.10.2', py_version='py38', role=role, hyperparameters=hyperparameters, metric_definitions=metric_definitions ) huggingface_estimator.fit({'train': training_input_path, 'test': val_input_path}, wait=True, job_name='sm-sts-blog-{}'.format(int(time.time())))

指定されたハイパーパラメータを使用した微調整プロセスには約 30 分かかります。

モデルをデプロイして推論を実行する

SageMaker は、ユースケースに応じて複数の導入オプションを提供します。一度に XNUMX つの予測を行う永続的なリアルタイムエンドポイントの場合は、次の使用をお勧めします。 SageMakerリアルタイムホスティングサービス。トラフィックの急増の間にアイドル期間があり、コールドスタートを許容できるワークロードがある場合は、次の使用をお勧めします。サーバーレス推論。サーバーレスエンドポイントは、コンピューティングリソースを自動的に起動し、トラフィックに応じてスケールインまたはスケールアウトするため、インスタンスタイプを選択したり、スケーリングポリシーを管理したりする必要がなくなります。微調整されたハグ顔モデルをリアルタイム推論エンドポイントとサーバーレス推論エンドポイントの両方にデプロイする方法を示します。

リアルタイム推論エンドポイントへのデプロイ

を使用して、SageMaker 内のリアルタイム推論ホスティングにトレーニングオブジェクトをデプロイできます。 .deploy() 方法。受け入れられるパラメータの完全なリストについては、を参照してください。ハグフェイスモデル。まず、次のパラメーターを渡して、モデルを XNUMX つのインスタンスにデプロイしましょう。 initial_instance_count, instance_type, endpoint_name。次のコードを参照してください。

rt_predictor = huggingface_estimator.deploy(initial_instance_count=1,
instance_type="ml.g4dn.xlarge",
endpoint_name="sts-sbert-paws")

モデルのデプロイには数分かかります。モデルがデプロイされたら、未確認のテストデータセットからサンプルレコードを推論のためにエンドポイントに送信できます。

サーバーレス推論エンドポイントへのデプロイ

トレーニングオブジェクトをサーバーレスエンドポイントにデプロイするには、まずサーバーレス構成ファイルを指定する必要があります。 memory_size_in_mb & max_concurrency 引数：

from sagemaker.serverless.serverless_inference_config import ServerlessInferenceConfig serverless_config = ServerlessInferenceConfig( memory_size_in_mb=6144, max_concurrency=1,
)

memory_size_in_mb サーバーレスエンドポイントの合計 RAM サイズを定義します。最小 RAM サイズは 1024 MB (1 GB) で、最大 6144 MB (6 GB) まで拡張できます。一般に、モデルのサイズと少なくとも同じサイズのメモリサイズを選択することを目指す必要があります。 max_concurrency 単一のエンドポイントに対して同時に処理できる同時呼び出しの数 (最大 50 個の同時呼び出し) の割り当てを定義します。

また、Hugging Face 推論画像 URI を指定する必要があります。これは、次のコードを使用して取得できます。

image_uri = sagemaker.image_uris.retrieve( framework="huggingface", base_framework_version="pytorch1.10", region=sess.boto_region_name, version="4.17", py_version="py38", instance_type="ml.m5.large", image_scope="inference",
)

サーバーレス構成ファイルが完成したので、リアルタイム推論エンドポイントと同じ方法でサーバーレスエンドポイントを作成できます。 .deploy() 方法：

sl_predictor = huggingface_estimator.deploy( serverless_inference_config=serverless_config, image_uri=image_uri
)

エンドポイントは数分以内に作成されます。

モデル推論を実行する

予測を行うには、 [CLS] & [SEP] 特別なトークンを取得し、その後入力をモデルエンドポイントに送信します。リアルタイム推論とサーバーレス推論の構文は同じです。

import random rand = random.randrange(0, 8000) true_label = dataset_test[rand]['label']
sent_1 = dataset_test[rand]['sentence1']
sent_2 = dataset_test[rand]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} # real-time inference print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', rt_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', rt_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', rt_predictor.predict({"inputs": sentence_pair})[0]['score']) # serverless inference
print('Sentence 1:', sent_1) print('Sentence 2:', sent_2)
print()
print('Inference Endpoint:', sl_predictor.endpoint_name)
print('True Label:', true_label)
print('Predicted Label:', sl_predictor.predict({"inputs": sentence_pair})[0]['label'])
print('Prediction Confidence:', sl_predictor.predict({"inputs": sentence_pair})[0]['score'])

次の例では、モデルが入力文のペアに言い換え文が含まれているかどうかを正しく分類できることがわかります。

以下はリアルタイム推論の例です。

以下はサーバーレス推論の例です。

モデルのパフォーマンスを評価する

モデルを評価するには、前述のコードを拡張して、8,000 件の未確認のテストレコードをすべてリアルタイムエンドポイントに送信しましょう。

from tqdm import tqdm preds = []
labels = [] # Inference takes ~5 minutes for all test records using a fine-tuned roberta-base and ml.g4dn.xlarge instance for i in tqdm(range(len(dataset_test))): true_label = dataset_test[i]['label'] sent_1 = dataset_test[i]['sentence1'] sent_2 = dataset_test[i]['sentence2'] sentence_pair = {"inputs": ['[CLS] ' + sent_1 + ' [SEP] ' + sent_2 + ' [SEP]']} pred = rt_predictor.predict(sentence_pair) labels.append(true_label) preds.append(int(pred[0]['label'].split('_')[1]))

次に、抽出された予測を使用して分類レポートを作成できます。

from sklearn.metrics import classification_report print('Endpoint Name:', rt_predictor.endpoint_name)
class_names = ['paraphase', 'not paraphrase']
print(classification_report(labels, preds, target_names=class_names))

以下のテストスコアが得られます。

観察できるのは、 roberta-base の組み合わせマクロ平均 F1 スコアは 92% で、言い換えである文の検出ではわずかに優れています。の roberta-base モデルのパフォーマンスは良好ですが、少なくとも XNUMX つの他のモデルを使用してモデルのパフォーマンスを計算することをお勧めします。

次の表で比較します。 roberta-base 同じテストセットでのパフォーマンス結果を、別の微調整されたトランスフォーマーと比較した場合 paraphrase-mpnet-base-v2、言い換え識別タスク用に特別に事前トレーニングされた文変換機能です。どちらのモデルも ml.p3.8xlarge インスタンスでトレーニングされました。

結果は次のことを示しています roberta-base SageMaker でのリアルタイム推論ホスティングを使用したトレーニングと推論時間はほぼ同じで、F1 スコアが 1% 高くなりました。モデル間の性能差は比較的小さいですが、 roberta-base パフォーマンスメトリクスがわずかに優れており、トレーニング時間と推論時間がほぼ同じであるため、最終的にはが勝者となります。

精度

リコール

F1スコア

トレーニング時間（有料）

推論時間 (完全なテストセット)

ロバータベース

0.92

0.93

0.92

18 minutes

2 minutes

言い換え-mpnet-

ベースv2

0.92

0.91

17 minutes

2 minutes

クリーンアップ

モデルエンドポイントの使用が完了したら、将来の料金の発生を避けるためにそれらを削除できます。

rt_predictor.delete_endpoint()
sl_predictor.delete_endpoint()

まとめ

この投稿では、SageMaker の Hugging Face トランスフォーマーを使用して言い換え識別モデルを迅速に構築する方法について説明しました。 XNUMX つの事前トレーニング済みトランスフォーマーを微調整しました。 roberta-base & paraphrase-mpnet-base-v2、PAWS データセット (語彙の重複が多い文のペアが含まれる) を使用します。リアルタイム推論とサーバーレス推論の導入の利点を実証し、説明しました。後者は、急激なワークロードをターゲットにし、スケーリングポリシーの管理の必要性を排除する新機能です。 8,000 レコードを含む未確認のテストセットで、両方のモデルが 1% を超える F90 スコアを達成したことを実証しました。

このソリューションを拡張するには、次の点を考慮してください。

独自のカスタムデータセットを使用して微調整してみてください。十分なトレーニングラベルがない場合は、この投稿で示したような微調整されたモデルのパフォーマンスをカスタムテストデータセットで評価できます。
この微調整されたモデルを、XNUMX つの文 (またはテキストのブロック) が互いの言い換えであるかどうかに関する情報を必要とする下流アプリケーションに統合します。

幸せな建物！

著者について

バラクリシュナムーシー 彼は AWS プロフェッショナルサービスのデータサイエンティストであり、顧客のビジネス上の問題を解決するために機械学習を適用することに楽しんでいます。彼は自然言語処理のユースケースを専門とし、ソフトウェア、金融、ヘルスケアなどの業界の顧客と協力してきました。自由時間には、新しい食べ物に挑戦したり、コメディやドキュメンタリーを見たり、オレンジセオリーで運動したり、水辺で過ごすこと (パドルボード、シュノーケリング、できればダイビングも近いうちにしたい) を楽しんでいます。

イヴァン・クイ はAWSProfessional Servicesのデータサイエンティストであり、お客様がAWSで機械学習を使用してソリューションを構築およびデプロイするのを支援しています。彼は、ソフトウェア、金融、製薬、ヘルスケアなど、さまざまな業界の顧客と協力してきました。自由な時間には、読書を楽しんだり、家族と過ごしたり、株式ポートフォリオを最大限に活用したりしています。