Amazon SageMaker Ground Truth を使用してカスタム Q&A データセットを構築し、抱き合う顔 Q&A NLU モデルをトレーニングする

プラトン再発行

フォロワー： 0

近年、自然言語理解 (NLU) は、モデルの改善とクラウドベースのインフラストラクチャの拡張性とコスト効率によって促進され、ビジネス価値をますます見出しています。具体的には、トランスフォーマー深層学習アーキテクチャ。多くの場合、次の形式で実装されます。ベルトモデルの開発は大きな成功を収めてきましたが、これらのモデルのトレーニング、微調整、最適化は困難な問題であることが判明しています。おかげ AWSとHugging Faceのコラボレーション、NLU モデルのトレーニングと最適化がより簡単になりました。アマゾンセージメーカー SageMaker Python SDK を使用しますが、これらのモデルのラベル付きデータを調達するのは依然として難しく、時間がかかります。

特にビジネス上の関心のある NLU 問題の XNUMX つは、質問応答のタスクです。この投稿では、次を使用してカスタムの質問応答データセットを構築する方法を示します。 Amazon SageMakerグラウンドトゥルースハグフェイス質問応答 NLU モデルをトレーニングします。

質問応答の課題

質問応答では、回答が含まれる場合と含まれない場合があるテキストの本文が与えられると、モデルがクエリに対する回答を自動的に生成します。たとえば、「SageMaker Ground Truth はどのようなワークフローをサポートしていますか?」という質問があったとします。モデルは、次の段落の「注釈の統合と監査」セグメントを識別できる必要があります。

SageMaker Ground Truth は、注釈の統合と監査ワークフローを通じてラベルの品質を向上させるのに役立ちます。アノテーションの統合は、XNUMX つ以上のデータラベラーからラベル入力を収集し、それらを結合して機械学習モデル用の XNUMX つのデータラベルを作成するプロセスです。組み込みの監査およびレビューのワークフローにより、作業者はラベルの検証を実行し、精度を向上させるために調整を行うことができます。

この問題は、単にキーワード検索を実行するのではなく、モデルが質問の意味を理解する必要があるため、困難です。この分野の正確なモデルは、インテリジェントなチャットボットを強化し、高品質の音声アシスタント製品を提供し、パーソナライズされた製品の質問応答を通じてオンラインストアの収益を促進することで、顧客サポートコストを削減できます。この分野の大規模なデータセットの XNUMX つは、スタンフォード質問応答データセット (SQuAD)これは、短いテキストの一節を含むモデルを提示し、そのパッセージ内の回答テキストスパンの位置を予測することをモデルに要求する多様な質問応答データセットです。 SQuAD は、ウィキペディアの一連の記事に対してクラウドワーカーによって提示された質問で構成される読解データセットです。すべての質問に対する答えは、対応する文章の一部のテキストであるか、そうでなければ回答不可能とマークされています。

SQuAD をビジネスユースケースに適応させる際の 2.0 つの課題は、ドメイン固有のカスタムデータセットを生成することです。新しい質問と回答のデータセットを作成するこのプロセスには、アノテーターがスパンを強調表示し、それらのスパンに質問を追加できるようにする特殊なユーザーインターフェイスが必要です。また、回答不可能な質問を含む SQuAD XNUMX 形式をサポートするには、不可能な質問の追加もサポートできなければなりません。これらの不可能な質問は、与えられたパッセージを使用してどのクエリに答えることができないかをモデルがさらに理解するのに役立ちます。のカスタムワーカーテンプレート Ground Truth では、質問と回答のデータセットを作成するためのカスタマイズされたアノテーションエクスペリエンスを作業者に提供することで、これらのデータセットの生成を簡素化します。

ソリューションの概要

このソリューションは、カスタムアノテーションユーザーインターフェイスを使用してドメイン固有のカスタム質問と回答のデータセットにラベルを付ける Ground Truth ラベル付けジョブを作成および管理します。私たちは SageMaker を使用して、 Hugging Face カスタム質問応答データセット上で PyTorch を使用して構築された BERT モデル。

提供されているものをデプロイすることでソリューションを実装できます。 AWS CloudFormation AWS アカウントのテンプレート。 AWS CloudFormation は、 AWSラムダ注釈ユーザーインターフェイスの事前注釈および注釈の統合をサポートする関数。また、 Amazon シンプルストレージサービス (Amazon S3) バケットと AWS IDおよびアクセス管理ラベル付けジョブの作成時に使用する (IAM) ロール。

この投稿では、次の方法を説明します。

独自の質問応答データセットを作成するか、Ground Truth を使用して既存のデータセットを拡張します
Hugging Face データセットを使用してテキストを結合し、トークン化する
SageMaker トレーニングを使用して質問応答データに基づいて BERT モデルを微調整する
モデルを SageMaker エンドポイントにデプロイし、結果を視覚化します

注釈ユーザーインターフェイス

新しいものを使用していますカスタムワーカータスクテンプレート Ground Truth を使用して、既存の SQuAD データセットに新しいアノテーションを追加します。このソリューションは、ワーカータスクテンプレートに加えて、アノテーション前の Lambda 関数 (ユーザーインターフェイスへのデータの入力を処理する) とアノテーション後の Lambda 関数 (ラベル付けが完了した後にユーザーインターフェイスから結果を抽出する) を提供します。

このカスタムワーカータスクテンプレートを使用すると、右側のウィンドウでテキストを強調表示し、強調表示されたテキストに関連する対応する質問を左側のウィンドウに追加できます。右側のペインで強調表示されたテキストは、以前に作成した質問に追加することもできます。また、状況に応じて不可能な問題を追加することもできます。分隊2.0 フォーマット。不可能な質問により、モデルはパッセージがクエリに答えることができない場合に、信頼性の低い誤検知の数を減らすことができます。

このユーザーインターフェイスは、SQuAD 2.0 データセットと同じ JSON スキーマを使用します。つまり、複数の記事と段落にわたって操作でき、前へおよび Next ボタン。ユーザーインターフェイスにより、各アノテーターがタスク送信ステップ中に完了する必要があるラベル付け作業を簡単に監視および決定できます。

注釈 UI が単一の中に含まれているため、液体 HTML ファイルを使用すると、基本的な JavaScript の知識があれば、ラベル付けエクスペリエンスをカスタマイズできます。変更することもできます液体タグ追加情報をラベル付け UI に渡すことができ、テンプレート自体を変更して、より詳細な作業者の指示を含めることもできます。

推定費用

このソリューションの導入には、人によるラベル付けコストを考慮しないと、最大で約 20 ドルのコストが発生する可能性があります。 Amazon S3、Lambda、SageMaker、および Ground Truth はすべて、 AWS無料利用枠、追加の使用料がかかります。詳細については、次の価格ページを参照してください。

Amazon S3 の料金
AWSLambdaの価格
Amazon SageMakerの価格
Amazon SageMaker データのラベル付け料金 – この料金は、使用する労働力の種類によって異なります。 Ground Truth を初めて使用する場合は、プライベートワークフォースを使用し、ラベル付けジョブの構成をテストするワーカーとして自分自身を含めることをお勧めします。

前提条件

このソリューションを実装するには、次の前提条件を満たしている必要があります。

An AWSアカウント.
グラウンドトゥルースに精通している。詳細については、次を参照してください。 Amazon SageMakerGroundTruthを使用してデータにラベルを付ける.
AWS CloudFormation に精通していること。詳細については、 AWS CloudFormation ユーザーガイド.
SageMaker 労働人口. このデモンストレーションでは、民間の労働力を使用します。 SageMaker コンソールでワークフォースを作成できます。

次の GIF は、プライベートワークフォースを作成する方法を示しています。手順については、を参照してください。労働力のラベリングページを使用してAmazon Cognito労働力を作成する.

Amazon SageMaker Ground Truthを使用してカスタムQ＆Aデータセットを構築し、Hugging Face Q＆ANLUモデルPlatoBlockchainDataIntelligenceをトレーニングします。垂直検索。愛。

CloudFormation スタックを起動する

ソリューションの構造を理解したので、それをアカウントにデプロイして、サンプルワークフローを実行できるようにします。ラベル付けパイプラインに関連するすべてのデプロイメント手順は、AWS CloudFormation によって管理されます。これは、AWS CloudFormation が事前アノテーションおよびアノテーション統合 Lambda 関数と、入出力データを保存するための S3 バケットを作成することを意味します。

AWSリージョンでスタックを起動できます us-east-1 AWSCloudFormationコンソールで 発射スタック ボタン。別のリージョンでスタックを起動するには、のREADMEにある手順を使用してください。 GitHubリポジトリ.

ノートを操作する

ソリューションがアカウントにデプロイされると、という名前のノートブックインスタンスが作成されます。 gt-hf-squad-notebook あなたのアカウントで利用可能です。ノートブックの操作を開始するには、次の手順を実行します。

Amazon SageMaker コンソールで、ノートブックインスタンスのページに移動します。
選択する JupyterLabを開く をクリックしてインスタンスを開きます。
インスタンス内でリポジトリを参照します。 hf-gt-custom-qa そしてノートを開いてください hf_squad_finetuning.ipynb.
選択する conda_pytorch_p38 あなたのカーネルとして。

ノートブックインスタンスを作成してノートブックを開いたので、ノートブック内でセルを実行してソリューションを操作できます。この投稿の残りの部分では、ノートブックの各セクションに追加の詳細を記載します。

データをダウンロードして検査する

　 SQuADデータセットトレーニングデータセットとテストおよび開発データセットが含まれています。ノートブックは SQuAD2.0 データセットをダウンロードしますが、ノートブックのセルを変更することで、使用する SQuAD のバージョンを選択できます。 データをダウンロードして検査する.

SQuAD は、Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang によって作成されました。詳細については、を参照してください。原紙およびデータセット。 SQuAD は、以下に基づいて著者によってライセンスされています。クリエイティブコモンズ表示 - 継承 4.0 国際公衆ライセンス.

SQuAD の質問と回答のペアの例を見てみましょう。

段落タイトル: 免疫システム

免疫システムは、病気から身を守るための生物内の多くの生物学的構造とプロセスからなるシステムです。免疫システムが適切に機能するためには、ウイルスから寄生虫に至るまで、病原体として知られるさまざまな病原体を検出し、それらを生物自体の健康な組織から区別する必要があります。多くの種では、免疫系は、自然免疫系と適応免疫系、体液性免疫と細胞性免疫などのサブシステムに分類できます。ヒトでは、血液脳関門、血液脳脊髄液関門、および同様の脳液関門が、脳を保護する神経免疫系から末梢免疫系を分離しています。

質問: 免疫システムは生物を何から守りますか?

答え：病気

モデルをロードする

SQuAD で質問と回答のペアの例を確認したので、質問応答用に微調整できるモデルをダウンロードできます。 Hugging Face を使用すると、大規模な事前トレーニングを受けたベースモデルを簡単にダウンロードし、別の下流タスク用に再初期化できます。この場合、ダウンロードするのは、 distilbert-base-uncased モデルを作成し、それを使用して質問応答に再利用します。 AutoModelForQuestionAnswering ハグフェイスからのクラス。また、 AutoTokenizer クラスを使用して、モデルの事前トレーニングされたトークナイザーを取得します。この投稿の後半では、使用するモデルについて詳しく説明します。

BERT 入力の表示

BERT では、テキストデータを数値表現に変換する必要があります。 トークン。さまざまなトークナイザーが利用可能です。次のトークンは、設定された語彙を使用してインスタンス化する BERT 用に特別に設計されたトークナイザーによって作成されました。各トークンは語彙内の単語にマップされます。変化した免疫システムの質問と、推論のために BERT に提供するコンテキストを見てみましょう。

{'input_ids': tensor([[ 0, 133, 9161, 467, 15899, 28340, 136, 99, 116, 2, 2, 133, 9161, 467, 16, 10, 467, 9, 171, 12243, 6609, 8, 5588, 624, 41, 33993, 14, 15899, 136, 2199, 4, 598, 5043, 5083, 6, 41, 9161, 467, 531, 10933, 10, 1810, 3143, 9, 3525, 6, 684, 25, 35904, 6, 31, 21717, 7, 43108, 31483, 6, 8, 22929, 106, 31, 5, 33993, 18, 308, 2245, 11576, 4, 96, 171, 4707, 6, 5, 9161, 467, 64, 28, 8967, 88, 44890, 29, 6, 215, 25, 5, 36154, 9161, 467, 4411, 5, 28760, 9161, 467, 6, 50, 10080, 15010, 17381, 4411, 3551, 12, 43728, 17381, 4, 96, 5868, 6, 5, 1925, 2383, 36436, 9639, 6, 1925, 2383, 1755, 241, 7450, 4182, 6204, 12293, 9639, 6, 8, 1122, 12293, 2383, 36436, 7926, 2559, 5, 27727, 9161, 467, 31, 5, 14913, 42866, 467, 61, 15899, 5, 2900, 4, 2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

モデル推論

BERT が入力として受け取るものを理解したところで、モデルから推論結果を取得する方法を見てみましょう。次のコードは、以前に生成されたトークン化された入力を使用し、モデルから推論結果を返す方法を示しています。 BERT が生のテキストを入力として受け入れることができないのと同様に、生のテキストを出力として生成することもできません。 BERT が回答として識別した段落内の開始点と終了点を特定することで、BERT の出力を翻訳します。次に、その出力をトークンにマッピングし、英語のテキストに戻します。

outputs = model(**inputs, start_positions=start_positions, end_positions=end_positions) answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(
answer_start_scores
) # Get the most likely beginning of answer with the argmax of the score
answer_end = torch.argmax(answer_end_scores) + 1 # Get the most likely end of answer with the argmax of the score
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(input_ids[answer_start:answer_end]))
print(f"Question: {sq['paragraphs'][0]['qas'][0]['question']}")
print(f"Answer: {answer}")

翻訳結果は以下の通りです。

質問: 免疫システムは生物を何から守りますか?

答え：病気

オーグメントSquad

次に、追加のラベル付きデータを取得するために、カスタムワーカータスクテンプレートグラウンドトゥルースで。まず、SQuAD 形式で新しい記事を作成します。ノートブックはこのファイルをリポジトリから Amazon S3 にコピーしますが、実行前に自由に編集してください。 オーグメントSquad 細胞。 SQuAD の形式は次のコードに示されています。各 SQuAD JSON ファイルには、 data 鍵。各記事には、 title フィールドと XNUMX つ以上の段落。これらの段落には、と呼ばれるテキストのセグメントが含まれています。 context および関連する質問については、 qas リスト。アノテーションを最初から付けているため、 qas リストは空であり、コンテキストを提供するだけです。ユーザーインターフェイスは段落と記事の両方をループできるため、各ワーカータスクを必要に応じて大きくしたり小さくしたりできます。

s3://<my-bucket-name>/custom_squad.json: { "version": "v2.0", "data": [ { "title": "Ground Truth Marketing", "paragraphs": [ { "qas": [], "context": "SageMaker Ground Truth helps improve the quality of labels through annotation consolidation and audit workflows. Annotation consolidation is the process of collecting label inputs from two or more data labelers and combining them to create a single data label for your machine learning model. With built-in audit and review workflows, workers can perform label verification and make adjustments to improve accuracy." }, { "qas": [], "context": "SageMaker Ground Truth provides automated labeling features such as ‘auto-segment’, ‘automatic 3D cuboid snapping’, and ‘sensor fusion with 2D video frames’ through an intuitive user interface in order to reduce the time needed for data labeling tasks while also improving quality. For semantic segmentation, workers must label objects in an image. Using the auto-segment feature, workers can capture the object with 4 clicks vs. hundreds." }, { "qas": [], "context": "SageMaker Ground Truth offers automatic data labeling. Using an active learning model, data is labeled and only routed to humans if the model cannot confidently label it. The human-labeled data is then used to train the machine learning model to improve its' accuracy. As a result, less data is then sent to humans in the next round of labeling which lowers data labeling costs by up to 70%." }, { "qas": [], "context": "SageMaker Ground Truth provides options to work with labelers inside and outside of your organization. Using SageMaker Ground Truth, you can easily send labeling jobs to your own labelers or you can access a workforce of over 500,000 independent contractors who are already performing machine learning related tasks through Amazon Mechanical Turk. If your data requires confidentiality or special skills, you can use vendors pre-screened by AWS for quality and security procedures, including iVision, CapeStart Inc., Cogito, and iMerit." } ] } ]
}

サンプル SQuAD データファイルを生成した後、Ground Truth を作成する必要があります。拡張マニフェストファイルこれは入力データを指します。これを行うには、「」を含む JSON 行形式のファイルを生成します。source」キーは、入力 SQuAD データを保存した Amazon S3 内の場所に対応します。

s3://<my-bucket-name>/input.manifest {"source": "s3://<my-bucket-name>/custom_squad.json"}
{"source": "s3://<my-bucket-name>/custom_squad_2.json"}
{"source": "s3://<my-bucket-name>/custom_squad_3.json"}

ラベル付けポータルにアクセスする

ジョブを Ground Truth に送信すると、生成されたラベル付けジョブを Ground Truth コンソールで表示できます。

ラベル付けを実行するには、前提条件の手順の一部として作成したワーカーポータルアカウントにログインする必要があります。数分間の前処理の後、ジョブはワーカーポータルで利用できるようになります。タスクを開くと、Q&A 注釈用のカスタムワーカーテンプレートが表示されます。質問を追加するには、コンテキスト内のテキストのセクションを強調表示してから、 質問を追加.

ラベル付けジョブのステータスを確認する

送信後、実行できます。 ラベル付けジョブのステータスを確認する セルをクリックして、ラベル付けジョブが完了したかどうかを確認します。完了するまで待ってから、次のセルに進みます。

ラベル付きデータをロードする

ラベル付け後、出力マニフェストにはラベル属性名のエントリが含まれます (この場合は squad-1626282229) トレーニング中に使用できる SQuAD 形式のデータへの S3 URI が含まれています。次の出力マニフェストの内容を参照してください。

{ "source": "s3://<my-bucket-name>/custom_squad.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_2.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}
{ "source": "s3://<my-bucket-name>/custom_squad_3.json", "squad-1626282229": { "s3Uri": "s3://<my-bucket-name>/.../annotations/responses/0/squad.json" }, "squad-1626282229-metadata": { "type": "groundtruth/custom", "job-name": "squad-1626282229", "human-annotated": "yes", "creation-date": "2021-07-14T17:39:24.910000" }
}

マニフェストの各行は、単一のワーカータスクに対応します。

SQuAD列車セットをロードする

ハグフェイスにはデータセットパッケージこれにより、SQuAD をダウンロードして前処理する機能が提供されますが、カスタムの質問と回答を追加するには、少し処理する必要があります。 SQuAD は一連のトピックを中心に構成されています。各トピックにはさまざまな異なるコンテキストステートメントがあり、各コンテキストステートメントには質問と回答のペアがあります。トレーニング用に独自の質問を作成したいため、質問を SQuAD と組み合わせる必要があります。幸いなことに、注釈はすでに SQuAD 形式になっているため、ラベルの例を取得して、新しいトピックとして既存の SQuAD データに追加できます。

ハグ顔データセットオブジェクトを作成する

データを Hugging Face のデータセット形式に変換するには、いくつかのオプションがあります。使用できますロードデータセットこの場合、データセットオブジェクトとして読み込まれる CSV、JSON、またはテキストファイルを指定できます。供給することもできます load_dataset 処理スクリプトを使用して、ファイルを目的の形式に変換します。この投稿では、代わりに Dataset.from_dict() このメソッドを使用すると、データセットオブジェクトを作成するためのメモリ内辞書を提供できます。データセットの特徴も定義します。を使用して機能を表示できます Hugging Face のデータセットビューア、次のスクリーンショットに示すように。

弊社の特徴は以下の通りです。

ID – テキストのID
タイトル – トピックに関連付けられたタイトル
コンテキスト – モデルが答えを見つけるために検索する必要があるコンテキストステートメント
質問 – モデルが尋ねられている質問
回答 – 受け入れられた回答テキストとコンテキストステートメント内の場所

Hugging Face データセットを使用すると、このスキーマを簡単に定義できます。

squad_dataset = Dataset.from_dict(dataset_dict,
features=datasets.Features( { "id": datasets.Value("string"), "title": datasets.Value("string"), "context": datasets.Value("string"), "question": datasets.Value("string"), "answers": datasets.features.Sequence( { "text": datasets.Value("string"), "answer_start": datasets.Value("int32"), } ), # These are the features of your dataset like images, labels ... }
))

データセットオブジェクトを作成した後、次のことを行う必要があります。トークン化するテキスト。モデルは生のテキストを入力として受け入れることができないため、テキストを理解できる数値入力に変換する必要があります。 トークン化。トークン化はモデル固有であるため、微調整するモデルを理解しましょう。私たちが使用しているのは、 distilbert-base-uncased モデル。これは BERT に非常によく似ています。入力エンベディング、マルチヘッドアテンションを使用します (この操作の詳細については、「図解トランス)、フィードフォワード層ですが、パラメータは元の BERT 基本モデルの半分です。次の初期モデルレイヤーを参照してください。

モデルのタイトルの各コンポーネントを分析してみましょう。名前 distilbert は、これが BERT 基本モデルの蒸留版であり、と呼ばれるプロセスを通じて取得されるという事実を示します。知識蒸留。知識の蒸留により、トレーニングデータだけでなく、より大きな事前トレーニング済み教師モデルからの同じトレーニングセットへの応答にも基づいて、より小規模な学生モデルをトレーニングすることができます。 base はモデルのサイズを指します。この場合、モデルは (BERT 大型モデルとは対照的に) BERT 基本モデルから抽出されました。 uncased トレーニングの対象となったテキストを指します。この場合、テキストでは大文字と小文字が区別されませんでした。トレーニングされたテキストはすべて小文字でした。の uncased この側面は、テキストをトークン化する方法に直接影響します。ありがたいことに、Hugging Face では、変圧器モデルのダウンロードに簡単にアクセスできることに加えて、モデルに付随するトークナイザーも提供しています。また、カスタマイズされたトークナイザーもダウンロードしました。 distilbert-base-uncased model これを使ってテキストを変換します。

# loadbase_model_prefix model_name = "distilbert-base-uncased" # Load model & tokenizer
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# set model to evaluation mode
evl = model.eval()

データセットクラスのもう XNUMX つの特徴は、マップ関数と並行して前処理とトークン化を実行できることです。処理関数を定義し、それをmapメソッドに渡します。

質問に答えるために、Hugging Face にはいくつかのコンポーネントが必要です (これらのコンポーネントは用語集):

注意マスク – どのトークンに注意を払うべきかをモデルに示すマスク。主に実際のテキストとパディングトークンを区別するために使用されます。
開始位置 – 本文中の解答の開始位置
終了位置 – 本文中の解答の終了位置
入力 ID – トークンを語彙にマッピングするトークンインデックス

トークナイザーはテキストをトークン化しますが、回答の開始位置と終了位置を明示的に取得する必要があるため、カスタム前処理関数を定義しました。入力の準備ができたので、トレーニングを開始しましょう。

トレーニングジョブを開始する

ノートブックでトレーニングを実行できますが、Q&A モデルを適切な時間内にトレーニングするために必要なインスタンスのタイプ (p3 インスタンスと p4 インスタンス) はかなり強力です。これらのインスタンスは、ノートブックを実行したり永続的に実行するには過剰になる傾向があります。アマゾンエラスティックコンピューティングクラウド (Amazon EC2) インスタンス。ここで SageMaker トレーニングが登場します。SageMaker トレーニングを使用すると、トレーニングジョブの期間中のみ稼働している指定されたインスタンスでトレーニングジョブを起動できます。これにより、4 個の NVIDIA A24 GPU を備えた p8d.100xlarge のような大規模なインスタンスで実行できるようになりますが、オフにし忘れた場合に多額の請求が発生することを心配する必要はありません。また、次のような他の SageMaker 機能にも簡単にアクセスできます。 SageMakerの実験 ML トレーニングの実行を追跡するため、および SageMakerデバッガートレーニングジョブを理解してプロファイリングするために。

現地研修

まず、Hugging Face でのモデルのトレーニングがローカルでどのように機能するかを理解してから、SageMaker で実行するために行う調整について見ていきましょう。

ハグフェイスはトレーナークラスを利用することでトレーニングを簡単にします。トレーナークラスを使用すると、モデル、トレーニングおよび検証データセット、ハイパーパラメーター、さらにはトークナイザーを渡すことができます。モデルとトレーニングおよび検証セットがすでにあるため、ハイパーパラメータを定義するだけで済みます。これは、 TrainingArguments クラス。これにより、学習率、バッチサイズ、エポック数、さらには重みの減衰や学習率のスケジューリング戦略などの詳細なパラメーターなどを指定できるようになります。定義した後、 TrainingArguments、モデル、トレーニングセット、検証セット、および引数を渡して、トレーナークラスをインスタンス化できます。その後、単に呼び出すことができます trainer.train() をクリックしてモデルのトレーニングを開始します。次のコードブロックは、ローカルトレーニングを実行する方法を示しています。

doc_stride=128
max_length=512
tokenized_train = squad_dataset.map(prepare_train_features, batched=True, remove_columns=squad_dataset.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride})
tokenized_test = squad_test.map(prepare_train_features, batched=True, remove_columns=squad_test.column_names, fn_kwargs = {'tokenizer':tokenizer, 'max_length':max_length, 'doc_stride':doc_stride}) hf_args = TrainingArguments( 'test_local', evaluation_strategy = "epoch", learning_rate=5e-5, per_device_train_batch_size=16, per_device_eval_batch_size=16, num_train_epochs=1, weight_decay=0.0001,
) trainer = Trainer( model, hf_args, train_dataset=tokenized_train, eval_dataset=tokenized_test, data_collator=default_data_collator, tokenizer=tokenizer,
) trainer.train()

S3にデータを送信する

SageMaker トレーニングで同じことを行うのは簡単です。最初のステップは、モデルがアクセスできるようにデータを Amazon S3 に配置することです。 SageMaker トレーニングではデータソースを指定できます。 Amazon S3 などのソースを使用できます。 AmazonElasticファイルシステム (Amazon EFS)、または光沢のためのAmazonFSx 高性能のデータ取り込みを実現します。私たちの場合、拡張された SQuAD データセットはそれほど大きくないため、Amazon S3 が適切な選択です。トレーニングデータを Amazon S3 のフォルダーにアップロードし、SageMaker がトレーニングインスタンスを起動すると、指定した場所からデータをダウンロードします。

モデルをインスタンス化します

トレーニングジョブを開始するには、組み込みの Hugging Face 推定器を使用できます。 SageMaker SDK。 SageMaker は、estimator クラスを使用して、トレーニングジョブのパラメーターと、トレーニングに使用するインスタンスの数とタイプを定義します。 SageMaker トレーニングは、Docker コンテナの使用を中心に構築されています。 SageMaker のデフォルトのコンテナを使用することも、トレーニング用に独自のカスタムコンテナを提供することもできます。 Hugging Face モデルの場合、SageMaker には、Hugging Face トレーニングジョブを実行するために必要なすべての依存関係を備えた組み込みの Hugging Face コンテナがあります。必要なのは、Hugging Face コンテナがエントリポイントとして使用するトレーニングスクリプトを定義することだけです。

このトレーニングスクリプトでは、引数を定義し、トレーニングコードと同様にハイパーパラメータのセットの形式でエントリポイントに渡します。トレーニングコードはローカルで実行している場合と同じです。単純に使用できます TrainingArguments そしてそれらをトレーナーオブジェクトに渡します。唯一の違いは、モデルの出力場所を指定する必要があることです。 /opt/ml/model これにより、SageMaker トレーニングがそれを取得し、パッケージ化し、Amazon S3 に送信できるようになります。次のコードブロックは、Hugging Face 推定器をインスタンス化する方法を示しています。

# hyperparameters, which are passed into the training job
hyperparameters={ 'model_name': model_name, 'dataset_name':'squad', 'do_train': True, 'do_eval': True, 'fp16': True, 'train_batch_size': 32, 'eval_batch_size': 32, 'weight_decay':0.01, 'warmup_steps':500, 'learning_rate':5e-5, 'epochs': 2, 'max_length': 384, 'max_steps': 100, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model'
} # estimator
huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='container_training', metric_definitions=metric_definitions, instance_type='ml.p3.8xlarge', instance_count=1, volume_size=100, role=role, transformers_version='4.4.2', pytorch_version='1.6.0', py_version='py36', hyperparameters = hyperparameters)

モデルを微調整する

特定のトレーニングジョブでは、3.8 つの V4 GPU で構成される p100xlarge インスタンスを使用します。トレーナークラスはマルチ GPU インスタンスでのトレーニングを自動的にサポートするため、これを考慮した追加のセットアップは必要ありません。バッチサイズ 16、学習率 4e5 で XNUMX つのエポックにわたってモデルをトレーニングします。また、モデルの精度に影響を与えることなく数値精度を下げることができる領域で混合精度を使用する混合精度トレーニングも有効にしています。これにより、利用可能なメモリとトレーニング速度が向上します。トレーニングジョブを開始するには、 fit 弊社からの方法 huggingface_estimator とに提供されます。

huggingface_estimator.fit(data_channels, wait=False, job_name=f'hf-distilbert-squad-{int(time.time())}')

モデルのトレーニングが完了したら、モデルをローカルにダウンロードし、ノートブックのメモリにロードしてテストできます。これはノートブックで実証されています。ここでは、SageMaker エンドポイントとしてデプロイする別のオプションに焦点を当てます。

トレーニング済みモデルをデプロイする

SageMaker を使用すると、トレーニング用のユーティリティを提供するだけでなく、データサイエンティストや ML エンジニアがトレーニングされたモデルに REST エンドポイントを簡単にデプロイできるようになります。 SageMaker 内外でトレーニングされたモデルをデプロイできます。詳細については、以下を参照してください。 Amazon SageMaker にモデルをデプロイする.

私たちのモデルは SageMaker でトレーニングされているため、エンドポイントとしてデプロイするのに適した形式になっています。トレーニングと同様に、モデル、サービス提供コード、エンドポイントとしてデプロイするインスタンスの数とタイプを定義する SageMaker モデルクラスを定義します。また、トレーニングと同様に、サービス提供は Docker コンテナに基づいており、組み込みの SageMaker コンテナのいずれかを使用することも、独自のコンテナを提供することもできます。この投稿では、組み込みの PyTorch サービスコンテナーを使用するため、エンドポイントを起動して実行するには、いくつかのことを定義するだけで済みます。サービス提供コードには XNUMX つの関数が必要です。

モデル_fn – エンドポイントがモデルをロードする方法を定義します (これは XNUMX 回だけ実行され、その後の予測のためにメモリに保存されます)
入力_fn – 入力がどのように逆シリアル化され、処理されるかを定義します
予測_fn – モデルが入力に対してどのように予測を行うかを定義します
出力_fn – エンドポイントが出力データをどのようにフォーマットし、リクエストを行っているクライアントに送り返すかを定義します。

これらの関数を定義した後、エンドポイントをデプロイし、コンテキストステートメントと質問を渡し、予測された答えを返すことができます。

endpoint_name = 'hf-distilbert-QA-string-endpoint4-185'
model_data = f"{huggingface_estimator.output_path}{huggingface_estimator.jobs[0].job_name}/output/model.tar.gz" # We are going to use a SageMaker serving container
torch_model = PyTorchModel(model_data=model_data, source_dir = 'container_serving', role=role, entry_point='transform_script.py', framework_version='1.8.1', py_version='py3', predictor_cls = StringPredictor)
bert_end = torch_model.deploy(instance_type='ml.m5.2xlarge', initial_instance_count=1, #'ml.g4dn.xlarge' endpoint_name=endpoint_name)

モデルの結果を視覚化する

コンテキストステートメントを送信して回答を受信できる SageMaker エンドポイントをデプロイしたため、元の SQuAD ビューア内に戻って結果の推論を視覚化し、モデルがパッセージコンテキストで見つけたものをより適切に視覚化できます。これを行うには、推論の結果を再フォーマットして SQuAD 形式に戻し、ワーカーテンプレートの Liquid タグを SQuAD 形式の JSON に置き換えます。次に、次のスクリーンショットに示すように、ワーカーテンプレート内で結果の UI を iframe して、単一のノートブックのコンテキスト内で結果を繰り返し確認できます。左側の各質問をクリックすると、そのクエリに一致する右側のテキストの範囲が強調表示されます。質問が選択されていない場合、以下に示すように、すべてのテキストスパンが右側で強調表示されます。

クリーンアップ

将来の料金が発生しないようにするには、 クリーンアップ ノートブックのセクションをクリックして、SageMaker エンドポイント、生データセットと処理済みデータセットを含む S3 オブジェクト、CloudFormation スタックを含むすべてのリソースを削除します。削除が完了したら、現在のノートブックスクリプトをホストしているノートブックインスタンスを必ず停止して削除してください。

まとめ

この投稿では、Ground Truth を使用して独自の質問応答データセットを作成し、それを SQuAD と組み合わせて、SageMaker を使用して独自の質問応答モデルをトレーニングおよびデプロイする方法を学びました。ノートブックを完了すると、カスタム Q&A データセットでトレーニングされた SageMaker エンドポイントがデプロイされます。 SageMaker エンドポイントは標準の REST API を通じて利用できるため、このエンドポイントは本番 NLU ワークフローに統合する準備ができています。 SQuAD 2.0 形式の注釈付きカスタムデータセットもあるので、既存のモデルを再トレーニングしたり、他の質問応答モデルアーキテクチャのトレーニングを試したりすることができます。最後に、ワーカーテンプレートをローカルノートブックにロードすることで、推論の結果を迅速に視覚化するメカニズムが得られます。

試してみるノートブック、独自の質問でそれを拡張し、NLU ユースケースに合わせて独自のカスタム質問応答モデルをトレーニングして展開します。

幸せな建物！

著者について

ジェレミー・フェルトラッコ アマゾンウェブサービスのアマゾンMLソリューションラボのソフトウェア開発エンジニアです。彼は、コンピュータービジョン、ロボット工学、機械学習のバックグラウンドを利用して、AWSのお客様がAIの採用を加速できるよう支援しています。

ヴィディヤ・サーガル・ラヴィパティ のマネージャーです Amazon MLソリューションラボ、彼は大規模な分散システムでの豊富な経験と機械学習への情熱を活用して、さまざまな業界のAWSのお客様がAIとクラウドの採用を加速できるよう支援しています。以前は、Amazonのコネクティビティサービスの機械学習エンジニアであり、パーソナライズおよび予知保全プラットフォームの構築を支援していました。

アイザック・プリヴィテラ は、Amazon Machine Learning Solutions Labのシニアデータサイエンティストであり、顧客のビジネス上の問題に対処するために、特注の機械学習およびディープラーニングソリューションを開発しています。彼は主にコンピュータービジョンの分野で働いており、AWSのお客様が分散トレーニングとアクティブラーニングを利用できるようにすることに重点を置いています。