ヘルステックのユースケース向けに大規模な言語モデルを Amazon SageMaker にデプロイする |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

2021で、製薬業界は米国で 550 億ドルの収益を生み出しました。製薬会社は、さまざまな、多くの場合新しい薬を市場に販売していますが、そこで意図しない重大な有害事象が発生することがあります。

これらのイベントは病院や自宅などどこからでも報告できるため、責任を持って効率的に監視する必要があります。有害事象の従来の手動処理は、健康データの量とコストの増加により困難になっています。全体として、384 年までに医療業界全体のファーマコビジランス活動のコストは 2022 億ドルに達すると予測されています。包括的なファーマコビジランス活動をサポートするために、当社の製薬顧客は機械学習 (ML) の力を利用して、さまざまなデータソースからの有害事象の検出を自動化したいと考えています。、ソーシャルメディアフィード、電話、電子メール、手書きのメモなどを収集し、適切なアクションをトリガーします。

この投稿では、次を使用して ML 駆動のソリューションを開発する方法を示します。アマゾンセージメーカー公開されている顔ハグの薬物副作用データセットを使用して有害事象を検出します。このソリューションでは、医療データで事前トレーニングされたハグフェイスのさまざまなモデルを微調整し、事前トレーニングされた BioBERT モデルを使用します。公開されたデータセット試した中で最高のパフォーマンスを発揮します。

を使用してソリューションを実装しました。 AWSクラウド開発キット (AWS CDK)。ただし、この投稿ではソリューションの構築の詳細については説明しません。このソリューションの実装の詳細については、以下を参照してください。 Amazon SageMaker と Amazon QuickSight を使用して、有害事象をリアルタイムで捕捉するシステムを構築する.

この投稿では、いくつかの重要な領域を掘り下げ、次のトピックについて包括的に説明します。

AWS プロフェッショナルサービスが直面するデータの課題
大規模言語モデル (LLM) の状況と応用:
- トランスフォーマー、BERT、および GPT
- ハグ顔
微調整された LLM ソリューションとそのコンポーネント:
- データの準備
- モデルトレーニング

データチャレンジ

分類タスクを考えるときに、データの偏りが問題になることがよくあります。理想的にはバランスの取れたデータセットが必要ですが、このユースケースも例外ではありません。

この偏りに対処するには、 generative AI モデル (Falcon-7B および Falcon-40B) は、意味の多様性を高め、ラベル付けされた有害事象のサンプルサイズを増やすために、トレーニングセットからの XNUMX つの例に基づいてイベントサンプルを生成するように促されました。ここで Falcon モデルを使用することは、Hugging Face の一部の LLM とは異なり、Falcon が使用するトレーニングデータセットを提供するため、Falcon トレーニングセット内にテストセットの例が含まれていないことを確認でき、データを回避できるため有利です。汚染。

医療顧客にとってのデータに関するもう 1 つの課題は、HIPAA コンプライアンス要件です。これらの要件を満たすには、保存時および転送時の暗号化をソリューションに組み込む必要があります。

トランスフォーマー、BERT、および GPT

トランスフォーマーアーキテクチャは、自然言語処理 (NLP) タスクに使用されるニューラルネットワークアーキテクチャです。新聞で初めて紹介されました「必要なのは注意だけです」 Vaswaniらによる。（2017年）。トランスフォーマーアーキテクチャはアテンションメカニズムに基づいており、これによりモデルは単語間の長距離依存関係を学習できます。元の論文で説明されているように、トランスフォーマーは、エンコーダーとデコーダーという XNUMX つの主要コンポーネントで構成されます。エンコーダーは入力シーケンスを入力として受け取り、一連の隠れ状態を生成します。次に、デコーダはこれらの隠れた状態を入力として受け取り、出力シーケンスを生成します。アテンションメカニズムはエンコーダとデコーダの両方で使用されます。アテンションメカニズムにより、モデルは出力シーケンスを生成するときに入力シーケンス内の特定の単語に注意を向けることができます。これにより、モデルは単語間の長期的な依存関係を学習できます。これは、機械翻訳やテキストの要約など、多くの NLP タスクに不可欠です。

トランスフォーマーアーキテクチャの中で最も人気があり便利なものの 1 つである Bidirectional Encoder Representations from Transformers (BERT) は、次のような言語表現モデルです。 2018で導入されました。 BERT は、文内の一部の単語がマスクされているシーケンスでトレーニングされており、マスクされた単語の前後の単語の両方を考慮して、それらの単語を埋める必要があります。 BERT は、質問応答、自然言語推論、感情分析など、さまざまな NLP タスクに合わせて微調整できます。

世界を席巻したもう 1 つの人気のあるトランスフォーマーアーキテクチャは、Generative Pre-trained Transformer (GPT) です。最初の GPT モデルは OpenAIによって2018年に導入されました。これは、単語の前のコンテキストのみを認識して、シーケンス内の次の単語を厳密に予測するようにトレーニングされることで機能します。 GPT モデルは、テキストとコードの大規模なデータセットでトレーニングされ、テキストの生成、質問応答、要約などのさまざまな NLP タスクに合わせて微調整できます。

一般に、BERT は単語の文脈をより深く理解する必要があるタスクでは優れていますが、 GPT は、テキストの生成が必要なタスクに適しています。.

ハグ顔

Hugging Face は、NLP を専門とする人工知能企業です。開発者が NLP タスクに重点を置いた ML モデルを構築、トレーニング、デプロイできるようにするツールとリソースを備えたプラットフォームを提供します。 Hugging Face の主要な提供物の 1 つは、そのライブラリです。トランスフォーマーこれには、テキスト分類、翻訳、要約、質問応答などのさまざまな言語タスクに合わせて微調整できる事前トレーニング済みモデルが含まれています。

Hugging Face は、開発者やデータサイエンティストが ML モデルを大規模に構築、トレーニング、デプロイできるようにするフルマネージドサービスである SageMaker とシームレスに統合します。この相乗効果により、Hugging Face が提供する最先端のモデルと AWS の強力で柔軟な ML サービスを組み合わせた NLP タスクを処理するための堅牢でスケーラブルなインフラストラクチャが提供され、ユーザーにメリットがもたらされます。ハグフェイスモデルに直接アクセスすることもできます。 Amazon SageMaker ジャンプスタートなので、事前に構築されたソリューションから始めるのが便利です。

ソリューションの概要

私たちは、Hugging Face Transformers ライブラリを使用して、有害事象分類のタスクのために SageMaker 上の変圧器モデルを微調整しました。トレーニングジョブは、SageMaker PyTorch エスティメーターを使用して構築されます。 SageMaker JumpStart には、実装が簡単になる Hugging Face との補完的な統合もいくつかあります。このセクションでは、データの準備とモデルのトレーニングに含まれる主な手順について説明します。

データの準備

医薬品副作用データ（ade_corpus_v2) トレーニング/テストを 80/20 に分割した Hugging Face データセット内。モデルのトレーニングと推論に必要なデータ構造には、次の XNUMX つの列があります。

モデル入力データとしてのテキストコンテンツ用の XNUMX 列。
ラベルクラスの別の列。テキストには 2 つのクラスが考えられます。 Not_AE および Adverse_Event.

モデルのトレーニングと実験

有害事象の結合データを微調整するために、考えられる抱き顔モデルの空間を効率的に探索するために、SageMaker ハイパーパラメータ最適化 (HPO) ジョブを構築し、他の重要なハイパーパラメータとともに、さまざまな抱き顔モデルをハイパーパラメータとして渡しました。トレーニングバッチサイズ、シーケンスの長さ、モデル、学習率など。トレーニングジョブでは ml.p3dn.24xlarge インスタンスが使用され、そのインスタンスタイプではジョブごとに平均 30 分かかりました。トレーニング指標はキャプチャされましたが、 AmazonSageMakerの実験ツールを使用し、各トレーニングジョブは 10 エポックにわたって実行されました。

コードでは次のように指定します。

トレーニングのバッチサイズ – モデルの重みが更新される前に一緒に処理されるサンプルの数
シーケンスの長さ – BERT が処理できる入力シーケンスの最大長
学習率 – トレーニング中にモデルが重みを更新する速度
Models – ハグフェイスの事前学習済みモデル

# we use the Hyperparameter Tuner
from sagemaker.tuner import IntegerParameter,ContinuousParameter, CategoricalParameter
tuning_job_name = 'ade-hpo'
# Define exploration boundaries
hyperparameter_ranges = { 'learning_rate': ContinuousParameter(5e-6,5e-4), 'max_seq_length': CategoricalParameter(['16', '32', '64', '128', '256']), 'train_batch_size': CategoricalParameter(['16', '32', '64', '128', '256']), 'model_name': CategoricalParameter(["emilyalsentzer/Bio_ClinicalBERT", "dmis-lab/biobert-base-cased-v1.2", "monologg/biobert_v1.1_pubmed", "pritamdeka/BioBert-PubMed200kRCT", "saidhr20/pubmed-biobert-text-classification" ])
} # create Optimizer
Optimizer = sagemaker.tuner.HyperparameterTuner( estimator=bert_estimator, hyperparameter_ranges=hyperparameter_ranges, base_tuning_job_name=tuning_job_name, objective_type='Maximize', objective_metric_name='f1', metric_definitions=[ {'Name': 'f1', 'Regex': "f1: ([0-9.]+).*$"}], max_jobs=40, max_parallel_jobs=4,
) Optimizer.fit({'training': inputs_data}, wait=False)

結果

私たちのユースケースで最高のパフォーマンスを発揮したモデルは、 monologg/biobert_v1.1_pubmed Hugging Face でホストされているモデルは、19,717 件の科学出版物で構成される Pubmed データセットで事前トレーニングされた BERT アーキテクチャのバージョンです。このデータセットで BERT を事前トレーニングすると、医学に関連する科学用語の周囲のコンテキストを特定する際に、このモデルにさらなる専門知識が与えられます。これにより、データセットに頻繁に現れる医学的に固有の構文でモデルが事前トレーニングされているため、有害事象検出タスクのモデルのパフォーマンスが向上します。

次の表は、評価指標をまとめたものです。

モデル	精度	リコール	F1
ベースBERT	0.87	0.95	0.91
バイオバート	0.89	0.95	0.92
HPO を使用した BioBERT	0.89	0.96	0.929
HPO および合成的に生成された有害事象を含む BioBERT	0.90	0.96	0.933

これらは基本 BERT モデルに比べて比較的小規模で漸進的な改善ですが、それでも、これらの方法を通じてモデルのパフォーマンスを向上させるためのいくつかの実行可能な戦略を示しています。 Falcon を使用した合成データの生成には、特にこれらの生成 AI モデルが時間の経過とともに改善されるため、パフォーマンス向上の大きな可能性と可能性が秘められているようです。

クリーンアップ

今後の料金の発生を回避するには、次のコードで作成したモデルとモデルエンドポイントのように作成されたリソースをすべて削除します。

# Delete resources
model_predictor.delete_model()
model_predictor.delete_endpoint()

まとめ

今日、多くの製薬会社は、顧客の安全性と成果の向上を支援するために、顧客とのやり取りから有害事象を体系的な方法で特定するプロセスを自動化したいと考えています。この投稿で示したように、合成的に生成された有害事象をデータに追加して微調整された LLM BioBERT は、F1 スコアの高い有害事象を分類し、お客様向けの HIPAA 準拠のソリューションの構築に使用できます。

いつものように、AWS は皆様からのフィードバックをお待ちしております。ご意見やご質問をコメント欄に残してください。

著者について

ヘルステックのユースケース向けの大規模な言語モデルを Amazon SageMaker にデプロイする |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ザック・ピーターソン は、AWS プロフェッショナルサービスのデータサイエンティストです。彼は長年にわたり機械学習ソリューションを顧客に提供することに実務に携わっており、経済学の修士号を取得しています。

ヘルステックのユースケース向けの大規模な言語モデルを Amazon SageMaker にデプロイする |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 アドウェール・アキンファデリン博士 は、AWS のヘルスケアとライフサイエンスのシニアデータサイエンティストです。彼の専門知識は、再現可能なエンドツーエンドの AI/ML 手法、実践的な実装、および世界の医療顧客が学際的な問題に対するスケーラブルなソリューションを策定および開発できるよう支援することです。彼は物理学の大学院学位を 2 つ取得し、工学の博士号を 1 つ取得しています。

ヘルステックのユースケース向けの大規模な言語モデルを Amazon SageMaker にデプロイする |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 エクタワリアブラル博士号は、AWS ヘルスケアおよびライフサイエンス (HCLS) プロフェッショナルサービスビジネスユニットのシニア AI/ML コンサルタントです。彼女は、ヘルスケア領域、特に放射線学における AI/ML の応用に豊富な経験を持っています。仕事以外では、放射線医学における AI について議論していないときは、ランニングやハイキングをするのが好きです。

ヘルステックのユースケース向けの大規模な言語モデルを Amazon SageMaker にデプロイする |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ハンマン は、カリフォルニア州サンディエゴを拠点とする AWS プロフェッショナルサービスのシニアデータサイエンス & 機械学習マネージャーです。彼はノースウェスタン大学で工学博士号を取得しており、製造、金融サービス、エネルギー分野のクライアントにアドバイスする経営コンサルタントとして数年の経験があります。現在、彼はさまざまな業界の主要顧客と熱心に協力して、AWS 上で ML および生成 AI ソリューションを開発および実装しています。