2021で、 製薬業界は米国で 550 億ドルの収益を生み出しました。製薬会社は、さまざまな、多くの場合新しい薬を市場に販売していますが、そこで意図しない重大な有害事象が発生することがあります。
これらのイベントは病院や自宅などどこからでも報告できるため、責任を持って効率的に監視する必要があります。有害事象の従来の手動処理は、健康データの量とコストの増加により困難になっています。全体として、384 年までに医療業界全体のファーマコビジランス活動のコストは 2022 億ドルに達すると予測されています。包括的なファーマコビジランス活動をサポートするために、当社の製薬顧客は機械学習 (ML) の力を利用して、さまざまなデータ ソースからの有害事象の検出を自動化したいと考えています。 、ソーシャル メディア フィード、電話、電子メール、手書きのメモなどを収集し、適切なアクションをトリガーします。
この投稿では、次を使用して ML 駆動のソリューションを開発する方法を示します。 アマゾンセージメーカー 公開されている顔ハグの薬物副作用データセットを使用して有害事象を検出します。このソリューションでは、医療データで事前トレーニングされたハグフェイスのさまざまなモデルを微調整し、事前トレーニングされた BioBERT モデルを使用します。 公開されたデータセット 試した中で最高のパフォーマンスを発揮します。
を使用してソリューションを実装しました。 AWSクラウド開発キット (AWS CDK)。ただし、この投稿ではソリューションの構築の詳細については説明しません。このソリューションの実装の詳細については、以下を参照してください。 Amazon SageMaker と Amazon QuickSight を使用して、有害事象をリアルタイムで捕捉するシステムを構築する.
この投稿では、いくつかの重要な領域を掘り下げ、次のトピックについて包括的に説明します。
- AWS プロフェッショナル サービスが直面するデータの課題
- 大規模言語モデル (LLM) の状況と応用:
- トランスフォーマー、BERT、および GPT
- ハグ顔
- 微調整された LLM ソリューションとそのコンポーネント:
- データの準備
- モデルトレーニング
データチャレンジ
分類タスクを考えるときに、データの偏りが問題になることがよくあります。理想的にはバランスの取れたデータセットが必要ですが、このユースケースも例外ではありません。
この偏りに対処するには、 generative AI モデル (Falcon-7B および Falcon-40B) は、意味の多様性を高め、ラベル付けされた有害事象のサンプル サイズを増やすために、トレーニング セットからの XNUMX つの例に基づいてイベント サンプルを生成するように促されました。ここで Falcon モデルを使用することは、Hugging Face の一部の LLM とは異なり、Falcon が使用するトレーニング データセットを提供するため、Falcon トレーニング セット内にテスト セットの例が含まれていないことを確認でき、データを回避できるため有利です。汚染。
医療顧客にとってのデータに関するもう 1 つの課題は、HIPAA コンプライアンス要件です。これらの要件を満たすには、保存時および転送時の暗号化をソリューションに組み込む必要があります。
トランスフォーマー、BERT、および GPT
トランスフォーマー アーキテクチャは、自然言語処理 (NLP) タスクに使用されるニューラル ネットワーク アーキテクチャです。新聞で初めて紹介されました 「必要なのは注意だけです」 Vaswaniらによる。 (2017年)。トランスフォーマー アーキテクチャはアテンション メカニズムに基づいており、これによりモデルは単語間の長距離依存関係を学習できます。元の論文で説明されているように、トランスフォーマーは、エンコーダーとデコーダーという XNUMX つの主要コンポーネントで構成されます。エンコーダーは入力シーケンスを入力として受け取り、一連の隠れ状態を生成します。次に、デコーダはこれらの隠れた状態を入力として受け取り、出力シーケンスを生成します。アテンション メカニズムはエンコーダとデコーダの両方で使用されます。アテンション メカニズムにより、モデルは出力シーケンスを生成するときに入力シーケンス内の特定の単語に注意を向けることができます。これにより、モデルは単語間の長期的な依存関係を学習できます。これは、機械翻訳やテキストの要約など、多くの NLP タスクに不可欠です。
トランスフォーマー アーキテクチャの中で最も人気があり便利なものの 1 つである Bidirectional Encoder Representations from Transformers (BERT) は、次のような言語表現モデルです。 2018で導入されました。 BERT は、文内の一部の単語がマスクされているシーケンスでトレーニングされており、マスクされた単語の前後の単語の両方を考慮して、それらの単語を埋める必要があります。 BERT は、質問応答、自然言語推論、感情分析など、さまざまな NLP タスクに合わせて微調整できます。
世界を席巻したもう 1 つの人気のあるトランスフォーマー アーキテクチャは、Generative Pre-trained Transformer (GPT) です。最初の GPT モデルは OpenAIによって2018年に導入されました。これは、単語の前のコンテキストのみを認識して、シーケンス内の次の単語を厳密に予測するようにトレーニングされることで機能します。 GPT モデルは、テキストとコードの大規模なデータセットでトレーニングされ、テキストの生成、質問応答、要約などのさまざまな NLP タスクに合わせて微調整できます。
一般に、BERT は単語の文脈をより深く理解する必要があるタスクでは優れていますが、 GPT は、テキストの生成が必要なタスクに適しています。.
ハグ顔
Hugging Face は、NLP を専門とする人工知能企業です。開発者が NLP タスクに重点を置いた ML モデルを構築、トレーニング、デプロイできるようにするツールとリソースを備えたプラットフォームを提供します。 Hugging Face の主要な提供物の 1 つは、そのライブラリです。 トランスフォーマーこれには、テキスト分類、翻訳、要約、質問応答などのさまざまな言語タスクに合わせて微調整できる事前トレーニング済みモデルが含まれています。
Hugging Face は、開発者やデータ サイエンティストが ML モデルを大規模に構築、トレーニング、デプロイできるようにするフルマネージド サービスである SageMaker とシームレスに統合します。この相乗効果により、Hugging Face が提供する最先端のモデルと AWS の強力で柔軟な ML サービスを組み合わせた NLP タスクを処理するための堅牢でスケーラブルなインフラストラクチャが提供され、ユーザーにメリットがもたらされます。ハグフェイスモデルに直接アクセスすることもできます。 Amazon SageMaker ジャンプスタートなので、事前に構築されたソリューションから始めるのが便利です。
ソリューションの概要
私たちは、Hugging Face Transformers ライブラリを使用して、有害事象分類のタスクのために SageMaker 上の変圧器モデルを微調整しました。トレーニング ジョブは、SageMaker PyTorch エスティメーターを使用して構築されます。 SageMaker JumpStart には、実装が簡単になる Hugging Face との補完的な統合もいくつかあります。このセクションでは、データの準備とモデルのトレーニングに含まれる主な手順について説明します。
データの準備
医薬品副作用データ(ade_corpus_v2) トレーニング/テストを 80/20 に分割した Hugging Face データセット内。モデルのトレーニングと推論に必要なデータ構造には、次の XNUMX つの列があります。
- モデル入力データとしてのテキスト コンテンツ用の XNUMX 列。
- ラベル クラスの別の列。テキストには 2 つのクラスが考えられます。
Not_AE
およびAdverse_Event
.
モデルのトレーニングと実験
有害事象の結合データを微調整するために、考えられる抱き顔モデルの空間を効率的に探索するために、SageMaker ハイパーパラメータ最適化 (HPO) ジョブを構築し、他の重要なハイパーパラメータとともに、さまざまな抱き顔モデルをハイパーパラメータとして渡しました。トレーニング バッチ サイズ、シーケンスの長さ、モデル、学習率など。トレーニング ジョブでは ml.p3dn.24xlarge インスタンスが使用され、そのインスタンス タイプではジョブごとに平均 30 分かかりました。トレーニング指標はキャプチャされましたが、 AmazonSageMakerの実験 ツールを使用し、各トレーニング ジョブは 10 エポックにわたって実行されました。
コードでは次のように指定します。
- トレーニングのバッチサイズ – モデルの重みが更新される前に一緒に処理されるサンプルの数
- シーケンスの長さ – BERT が処理できる入力シーケンスの最大長
- 学習率 – トレーニング中にモデルが重みを更新する速度
- Models – ハグフェイスの事前学習済みモデル
結果
私たちのユースケースで最高のパフォーマンスを発揮したモデルは、 monologg/biobert_v1.1_pubmed
Hugging Face でホストされているモデルは、19,717 件の科学出版物で構成される Pubmed データセットで事前トレーニングされた BERT アーキテクチャのバージョンです。このデータセットで BERT を事前トレーニングすると、医学に関連する科学用語の周囲のコンテキストを特定する際に、このモデルにさらなる専門知識が与えられます。これにより、データセットに頻繁に現れる医学的に固有の構文でモデルが事前トレーニングされているため、有害事象検出タスクのモデルのパフォーマンスが向上します。
次の表は、評価指標をまとめたものです。
モデル | 精度 | リコール | F1 |
ベースBERT | 0.87 | 0.95 | 0.91 |
バイオバート | 0.89 | 0.95 | 0.92 |
HPO を使用した BioBERT | 0.89 | 0.96 | 0.929 |
HPO および合成的に生成された有害事象を含む BioBERT | 0.90 | 0.96 | 0.933 |
これらは基本 BERT モデルに比べて比較的小規模で漸進的な改善ですが、それでも、これらの方法を通じてモデルのパフォーマンスを向上させるためのいくつかの実行可能な戦略を示しています。 Falcon を使用した合成データの生成には、特にこれらの生成 AI モデルが時間の経過とともに改善されるため、パフォーマンス向上の大きな可能性と可能性が秘められているようです。
クリーンアップ
今後の料金の発生を回避するには、次のコードで作成したモデルとモデル エンドポイントのように作成されたリソースをすべて削除します。
まとめ
今日、多くの製薬会社は、顧客の安全性と成果の向上を支援するために、顧客とのやり取りから有害事象を体系的な方法で特定するプロセスを自動化したいと考えています。この投稿で示したように、合成的に生成された有害事象をデータに追加して微調整された LLM BioBERT は、F1 スコアの高い有害事象を分類し、お客様向けの HIPAA 準拠のソリューションの構築に使用できます。
いつものように、AWS は皆様からのフィードバックをお待ちしております。ご意見やご質問をコメント欄に残してください。
著者について
ザック・ピーターソン は、AWS プロフェッショナル サービスのデータ サイエンティストです。彼は長年にわたり機械学習ソリューションを顧客に提供することに実務に携わっており、経済学の修士号を取得しています。
アドウェール・アキンファデリン博士 は、AWS のヘルスケアとライフ サイエンスのシニア データ サイエンティストです。彼の専門知識は、再現可能なエンドツーエンドの AI/ML 手法、実践的な実装、および世界の医療顧客が学際的な問題に対するスケーラブルなソリューションを策定および開発できるよう支援することです。彼は物理学の大学院学位を 2 つ取得し、工学の博士号を 1 つ取得しています。
エクタ ワリア ブラル博士号は、AWS ヘルスケアおよびライフサイエンス (HCLS) プロフェッショナルサービスビジネスユニットのシニア AI/ML コンサルタントです。彼女は、ヘルスケア領域、特に放射線学における AI/ML の応用に豊富な経験を持っています。仕事以外では、放射線医学における AI について議論していないときは、ランニングやハイキングをするのが好きです。
ハンマン は、カリフォルニア州サンディエゴを拠点とする AWS プロフェッショナル サービスのシニア データ サイエンス & 機械学習マネージャーです。彼はノースウェスタン大学で工学博士号を取得しており、製造、金融サービス、エネルギー分野のクライアントにアドバイスする経営コンサルタントとして数年の経験があります。現在、彼はさまざまな業界の主要顧客と熱心に協力して、AWS 上で ML および生成 AI ソリューションを開発および実装しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- アクセス
- ACM
- 行動
- 活動
- 追加されました
- 住所
- 有利
- 不利な
- アドバイス
- 後
- AI
- AIモデル
- AI / ML
- AL
- すべて
- ことができます
- 沿って
- また
- 常に
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- 量
- an
- 分析
- および
- 応答
- どれか
- どこにでも
- 申し込み
- 適切な
- 建築
- アーキテクチャ
- です
- エリア
- 周りに
- 人工の
- 人工知能
- AS
- At
- 出席する
- 注意
- 自動化する
- 利用できます
- 平均
- 避ける
- 知って
- AWS
- AWSプロフェッショナルサービス
- ベース
- ベース
- BE
- なぜなら
- き
- さ
- 利点
- BEST
- より良いです
- の間に
- 双方向の
- 10億
- ブースト
- 両言語で
- 境界
- ビルド
- 建物
- 内蔵
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- CA
- コール
- 缶
- 捕捉した
- 場合
- 挑戦する
- 課題
- 挑戦
- 課金
- class
- クラス
- 分類
- クライアント
- クラウド
- コード
- コラム
- コラム
- 組み合わせた
- comes
- 到来
- 注釈
- 企業
- 会社
- 補完的
- コンプライアンス
- コンポーネント
- 包括的な
- からなる
- 構築
- コンサルタント
- 含まれている
- コンテンツ
- コンテキスト
- 便利
- 費用
- コスト
- カバー
- 作ります
- 作成した
- 顧客
- Customers
- データ
- データの準備
- データサイエンス
- データサイエンティスト
- データ構造
- より深い
- 定義します
- 度
- 配信する
- 探求する
- 実証
- 依存関係
- 展開します
- 説明する
- 検出
- 開発する
- 開発者
- 開発
- ディエゴ
- 異なります
- 直接に
- 議論
- 多様性
- ドメイン
- ドント
- 薬
- 薬物
- 間に
- E&T
- 各
- Economics
- 効率良く
- メール
- enable
- 可能
- 暗号化
- 端から端まで
- エネルギー
- エンジニアリング
- エポック
- 特に
- 本質的な
- 評価
- イベント
- イベント
- 例
- 例外
- 体験
- 専門知識
- 探査
- 探る
- 広範囲
- 豊富な経験
- 余分な
- f1
- 顔
- フィードバック
- 埋める
- ファイナンシャル
- 金融業務
- 名
- 五
- フレキシブル
- 焦点を当て
- フォロー中
- から
- 完全に
- 未来
- 生成する
- 生成された
- 生成
- 世代
- 生々しい
- 生成AI
- 取得する
- 与える
- グローバル
- 卒業生
- ハンドル
- ハンド
- 持ってる
- he
- 健康
- ヘルスケア
- ヘルスケア産業
- ヘルステック
- 助けます
- 助け
- こちら
- 隠されました
- ハイ
- ハイキング
- 彼の
- ホーム
- 病院
- 主催
- 認定条件
- How To
- しかしながら
- HTTPS
- ハイパーパラメーターの最適化
- 理想的には
- 識別
- 実装する
- 実装
- 実装
- 実装
- import
- 重要
- 改善します
- 改善
- in
- 含ま
- 含めて
- Incorporated
- 増える
- の増加
- インクリメンタル
- 産業を変えます
- 情報
- インフラ
- 統合する
- 統合
- インテリジェンス
- 相互作用
- に
- 導入
- 関係する
- IT
- ITS
- ジョブ
- Jobs > Create New Job
- JPG
- キー
- 重要な場所
- ラベル
- レイド
- 風景
- 言語
- 大
- LEARN
- 学習
- コメントを残す
- 長さ
- 図書館
- 生活
- 生命科学
- ような
- 好き
- LLM
- たくさん
- 機械
- 機械学習
- 製
- メイン
- 主要な
- 作る
- 作成
- man
- マネージド
- 管理
- マネージャー
- マニュアル
- 製造業
- 多くの
- 市場
- 大規模な
- マスターの
- 最大化します
- メカニズム
- メディア
- 医療の
- 医療データ
- 大会
- メソッド
- メトリック
- 分
- ML
- モデル
- 監視対象
- 他には?
- しなければなりません
- 名
- ナチュラル
- 自然言語処理
- ネットワーク
- ニューラル
- ニューラルネットワーク
- それにもかかわらず
- 次の
- NLP
- いいえ
- なし
- ノート
- 小説
- 数
- 発生する
- of
- オファリング
- オファー
- 頻繁に
- on
- ONE
- の
- 最適化
- or
- 注文
- オリジナル
- その他
- 私たちの
- でる
- 成果
- 出力
- 外側
- が
- 全体
- 包括的
- 紙素材
- 渡された
- 以下のために
- パフォーマンス
- 実行
- 実行する
- 薬剤
- 博士号
- 電話
- 電話
- 物理学
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- お願いします
- 人気
- 可能
- ポスト
- 潜在的な
- 電力
- 強力な
- 実用的
- 予測する
- 準備
- 問題
- 問題
- プロセス
- 処理済み
- 処理
- 生産する
- プロ
- 投影
- 約束
- は、大阪で
- 提供
- 出版物
- 公然と
- パイトーチ
- 質問
- 質問
- すぐに
- 範囲
- レート
- 反応
- への
- 参照する
- 正規表現
- 関連する
- 相対的に
- 報告
- 表現
- 必要とする
- の提出が必要です
- 要件
- リソース
- 責任をもって
- REST
- 堅牢な
- ラン
- 安全性
- セージメーカー
- サンプル
- サン
- サンディエゴ
- ド電源のデ
- 規模
- 科学
- 科学
- 科学的な
- 科学者
- 科学者たち
- シームレス
- セクション
- と思われる
- 売る
- セマンティック
- シニア
- 文
- 感情
- シーケンス
- 深刻な
- サービス
- サービス
- セッションに
- いくつかの
- 彼女
- 表示する
- 示されました
- 作品
- サイズ
- 斜め
- 小さい
- So
- 社会
- ソーシャルメディア
- 溶液
- ソリューション
- 一部
- 時々
- ソース
- スペース
- 専門にする
- 特定の
- 詳細
- split
- start
- 最先端の
- 米国
- ステップ
- ストーム
- 簡単な
- 作戦
- 構造
- そのような
- サポート
- 確か
- 相乗効果
- 構文
- 合成
- 合成データ
- 総合的に
- テーブル
- 撮影
- 取り
- 取得
- 仕事
- タスク
- 条件
- test
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト分類
- それ
- 世界
- アプリ環境に合わせて
- その後
- ボーマン
- 彼ら
- この
- それらの
- しかし?
- 介して
- 時間
- 〜へ
- 今日
- 一緒に
- 取った
- ツール
- 豊富なツール群
- トピック
- 伝統的な
- トレーニング
- 訓練された
- トレーニング
- トランス
- トランスフォーマー
- トランジット
- インタビュー
- 試み
- トリガー
- 2
- type
- 理解する
- 単位
- 大学
- 異なり、
- 更新版
- us
- つかいます
- 使用事例
- 中古
- 便利
- users
- 多様
- さまざまな
- バージョン
- 垂直
- 実行可能な
- 欲しいです
- ました
- 仕方..
- we
- ウェブ
- Webサービス
- ようこそ
- した
- いつ
- 一方
- which
- 以内
- Word
- 言葉
- 仕事
- ワーキング
- 作品
- 世界
- でしょう
- 年
- You
- あなたの
- ゼファーネット