Amazon SageMaker で RStudio を使用して、ライフ サイエンス業界の PlatoBlockchain Data Intelligence の規制申請を作成します。 垂直検索。 あい。

Amazon SageMaker で RStudio を使用して、ライフ サイエンス業界向けの規制申請を作成する

製薬会社は、米国食品医薬品局 (FDA) や日本の医薬品医療機器総合機構 (PMDA) などの規制当局から医薬品を販売するための承認を求めています。使用する。 医師、統計学者、化学者、薬理学者、およびその他の臨床科学者からなるチームが、提出された臨床試験データと提案された表示を確認します。 レビューにより、医薬品の健康上の利点がリスクを上回ることを証明する十分な統計的証拠があることが立証された場合、その医薬品は販売が承認されます。

臨床試験提出パッケージは、集計データ、分析データ、試験メタデータ、および統計表、リスト、および図で構成される統計レポートで構成されます。 米国 FDA の場合、電子共通技術文書 (eCTD) は、FDA の生物製剤評価研究センター (CBER) および医薬品評価研究センター ( CDER)。 FDA および日本の PMDA に対して、CDISC Standard Data Tabulation Model (SDTM) で集計されたデータ、CDISC Analysis Dataset Model (ADaM) で分析データ、CDISC Define-XML (Operational Data Model に基づく) で治験メタデータを提出することが規制要件です。 (ODM))。

この投稿では、RStudio を以下で使用する方法を示します。 アマゾンセージメーカー そのような規制当局への提出物を作成するため。 この投稿では、臨床試験の提出プロセス、臨床試験研究データの取り込み、データの集計と分析、統計レポート (要約テーブル、データ リスト、図 (TLF)) の作成方法について説明します。 この方法により、製薬会社のお客様は、AWS 環境に保存されている臨床データにシームレスに接続し、R を使用して処理し、臨床試験研究プロセスを加速することができます。

医薬品開発プロセス

医薬品開発プロセスは、次の図に示すように、大きく XNUMX つのステップに分けることができます。

約 10 の潜在的な分子から 15 つの薬剤が承認されるまでには、平均で 1 ~ 3 年、約 10,000 ~ XNUMX 億ドルの費用がかかります。 研究の初期段階 (創薬段階) では、有望な医薬品候補が特定され、さらに前臨床研究に移行します。 前臨床段階では、研究者は薬物の毒性を調べようとします。 ビトロ 研究室での実験と インビボの 動物実験。 前臨床試験の後、医薬品は臨床試験研究段階に移行し、安全性と有効性を確認するためにヒトで試験する必要があります。 研究者は臨床試験を設計し、臨床試験プロトコルで研究計画を詳述します。 それらは、薬の安全性と投与量を決定するための小規模な第 1 相試験から、薬の有効性と副作用を決定するための大規模な第 2 相試験、薬の有効性、安全性を決定するためのさらに大規模な第 3 および第 4 試験まで、さまざまな臨床研究段階を定義します。有害反応のモニタリング。 ヒトでの臨床試験が成功した後、医薬品スポンサーは医薬品を販売するための新薬申請 (NDA) を提出します。 規制当局はすべてのデータを確認し、スポンサーと協力して処方ラベル情報を作成し、薬を承認します。 薬の承認後、規制当局は市販後の安全性レポートを見直して、製品全体の安全性を確保します。

1997 年に、製薬会社、CRO、バイオテクノロジー、学術機関、医療提供者、政府機関で構成されるグローバルな非営利組織である Clinical Data Interchange Standards Consortium (CDISC) がボランティア グループとして発足しました。 CDISC は、収集から送信までのデータの流れを合理化し、パートナーとプロバイダー間のデータ交換を容易にするデータ標準を公開しています。 CDISC は、次の標準を公開しています。

  • CDASH (臨床データ収集基準の調和) – 収集データの基準
  • SDTM(スタディデータ集計モデル) – 集計データの提出基準
  • ADaM (分析データモデル) – 分析データの基準
  • SEND (非臨床データ交換の標準) – 非臨床データの基準
  • PRM (プロトコル表現モデル) – プロトコルの標準

これらの標準は、訓練を受けたレビュー担当者が標準ツールを使用してより効果的かつ迅速にデータを分析するのに役立ち、それによって医薬品の承認時間を短縮できます。 SDTM 形式を使用してすべての集計データを提出することは、米国 FDA および日本の PMDA からの規制要件です。

臨床試験研究提出用の R

SAS と R は、製薬業界で最も使用されている統計分析ソフトウェアの XNUMX つです。 SDTM 標準の開発が CDISC によって開始されたとき、SAS は製薬業界と FDA でほぼ普遍的に使用されていました。 しかし、R はオープン ソースであり、新しいパッケージやライブラリが継続的に追加されているため、最近では非常に人気が高まっています。 学生は主に学業や研究の際に R を使用し、この R への習熟度を仕事に活かしています。 R は、高度なディープ ラーニングの統合などの新しいテクノロジのサポートも提供します。

現在、AWS などのクラウド プロバイダーは、製薬会社の顧客がインフラストラクチャをホストするために選択するプラットフォームになっています。 AWS は、クラウドでの機械学習 (ML) モデルの作成、トレーニング、デプロイを容易にする SageMaker などのマネージド サービスも提供します。 SageMaker では、ウェブブラウザを介してどこからでも RStudio IDE にアクセスできます。 この投稿では、統計プログラマーと生物統計学者が臨床データを R 環境に取り込む方法、R コードを実行する方法、結果を保存する方法について詳しく説明します。 臨床試験データ サイエンティストが XPT ファイルを R 環境に取り込み、SDTM および ADaM 用の R データ フレームを作成し、最後に Amazon シンプル ストレージ サービス (Amazon S3) オブジェクト ストレージ バケット。

SageMakerのRStudio

2 年 2021 月 XNUMX 日、AWS は、 RStudio PBC 発表の の一般的な可用性 SageMakerのRStudioは、業界初の完全マネージド型 RStudio Workbench IDE であり、クラウド上にあります。 現在の RStudio ライセンスを持ち込んで、いくつかの簡単な手順で自己管理型の RStudio 環境を SageMaker に簡単に移行できるようになりました。 このエキサイティングなコラボレーションの詳細については、こちらをご覧ください Amazon SageMaker での RStudio の発表.

R 開発者向けの RStudio スイートは、RStudio Workbench とともに、RStudio Connect と RStudio Package Manager も提供します。 RStudio Connect は、データ サイエンティストが洞察、ダッシュボード、および Web アプリケーションを公開できるように設計されています. データ サイエンティストの複雑な作業から ML とデータ サイエンスの洞察を簡単に共有し、意思決定者の手に渡すことができます。 また、RStudio Connect は、コンテンツのホスティングと管理をシンプルかつスケーラブルにし、幅広い消費に対応できるようにします。

ソリューションの概要

以下のセクションでは、SageMaker の RStudio でリモートリポジトリまたは S3 バケットから生データをインポートする方法について説明します。 に直接接続することも可能です。 Amazon リレーショナル データベース サービス (Amazon RDS) などのデータ ウェアハウス Amazonレッドシフト (参照してください R と Amazon Redshift の接続) RStudio から直接; ただし、これはこの投稿の範囲外です。 いくつかの異なるソースからデータが取り込まれた後、データを処理し、テーブルの R データ フレームを作成します。 次に、テーブル データ フレームを RTF ファイルに変換し、結果を S3 バケットに保存します。 これらの出力は、投稿で使用されている R パッケージが顧客によって規制当局への提出に使用することが検証されている場合、規制当局への提出に使用される可能性があります。

SageMaker で RStudio をセットアップする

お使いの環境で SageMaker に RStudio をセットアップする手順については、次を参照してください。 SageMaker で RStudio を使い始める. SageMaker 上の RStudio の実行ロールが、データが保存されている S3 バケットにデータをダウンロードおよびアップロードするためのアクセス権を持っていることを確認してください。 R パッケージを管理し、SageMaker で RStudio を使用して分析を公開する方法の詳細については、以下を参照してください。 データ サイエンティスト向けの SageMaker でのフルマネージド RStudio の発表.

RStudio にデータを取り込む

このステップでは、さまざまなソースからデータを取り込み、R セッションで使用できるようにします。 SAS XPT 形式でデータをインポートします。 ただし、他の形式のデータを取り込む場合のプロセスは同様です。 SageMaker で RStudio を使用する利点の XNUMX つは、ソース データが AWS アカウントに保存されている場合、SageMaker は以下を使用してデータにネイティブにアクセスできることです。 AWS IDおよびアクセス管理 (IAM)役割。

リモート リポジトリに保存されているデータにアクセスする

このステップでは、ADaM データを FDA の GitHub リポジトリ. というローカル ディレクトリを作成します。 data RStudio 環境でデータを保存し、人口統計データをダウンロードします (dm.xpt) リモート リポジトリから。 このコンテキストでは、ローカル ディレクトリは、デフォルトで R セッション環境にアタッチされているプラ​​イベート Amazon EFS ストレージ上に作成されたディレクトリを指します。 次のコードを参照してください。

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

このステップが完了すると、 dm.xpt に移動してダウンロード中 , データ, dm.xpt.

Amazon S3 に保存されているデータにアクセスする

このステップでは、アカウントの S3 バケットに保存されているデータをダウンロードします。 FDA の GitHub リポジトリから S3 バケットにコンテンツをコピーしました。 aws-sagemaker-rstudio この例では。 次のコードを参照してください。

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

ステップが完了すると、次のことがわかります。 pp.xpt に移動してダウンロード中 , データ, pp.xpt.

XPT データの処理

R 環境で SAS XPT ファイルを使用できるようになったので、それらを R データ フレームに変換して処理する必要があります。 私たちは、 haven XPT ファイルを読み取るためのライブラリ。 CDISC SDTM データセットをマージします dm & pp ADPP データセットを作成します。 次に、ADPP データ フレームを使用して要約統計テーブルを作成します。 次に、サマリー テーブルが RTF 形式でエクスポートされます。

まず、XPT ファイルは、 read_xpt ヘブンライブラリーの機能。 次に、分析データセットを使用して作成されます。 sqldf の機能 sqldf 図書館。 次のコードを参照してください。

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

次に、関数を使用して出力データ フレームが作成されます。 Tplyr & dplyr ライブラリ:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

出力データ フレームは、RStudio 環境の出力フォルダーに RTF ファイルとして保存されます。

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

出力を Amazon S3 にアップロードする

出力が生成されたら、データを S3 バケットに戻します。 セッションがまだアクティブになっていない場合は、SageMaker セッションを再度作成し、 session$upload_data 関数:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

これらの手順により、データを取り込んで処理し、結果をアップロードして規制当局に提出できるようにしました。

クリーンアップ

意図しない費用が発生しないようにするには、現在のセッションを終了する必要があります。 ページの右上隅にある電源アイコンを選択します。 これにより、基になるインスタンスが自動的に停止されるため、意図しないコンピューティング コストの発生が停止します。

Amazon SageMaker で RStudio を使用して、ライフ サイエンス業界の PlatoBlockchain Data Intelligence の規制申請を作成します。 垂直検索。 あい。

課題

この投稿では、S3 バケットまたはリモート リポジトリに保存されている生データを取り込む手順の概要を説明しています。 ただし、臨床試験の生データには他にも多くのソースがあります。主に、Oracle Clinical、Medidata Rave、OpenClinica、Snowflake などの EDC (電子データ収集) システムに保存されている eCRF (電子症例報告フォーム) データです。 ラボデータ; eCOA (臨床結果評価) および ePRO (電子患者報告結果) からのデータ。 アプリや医療機器からの実世界のデータ。 病院での電子医療記録 (EHR)。 このデータを規制当局への提出に使用できるようにする前に、重要な前処理が必要です。 適切なアクセス制御を維持しながら、さまざまなデータ ソースへのコネクタを構築し、それらを一元化されたデータ リポジトリ (CDR) または臨床データ レイクに収集することは、重大な課題をもたらします。

克服すべきもう 21 つの重要な課題は、法規制の遵守です。 規制当局への提出物の作成に使用されるコンピューター システムは、11 CFR Part XNUMX、HIPAA、GDPR、またはその他の GxP 要件や ICH ガイドラインなどの適切な規制に準拠している必要があります。 これは、アクセス、セキュリティ、バックアップ、および監査可能性が適切に制御された、検証済みで認定された環境で作業することを意味します。 これは、規制当局への提出物の作成に使用される R パッケージは、使用前に検証する必要があることも意味します。

まとめ

この投稿では、eCTD 提出の主要な成果物が CDISC SDTM、ADaM データセット、および TLF であることを確認しました。 この投稿では、最初にいくつかのソースから SageMaker の RStudio にデータを取り込むことによって、これらの規制当局への提出物を作成するために必要な手順について概説しました。 次に、取り込んだデータを XPT 形式で処理する方法を確認しました。 それを R データ フレームに変換して、SDTM、ADaM、および TLF を作成します。 そして最後に結果を S3 バケットにアップロードします。

投稿で提示された広範なアイデアにより、統計プログラマーと生物統計学者が、臨床試験研究データを SageMaker の RStudio にロード、処理、分析するエンドツーエンドのプロセスを簡単に視覚化し、学習を使用してカスタムを定義できることを願っています。規制当局への提出に適したワークフロー。

RStudio を使用して、研究者、統計学者、および R プログラマーの生活を楽にする他のアプリケーションを考えられますか? 皆様のアイデアをお待ちしております。 ご不明な点がございましたら、コメント欄で共有してください。

リソース

詳細については、次のリンクにアクセスしてください。


著者について

Amazon SageMaker で RStudio を使用して、ライフ サイエンス業界の PlatoBlockchain Data Intelligence の規制申請を作成します。 垂直検索。 あい。ロヒト・バンガ は、英国ロンドンを拠点とするグローバル臨床開発産業スペシャリストです。 彼はトレーニングを受けた生物統計学者であり、ヘルスケアおよびライフサイエンスの顧客が革新的な臨床開発ソリューションを AWS にデプロイするのを支援しています。 彼は、ヘルスケアおよびライフサイエンス業界における実際のビジネス上の問題を解決するために、データ サイエンス、AI/ML、および新しいテクノロジーをどのように使用できるかに情熱を注いでいます。 余暇には、スキー、バーベキュー、家族や友人との時間を楽しんでいます。

Amazon SageMaker で RStudio を使用して、ライフ サイエンス業界の PlatoBlockchain Data Intelligence の規制申請を作成します。 垂直検索。 あい。ゲオルギオス・シナス は、EMEA地域のAI/MLのスペシャリストソリューションアーキテクトです。 彼はロンドンを拠点とし、英国とアイルランドの顧客と緊密に協力しています。 Georgiosは、MLOpsの実践に特に関心を持ち、顧客が大規模な機械学習を実行できるようにすることで、顧客がAWSで本番環境に機械学習アプリケーションを設計およびデプロイするのを支援します。 余暇には、旅行、料理、友人や家族との時間を楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習