از RStudio در Amazon SageMaker برای ایجاد موارد ارسالی نظارتی برای صنعت علوم زیستی PlatoBlockchain Data Intelligence استفاده کنید. جستجوی عمودی Ai.

از RStudio در Amazon SageMaker برای ایجاد موارد ارسالی نظارتی برای صنعت علوم زیستی استفاده کنید

شرکت‌های دارویی که به‌دنبال تاییدیه از سازمان‌های نظارتی مانند سازمان غذا و داروی ایالات متحده (FDA) یا آژانس دارویی و تجهیزات پزشکی ژاپن (PMDA) برای فروش داروهای خود در بازار هستند، باید شواهدی را ارائه دهند تا ثابت کنند که داروی آنها ایمن و مؤثر است. استفاده کنید. تیمی از پزشکان، آماردانان، شیمی‌دانان، فارماکولوژیست‌ها و سایر دانشمندان بالینی داده‌های ارسال کارآزمایی بالینی و برچسب‌گذاری پیشنهادی را بررسی می‌کنند. اگر بررسی ثابت کند که شواهد آماری کافی برای اثبات اینکه مزایای سلامتی دارو بیشتر از خطرات آن است وجود دارد، دارو برای فروش تایید می‌شود.

بسته ارسال کارآزمایی بالینی شامل داده های جدول بندی شده، داده های تجزیه و تحلیل، فراداده کارآزمایی، و گزارش های آماری متشکل از جداول آماری، فهرست ها و شکل ها می باشد. در مورد FDA ایالات متحده، سند فنی مشترک الکترونیکی (eCTD) فرمت استاندارد برای ارسال درخواست‌ها، اصلاحات، مکمل‌ها و گزارش‌ها به مرکز ارزیابی و تحقیقات بیولوژیک FDA (CBER) و مرکز ارزیابی و تحقیقات دارویی است. CDER). برای FDA و PMDA ژاپن، ارائه داده‌های جدول‌بندی‌شده در مدل استاندارد جدول‌بندی داده‌های CDISC (SDTM)، داده‌های تجزیه و تحلیل در مدل مجموعه داده‌های تحلیلی CDISC (ADaM) و ابرداده‌های آزمایشی در CDISC Define-XML (بر اساس مدل داده‌های عملیاتی) الزامی است. (ODM)).

در این پست، نحوه استفاده از RStudio را نشان می دهیم آمازون SageMaker برای ایجاد چنین تحویل های ارسالی نظارتی. این پست فرآیند ارسال کارآزمایی بالینی را شرح می‌دهد، چگونه می‌توانیم داده‌های تحقیقات کارآزمایی بالینی را دریافت کنیم، داده‌ها را جدول‌بندی و تجزیه و تحلیل کنیم، و سپس گزارش‌های آماری - جداول خلاصه، فهرست‌بندی داده‌ها و ارقام (TLF) ایجاد کنیم. این روش می تواند مشتریان دارویی را قادر سازد تا به طور یکپارچه به داده های بالینی ذخیره شده در محیط AWS خود متصل شوند، آن را با استفاده از R پردازش کنند و به تسریع روند تحقیقات کارآزمایی بالینی کمک کنند.

فرآیند توسعه دارو

فرآیند تولید دارو را می توان به طور کلی به پنج مرحله اصلی تقسیم کرد که در شکل زیر نشان داده شده است.

به طور متوسط ​​10 تا 15 سال و تقریباً 1 تا 3 میلیارد دلار طول می کشد تا یک دارو از بین حدود 10,000 مولکول بالقوه تأییدیه موفقیت آمیز دریافت کند. در طول مراحل اولیه تحقیق (مرحله کشف دارو)، نامزدهای دارویی امیدوار کننده شناسایی می شوند که به سمت تحقیقات پیش بالینی پیش می روند. در مرحله پیش بالینی، محققان سعی می کنند با انجام کار به سمیت دارو پی ببرند در شرایط in vitro آزمایشات در آزمایشگاه و در داخل بدن آزمایشات روی حیوانات پس از آزمایش های پیش بالینی، داروها وارد مرحله تحقیقاتی کارآزمایی بالینی می شوند، جایی که باید روی انسان آزمایش شوند تا ایمنی و اثربخشی آنها مشخص شود. محققان کارآزمایی های بالینی را طراحی کرده و طرح مطالعه را در پروتکل کارآزمایی بالینی به تفصیل شرح می دهند. آنها مراحل مختلف تحقیقات بالینی را تعریف می کنند - از مطالعات کوچک فاز 1 برای تعیین ایمنی و دوز دارو، آزمایشات فاز 2 بزرگتر برای تعیین اثربخشی دارو و عوارض جانبی، تا آزمایشات فاز 3 و 4 حتی بزرگتر برای تعیین اثربخشی، ایمنی، و دارو. نظارت بر واکنش های نامطلوب پس از آزمایش‌های بالینی موفقیت‌آمیز انسانی، اسپانسر دارو یک برنامه دارویی جدید (NDA) را برای بازاریابی دارو ارسال می‌کند. سازمان‌های نظارتی همه داده‌ها را بررسی می‌کنند، با اسپانسر روی اطلاعات برچسب‌گذاری نسخه کار می‌کنند و دارو را تأیید می‌کنند. پس از تایید دارو، آژانس های نظارتی گزارش های ایمنی پس از فروش را بررسی می کنند تا از ایمنی کامل محصول اطمینان حاصل کنند.

در سال 1997، کنسرسیوم استانداردهای تبادل داده‌های بالینی (CDISC)، یک سازمان جهانی و غیرانتفاعی متشکل از شرکت‌های دارویی، CROs، بیوتکنولوژی، مؤسسات دانشگاهی، ارائه‌دهندگان مراقبت‌های بهداشتی و سازمان‌های دولتی، به عنوان گروه داوطلب آغاز به کار کرد. CDISC استانداردهای داده را برای ساده‌سازی جریان داده‌ها از جمع‌آوری تا ارسال و تسهیل تبادل داده‌ها بین شرکا و ارائه‌دهندگان منتشر کرده است. CDISC استانداردهای زیر را منتشر کرده است:

  • CDASH (هماهنگ سازی استانداردهای اکتساب داده های بالینی) - استانداردهای داده های جمع آوری شده
  • SDTM (مدل جدول بندی داده های مطالعه) - استانداردهای ارسال داده های جدول بندی شده
  • ADaM (مدل تجزیه و تحلیل داده ها) - استانداردهای تجزیه و تحلیل داده ها
  • SEND (استاندارد تبادل اطلاعات غیر بالینی) - استانداردهای داده های غیر بالینی
  • PRM (مدل نمایش پروتکل) - استانداردهای پروتکل

این استانداردها می توانند به بازبینان آموزش دیده کمک کنند تا با استفاده از ابزارهای استاندارد، داده ها را به طور مؤثرتر و سریع تر تجزیه و تحلیل کنند و در نتیجه زمان تأیید دارو را کاهش دهند. این یک الزام قانونی از طرف FDA ایالات متحده و PMDA ژاپن برای ارسال تمام داده های جدول بندی شده با استفاده از قالب SDTM است.

R برای ارسال های تحقیقاتی کارآزمایی بالینی

SAS و R دو مورد از پرکاربردترین نرم افزارهای تجزیه و تحلیل آماری هستند که در صنعت داروسازی مورد استفاده قرار می گیرند. زمانی که توسعه استانداردهای SDTM توسط CDISC آغاز شد، SAS تقریباً در صنعت داروسازی و FDA استفاده جهانی داشت. با این حال، R امروزه به دلیل منبع باز بودن، محبوبیت فوق‌العاده‌ای به دست می‌آورد و بسته‌ها و کتابخانه‌های جدید به طور مداوم اضافه می‌شوند. دانش آموزان عمدتاً از R در طول تحصیلات و تحقیقات خود استفاده می کنند و این آشنایی با R را به شغل خود می برند. R همچنین از فناوری های نوظهور مانند ادغام های یادگیری عمیق پیشرفته پشتیبانی می کند.

ارائه دهندگان ابری مانند AWS اکنون به پلتفرم انتخابی مشتریان دارویی برای میزبانی زیرساخت های خود تبدیل شده اند. AWS همچنین خدمات مدیریت شده ای مانند SageMaker را ارائه می دهد که ایجاد، آموزش و استقرار مدل های یادگیری ماشینی (ML) در فضای ابری را آسان می کند. SageMaker همچنین اجازه دسترسی به IDE RStudio را از هر نقطه از طریق یک مرورگر وب می دهد. در این پست توضیح داده می شود که چگونه برنامه نویسان آماری و آمار زیستی می توانند داده های بالینی خود را در محیط R وارد کنند، چگونه کد R را می توان اجرا کرد، و چگونه نتایج ذخیره می شوند. ما تکه‌هایی از کد ارائه می‌کنیم که به دانشمندان داده کارآزمایی بالینی اجازه می‌دهد فایل‌های XPT را در محیط R وارد کنند، فریم‌های داده R را برای SDTM و ADaM ایجاد کنند، و در نهایت TLF را ایجاد کنند که می‌تواند در یک محیط ذخیره شود. سرویس ذخیره سازی ساده آمازون سطل ذخیره اشیا (Amazon S3).

RStudio در SageMaker

در 2 نوامبر 2021، AWS با همکاری RStudio PBC اعلام کرد در دسترس بودن عمومی RStudio در SageMaker، اولین RStudio Workbench IDE با مدیریت کامل در صنعت در فضای ابری است. اکنون می توانید مجوز RStudio فعلی خود را بیاورید تا به راحتی محیط های RStudio خود مدیریت شده خود را تنها در چند مرحله ساده به SageMaker منتقل کنید. برای کسب اطلاعات بیشتر در مورد این همکاری هیجان انگیز، بررسی کنید اعلام RStudio در آمازون SageMaker.

همراه با RStudio Workbench، مجموعه RStudio برای توسعه دهندگان R نیز RStudio Connect و RStudio Package Manager را ارائه می دهد. RStudio Connect طراحی شده است تا به دانشمندان داده اجازه دهد اطلاعات بینش، داشبورد و برنامه های کاربردی وب را منتشر کنند.. به اشتراک گذاری بینش های ML و علم داده از کار پیچیده دانشمندان داده و قرار دادن آن در دست تصمیم گیرندگان را آسان می کند. RStudio Connect همچنین میزبانی و مدیریت محتوا را برای مصرف گسترده ساده و مقیاس پذیر می کند.

بررسی اجمالی راه حل

در بخش‌های بعدی، نحوه وارد کردن داده‌های خام را از یک مخزن راه دور یا سطل S3 در RStudio در SageMaker بحث می‌کنیم. همچنین امکان اتصال مستقیم به آن وجود دارد سرویس پایگاه داده رابطه آمازون (آمازون RDS) و انبارهای داده مانند آمازون Redshift (نگاه کنید به اتصال R با آمازون Redshift) مستقیماً از RStudio؛ با این حال، این خارج از محدوده این پست است. پس از دریافت داده ها از چند منبع مختلف، آنها را پردازش کرده و فریم های داده R را برای یک جدول ایجاد می کنیم. سپس کادر داده جدول را به یک فایل RTF تبدیل می کنیم و نتایج را در یک سطل S3 ذخیره می کنیم. این خروجی‌ها می‌توانند به طور بالقوه برای اهداف ارسال نظارتی مورد استفاده قرار گیرند، مشروط بر اینکه بسته‌های R مورد استفاده در پست برای استفاده برای ارسال‌های نظارتی توسط مشتری تأیید شده باشند.

RStudio را در SageMaker راه اندازی کنید

برای دستورالعمل های مربوط به راه اندازی RStudio در SageMaker در محیط خود، به مراجعه کنید با RStudio در SageMaker شروع کنید. اطمینان حاصل کنید که نقش اجرایی RStudio در SageMaker به دانلود و آپلود داده ها در سطل S3 که داده ها در آن ذخیره می شود دسترسی دارد. برای کسب اطلاعات بیشتر در مورد نحوه مدیریت بسته های R و انتشار تجزیه و تحلیل خود با استفاده از RStudio در SageMaker، مراجعه کنید اعلام RStudio کاملاً مدیریت شده در SageMaker برای دانشمندان داده.

داده ها را در RStudio وارد کنید

در این مرحله، داده‌ها را از منابع مختلف دریافت می‌کنیم تا آن‌ها را برای جلسه R خود در دسترس قرار دهیم. ما داده ها را در قالب SAS XPT وارد می کنیم. با این حال، اگر می‌خواهید داده‌ها را در قالب‌های دیگر مصرف کنید، روند مشابه است. یکی از مزایای استفاده از RStudio در SageMaker این است که اگر داده‌های منبع در حساب‌های AWS شما ذخیره شده باشد، SageMaker می‌تواند به صورت بومی به داده‌ها با استفاده از دسترسی پیدا کند. هویت AWS و مدیریت دسترسی نقش های (IAM).

به داده های ذخیره شده در یک مخزن راه دور دسترسی داشته باشید

در این مرحله، داده های ADaM را از قسمت وارد می کنیم مخزن GitHub FDA. یک دایرکتوری محلی به نام ایجاد می کنیم data در محیط RStudio برای ذخیره داده ها و دانلود اطلاعات جمعیتی (dm.xpt) از مخزن راه دور. در این زمینه، دایرکتوری محلی به دایرکتوری ایجاد شده در فضای ذخیره سازی خصوصی Amazon EFS شما اشاره دارد که به طور پیش فرض به محیط جلسه R شما متصل است. کد زیر را ببینید:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

وقتی این مرحله کامل شد، می توانید ببینید dm.xpt در حال دانلود با پیمایش به فایل ها, داده ها, dm.xpt.

به داده های ذخیره شده در آمازون S3 دسترسی داشته باشید

در این مرحله، داده های ذخیره شده در یک سطل S3 را در حساب خود دانلود می کنیم. ما محتویات را از مخزن GitHub FDA در سطل S3 به نام کپی کرده ایم. aws-sagemaker-rstudio برای این مثال کد زیر را ببینید:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

وقتی مرحله کامل شد، می توانید ببینید pp.xpt در حال دانلود با پیمایش به فایل ها, داده ها, pp.xpt.

پردازش داده های XPT

اکنون که فایل های SAS XPT را در محیط R در دسترس داریم، باید آنها را به فریم های داده R تبدیل کرده و آنها را پردازش کنیم. ما استفاده می کنیم haven کتابخانه برای خواندن فایل های XPT. ما مجموعه داده های CDISC SDTM را ادغام می کنیم dm و pp برای ایجاد مجموعه داده ADPP. سپس یک جدول آماری خلاصه با استفاده از قاب داده ADPP ایجاد می کنیم. سپس جدول خلاصه در قالب RTF صادر می شود.

ابتدا فایل های XPT با استفاده از read_xpt عملکرد کتابخانه پناهگاه سپس یک مجموعه داده تحلیلی با استفاده از sqldf عملکرد sqldf کتابخانه کد زیر را ببینید:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

سپس، یک قاب داده خروجی با استفاده از توابع از ایجاد می شود Tplyr و dplyr کتابخانه ها:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

سپس قاب داده خروجی به عنوان یک فایل RTF در پوشه خروجی در محیط RStudio ذخیره می شود:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

خروجی ها را در آمازون S3 آپلود کنید

پس از تولید خروجی، داده ها را دوباره در یک سطل S3 قرار می دهیم. ما می‌توانیم با ایجاد یک جلسه SageMaker دوباره، اگر جلسه‌ای قبلاً فعال نیست، و با آپلود محتوای پوشه خروجی در یک سطل S3 با استفاده از session$upload_data عملکرد:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

با این مراحل، داده‌ها را دریافت کرده، پردازش کرده و نتایج را بارگذاری کرده‌ایم تا برای ارائه به مقامات نظارتی در دسترس قرار گیرد.

پاک کردن

برای جلوگیری از تحمیل هرگونه هزینه ناخواسته، باید جلسه فعلی خود را ترک کنید. در گوشه سمت راست بالای صفحه، نماد پاور را انتخاب کنید. این امر به طور خودکار نمونه اساسی را متوقف می کند و بنابراین از تحمیل هرگونه هزینه محاسباتی ناخواسته جلوگیری می کند.

از RStudio در Amazon SageMaker برای ایجاد موارد ارسالی نظارتی برای صنعت علوم زیستی PlatoBlockchain Data Intelligence استفاده کنید. جستجوی عمودی Ai.

چالش ها

این پست مراحل دریافت داده های خام ذخیره شده در یک سطل S3 یا از یک مخزن راه دور را مشخص کرده است. با این حال، بسیاری از منابع دیگر از داده‌های خام برای یک کارآزمایی بالینی، عمدتاً داده‌های eCRF (فرم‌های گزارش الکترونیکی مورد) ذخیره شده در سیستم‌های EDC (گرفتن الکترونیکی داده‌ها) مانند Oracle Clinical، Medidata Rave، OpenClinica یا Snowflake وجود دارد. داده های آزمایشگاهی؛ داده های eCOA (ارزیابی نتیجه بالینی) و ePRO (پیامدهای الکترونیکی گزارش شده توسط بیمار)؛ داده های دنیای واقعی از برنامه ها و دستگاه های پزشکی؛ و پرونده الکترونیک سلامت (EHRs) در بیمارستان ها. قبل از اینکه این داده ها برای ارسال های قانونی قابل استفاده شوند، پیش پردازش قابل توجهی درگیر است. ایجاد اتصال دهنده ها به منابع مختلف داده و جمع آوری آنها در یک مخزن داده متمرکز (CDR) یا یک دریاچه داده های بالینی، در حالی که کنترل های دسترسی مناسب را حفظ می کند، چالش های مهمی را ایجاد می کند.

چالش کلیدی دیگری که باید بر آن غلبه کرد، رعایت مقررات است. سیستم رایانه ای مورد استفاده برای ایجاد خروجی های ارسال نظارتی باید با مقررات مناسب، مانند 21 CFR قسمت 11، HIPAA، GDPR، یا سایر الزامات GxP یا دستورالعمل های ICH مطابقت داشته باشد. این به معنای کار در یک محیط معتبر و واجد شرایط با کنترل‌هایی برای دسترسی، امنیت، پشتیبان‌گیری و قابلیت ممیزی است. این همچنین به این معنی است که هر بسته R که برای ایجاد خروجی های ارسال نظارتی استفاده می شود باید قبل از استفاده تأیید شود.

نتیجه

در این پست، دیدیم که برخی از تحویل‌های کلیدی برای ارسال eCTD عبارتند از CDISC SDTM، مجموعه داده‌های ADaM و TLF. این پست مراحل مورد نیاز برای ایجاد این تحویل‌های ارسالی نظارتی را با استفاده از داده‌های چند منبع در RStudio در SageMaker تشریح کرد. سپس دیدیم که چگونه می توانیم داده های دریافت شده را در قالب XPT پردازش کنیم. تبدیل آن به فریم های داده R برای ایجاد SDTM، ADaM و TLF. و در نهایت نتایج را در یک سطل S3 آپلود کنید.

امیدواریم با ایده های گسترده ارائه شده در این پست، برنامه نویسان آماری و آمار زیستی بتوانند به راحتی فرآیند بارگیری، پردازش و تجزیه و تحلیل داده های تحقیقاتی کارآزمایی بالینی را در RStudio در SageMaker به راحتی تجسم کنند و از آموخته ها برای تعریف یک سفارشی استفاده کنند. گردش کار مناسب برای ارسال های نظارتی شما.

آیا می توانید برنامه های کاربردی دیگری برای استفاده از RStudio برای کمک به محققان، آماردانان و برنامه نویسان R برای آسان کردن زندگی خود فکر کنید؟ ما دوست داریم در مورد ایده های شما بشنویم! و اگر سوالی دارید در قسمت نظرات به اشتراک بگذارید.

منابع

برای اطلاعات بیشتر به لینک های زیر مراجعه کنید:


درباره نویسندگان

از RStudio در Amazon SageMaker برای ایجاد موارد ارسالی نظارتی برای صنعت علوم زیستی PlatoBlockchain Data Intelligence استفاده کنید. جستجوی عمودی Ai.روهیت بانگا یک متخصص صنعت توسعه بالینی جهانی مستقر در لندن، انگلستان است. او یک آمارشناس زیستی با آموزش است و به مشتریان Healthcare و LifeScience کمک می کند تا راه حل های توسعه بالینی نوآورانه را در AWS به کار گیرند. او مشتاق است که چگونه علم داده، AI/ML، و فناوری‌های نوظهور می‌توانند برای حل مشکلات تجاری واقعی در صنعت مراقبت‌های بهداشتی و LifeScience استفاده شوند. روهیت در اوقات فراغت خود از اسکی، باربیکیو و گذراندن وقت با خانواده و دوستان لذت می برد.

از RStudio در Amazon SageMaker برای ایجاد موارد ارسالی نظارتی برای صنعت علوم زیستی PlatoBlockchain Data Intelligence استفاده کنید. جستجوی عمودی Ai.جورجیوس شیناس یک معمار راه حل های تخصصی برای AI/ML در منطقه EMEA است. او در لندن مستقر است و از نزدیک با مشتریان در بریتانیا و ایرلند کار می کند. جورجیوس به مشتریان کمک می‌کند تا برنامه‌های یادگیری ماشینی را در تولید در AWS با علاقه خاصی به شیوه‌های MLOps طراحی و استقرار دهند و مشتریان را قادر می‌سازد تا یادگیری ماشین را در مقیاس انجام دهند. او در اوقات فراغت از سفر، آشپزی و گذراندن وقت با دوستان و خانواده لذت می برد.

تمبر زمان:

بیشتر از آموزش ماشین AWS