Використовуйте RStudio на Amazon SageMaker для створення нормативних документів для галузі наук про життя

Перевидано Платоном

читають: 0

Фармацевтичні компанії, які прагнуть отримати дозвіл від регуляторних органів, таких як Управління з контролю за харчовими продуктами та ліками США (FDA) або Японське агентство з фармацевтичних препаратів і медичних пристроїв (PMDA), щоб продавати свої ліки на ринку, повинні надати докази, які підтверджують, що їхні ліки безпечні та ефективні за призначенням. використовувати. Команда лікарів, статистиків, хіміків, фармакологів та інших вчених-клініків переглядає дані клінічних випробувань і запропоноване маркування. Якщо перевірка встановлює, що є достатні статистичні докази того, що користь для здоров’я від препарату переважає ризики, препарат схвалюється для продажу.

Пакет подання клінічних випробувань складається з табличних даних, даних аналізу, метаданих випробувань і статистичних звітів, що складаються зі статистичних таблиць, списків і малюнків. У випадку FDA США електронний загальний технічний документ (eCTD) є стандартним форматом для подання заявок, поправок, доповнень і звітів до Центру оцінки та дослідження біологічних препаратів FDA (CBER) і Центру оцінки та дослідження ліків ( CDER). Для FDA та японського PMDA нормативною вимогою є надання табличних даних у стандартній моделі таблиці даних CDISC (SDTM), даних аналізу в моделі набору даних аналізу CDISC (ADaM) і метаданих випробувань у CDISC Define-XML (на основі операційної моделі даних). (ODM)).

У цій публікації ми демонструємо, як ми можемо використовувати RStudio на Amazon SageMaker для створення таких нормативних документів. У цій публікації описується процес подання клінічних випробувань, як ми можемо отримати дані клінічних випробувань, звести в таблицю й проаналізувати дані, а потім створити статистичні звіти — зведені таблиці, списки даних і цифри (TLF). Цей метод може дозволити фармацевтичним клієнтам безперешкодно підключатися до клінічних даних, що зберігаються в їх середовищі AWS, обробляти їх за допомогою R і допомагати прискорити процес дослідження клінічних випробувань.

Процес розробки ліків

Процес розробки ліків можна загалом розділити на п’ять основних етапів, як показано на малюнку нижче.

Щоб один препарат отримав успішне схвалення з приблизно 10 15 потенційних молекул, потрібно в середньому 1–3 років і приблизно 10,000–XNUMX мільярди доларів США. На ранніх етапах дослідження (фаза відкриття ліків) визначаються перспективні препарати-кандидати, які переходять до доклінічних досліджень. Під час доклінічної фази дослідники намагаються з’ясувати токсичність препарату шляхом виконання пробірці досліди в лабораторії і в природних умовах досліди на тваринах. Після доклінічних випробувань ліки переходять на етап клінічних випробувань, де вони повинні бути випробувані на людях, щоб переконатися в їх безпеці та ефективності. Дослідники розробляють клінічні випробування та детально описують план дослідження в протоколі клінічного випробування. Вони визначають різні фази клінічних досліджень — від невеликих досліджень Фази 1 для визначення безпеки та дозування ліків до більших випробувань Фази 2 для визначення ефективності та побічних ефектів ліків, до ще більших випробувань Фази 3 і 4 для визначення ефективності, безпеки та моніторинг побічних реакцій. Після успішних клінічних випробувань на людях спонсор препарату подає заявку на нове ліки (NDA) для продажу препарату. Регуляторні органи перевіряють усі дані, співпрацюють зі спонсором над інформацією про маркування рецепта та схвалюють препарат. Після схвалення препарату регуляторні органи переглядають постмаркетингові звіти про безпеку, щоб гарантувати повну безпеку продукту.

У 1997 році Консорціум стандартів обміну клінічними даними (CDISC), глобальна некомерційна організація, що складається з фармацевтичних компаній, CRO, біотехнологій, академічних установ, постачальників медичних послуг та державних установ, була створена як волонтерська група. CDISC опублікував стандарти даних, щоб оптимізувати потік даних від збору до подання та полегшити обмін даними між партнерами та постачальниками. CDISC опублікував такі стандарти:

CDASH (Гармонізація стандартів збору клінічних даних) – Стандарти для зібраних даних
SDTM (модель таблиці даних дослідження) – Стандарти подання табличних даних
ADaM (модель даних аналізу) – Стандарти аналізу даних
SEND (Стандарт обміну неклінічними даними) – Стандарти доклінічних даних
PRM (модель представлення протоколу) – Стандарти для протоколу

Ці стандарти можуть допомогти навченим рецензентам аналізувати дані ефективніше та швидше за допомогою стандартних інструментів, тим самим скорочуючи час затвердження лікарських засобів. Це нормативна вимога FDA США та PMDA Японії щодо надсилання всіх табличних даних у форматі SDTM.

R для подання досліджень у клінічних випробуваннях

SAS і R є двома програмами для статистичного аналізу, які найчастіше використовуються у фармацевтичній промисловості. Коли CDISC розпочала розробку стандартів SDTM, SAS майже повсюдно використовувався у фармацевтичній промисловості та в FDA. Однак сьогодні R набуває надзвичайної популярності, оскільки він є відкритим вихідним кодом і постійно додаються нові пакунки та бібліотеки. Студенти переважно використовують R під час навчання та досліджень, і вони беруть це знайомство з R на роботу. R також пропонує підтримку нових технологій, таких як передові інтеграції глибокого навчання.

Хмарні постачальники, такі як AWS, тепер стали платформою для фармацевтичних клієнтів для розміщення своєї інфраструктури. AWS також надає керовані сервіси, такі як SageMaker, що полегшує створення, навчання та розгортання моделей машинного навчання (ML) у хмарі. SageMaker також дозволяє отримати доступ до RStudio IDE з будь-якого місця через веб-браузер. У цьому дописі детально описано, як статистичні програмісти та біостатистики можуть вводити свої клінічні дані в середовище R, як можна запускати код R і як зберігаються результати. Ми надаємо фрагменти коду, які дозволяють науковцям із клінічних досліджень завантажувати файли XPT у середовище R, створювати кадри даних R для SDTM і ADaM і, нарешті, створювати TLF, який можна зберігати в Служба простого зберігання Amazon (Amazon S3) відро для зберігання об’єктів.

RStudio на SageMaker

2 листопада 2021 року AWS у співпраці з RStudio PBC оголошений загальна доступність RStudio на SageMaker, перша в галузі повністю керована IDE RStudio Workbench у хмарі. Тепер ви можете перенести свою поточну ліцензію RStudio, щоб легко перенести ваші самокеровані середовища RStudio на SageMaker лише за кілька простих кроків. Щоб дізнатися більше про цю захоплюючу співпрацю, перегляньте Оголошення RStudio на Amazon SageMaker.

Разом із RStudio Workbench пакет RStudio для розробників R також пропонує RStudio Connect і RStudio Package Manager. RStudio Connect розроблено, щоб дозволити дослідникам даних публікувати статистику, інформаційні панелі та веб-додатки. Це спрощує обмін досвідом МЛ і науки про дані в результаті складної роботи науковців і передає їх у руки особам, які приймають рішення. RStudio Connect також робить розміщення та керування вмістом простим і масштабованим для широкого використання.

Огляд рішення

У наступних розділах ми обговорюємо, як ми можемо імпортувати необроблені дані з віддаленого сховища або сегмента S3 у RStudio на SageMaker. Також можна підключитися безпосередньо до Служба реляційних баз даних Amazon (Amazon RDS) і сховищ даних Амазонська червона зміна (Див. Підключення R до Amazon Redshift) безпосередньо з RStudio; однак це виходить за рамки цієї публікації. Після отримання даних із кількох різних джерел ми обробляємо їх і створюємо фрейми даних R для таблиці. Потім ми перетворюємо кадр даних таблиці у файл RTF і зберігаємо результати назад у відро S3. Потім ці вихідні дані потенційно можуть бути використані для подання до нормативних документів, за умови, що пакети R, які використовуються в пошті, були перевірені для використання клієнтом для подання до нормативних документів.

Налаштуйте RStudio на SageMaker

Інструкції щодо налаштування RStudio на SageMaker у вашому середовищі див Почніть роботу з RStudio на SageMaker. Переконайтеся, що роль виконання RStudio на SageMaker має доступ для завантаження та завантаження даних у сегмент S3, у якому зберігаються дані. Щоб дізнатися більше про те, як керувати пакетами R і публікувати свій аналіз за допомогою RStudio на SageMaker, див Анонс повністю керованого RStudio на SageMaker для спеціалістів із обробки даних.

Передайте дані в RStudio

На цьому кроці ми отримуємо дані з різних джерел, щоб зробити їх доступними для нашого сеансу R. Ми імпортуємо дані у форматі SAS XPT; однак процес подібний, якщо ви хочете отримати дані в інших форматах. Одна з переваг використання RStudio на SageMaker полягає в тому, що якщо вихідні дані зберігаються у ваших облікових записах AWS, SageMaker може отримати доступ до даних за допомогою Управління ідентифікацією та доступом AWS (IAM) ролі.

Доступ до даних, що зберігаються у віддаленому сховищі

На цьому кроці ми імпортуємо дані ADaM із Репозиторій FDA GitHub. Ми створюємо локальний каталог під назвою data у середовищі RStudio для зберігання даних і завантаження демографічних даних (dm.xpt) із віддаленого сховища. У цьому контексті локальний каталог відноситься до каталогу, створеного у вашому приватному сховищі Amazon EFS, яке за замовчуванням підключено до середовища сеансу R. Перегляньте наступний код:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Коли цей крок завершено, ви можете побачити dm.xpt завантажується шляхом переходу до Файли, дані, dm.xpt.

Доступ до даних, що зберігаються в Amazon S3

На цьому кроці ми завантажуємо дані, що зберігаються у сегменті S3 нашого облікового запису. Ми скопіювали вміст зі сховища GitHub FDA у сегмент S3 під назвою aws-sagemaker-rstudio для цього прикладу. Перегляньте наступний код:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Коли крок завершено, ви можете побачити pp.xpt завантажується шляхом переходу до Файли, дані, pp.xpt.

Обробляти дані XPT

Тепер, коли у нас є файли SAS XPT, доступні в середовищі R, нам потрібно перетворити їх у кадри даних R і обробити. Ми використовуємо haven бібліотека для читання файлів XPT. Ми об’єднуємо набори даних CDISC SDTM dm та pp щоб створити набір даних ADPP. Потім ми створюємо зведену статистичну таблицю за допомогою кадру даних ADPP. Потім зведена таблиця експортується у формат RTF.

Спочатку файли XPT читаються за допомогою read_xpt функція бібліотеки гавані. Потім створюється набір даних аналізу за допомогою sqldf функції sqldf бібліотека. Перегляньте наступний код:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Потім створюється кадр вихідних даних за допомогою функцій з Tplyr та dplyr бібліотеки:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Потім кадр вихідних даних зберігається як файл RTF у вихідній папці в середовищі RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Завантажте результати в Amazon S3

Після того, як вивід було згенеровано, ми поміщаємо дані назад у відро S3. Ми можемо досягти цього, створивши знову сеанс SageMaker, якщо сеанс ще не активний, і завантаживши вміст вихідної папки до відра S3 за допомогою session$upload_data функція:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

За допомогою цих кроків ми отримали дані, обробили їх і завантажили результати, щоб надати їх для подання до регуляторних органів.

Прибирати

Щоб уникнути будь-яких непередбачених витрат, вам потрібно завершити поточний сеанс. У верхньому правому куті сторінки виберіть значок живлення. Це автоматично зупинить основний екземпляр і, отже, припинить будь-які ненавмисні витрати на обчислення.

Виклики

У дописі описано кроки для прийому необроблених даних, що зберігаються у відрі S3 або з віддаленого сховища. Однак існує багато інших джерел необроблених даних для клінічних випробувань, насамперед дані eCRF (електронні форми звіту про випадки захворювання), які зберігаються в системах EDC (електронний збір даних), таких як Oracle Clinical, Medidata Rave, OpenClinica або Snowflake; лабораторні дані; дані з eCOA (оцінка клінічних результатів) та ePRO (електронні результати, про які повідомляють пацієнти); реальні дані з програм і медичних пристроїв; та електронні медичні записи (EHR) у лікарнях. Перед тим, як ці дані можна буде використовувати для подання до регуляторних органів, необхідно провести значну попередню обробку. Побудова з’єднувачів для різних джерел даних та їх збір у централізованому сховищі даних (CDR) або озері клінічних даних, зберігаючи належний контроль доступу, створює значні проблеми.

Ще одним ключовим викликом, який необхідно подолати, є дотримання нормативних вимог. Комп’ютерна система, яка використовується для створення вихідних даних нормативних документів, має відповідати відповідним нормам, таким як 21 CFR, частина 11, HIPAA, GDPR або будь-яким іншим вимогам GxP чи вказівкам ICH. Це означає роботу в перевіреному та кваліфікованому середовищі з елементами керування доступом, безпекою, резервним копіюванням і можливістю перевірки. Це також означає, що будь-які R-пакети, які використовуються для створення вихідних даних нормативних документів, повинні бути перевірені перед використанням.

Висновок

У цій публікації ми побачили, що одними з ключових результатів для подання eCTD були CDISC SDTM, набори даних ADaM і TLF. У цьому дописі описано кроки, необхідні для створення цих нормативних документів для подання, спочатку ввівши дані з кількох джерел у RStudio на SageMaker. Потім ми побачили, як ми можемо обробляти отримані дані у форматі XPT; конвертувати його в кадри даних R для створення SDTM, ADaM і TLF; а потім, нарешті, завантажити результати в сегмент S3.

Ми сподіваємося, що завдяки широким ідеям, викладеним у дописі, програмісти-статистики та біостатистики зможуть легко візуалізувати наскрізний процес завантаження, обробки та аналізу даних досліджень клінічних випробувань у RStudio на SageMaker і використовувати отримані знання для визначення спеціального робочий процес, який підходить для ваших нормативних документів.

Чи можете ви пригадати будь-які інші програми використання RStudio, щоб допомогти дослідникам, статистикам і R-програмістам полегшити собі життя? Будемо раді почути про ваші ідеї! А якщо у вас виникли запитання, поділіться ними в коментарях.

ресурси

Для отримання додаткової інформації відвідайте такі посилання:

Про авторів

Рохіт Банга є фахівцем із глобального клінічного розвитку в Лондоні, Великобританія. За освітою він біостатистик і допомагає клієнтам Healthcare і LifeScience розгортати інноваційні рішення для клінічної розробки на AWS. Він захоплений тим, як можна використовувати науку про дані, AI/ML і новітні технології для вирішення реальних бізнес-проблем у галузі охорони здоров’я та LifeScience. У вільний час Рохіт любить кататися на лижах, готувати барбекю та проводити час із родиною та друзями.

Використовуйте RStudio на Amazon SageMaker, щоб створювати нормативні документи для галузі наук про життя PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Георгіос Схінас є спеціалістом архітектора рішень для AI/ML у регіоні EMEA. Він знаходиться в Лондоні і тісно співпрацює з клієнтами у Великобританії та Ірландії. Georgios допомагає клієнтам розробляти та розгортати програми машинного навчання у виробництві на AWS, особливо цікавлячись практиками MLOps і дозволяючи клієнтам виконувати машинне навчання в масштабі. У вільний час він любить подорожувати, готувати і проводити час з друзями та родиною.

Часова мітка: Вересень 20, 2022Вересень 21, 2022

Часова мітка: Листопад 8, 2022

Використовуйте RStudio на Amazon SageMaker, щоб створювати нормативні документи для галузі наук про життя

Перевидано Платоном

Процес розробки ліків

R для подання досліджень у клінічних випробуваннях

RStudio на SageMaker

Огляд рішення

Налаштуйте RStudio на SageMaker

Передайте дані в RStudio

Доступ до даних, що зберігаються у віддаленому сховищі

Доступ до даних, що зберігаються в Amazon S3

Обробляти дані XPT

Завантажте результати в Amazon S3

Прибирати

Виклики

Висновок

ресурси

Про авторів

Більше від AWS Машинне навчання

Автоматизуйте класифікацію запитів на ІТ-послуги за допомогою спеціального класифікатора Amazon Comprehend

Використовуйте Amazon Lex для запису вуличних адрес

“ID + Selfie” – покращення цифрової перевірки особи за допомогою AWS

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки