Используйте RStudio на Amazon SageMaker для создания нормативных документов для отрасли медико-биологических наук

Переиздано Платоном

Читают: 0

Фармацевтические компании, желающие получить разрешение от регулирующих органов, таких как Управление по контролю за продуктами и лекарствами США (FDA) или Японское агентство по фармацевтике и медицинскому оборудованию (PMDA), на продажу своих лекарств на рынке, должны предоставить доказательства, подтверждающие, что их препарат безопасен и эффективен по назначению. использовать. Группа врачей, статистиков, химиков, фармакологов и других ученых-клиницистов анализирует данные, представленные на клинические исследования, и предлагаемую маркировку. Если в ходе проверки будет установлено, что имеется достаточно статистических данных, подтверждающих, что польза от препарата для здоровья превышает риски, препарат разрешается к продаже.

Пакет для подачи клинических исследований состоит из табличных данных, данных анализа, метаданных исследования и статистических отчетов, состоящих из статистических таблиц, списков и рисунков. В случае с FDA США общий электронный технический документ (eCTD) является стандартным форматом для подачи заявок, поправок, дополнений и отчетов в Центр оценки и исследования биологических препаратов (CBER) и Центр оценки и исследования лекарственных препаратов (FDA). ЦДЭР). Для FDA и японского PMDA нормативным требованием является представление табличных данных в стандартной модели табуляции данных CDISC (SDTM), данных анализа в модели набора данных анализа CDISC (ADaM) и метаданных испытаний в CDISC Define-XML (на основе модели операционных данных). (ОДМ)).

В этом посте мы демонстрируем, как мы можем использовать RStudio на Создатель мудреца Амазонки для создания таких результатов для подачи нормативных документов. В этом посте описывается процесс подачи заявок на участие в клинических испытаниях, а также то, как мы можем принимать данные исследований клинических испытаний, сводить их в таблицы и анализировать, а затем создавать статистические отчеты — сводные таблицы, списки данных и цифры (TLF). Этот метод может позволить фармацевтическим клиентам беспрепятственно подключаться к клиническим данным, хранящимся в их среде AWS, обрабатывать их с помощью R и ускорять процесс исследования клинических испытаний.

Процесс разработки лекарств

Процесс разработки лекарств можно условно разделить на пять основных этапов, как показано на следующем рисунке.

Для успешного одобрения одного препарата из примерно 10 15 потенциальных молекул требуется в среднем 1–3 лет и примерно 10,000–XNUMX миллиарда долларов США. На ранних этапах исследований (этап открытия лекарств) выявляются перспективные кандидаты на лекарства, которые переходят к доклиническим исследованиям. На доклиническом этапе исследователи пытаются выяснить токсичность препарата, выполняя в пробирке эксперименты в лаборатории и в естественных условиях эксперименты на животных. После доклинических испытаний лекарства переходят на стадию клинических испытаний, где их необходимо протестировать на людях, чтобы убедиться в их безопасности и эффективности. Исследователи разрабатывают клинические испытания и подробно описывают план исследования в протоколе клинических испытаний. Они определяют различные фазы клинических исследований — от небольших исследований фазы 1 для определения безопасности и дозировки лекарств до более крупных исследований фазы 2 для определения эффективности лекарств и побочных эффектов и до еще более крупных исследований фаз 3 и 4 для определения эффективности, безопасности и эффективности лекарств. мониторинг побочных реакций. После успешных клинических испытаний на людях спонсор препарата подает заявку на новое лекарство (NDA) для продажи препарата. Регулирующие органы проверяют все данные, работают со спонсором над информацией на этикетках рецептов и одобряют препарат. После одобрения препарата регулирующие органы проверяют послепродажные отчеты о безопасности, чтобы гарантировать полную безопасность продукта.

В 1997 году в качестве группы волонтеров был основан Консорциум по стандартам обмена клиническими данными (CDISC), глобальная некоммерческая организация, в которую входят фармацевтические компании, CRO, биотехнологические, академические учреждения, поставщики медицинских услуг и правительственные учреждения. CDISC опубликовал стандарты данных, чтобы упростить поток данных от сбора до отправки, а также облегчить обмен данными между партнерами и поставщиками. CDISC опубликовал следующие стандарты:

CDASH (Гармонизация стандартов сбора клинических данных) – Стандарты собираемых данных
SDTM (модель табулирования данных исследования) – Стандарты представления табличных данных
ADaM (модель аналитических данных) – Стандарты данных анализа
SEND (Стандарт обмена доклиническими данными) – Стандарты доклинических данных
PRM (модель представления протокола) – Стандарты протокола

Эти стандарты могут помочь обученным экспертам анализировать данные более эффективно и быстро, используя стандартные инструменты, тем самым сокращая время утверждения лекарств. В соответствии с нормативными требованиями FDA США и PMDA Японии необходимо предоставлять все табличные данные в формате SDTM.

R для подачи заявок на исследования клинических испытаний

SAS и R — два наиболее часто используемых программного обеспечения для статистического анализа, используемых в фармацевтической промышленности. Когда CDISC начала разработку стандартов SDTM, SAS практически повсеместно использовался в фармацевтической промышленности и в FDA. Однако в настоящее время R набирает огромную популярность, поскольку его исходный код открыт, и постоянно добавляются новые пакеты и библиотеки. Студенты в основном используют R во время учебы и исследований, а также используют это знакомство с R в своей работе. R также предлагает поддержку новых технологий, таких как расширенная интеграция глубокого обучения.

Поставщики облачных услуг, такие как AWS, теперь стали предпочтительной платформой для фармацевтических клиентов для размещения своей инфраструктуры. AWS также предоставляет управляемые сервисы, такие как SageMaker, которые позволяют легко создавать, обучать и развертывать модели машинного обучения (ML) в облаке. SageMaker также обеспечивает доступ к RStudio IDE из любого места через веб-браузер. В этом посте подробно описано, как программисты-статисты и специалисты по биостатистике могут импортировать свои клинические данные в среду R, как можно запускать код R и как сохраняются результаты. Мы предоставляем фрагменты кода, которые позволяют специалистам по данным клинических испытаний вставлять файлы XPT в среду R, создавать кадры данных R для SDTM и ADAM и, наконец, создавать TLF, который можно хранить в Простой сервис хранения Amazon (Amazon S3) сегмент хранилища объектов.

RStudio на SageMaker

2 ноября 2021 г. AWS в сотрудничестве с RStudio PBC объявило общая доступность RStudio на SageMaker, первая в отрасли полностью управляемая облачная среда разработки RStudio Workbench. Теперь вы можете использовать свою текущую лицензию RStudio, чтобы легко перенести свои самоуправляемые среды RStudio в SageMaker, выполнив всего несколько простых шагов. Чтобы узнать больше об этом захватывающем сотрудничестве, посетите Анонс RStudio на Amazon SageMaker.

Наряду с RStudio Workbench пакет RStudio для разработчиков R также предлагает RStudio Connect и RStudio Package Manager. RStudio Connect разработан, чтобы позволить специалистам по данным публиковать аналитические данные, информационные панели и веб-приложения.. Это позволяет легко делиться знаниями в области машинного обучения и науки о данных, полученными в результате сложной работы специалистов по обработке данных, и передавать их в руки лиц, принимающих решения. RStudio Connect также делает хостинг и управление контентом простым и масштабируемым для широкого использования.

Обзор решения

В следующих разделах мы обсудим, как мы можем импортировать необработанные данные из удаленного репозитория или корзины S3 в RStudio на SageMaker. Также возможно подключение напрямую к Сервис реляционной базы данных Amazon (Amazon RDS) и хранилища данных, такие как Амазонка Redshift (См. Соединение R с Amazon Redshift) прямо из RStudio; однако это выходит за рамки данного поста. После того как данные были получены из нескольких разных источников, мы обрабатываем их и создаем фреймы данных R для таблицы. Затем мы преобразуем фрейм данных таблицы в файл RTF и сохраняем результаты обратно в корзину S3. Эти выходные данные потенциально могут затем использоваться для целей подачи нормативных документов при условии, что пакеты R, использованные в публикации, были проверены клиентом для использования в целях подачи нормативных документов.

Настройте RStudio в SageMaker

Инструкции по настройке RStudio на SageMaker в вашей среде см. Начните работу с RStudio в SageMaker. Убедитесь, что исполнительная роль RStudio в SageMaker имеет доступ для загрузки и выгрузки данных в корзину S3, в которой хранятся данные. Чтобы узнать больше об управлении пакетами R и публикации анализа с помощью RStudio в SageMaker, см. Анонс полностью управляемого RStudio на SageMaker для специалистов по обработке данных.

Загрузка данных в RStudio

На этом этапе мы принимаем данные из различных источников, чтобы сделать их доступными для нашего сеанса R. Мы импортируем данные в формате SAS XPT; однако процесс аналогичен, если вы хотите принимать данные в других форматах. Одним из преимуществ использования RStudio в SageMaker является то, что если исходные данные хранятся в ваших учетных записях AWS, то SageMaker может напрямую получить доступ к данным, используя Управление идентификацией и доступом AWS (ИАМ) роли.

Доступ к данным, хранящимся в удаленном репозитории

На этом этапе мы импортируем данные ADAM из Репозиторий FDA на GitHub. Мы создаем локальный каталог под названием data в среде RStudio для хранения данных и загрузки демографических данных (dm.xpt) из удаленного репозитория. В этом контексте локальный каталог относится к каталогу, созданному в вашем частном хранилище Amazon EFS, которое по умолчанию подключено к вашей среде сеанса R. См. следующий код:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Когда этот шаг будет завершен, вы увидите dm.xpt загружается путем перехода к Файлы, данным, dm.xpt.

Доступ к данным, хранящимся в Amazon S3

На этом этапе мы загружаем данные, хранящиеся в корзине S3 в нашей учетной записи. Мы скопировали содержимое из репозитория FDA на GitHub в корзину S3 с именем aws-sagemaker-rstudio для этого примера. См. следующий код:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Когда шаг будет завершен, вы увидите pp.xpt загружается путем перехода к Файлы, данным, pp.xpt.

Обработка данных XPT

Теперь, когда у нас есть файлы SAS XPT, доступные в среде R, нам нужно преобразовать их в фреймы данных R и обработать. Мы используем haven библиотека для чтения файлов XPT. Мы объединяем наборы данных CDISC SDTM dm и pp для создания набора данных ADPP. Затем мы создаем сводную статистическую таблицу, используя фрейм данных ADPP. Затем сводная таблица экспортируется в формат RTF.

Сначала файлы XPT читаются с помощью read_xpt функция библиотеки-убежища. Затем создается набор аналитических данных с использованием sqldf функции sqldf библиотека. См. следующий код:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Затем кадр выходных данных создается с использованием функций из Tplyr и dplyr библиотеки:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Кадр выходных данных затем сохраняется как файл RTF в выходной папке в среде RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Загрузить результаты в Amazon S3

После того, как выходные данные были сгенерированы, мы помещаем данные обратно в корзину S3. Мы можем добиться этого, снова создав сеанс SageMaker, если сеанс еще не активен, и загрузив содержимое выходной папки в корзину S3 с помощью session$upload_data функция:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

С помощью этих шагов мы получили данные, обработали их и загрузили результаты, которые будут доступны для отправки в регулирующие органы.

Убирать

Чтобы избежать непредвиденных расходов, вам необходимо завершить текущий сеанс. В правом верхнем углу страницы выберите значок питания. Это автоматически остановит базовый экземпляр и, следовательно, прекратит непредвиденные затраты на вычисления.

Вызовы

В посте описаны шаги по приему необработанных данных, хранящихся в корзине S3 или из удаленного репозитория. Однако существует множество других источников необработанных данных для клинических исследований, в первую очередь данные eCRF (электронные формы отчетов о случаях заболевания), хранящиеся в системах EDC (электронного сбора данных), таких как Oracle Clinical, Medidata Rave, OpenClinica или Snowflake; лабораторные данные; данные eCOA (оценка клинических результатов) и ePRO (электронные результаты, сообщаемые пациентами); реальные данные из приложений и медицинских устройств; и электронные медицинские карты (ЭМК) в больницах. Прежде чем эти данные можно будет использовать для подачи в регулирующие органы, требуется значительная предварительная обработка. Создание соединителей для различных источников данных и их сбор в централизованном хранилище данных (CDR) или озере клинических данных при сохранении надлежащего контроля доступа представляет собой серьезную проблему.

Еще одна ключевая проблема, которую необходимо преодолеть, — это соблюдение нормативных требований. Компьютерная система, используемая для создания результатов подачи нормативных документов, должна соответствовать соответствующим нормам, таким как 21 CFR, часть 11, HIPAA, GDPR или любым другим требованиям GxP или рекомендациям ICH. Это означает работу в проверенной и квалифицированной среде с установленными средствами управления доступом, безопасностью, резервным копированием и возможностью аудита. Это также означает, что любые пакеты R, которые используются для создания выходных данных для подачи нормативных документов, должны быть проверены перед использованием.

Заключение

В этом посте мы увидели, что некоторыми из ключевых результатов подачи eCTD являются CDISC SDTM, наборы данных ADAM и TLF. В этом посте описаны шаги, необходимые для создания этих результатов для подачи нормативных документов путем предварительного приема данных из нескольких источников в RStudio на SageMaker. Затем мы увидели, как можно обрабатывать полученные данные в формате XPT; преобразовать его в кадры данных R для создания SDTM, ADAM и TLF; а затем, наконец, загрузите результаты в корзину S3.

Мы надеемся, что благодаря общим идеям, изложенным в статье, статистические программисты и специалисты по биостатистике смогут легко визуализировать сквозной процесс загрузки, обработки и анализа данных клинических исследований в RStudio на SageMaker и использовать полученные знания для определения индивидуального подхода. рабочий процесс, подходящий для ваших нормативных документов.

Можете ли вы придумать какие-либо другие варианты использования RStudio, которые помогут исследователям, статистикам и программистам на R облегчить свою жизнь? Мы будем рады услышать о ваших идеях! А если у вас есть какие-либо вопросы, поделитесь ими в разделе комментариев.

Полезные ресурсы

Для получения дополнительной информации перейдите по следующим ссылкам:

Об авторах

Рохит Банга — глобальный специалист в области клинических разработок, базирующийся в Лондоне, Великобритания. По образованию он биостатистик и помогает клиентам из сферы здравоохранения и биологических наук развертывать инновационные решения для клинических разработок на AWS. Он увлечен тем, как наука о данных, искусственный интеллект и машинное обучение и новые технологии могут использоваться для решения реальных бизнес-задач в сфере здравоохранения и биологических наук. В свободное время Рохит любит кататься на лыжах, готовить барбекю и проводить время с семьей и друзьями.

Используйте RStudio на Amazon SageMaker для создания нормативных документов для медико-биологической отрасли PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Георгиос Шинас является специалистом по разработке решений для AI/ML в регионе EMEA. Он базируется в Лондоне и тесно сотрудничает с клиентами в Великобритании и Ирландии. Georgios помогает клиентам разрабатывать и развертывать приложения машинного обучения в рабочей среде на AWS, уделяя особое внимание методам MLOps и позволяя клиентам выполнять машинное обучение в масштабе. В свободное время он любит путешествовать, готовить и проводить время с друзьями и семьей.