Använd RStudio på Amazon SageMaker för att skapa regulatoriska inlämningar för biovetenskapsindustrin PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Använd RStudio på Amazon SageMaker för att skapa regulatoriska inlämningar för life science-industrin

Läkemedelsföretag som söker godkännande från tillsynsmyndigheter som US Food & Drug Administration (FDA) eller Japanese Pharmaceuticals and Medical Devices Agency (PMDA) för att sälja sina läkemedel på marknaden måste lämna in bevis för att bevisa att deras läkemedel är säkert och effektivt för det avsedda använda sig av. Ett team av läkare, statistiker, kemister, farmakologer och andra kliniska forskare granskar inlämnade data för kliniska prövningar och föreslagna märkning. Om granskningen fastställer att det finns tillräckliga statistiska bevis för att bevisa att hälsofördelarna med läkemedlet överväger riskerna, godkänns läkemedlet för försäljning.

Inlämningspaketet för kliniska prövningar består av data i tabellform, analysdata, prövningsmetadata och statistiska rapporter som består av statistiska tabeller, listor och siffror. När det gäller amerikanska FDA är det elektroniska gemensamma tekniska dokumentet (eCTD) standardformatet för att skicka in ansökningar, ändringar, tillägg och rapporter till FDA:s Center for Biologics Evaluation and Research (CBER) och Center for Drug Evaluation and Research ( CDER). För FDA och japanska PMDA är det ett regulatoriskt krav att skicka in tabellerade data i CDISC Standard Data Tabulation Model (SDTM), analysdata i CDISC Analysis Dataset Model (ADaM) och testmetadata i CDISC Define-XML (baserat på Operational Data Model) (ODM)).

I det här inlägget visar vi hur vi kan använda RStudio på Amazon SageMaker att skapa sådana lagstadgade inlämningsresultat. Det här inlägget beskriver inlämningsprocessen för kliniska prövningar, hur vi kan få in forskningsdata från kliniska prövningar, tabellera och analysera data och sedan skapa statistiska rapporter – sammanfattningstabeller, datalistor och siffror (TLF). Denna metod kan göra det möjligt för läkemedelskunder att sömlöst ansluta till klinisk data lagrad i deras AWS-miljö, bearbeta den med R och hjälpa till att påskynda forskningsprocessen för kliniska prövningar.

Läkemedelsutvecklingsprocess

Läkemedelsutvecklingsprocessen kan i stora drag delas in i fem huvudsteg, som illustreras i följande figur.

Det tar i genomsnitt 10–15 år och cirka 1–3 miljarder USD för ett läkemedel att få ett framgångsrikt godkännande av cirka 10,000 XNUMX potentiella molekyler. Under forskningens tidiga faser (läkemedelsupptäcktsfasen) identifieras lovande läkemedelskandidater som går vidare till preklinisk forskning. Under den prekliniska fasen försöker forskare ta reda på läkemedlets toxicitet genom att utföra vitro experiment i labbet och in vivo- experiment på djur. Efter preklinisk testning går läkemedlen vidare till den kliniska prövningsfasen, där de måste testas på människor för att fastställa deras säkerhet och effekt. Forskarna utformar kliniska prövningar och detaljerar studieplanen i protokollet för klinisk prövning. De definierar de olika kliniska forskningsfaserna – från små fas 1-studier för att fastställa läkemedelssäkerhet och dosering, till en större fas 2-prövning för att fastställa läkemedelseffekt och biverkningar, till ännu större fas 3- och 4-studier för att bestämma läkemedlets effektivitet, säkerhet och övervakning av biverkningar. Efter framgångsrika kliniska prövningar på människor lämnar läkemedelssponsorn in en ny läkemedelsansökan (NDA) för att marknadsföra läkemedlet. Tillsynsmyndigheterna granskar all data, samarbetar med sponsorn om information om receptmärkning och godkänner läkemedlet. Efter läkemedlets godkännande granskar tillsynsmyndigheterna säkerhetsrapporter efter försäljning för att säkerställa hela produktens säkerhet.

1997 startades Clinical Data Interchange Standards Consortium (CDISC), en global, ideell organisation bestående av läkemedelsföretag, CRO:er, bioteknik, akademiska institutioner, vårdgivare och statliga myndigheter, som volontärgrupp. CDISC har publicerat datastandarder för att effektivisera flödet av data från insamling till inlämningar, och underlättat datautbyte mellan partners och leverantörer. CDISC har publicerat följande standarder:

  • CDASH (Clinical Data Acquisition Standards Harmonization) – Standarder för insamlad data
  • SDTM (Study Data Tabulation Model) – Standarder för inlämning av data i tabellform
  • ADaM (Analysis Data Model) – Standarder för analysdata
  • SEND (Standard för utbyte av icke-kliniska data) – Standarder för icke-kliniska data
  • PRM (Protocol Representation Model) – Standarder för protokoll

Dessa standarder kan hjälpa utbildade granskare att analysera data mer effektivt och snabbare med hjälp av standardverktyg, och därigenom minska tiderna för läkemedelsgodkännande. Det är ett regulatoriskt krav från amerikanska FDA och japanska PMDA att skicka in all data i tabellform med SDTM-formatet.

R för forskningsinlämningar för kliniska prövningar

SAS och R är två av de mest använda statistiska analysmjukvaran som används inom läkemedelsindustrin. När utvecklingen av SDTM-standarderna startade av CDISC var SAS i nästan universell användning inom läkemedelsindustrin och hos FDA. Men R vinner enorm popularitet nuförtiden eftersom det är öppen källkod, och nya paket och bibliotek läggs till kontinuerligt. Studenter använder främst R under sin akademiska och forskning, och de tar denna förtrogenhet med R till sina jobb. R erbjuder också stöd för framväxande teknologier som avancerade djupinlärningsintegrationer.

Molnleverantörer som AWS har nu blivit den bästa plattformen för läkemedelskunder att vara värd för sin infrastruktur. AWS tillhandahåller också hanterade tjänster som SageMaker, vilket gör det enkelt att skapa, träna och distribuera modeller för maskininlärning (ML) i molnet. SageMaker tillåter också åtkomst till RStudio IDE var som helst via en webbläsare. Det här inlägget beskriver hur statistiska programmerare och biostatistiker kan få in sina kliniska data i R-miljön, hur R-kod kan köras och hur resultat lagras. Vi tillhandahåller kodavsnitt som gör det möjligt för dataforskare i kliniska prövningar att mata in XPT-filer i R-miljön, skapa R-dataramar för SDTM och ADaM och slutligen skapa TLF som kan lagras i en Amazon enkel lagringstjänst (Amazon S3) objektförvaringshink.

RStudio på SageMaker

Den 2 november 2021, AWS i samarbete med RStudio PBC meddelade den allmänna tillgängligheten till RStudio på SageMaker, branschens första fullt hanterade RStudio Workbench IDE i molnet. Du kan nu ta med din nuvarande RStudio-licens för att enkelt migrera dina självhanterade RStudio-miljöer till SageMaker med bara några enkla steg. För att lära dig mer om detta spännande samarbete, kolla in Tillkännager RStudio på Amazon SageMaker.

Tillsammans med RStudio Workbench erbjuder RStudio-sviten för R-utvecklare även RStudio Connect och RStudio Package Manager. RStudio Connect är utformad för att tillåta datavetare att publicera insikter, instrumentpaneler och webbapplikationer. Det gör det enkelt att dela ML och datavetenskapliga insikter från datavetares komplicerade arbete och lägga dem i händerna på beslutsfattare. RStudio Connect gör också värd och hantering av innehåll enkelt och skalbart för bred konsumtion.

Lösningsöversikt

I följande avsnitt diskuterar vi hur vi kan importera rådata från ett fjärrlager eller S3-hink i RStudio på SageMaker. Det går även att ansluta direkt till Amazon Relational Databas Service (Amazon RDS) och datalager som Amazon RedShift (Se Ansluter R med Amazon Redshift) direkt från RStudio; detta ligger dock utanför ramen för detta inlägg. Efter att data har matats in från ett par olika källor bearbetar vi den och skapar R-dataramar för en tabell. Sedan konverterar vi tabelldataramen till en RTF-fil och lagrar resultaten tillbaka i en S3-hink. Dessa utdata kan sedan potentiellt användas för regulatoriska inlämningsändamål, förutsatt att R-paketen som används i inlägget har validerats för användning för regulatoriska inskickningar av kunden.

Ställ in RStudio på SageMaker

För instruktioner om hur du ställer in RStudio på SageMaker i din miljö, se Kom igång med RStudio på SageMaker. Se till att exekveringsrollen för RStudio på SageMaker har tillgång till att ladda ner och ladda upp data till S3-bucketen där data lagras. För att lära dig mer om hur du hanterar R-paket och publicerar din analys med RStudio på SageMaker, se Tillkännager Fullt Managed RStudio på SageMaker för dataforskare.

Mata in data i RStudio

I det här steget matar vi in ​​data från olika källor för att göra den tillgänglig för vår R-session. Vi importerar data i SAS XPT-format; dock är processen liknande om du vill mata in data i andra format. En av fördelarna med att använda RStudio på SageMaker är att om källdata lagras i dina AWS-konton så kan SageMaker naturligt komma åt data med hjälp av AWS identitets- och åtkomsthantering (IAM) roller.

Få åtkomst till data lagrade i ett fjärrlager

I det här steget importerar vi ADaM-data från FDA:s GitHub-förråd. Vi skapar en lokal katalog som heter data i RStudio-miljön för att lagra data och ladda ner demografisk data (dm.xpt) från fjärrförvaret. I detta sammanhang hänvisar den lokala katalogen till en katalog som skapats på din privata Amazon EFS-lagring som som standard är kopplad till din R-sessionsmiljö. Se följande kod:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

När detta steg är klart kan du se dm.xpt laddas ner genom att navigera till Filer, datum, dm.xpt.

Få åtkomst till data lagrad i Amazon S3

I det här steget laddar vi ner data lagrad i en S3-hink på vårt konto. Vi har kopierat innehåll från FDA:s GitHub-förråd till S3-hinken med namnet aws-sagemaker-rstudio för detta exempel. Se följande kod:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

När steget är klart kan du se pp.xpt laddas ner genom att navigera till Filer, datum, s.xpt.

Bearbeta XPT-data

Nu när vi har SAS XPT-filer tillgängliga i R-miljön måste vi konvertera dem till R-dataramar och bearbeta dem. Vi använder haven bibliotek för att läsa XPT-filer. Vi slår samman CDISC SDTM-datauppsättningar dm och pp för att skapa ADPP-datauppsättning. Sedan skapar vi en sammanfattande statistiktabell med hjälp av ADPP-dataramen. Sammanfattningstabellen exporteras sedan i RTF-format.

Först läses XPT-filer med hjälp av read_xpt tillflyktsortsbibliotekets funktion. Sedan skapas en analysdatauppsättning med hjälp av sqldf funktion av sqldf bibliotek. Se följande kod:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Sedan skapas en utdataram med hjälp av funktioner från Tplyr och dplyr bibliotek:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Utdataramen lagras sedan som en RTF-fil i utdatamappen i RStudio-miljön:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Ladda upp utgångar till Amazon S3

Efter att utdata har genererats lägger vi tillbaka data i en S3-hink. Vi kan uppnå detta genom att skapa en SageMaker-session igen, om en session inte redan är aktiv, och ladda upp innehållet i utdatamappen till en S3-hink med hjälp av session$upload_data fungera:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Med dessa steg har vi tagit in data, bearbetat den och laddat upp resultaten för att göras tillgängliga för inlämnande till tillsynsmyndigheter.

Städa upp

För att undvika oavsiktliga kostnader måste du avsluta din nuvarande session. Välj strömikonen i det övre högra hörnet på sidan. Detta kommer automatiskt att stoppa den underliggande instansen och därför sluta medföra några oavsiktliga beräkningskostnader.

Använd RStudio på Amazon SageMaker för att skapa regulatoriska inlämningar för biovetenskapsindustrin PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Utmaningar

Inlägget har beskrivit steg för att mata in rådata lagrade i en S3-hink eller från ett fjärrlager. Det finns dock många andra källor till rådata för en klinisk prövning, främst eCRF-data (elektroniska fallrapporter) lagrade i EDC-system (elektronisk datainsamling) som Oracle Clinical, Medidata Rave, OpenClinica eller Snowflake; labbdata; data från eCOA (clinical outcome assessment) och ePRO (electronic Patient-Reported Outcomes); verklig data från appar och medicinsk utrustning; och elektroniska journaler (EPJ) på sjukhusen. Betydande förbearbetning är inblandad innan denna data kan göras användbar för regulatoriska inlämningar. Att bygga kopplingar till olika datakällor och samla in dem i ett centraliserat datalager (CDR) eller en klinisk datasjö, samtidigt som man bibehåller korrekt åtkomstkontroll, innebär betydande utmaningar.

En annan viktig utmaning att övervinna är efterlevnaden av regelverk. Datorsystemet som används för att skapa utdata för lagstadgade inlämningar måste överensstämma med lämpliga bestämmelser, såsom 21 CFR Part 11, HIPAA, GDPR eller andra GxP-krav eller ICH-riktlinjer. Detta översätts till att arbeta i en validerad och kvalificerad miljö med kontroller för åtkomst, säkerhet, säkerhetskopiering och granskningsbarhet på plats. Detta innebär också att alla R-paket som används för att skapa regulatoriska inlämningsutdata måste valideras före användning.

Slutsats

I det här inlägget såg vi att några av nyckelleveranserna för en eCTD-inlämning var CDISC SDTM, ADaM-datauppsättningar och TLF. Det här inlägget beskrev de steg som behövs för att skapa dessa regulatoriska inlämningsleveranser genom att först mata in data från ett par källor i RStudio på SageMaker. Vi såg sedan hur vi kan behandla den intagna datan i XPT-format; konvertera den till R-dataramar för att skapa SDTM, ADaM och TLF; och ladda sedan upp resultaten till en S3-hink.

Vi hoppas att med de breda idéerna som anges i inlägget kan statistikprogrammerare och biostatistiker enkelt visualisera hela processen för att ladda, bearbeta och analysera forskningsdata från kliniska prövningar i RStudio på SageMaker och använda lärdomarna för att definiera en anpassad arbetsflöde som passar dina regulatoriska inlämningar.

Kan du tänka dig några andra tillämpningar för att använda RStudio för att hjälpa forskare, statistiker och R-programmerare att göra deras liv enklare? Vi vill gärna höra om dina idéer! Och om du har några frågor, vänligen dela dem i kommentarsfältet.

Resurser

För mer information, besök följande länkar:


Om författarna

Använd RStudio på Amazon SageMaker för att skapa regulatoriska inlämningar för biovetenskapsindustrin PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rohit Banga är en Global Clinical Development Industry Specialist baserad i London, Storbritannien. Han är biostatistiker genom utbildning och hjälper Healthcare- och LifeScience-kunder att implementera innovativa kliniska utvecklingslösningar på AWS. Han brinner för hur datavetenskap, AI/ML och framväxande teknologier kan användas för att lösa verkliga affärsproblem inom hälsovårds- och LifeScience-branschen. På fritiden tycker Rohit om att åka skidor, grilla och umgås med familj och vänner.

Använd RStudio på Amazon SageMaker för att skapa regulatoriska inlämningar för biovetenskapsindustrin PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Georgios Schinas är en specialistlösningsarkitekt för AI/ML i EMEA-regionen. Han är baserad i London och arbetar nära kunder i Storbritannien och Irland. Georgios hjälper kunder att designa och distribuera maskininlärningsapplikationer i produktion på AWS med ett särskilt intresse för MLOps-praxis och gör det möjligt för kunder att utföra maskininlärning i stor skala. På fritiden tycker han om att resa, laga mat och umgås med vänner och familj.

Tidsstämpel:

Mer från AWS maskininlärning