Uporabite RStudio na Amazon SageMaker za ustvarjanje regulativnih vlog za industrijo znanosti o življenju PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Uporabite RStudio na Amazon SageMaker za ustvarjanje regulativnih vlog za industrijo znanosti o življenju

Farmacevtska podjetja, ki iščejo dovoljenje regulativnih agencij, kot sta ameriška agencija za hrano in zdravila (FDA) ali japonska agencija za farmacevtske izdelke in medicinske pripomočke (PMDA), za prodajo svojih zdravil na trgu, morajo predložiti dokaze, ki dokazujejo, da je njihovo zdravilo varno in učinkovito za predvideno uporabo. uporaba. Skupina zdravnikov, statistikov, kemikov, farmakologov in drugih kliničnih znanstvenikov pregleda podatke o predloženih kliničnih preskušanjih in predlagano označevanje. Če pregled ugotovi, da obstaja dovolj statističnih dokazov, ki dokazujejo, da koristi zdravila za zdravje odtehtajo tveganja, se zdravilo odobri za prodajo.

Paket oddaje kliničnega preskušanja je sestavljen iz tabelaričnih podatkov, podatkov o analizah, metapodatkov o preskušanju in statističnih poročil, ki jih sestavljajo statistične tabele, seznami in številke. V primeru ameriške FDA je elektronski skupni tehnični dokument (eCTD) standardna oblika za oddajo vlog, sprememb, dodatkov in poročil Centru FDA za vrednotenje in raziskave bioloških zdravil (CBER) in Centru za vrednotenje in raziskave zdravil ( CDER). Za FDA in japonski PMDA je regulativna zahteva predložiti tabelarične podatke v CDISC Standard Data Tabulation Model (SDTM), analitične podatke v CDISC Analysis Dataset Model (ADaM) in poskusne metapodatke v CDISC Define-XML (na podlagi Operational Data Model (ODM)).

V tej objavi prikazujemo, kako lahko uporabljamo RStudio na Amazon SageMaker za ustvarjanje takšnih rezultatov regulativne predložitve. Ta objava opisuje postopek oddaje kliničnih preskušanj, kako lahko zaužijemo podatke raziskav kliničnih preskušanj, tabelariziramo in analiziramo podatke ter nato ustvarimo statistična poročila – zbirne tabele, sezname podatkov in številke (TLF). Ta metoda lahko farmacevtskim strankam omogoči nemoteno povezovanje s kliničnimi podatki, shranjenimi v njihovem okolju AWS, njihovo obdelavo z uporabo R in pomaga pospešiti raziskovalni proces kliničnega preskušanja.

Postopek razvoja zdravila

Proces razvoja zdravila lahko na splošno razdelimo na pet glavnih korakov, kot je prikazano na naslednji sliki.

V povprečju traja 10–15 let in približno 1–3 milijarde USD, da eno zdravilo prejme uspešno odobritev od približno 10,000 potencialnih molekul. V zgodnjih fazah raziskav (faza odkrivanja zdravil) se identificirajo obetavna zdravila, ki se premaknejo naprej v predklinične raziskave. V predklinični fazi poskušajo raziskovalci z izvajanjem ugotoviti toksičnost zdravila in vitro poskuse v laboratoriju in vivo poskusi na živalih. Po predkliničnem testiranju gredo zdravila v raziskovalno fazo kliničnega preskušanja, kjer jih je treba testirati na ljudeh, da se ugotovi njihova varnost in učinkovitost. Raziskovalci oblikujejo klinična preskušanja in podrobno opišejo načrt študije v protokolu kliničnega preskušanja. Opredeljujejo različne faze kliničnih raziskav – od majhnih študij faze 1 za določanje varnosti in odmerjanja zdravil do večjih preskušanj faze 2 za ugotavljanje učinkovitosti in stranskih učinkov zdravil do še večjih preskušanj faze 3 in 4 za ugotavljanje učinkovitosti, varnosti in spremljanje neželenih učinkov. Po uspešnih kliničnih preskušanjih na ljudeh sponzor zdravila vloži vlogo za novo zdravilo (NDA) za trženje zdravila. Regulativne agencije pregledajo vse podatke, sodelujejo s sponzorjem pri informacijah o označevanju recepta in odobrijo zdravilo. Po odobritvi zdravila regulativne agencije pregledajo poročila o varnosti po dajanju na trg, da zagotovijo popolno varnost izdelka.

Leta 1997 je bil kot skupina prostovoljcev ustanovljen konzorcij za standarde klinične izmenjave podatkov (CDISC), globalna neprofitna organizacija, ki jo sestavljajo farmacevtska podjetja, CRO, biotehnologija, akademske ustanove, ponudniki zdravstvenih storitev in vladne agencije. CDISC je objavil podatkovne standarde za racionalizacijo pretoka podatkov od zbiranja do oddaje in olajšal izmenjavo podatkov med partnerji in ponudniki. CDISC je objavil naslednje standarde:

  • CDASH (Honizacija standardov za pridobivanje kliničnih podatkov) – Standardi za zbrane podatke
  • SDTM (tabelarni model študijskih podatkov) – Standardi za predložitev tabelarnih podatkov
  • ADaM (analizni podatkovni model) – Standardi za podatke analize
  • POŠLJI (Standard za izmenjavo nekliničnih podatkov) – Standardi za neklinične podatke
  • PRM (Model predstavitve protokola) – Standardi za protokol

Ti standardi lahko pomagajo usposobljenim pregledovalcem učinkoviteje in hitreje analizirati podatke z uporabo standardnih orodij, s čimer skrajšajo čas odobritve zdravil. Regulatorna zahteva ameriškega FDA in japonskega PMDA je predložitev vseh tabelaričnih podatkov v formatu SDTM.

R za predložitev raziskav kliničnih preskušanj

SAS in R sta dve najpogosteje uporabljeni programski opremi za statistično analizo v farmacevtski industriji. Ko je CDISC začel razvijati standarde SDTM, je bil SAS skoraj univerzalno uporabljen v farmacevtski industriji in pri FDA. Vendar pa R danes postaja izjemno priljubljen, ker je odprtokoden in se nenehno dodajajo novi paketi in knjižnice. Študenti R uporabljajo predvsem med poukom in raziskovanjem, to poznavanje R pa vzamejo tudi v službo. R ponuja tudi podporo za nastajajoče tehnologije, kot so napredne integracije globokega učenja.

Ponudniki v oblaku, kot je AWS, so zdaj postali platforma izbire farmacevtskih strank za gostovanje njihove infrastrukture. AWS ponuja tudi upravljane storitve, kot je SageMaker, ki olajša ustvarjanje, usposabljanje in uvajanje modelov strojnega učenja (ML) v oblaku. SageMaker omogoča tudi dostop do RStudio IDE od koder koli prek spletnega brskalnika. Ta objava podrobno opisuje, kako lahko statistični programerji in biostatistiki vnesejo svoje klinične podatke v okolje R, kako je mogoče zagnati kodo R in kako se shranjujejo rezultati. Ponujamo izrezke kode, ki znanstvenikom za podatke o kliničnih preskušanjih omogočajo, da vnesejo datoteke XPT v okolje R, ustvarijo podatkovne okvire R za SDTM in ADaM ter na koncu ustvarijo TLF, ki ga je mogoče shraniti v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro za shranjevanje predmetov.

RStudio na SageMakerju

2. novembra 2021 je AWS v sodelovanju z RStudio PBC razglasitve splošna razpoložljivost RStudio na SageMakerju, prvi popolnoma upravljani RStudio Workbench IDE v oblaku. Zdaj lahko prinesete svojo trenutno licenco RStudio, da preprosto preselite svoja samoupravljana okolja RStudio v SageMaker v le nekaj preprostih korakih. Če želite izvedeti več o tem vznemirljivem sodelovanju, si oglejte Napoved RStudio na Amazon SageMaker.

Poleg RStudio Workbench paket RStudio za R razvijalce ponuja tudi RStudio Connect in RStudio Package Manager. RStudio Connect je zasnovan tako, da podatkovnim znanstvenikom omogoča objavo vpogledov, nadzornih plošč in spletnih aplikacij. Omogoča preprosto deljenje spoznanj o strojnem stroju in znanosti o podatkih iz zapletenega dela podatkovnih znanstvenikov ter jih preda v roke odločevalcem. RStudio Connect prav tako omogoča enostavno gostovanje in upravljanje vsebine ter razširljivost za široko uporabo.

Pregled rešitev

V naslednjih razdelkih razpravljamo o tem, kako lahko uvozimo neobdelane podatke iz oddaljenega repozitorija ali vedra S3 v RStudio na SageMaker. Možna je tudi neposredna povezava z Služba za relacijske baze podatkov Amazon (Amazon RDS) in podatkovna skladišča, kot je Amazon RedShift (Glej Povezovanje R z Amazon Redshift) neposredno iz RStudio; vendar je to izven obsega te objave. Ko so podatki zaužiti iz nekaj različnih virov, jih obdelamo in ustvarimo podatkovne okvire R za tabelo. Nato pretvorimo podatkovni okvir tabele v datoteko RTF in shranimo rezultate nazaj v vedro S3. Ti izhodi se nato potencialno lahko uporabijo za namene regulativne predložitve, pod pogojem, da so bili paketi R, uporabljeni v pošti, potrjeni za uporabo za regulativne predložitve s strani stranke.

Nastavite RStudio na SageMaker

Za navodila o nastavitvi RStudio na SageMaker v vašem okolju glejte Začnite uporabljati RStudio na SageMakerju. Prepričajte se, da ima izvršilna vloga RStudio na SageMaker dostop do prenosa in nalaganja podatkov v vedro S3, v katerem so shranjeni podatki. Če želite izvedeti več o tem, kako upravljati pakete R in objaviti svojo analizo z uporabo RStudio na SageMakerju, glejte Predstavljamo popolnoma upravljan RStudio na SageMaker za podatkovne znanstvenike.

Vnesite podatke v RStudio

V tem koraku zaužijemo podatke iz različnih virov, da jih damo na voljo za našo sejo R. Podatke uvažamo v formatu SAS XPT; vendar je postopek podoben, če želite vnesti podatke v drugih formatih. Ena od prednosti uporabe RStudio na SageMakerju je, da če so izvorni podatki shranjeni v vaših računih AWS, lahko SageMaker izvorno dostopa do podatkov z AWS upravljanje identitete in dostopa (IAM) vloge.

Dostop do podatkov, shranjenih v oddaljenem repozitoriju

V tem koraku uvozimo podatke ADaM iz Repozitorij GitHub FDA. Ustvarimo lokalni imenik, imenovan data v okolju RStudio za shranjevanje podatkov in prenos demografskih podatkov (dm.xpt) iz oddaljenega skladišča. V tem kontekstu se lokalni imenik nanaša na imenik, ustvarjen v vaši zasebni shrambi Amazon EFS, ki je privzeto povezan z vašim okoljem seje R. Oglejte si naslednjo kodo:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Ko je ta korak končan, lahko vidite dm.xpt se prenaša z navigacijo do datoteke, datum, dm.xpt.

Dostop do podatkov, shranjenih v Amazon S3

V tem koraku prenesemo podatke, shranjene v vedru S3 v našem računu. Vsebino iz repozitorija GitHub FDA smo prekopirali v vedro S3 z imenom aws-sagemaker-rstudio za ta primer. Oglejte si naslednjo kodo:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Ko je korak končan, lahko vidite pp.xpt se prenaša z navigacijo do datoteke, datum, pp.xpt.

Obdelajte podatke XPT

Zdaj, ko imamo v okolju R na voljo datoteke SAS XPT, jih moramo pretvoriti v podatkovne okvire R in obdelati. Uporabljamo haven knjižnica za branje datotek XPT. Združujemo nabore podatkov CDISC SDTM dm in pp za ustvarjanje nabora podatkov ADPP. Nato ustvarimo tabelo s povzetki statistike z uporabo podatkovnega okvira ADPP. Tabela povzetka se nato izvozi v format RTF.

Najprej se datoteke XPT berejo z uporabo read_xpt funkcijo knjižnice zatočišča. Nato se z uporabo sqldf funkcija sqldf knjižnica. Oglejte si naslednjo kodo:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Nato se izhodni podatkovni okvir ustvari z uporabo funkcij iz Tplyr in dplyr knjižnice:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Izhodni podatkovni okvir se nato shrani kot datoteka RTF v izhodno mapo v okolju RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Naložite rezultate v Amazon S3

Ko je izhod ustvarjen, podatke vrnemo v vedro S3. To lahko dosežemo tako, da znova ustvarimo sejo SageMaker, če seja še ni aktivna, in naložimo vsebino izhodne mape v vedro S3 z uporabo session$upload_data funkcija:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

S temi koraki smo zaužili podatke, jih obdelali in naložili rezultate, ki bodo na voljo za predložitev regulativnim organom.

Čiščenje

Da bi se izognili nenamernim stroškom, morate zapustiti trenutno sejo. V zgornjem desnem kotu strani izberite ikono za napajanje. To bo samodejno zaustavilo osnovno instanco in s tem prenehalo nastajati morebitni nenamerni računalniški stroški.

Uporabite RStudio na Amazon SageMaker za ustvarjanje regulativnih vlog za industrijo znanosti o življenju PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izzivi

V objavi so opisani koraki za vnos neobdelanih podatkov, shranjenih v vedru S3 ali iz oddaljenega repozitorija. Vendar pa obstaja veliko drugih virov neobdelanih podatkov za klinično preskušanje, predvsem podatki eCRF (elektronski obrazci za poročilo o primerih), shranjeni v sistemih EDC (elektronski zajem podatkov), kot so Oracle Clinical, Medidata Rave, OpenClinica ali Snowflake; laboratorijski podatki; podatki iz eCOA (ocena kliničnega izida) in ePRO (elektronski rezultati, o katerih so poročali bolniki); podatki iz resničnega sveta iz aplikacij in medicinskih naprav; in elektronske zdravstvene kartoteke (EHR) v bolnišnicah. Potrebna je precejšnja predhodna obdelava, preden se ti podatki lahko uporabijo za regulativne predložitve. Izgradnja konektorjev za različne vire podatkov in njihovo zbiranje v centraliziranem podatkovnem repozitoriju (CDR) ali kliničnem podatkovnem jezeru ob ohranjanju ustreznega nadzora dostopa predstavlja velike izzive.

Drug ključni izziv, ki ga je treba premagati, je skladnost s predpisi. Računalniški sistem, ki se uporablja za ustvarjanje predpisanih izhodov predložitve, mora biti skladen z ustreznimi predpisi, kot je 21 CFR del 11, HIPAA, GDPR ali katere koli druge zahteve GxP ali smernice ICH. To pomeni delo v potrjenem in kvalificiranem okolju z vzpostavljenimi kontrolami za dostop, varnost, varnostno kopiranje in revizijo. To tudi pomeni, da je treba vse pakete R, ki se uporabljajo za ustvarjanje predpisanih izhodnih podatkov, pred uporabo potrditi.

zaključek

V tej objavi smo videli, da so bili nekateri ključni rezultati za oddajo eCTD CDISC SDTM, nabori podatkov ADaM in TLF. V tej objavi so opisani koraki, potrebni za ustvarjanje teh končnih rezultatov predpisanih oddaj, tako da se najprej vnesejo podatki iz nekaj virov v RStudio na SageMaker. Nato smo videli, kako lahko obdelamo zaužite podatke v formatu XPT; pretvorite ga v podatkovne okvire R, da ustvarite SDTM, ADaM in TLF; in nato končno naložite rezultate v vedro S3.

Upamo, da si bodo lahko s širokimi idejami, predstavljenimi v objavi, statistični programerji in biostatistiki zlahka vizualizirali celovit proces nalaganja, obdelave in analiziranja raziskovalnih podatkov kliničnih preskušanj v RStudio na SageMakerju in uporabili pridobljeno znanje za definiranje po meri potek dela, primeren za vaše predpise.

Se spomnite še katere druge aplikacije uporabe RStudia za pomoč raziskovalcem, statistikom in R programerjem, da si olajšajo življenje? Radi bi slišali o vaših zamislih! In če imate kakršna koli vprašanja, jih delite v razdelku za komentarje.

viri

Za več informacij obiščite naslednje povezave:


O avtorjih

Uporabite RStudio na Amazon SageMaker za ustvarjanje regulativnih vlog za industrijo znanosti o življenju PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Rohit Banga je strokovnjak za globalno klinično razvojno industrijo s sedežem v Londonu v Veliki Britaniji. Po izobrazbi je biostatistik in strankam Healthcare in LifeScience pomaga uvajati inovativne rešitve za klinični razvoj na AWS. Navdušen je nad tem, kako je mogoče podatkovno znanost, AI/ML in nastajajoče tehnologije uporabiti za reševanje resničnih poslovnih problemov v industriji zdravstva in LifeScience. V prostem času Rohit uživa v smučanju, peki na žaru in preživljanju časa z družino in prijatelji.

Uporabite RStudio na Amazon SageMaker za ustvarjanje regulativnih vlog za industrijo znanosti o življenju PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Georgios Schinas je specializirani arhitekt rešitev za AI/ML v regiji EMEA. Sedež ima v Londonu in tesno sodeluje s strankami v Veliki Britaniji in na Irskem. Georgios strankam pomaga oblikovati in uvajati aplikacije za strojno učenje v produkciji na AWS s posebnim zanimanjem za prakse MLOps in strankam omogoča izvajanje strojnega učenja v velikem obsegu. V prostem času rad potuje, kuha in preživlja čas s prijatelji in družino.

Časovni žig:

Več od Strojno učenje AWS