Bruk RStudio på Amazon SageMaker for å lage forskriftsmessige bidrag for biovitenskapsindustrien

Publisert av Platon

Følgere: 0

Farmasøytiske selskaper som søker godkjenning fra regulatoriske byråer som US Food & Drug Administration (FDA) eller Japanese Pharmaceuticals and Medical Devices Agency (PMDA) for å selge legemidlene sine på markedet, må sende inn bevis for å bevise at deres legemiddel er trygt og effektivt i forhold til det tiltenkte bruk. Et team av leger, statistikere, kjemikere, farmakologer og andre kliniske forskere gjennomgår dataene for innsending av kliniske forsøk og foreslått merking. Hvis gjennomgangen fastslår at det er tilstrekkelig statistisk bevis for å bevise at helsefordelene ved stoffet oppveier risikoen, er stoffet godkjent for salg.

Innsendingspakken for klinisk utprøving består av data i tabellform, analysedata, metadata for forsøk og statistiske rapporter som består av statistiske tabeller, lister og figurer. Når det gjelder US FDA, er det elektroniske felles tekniske dokumentet (eCTD) standardformatet for å sende inn søknader, endringer, tillegg og rapporter til FDAs Center for Biologics Evaluation and Research (CBER) og Center for Drug Evaluation and Research ( CDER). For FDA og japansk PMDA er det et regulatorisk krav å sende inn tabelldata i CDISC Standard Data Tabulation Model (SDTM), analysedata i CDISC Analysis Dataset Model (ADaM) og prøvemetadata i CDISC Define-XML (basert på Operational Data Model) (ODM)).

I dette innlegget demonstrerer vi hvordan vi kan bruke RStudio på Amazon SageMaker å lage slike forskriftsmessige innsendingsleveranser. Dette innlegget beskriver innsendingsprosessen for kliniske utprøvinger, hvordan vi kan innta forskningsdata fra kliniske utprøvinger, tabulere og analysere dataene, og deretter lage statistiske rapporter – sammendragstabeller, dataoppføringer og figurer (TLF). Denne metoden kan gjøre det mulig for farmasøytiske kunder å sømløst koble til kliniske data som er lagret i deres AWS-miljø, behandle dem ved hjelp av R, og bidra til å akselerere forskningsprosessen for kliniske utprøvinger.

Medikamentutviklingsprosess

Legemiddelutviklingsprosessen kan grovt sett deles inn i fem hovedtrinn, som illustrert i følgende figur.

Det tar i gjennomsnitt 10–15 år og omtrent 1–3 milliarder USD for ett medikament å få en vellykket godkjenning av rundt 10,000 XNUMX potensielle molekyler. I de tidlige fasene av forskningen (medikamentoppdagelsesfasen) identifiseres lovende medikamentkandidater, som går videre til preklinisk forskning. I løpet av den prekliniske fasen prøver forskerne å finne ut stoffets toksisitet ved å utføre vitro eksperimenter i laboratoriet og in vivo forsøk på dyr. Etter preklinisk testing går legemidlene videre i forskningsfasen for kliniske utprøvinger, hvor de må testes på mennesker for å fastslå deres sikkerhet og effekt. Forskerne designer kliniske studier og detaljerer studieplanen i protokollen for kliniske studier. De definerer de forskjellige kliniske forskningsfasene – fra små fase 1-studier for å bestemme legemiddelsikkerhet og dosering, til større fase 2-studier for å bestemme legemiddeleffektivitet og bivirkninger, til enda større fase 3- og 4-studier for å bestemme legemiddeleffektivitet, sikkerhet og overvåking av bivirkninger. Etter vellykkede kliniske studier på mennesker, sender stoffsponsoren inn en New Drug Application (NDA) for å markedsføre stoffet. Reguleringsbyråene gjennomgår alle dataene, samarbeider med sponsoren om reseptmerkingsinformasjon og godkjenner stoffet. Etter stoffets godkjenning gjennomgår reguleringsorganene sikkerhetsrapporter etter markedsføring for å sikre sikkerheten til hele produktet.

I 1997 ble Clinical Data Interchange Standards Consortium (CDISC), en global, ideell organisasjon bestående av farmasøytiske selskaper, CROs, bioteknologi, akademiske institusjoner, helsepersonell og offentlige etater, startet som frivillig gruppe. CDISC har publisert datastandarder for å strømlinjeforme dataflyten fra innsamling til innsendinger, og forenklet datautveksling mellom partnere og leverandører. CDISC har publisert følgende standarder:

CDASH (Clinical Data Acquisition Standards Harmonization) – Standarder for innsamlet data
SDTM (Studie Data Tabulation Model) – Standarder for innsending av data i tabellform
ADaM (analysedatamodell) – Standarder for analysedata
SEND (standard for utveksling av ikke-kliniske data) – Standarder for ikke-kliniske data
PRM (Protocol Representation Model) – Standarder for protokoll

Disse standardene kan hjelpe trente anmeldere med å analysere data mer effektivt og raskere ved å bruke standardverktøy, og dermed redusere godkjenningstiden for legemidler. Det er et regulatorisk krav fra US FDA og japansk PMDA å sende inn alle data i tabellform ved bruk av SDTM-formatet.

R for innleveringer av kliniske studier

SAS og R er to av de mest brukte statistiske analyseprogramvarene som brukes innen farmasøytisk industri. Da utviklingen av SDTM-standardene ble startet av CDISC, var SAS i nesten universell bruk i farmasøytisk industri og hos FDA. Imidlertid får R enorm popularitet nå for tiden fordi det er åpen kildekode, og nye pakker og biblioteker legges til kontinuerlig. Studenter bruker først og fremst R under akademisk og forskning, og de tar med seg denne kjennskapen til R til jobbene sine. R tilbyr også støtte for nye teknologier som avanserte dyplæringsintegrasjoner.

Skyleverandører som AWS har nå blitt den foretrukne plattformen for farmasøytiske kunder til å være vert for infrastrukturen deres. AWS tilbyr også administrerte tjenester som SageMaker, som gjør det enkelt å lage, trene og distribuere maskinlæringsmodeller (ML) i skyen. SageMaker gir også tilgang til RStudio IDE fra hvor som helst via en nettleser. Dette innlegget beskriver hvordan statistiske programmerere og biostatistikere kan innta sine kliniske data i R-miljøet, hvordan R-kode kan kjøres og hvordan resultatene lagres. Vi tilbyr kodebiter som lar dataforskere i kliniske utprøvinger innta XPT-filer i R-miljøet, lage R-datarammer for SDTM og ADaM, og til slutt lage TLF som kan lagres i en Amazon enkel lagringstjeneste (Amazon S3) oppbevaringsbøtte for gjenstander.

RStudio på SageMaker

2. november 2021, AWS i samarbeid med RStudio PBC annonsert den generelle tilgjengeligheten av RStudio på SageMaker, bransjens første fullt administrerte RStudio Workbench IDE i skyen. Du kan nå ta med din nåværende RStudio-lisens for enkelt å migrere dine selvadministrerte RStudio-miljøer til SageMaker med bare noen få enkle trinn. For å lære mer om dette spennende samarbeidet, sjekk ut Kunngjøring av RStudio på Amazon SageMaker.

Sammen med RStudio Workbench tilbyr RStudio-pakken for R-utviklere også RStudio Connect og RStudio Package Manager. RStudio Connect er designet for å tillate dataforskere å publisere innsikt, dashbord og nettapplikasjoner. Det gjør det enkelt å dele ML og datavitenskapelig innsikt fra dataforskeres kompliserte arbeid og legge den i hendene på beslutningstakere. RStudio Connect gjør også hosting og administrering av innhold enkelt og skalerbart for stort forbruk.

Løsningsoversikt

I de følgende avsnittene diskuterer vi hvordan vi kan importere rådata fra et eksternt depot eller S3-bøtte i RStudio på SageMaker. Det er også mulig å koble direkte til Amazon Relational Database Service (Amazon RDS) og datavarehus som Amazon RedShift (Se Koble til R med Amazon Redshift) direkte fra RStudio; dette er imidlertid utenfor rammen av dette innlegget. Etter at data er inntatt fra et par forskjellige kilder, behandler vi dem og lager R-datarammer for en tabell. Deretter konverterer vi tabelldatarammen til en RTF-fil og lagrer resultatene tilbake i en S3-bøtte. Disse utdataene kan deretter potensielt brukes til regulatoriske innsendingsformål, forutsatt at R-pakkene som brukes i innlegget er validert for bruk for regulatoriske innsendinger av kunden.

Sett opp RStudio på SageMaker

For instruksjoner om å sette opp RStudio på SageMaker i ditt miljø, se Kom i gang med RStudio på SageMaker. Sørg for at utførelsesrollen til RStudio på SageMaker har tilgang til å laste ned og laste opp data til S3-bøtten som dataene er lagret i. For å lære mer om hvordan du administrerer R-pakker og publiserer analysen din ved hjelp av RStudio på SageMaker, se Kunngjør Fullt administrert RStudio på SageMaker for dataforskere.

Ta inn data i RStudio

I dette trinnet inntar vi data fra ulike kilder for å gjøre det tilgjengelig for R-økten vår. Vi importerer data i SAS XPT-format; prosessen er imidlertid lik hvis du ønsker å innta data i andre formater. En av fordelene med å bruke RStudio på SageMaker er at hvis kildedataene er lagret i AWS-kontoene dine, kan SageMaker naturlig få tilgang til dataene ved å bruke AWS identitets- og tilgangsadministrasjon (IAM) roller.

Få tilgang til data som er lagret i et eksternt depot

I dette trinnet importerer vi ADaM-data fra FDAs GitHub-depot. Vi oppretter en lokal katalog kalt data i RStudio-miljøet for å lagre dataene og laste ned demografiske data (dm.xpt) fra det eksterne depotet. I denne sammenhengen refererer den lokale katalogen til en katalog som er opprettet på din private Amazon EFS-lagring, som som standard er knyttet til ditt R-øktmiljø. Se følgende kode:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Når dette trinnet er fullført, kan du se dm.xpt lastes ned ved å navigere til Filer, dato, dm.xpt.

Få tilgang til data som er lagret i Amazon S3

I dette trinnet laster vi ned data som er lagret i en S3-bøtte på kontoen vår. Vi har kopiert innholdet fra FDAs GitHub-lager til S3-bøtten som heter aws-sagemaker-rstudio for dette eksemplet. Se følgende kode:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Når trinnet er fullført, kan du se pp.xpt lastes ned ved å navigere til Filer, dato, s.xpt.

Behandle XPT-data

Nå som vi har SAS XPT-filer tilgjengelig i R-miljøet, må vi konvertere dem til R-datarammer og behandle dem. Vi bruker haven bibliotek for å lese XPT-filer. Vi slår sammen CDISC SDTM-datasett dm og pp for å lage ADPP-datasett. Deretter lager vi en oppsummerende statistikktabell ved å bruke ADPP-datarammen. Sammendragstabellen eksporteres deretter i RTF-format.

Først leses XPT-filer ved hjelp av read_xpt funksjonen til havnebiblioteket. Deretter opprettes et analysedatasett ved hjelp av sqldf funksjon av sqldf bibliotek. Se følgende kode:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Deretter opprettes en utdataramme ved hjelp av funksjoner fra Tplyr og dplyr biblioteker:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Utdatarammen lagres deretter som en RTF-fil i utdatamappen i RStudio-miljøet:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Last opp utganger til Amazon S3

Etter at utdataene er generert, legger vi dataene tilbake i en S3-bøtte. Vi kan oppnå dette ved å opprette en SageMaker-økt på nytt, hvis en økt ikke allerede er aktiv, og laste opp innholdet i utdatamappen til en S3-bøtte ved hjelp av session$upload_data funksjon:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Med disse trinnene har vi inntatt data, behandlet dem og lastet opp resultatene for å gjøres tilgjengelige for innsending til regulatoriske myndigheter.

Rydd opp

For å unngå å pådra deg utilsiktede kostnader, må du avslutte den nåværende økten. Velg strømikonet øverst til høyre på siden. Dette vil automatisk stoppe den underliggende forekomsten og dermed slutte å pådra seg eventuelle utilsiktede beregningskostnader.

Utfordringer

Innlegget har skissert trinn for inntak av rådata lagret i en S3-bøtte eller fra et eksternt depot. Imidlertid er det mange andre kilder til rådata for en klinisk utprøving, primært eCRF (elektroniske case report forms) data lagret i EDC (elektronisk datafangst) systemer som Oracle Clinical, Medidata Rave, OpenClinica eller Snowflake; laboratoriedata; data fra eCOA (clinical outcome assessment) og ePRO (electronic Patient-Reported Outcomes); virkelige data fra apper og medisinsk utstyr; og elektronisk helsejournal (EPJ) ved sykehusene. Betydelig forbehandling er involvert før disse dataene kan gjøres brukbare for regulatoriske innsendinger. Å bygge koblinger til ulike datakilder og samle dem i et sentralisert datalager (CDR) eller en klinisk datainnsjø, samtidig som man opprettholder riktige tilgangskontroller, utgjør betydelige utfordringer.

En annen viktig utfordring å overvinne er overholdelse av regelverk. Datasystemet som brukes til å lage forskriftsmessige innsendingsutdata må være i samsvar med passende forskrifter, for eksempel 21 CFR Part 11, HIPAA, GDPR eller andre GxP-krav eller ICH-retningslinjer. Dette betyr å jobbe i et validert og kvalifisert miljø med kontroller for tilgang, sikkerhet, sikkerhetskopiering og revisjoner på plass. Dette betyr også at eventuelle R-pakker som brukes til å lage regulatoriske innsendingsutganger, må valideres før bruk.

konklusjonen

I dette innlegget så vi at noen av nøkkelleveransene for en eCTD-innsending var CDISC SDTM, ADaM-datasett og TLF. Dette innlegget skisserte trinnene som trengs for å lage disse regulatoriske innsendingsleveransene ved først å innta data fra et par kilder i RStudio på SageMaker. Vi så deretter hvordan vi kan behandle de inntatte dataene i XPT-format; konverter den til R-datarammer for å lage SDTM, ADaM og TLF; og last deretter opp resultatene til en S3-bøtte.

Vi håper at med de brede ideene som er lagt ut i innlegget, kan statistiske programmerere og biostatistikere enkelt visualisere ende-til-ende-prosessen med å laste, behandle og analysere forskningsdata fra kliniske studier i RStudio på SageMaker og bruke læringen til å definere en tilpasset arbeidsflyt som passer for dine forskriftsmessige innsendinger.

Kan du tenke deg andre applikasjoner for å bruke RStudio for å hjelpe forskere, statistikere og R-programmerere med å gjøre livet enklere? Vi vil gjerne høre om dine ideer! Og hvis du har spørsmål, vennligst del dem i kommentarfeltet.

Ressurser

For mer informasjon, besøk følgende lenker:

Om forfatterne

Rohit Banga er en Global Clinical Development Industry Specialist basert i London, Storbritannia. Han er utdannet biostatistiker og hjelper Healthcare- og LifeScience-kunder med å implementere innovative kliniske utviklingsløsninger på AWS. Han er lidenskapelig opptatt av hvordan datavitenskap, AI/ML og nye teknologier kan brukes til å løse reelle forretningsproblemer innen Healthcare og LifeScience-industrien. På fritiden liker Rohit å gå på ski, grille og tilbringe tid med familie og venner.

Bruk RStudio på Amazon SageMaker til å lage regulatoriske innsendinger for biovitenskapsindustrien PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Georgios Schinas er en spesialistløsningsarkitekt for AI/ML i EMEA-regionen. Han er basert i London og jobber tett med kunder i Storbritannia og Irland. Georgios hjelper kunder med å designe og distribuere maskinlæringsapplikasjoner i produksjon på AWS med en spesiell interesse for MLOps-praksis og gjør det mulig for kunder å utføre maskinlæring i stor skala. På fritiden liker han å reise, lage mat og tilbringe tid med venner og familie.

Tidstempel: September 20, 2022September 21, 2022

Tidstempel: November 8, 2022

Bruk RStudio på Amazon SageMaker for å lage regulatoriske innsendinger for biovitenskapsindustrien

Publisert av Platon

Medikamentutviklingsprosess

R for innleveringer av kliniske studier

RStudio på SageMaker

Løsningsoversikt

Sett opp RStudio på SageMaker

Ta inn data i RStudio

Få tilgang til data som er lagret i et eksternt depot

Få tilgang til data som er lagret i Amazon S3

Behandle XPT-data

Last opp utganger til Amazon S3

Rydd opp

Utfordringer

konklusjonen

Ressurser

Om forfatterne

Mer fra AWS maskinlæring

Automatiser klassifisering av IT-tjenesteforespørsler med en tilpasset Amazon Comprehend-klassifisering

Bruk Amazon Lex til å fange gateadresser

"ID + Selfie" - Forbedrer digital identitetsverifisering ved hjelp av AWS

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn