Use RStudio On Amazon SageMaker To Create Regulatory Submissions For The Life Sciences Industry

Republicat de Platon

Urmaritori: 0

Companiile farmaceutice care solicită aprobarea agențiilor de reglementare, cum ar fi Administrația SUA pentru Alimente și Medicamente (FDA) sau Agenția japoneză pentru produse farmaceutice și dispozitive medicale (PMDA) pentru a-și vinde medicamentele pe piață, trebuie să prezinte dovezi care să demonstreze că medicamentul lor este sigur și eficient pentru scopul propus. utilizare. O echipă de medici, statisticieni, chimiști, farmacologi și alți oameni de știință clinici analizează datele de depunere a studiilor clinice și etichetarea propusă. Dacă revizuirea stabilește că există suficiente dovezi statistice pentru a demonstra că beneficiile pentru sănătate ale medicamentului depășesc riscurile, medicamentul este aprobat pentru vânzare.

Pachetul de depunere a studiilor clinice constă din date tabulate, date de analiză, metadate ale studiilor și rapoarte statistice constând din tabele statistice, liste și cifre. În cazul FDA din SUA, documentul tehnic comun electronic (eCTD) este formatul standard pentru depunerea cererilor, amendamentelor, suplimentelor și rapoartelor către Centrul pentru Evaluare și Cercetare Biologică (CBER) și Centrul pentru Evaluare și Cercetare a Medicamentului (CBER) al FDA ( CDER). Pentru FDA și PMDA japoneză, este o cerință de reglementare să trimită date tabulate în CDISC Standard Data Tabulation Model (SDTM), datele de analiză în CDISC Analysis Dataset Model (ADAM) și metadatele de încercare în CDISC Define-XML (pe baza modelului de date operaționale). (ODM)).

În această postare, demonstrăm cum putem folosi RStudio Amazon SageMaker pentru a crea astfel de livrabile de depunere de reglementare. Această postare descrie procesul de depunere a studiilor clinice, cum putem ingera datele din cercetarea studiilor clinice, să tabulăm și să analizăm datele și apoi să creăm rapoarte statistice - tabele rezumative, liste de date și cifre (TLF). Această metodă le poate permite clienților din domeniul farmaceutic să se conecteze fără probleme la datele clinice stocate în mediul lor AWS, să le proceseze folosind R și să ajute la accelerarea procesului de cercetare a studiilor clinice.

Procesul de dezvoltare a medicamentelor

Procesul de dezvoltare a medicamentelor poate fi împărțit în general în cinci etape majore, așa cum este ilustrat în figura următoare.

Este nevoie în medie de 10-15 ani și aproximativ 1-3 miliarde USD pentru ca un medicament să primească o aprobare de succes din aproximativ 10,000 de molecule potențiale. În fazele incipiente ale cercetării (faza de descoperire a medicamentelor), sunt identificați candidați promițători de medicamente, care trec mai departe către cercetarea preclinică. În timpul fazei preclinice, cercetătorii încearcă să afle toxicitatea medicamentului prin performanță in vitro experimente în laborator și in vivo experimente pe animale. După testele preclinice, medicamentele trec în faza de cercetare a studiilor clinice, unde trebuie testate pe oameni pentru a se asigura siguranța și eficacitatea lor. Cercetătorii proiectează studii clinice și detaliază planul de studiu în protocolul studiului clinic. Ei definesc diferite faze de cercetare clinică - de la studii mici de fază 1 pentru a determina siguranța și doza medicamentului, la studii mai mari de fază 2 pentru a determina eficacitatea medicamentului și efectele secundare, până la studii și mai mari de fază 3 și 4 pentru a determina eficacitatea, siguranța și monitorizarea reacțiilor adverse. După studii clinice de succes pe oameni, sponsorul medicamentului depune o cerere de medicament nou (NDA) pentru a comercializa medicamentul. Agențiile de reglementare examinează toate datele, lucrează cu sponsorul cu privire la informațiile de etichetare pe bază de rețetă și aprobă medicamentul. După aprobarea medicamentului, agențiile de reglementare revizuiesc rapoartele de siguranță post-punerea pe piață pentru a asigura siguranța completă a produsului.

În 1997, Clinical Data Interchange Standards Consortium (CDISC), o organizație globală, non-profit, care cuprinde companii farmaceutice, CRO, biotehnologie, instituții academice, furnizori de servicii medicale și agenții guvernamentale, a fost înființată ca grup de voluntari. CDISC a publicat standarde de date pentru a eficientiza fluxul de date de la colectare până la trimiteri și a facilitat schimbul de date între parteneri și furnizori. CDISC a publicat următoarele standarde:

CDASH (Armonizarea standardelor de achiziție de date clinice) – Standarde pentru datele colectate
SDTM (Study Data Tabulation Model) – Standarde pentru transmiterea datelor tabulate
ADaM (Model de date de analiză) – Standarde pentru datele de analiză
SEND (Standard pentru schimbul de date nonclinice) – Standarde pentru datele nonclinice
PRM (Model de reprezentare a protocolului) – Standarde pentru protocol

Aceste standarde pot ajuta recenzenții instruiți să analizeze datele mai eficient și mai rapid folosind instrumente standard, reducând astfel timpii de aprobare a medicamentelor. Este o cerință de reglementare din partea FDA din SUA și PMDA din Japonia de a trimite toate datele tabulate folosind formatul SDTM.

R pentru trimiterile de cercetare în studii clinice

SAS și R sunt două dintre cele mai utilizate programe de analiză statistică utilizate în industria farmaceutică. Când dezvoltarea standardelor SDTM a fost începută de către CDISC, SAS a fost în utilizare aproape universală în industria farmaceutică și la FDA. Cu toate acestea, R câștigă o popularitate extraordinară în zilele noastre, deoarece este open source, iar noi pachete și biblioteci sunt adăugate în mod continuu. Elevii folosesc în primul rând R în timpul studiilor lor academice și cercetării și își duc această familiaritate cu R la locul de muncă. R oferă, de asemenea, suport pentru tehnologiile emergente, cum ar fi integrările avansate de învățare profundă.

Furnizorii de cloud precum AWS au devenit acum platforma de alegere pentru clienții farmaceutici pentru a-și găzdui infrastructura. AWS oferă, de asemenea, servicii gestionate, cum ar fi SageMaker, ceea ce facilitează crearea, antrenamentul și implementarea modelelor de învățare automată (ML) în cloud. SageMaker permite, de asemenea, accesul la RStudio IDE de oriunde prin intermediul unui browser web. Această postare detaliază modul în care programatorii statistici și biostatisticienii își pot ingera datele clinice în mediul R, cum poate fi rulat codul R și cum sunt stocate rezultatele. Oferim fragmente de cod care le permit oamenilor de știință din studiile clinice să ingereze fișiere XPT în mediul R, să creeze cadre de date R pentru SDTM și ADaM și, în final, să creeze TLF care poate fi stocat într-un Serviciul Amazon de stocare simplă (Amazon S3) găleată de stocare a obiectelor.

RStudio pe SageMaker

Pe 2 noiembrie 2021, AWS în colaborare cu RStudio PBC a anunțat disponibilitatea generală a RStudio pe SageMaker, primul IDE RStudio Workbench complet gestionat din industrie în cloud. Acum puteți aduce licența dvs. actuală RStudio pentru a migra cu ușurință mediile dvs. RStudio autogestionate la SageMaker în doar câțiva pași simpli. Pentru a afla mai multe despre această colaborare interesantă, consultați Anunțarea RStudio pe Amazon SageMaker.

Împreună cu RStudio Workbench, suita RStudio pentru dezvoltatorii R oferă și RStudio Connect și RStudio Package Manager. RStudio Connect este conceput pentru a le permite oamenilor de știință să publice informații, tablouri de bord și aplicații web. Facilitează împărtășirea cunoștințelor ML și știința datelor din munca complicată a cercetătorilor de date și le pune în mâinile factorilor de decizie. RStudio Connect face, de asemenea, găzduirea și gestionarea conținutului simplă și scalabilă pentru un consum larg.

Prezentare generală a soluțiilor

În secțiunile următoare, discutăm despre cum putem importa date brute dintr-un depozit de la distanță sau dintr-un compartiment S3 în RStudio pe SageMaker. De asemenea, este posibil să vă conectați direct la Serviciul de baze de date relaționale Amazon (Amazon RDS) și depozite de date precum Amazon RedShift (A se vedea Conectarea R cu Amazon Redshift) direct de la RStudio; cu toate acestea, acest lucru este în afara domeniului de aplicare al acestei postări. După ce datele au fost ingerate din câteva surse diferite, le procesăm și creăm cadre de date R pentru un tabel. Apoi convertim cadrul de date din tabel într-un fișier RTF și stocăm rezultatele înapoi într-o găleată S3. Aceste rezultate pot fi apoi utilizate în scopuri de transmitere de reglementare, cu condiția ca pachetele R utilizate în postare să fi fost validate pentru utilizare pentru trimiterile de reglementare de către client.

Configurați RStudio pe SageMaker

Pentru instrucțiuni despre configurarea RStudio pe SageMaker în mediul dvs., consultați Începeți cu RStudio pe SageMaker. Asigurați-vă că rolul de execuție al RStudio pe SageMaker are acces pentru a descărca și încărca date în compartimentul S3 în care sunt stocate datele. Pentru a afla mai multe despre cum să gestionați pachetele R și să vă publicați analiza folosind RStudio pe SageMaker, consultați Anunțăm RStudio complet gestionat pe SageMaker for Data Scientists.

Ingerați date în RStudio

În acest pas, ingerăm date din diverse surse pentru a le face disponibile pentru sesiunea noastră R. Importăm date în format SAS XPT; cu toate acestea, procesul este similar dacă doriți să ingerați date în alte formate. Unul dintre avantajele utilizării RStudio pe SageMaker este că, dacă datele sursă sunt stocate în conturile dvs. AWS, atunci SageMaker poate accesa nativ datele folosind Gestionarea identității și accesului AWS (IAM) roluri.

Accesați datele stocate într-un depozit de la distanță

În acest pas, importăm datele ADaM din Depozitul GitHub al FDA. Creăm un director local numit data în mediul RStudio pentru a stoca datele și a descărca datele demografice (dm.xpt) din depozitul de la distanță. În acest context, directorul local se referă la un director creat pe stocarea dvs. privată Amazon EFS care este atașată în mod implicit la mediul dvs. de sesiune R. Vezi următorul cod:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Când acest pas este finalizat, puteți vedea dm.xpt fiind descărcat navigând la Fişiere, de date, dm.xpt.

Accesați datele stocate în Amazon S3

În acest pas, descarcăm datele stocate într-o găleată S3 din contul nostru. Am copiat conținutul din depozitul GitHub al FDA în compartimentul S3 numit aws-sagemaker-rstudio pentru acest exemplu. Vezi următorul cod:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Când pasul este finalizat, puteți vedea pp.xpt fiind descărcat navigând la Fişiere, de date, pp.xpt.

Procesați datele XPT

Acum că avem fișiere SAS XPT disponibile în mediul R, trebuie să le convertim în cadre de date R și să le procesăm. Noi folosim haven bibliotecă pentru a citi fișierele XPT. Îmbinăm seturile de date CDISC SDTM dm și pp pentru a crea un set de date ADPP. Apoi creăm un tabel statistic rezumat utilizând cadrul de date ADPP. Tabelul rezumat este apoi exportat în format RTF.

În primul rând, fișierele XPT sunt citite folosind read_xpt funcția bibliotecii paradis. Apoi se creează un set de date de analiză folosind sqldf funcția sqldf bibliotecă. Vezi următorul cod:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Apoi, un cadru de date de ieșire este creat folosind funcții din Tplyr și dplyr biblioteci:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Cadrul de date de ieșire este apoi stocat ca fișier RTF în folderul de ieșire din mediul RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Încărcați rezultate pe Amazon S3

După ce rezultatul a fost generat, punem datele înapoi într-o găleată S3. Putem realiza acest lucru creând din nou o sesiune SageMaker, dacă o sesiune nu este deja activă și încărcând conținutul folderului de ieșire într-o găleată S3 folosind session$upload_data funcţie:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Cu acești pași, am ingerat date, le-am procesat și am încărcat rezultatele pentru a fi disponibile pentru a fi transmise autorităților de reglementare.

A curăța

Pentru a evita costurile neintenționate, trebuie să părăsiți sesiunea curentă. În colțul din dreapta sus al paginii, alegeți pictograma de alimentare. Acest lucru va opri automat instanța de bază și, prin urmare, nu va mai suporta costuri de calcul neintenționate.

Provocări

Postarea a subliniat pașii pentru ingerarea datelor brute stocate într-o găleată S3 sau dintr-un depozit de la distanță. Cu toate acestea, există multe alte surse de date brute pentru un studiu clinic, în primul rând datele eCRF (formulare electronice de raportare a cazului) stocate în sisteme EDC (captură electronică de date) precum Oracle Clinical, Medidata Rave, OpenClinica sau Snowflake; date de laborator; date de la eCOA (evaluarea rezultatului clinic) și ePRO (Electronic Patient-Reported Outcomes); date reale din aplicații și dispozitive medicale; și evidențele medicale electronice (EHR) la spitale. Este implicată o preprocesare semnificativă înainte ca aceste date să poată fi utilizate pentru trimiterile de reglementare. Construirea de conectori la diverse surse de date și colectarea acestora într-un depozit de date centralizat (CDR) sau într-un lac de date clinice, menținând în același timp controale de acces adecvate, ridică provocări semnificative.

O altă provocare cheie de depășit este aceea a conformității cu reglementările. Sistemul computerizat utilizat pentru crearea rezultatelor de trimitere de reglementare trebuie să fie în conformitate cu reglementările corespunzătoare, cum ar fi 21 CFR Part 11, HIPAA, GDPR sau orice alte cerințe GxP sau ghiduri ICH. Acest lucru se traduce prin lucrul într-un mediu validat și calificat, cu controale pentru acces, securitate, backup și auditabilitate. Aceasta înseamnă, de asemenea, că orice pachet R care este utilizat pentru a crea rezultate de trimitere de reglementare trebuie validat înainte de utilizare.

Concluzie

În această postare, am văzut că unele dintre rezultatele cheie pentru o trimitere eCTD au fost CDISC SDTM, seturile de date ADaM și TLF. Această postare a subliniat pașii necesari pentru a crea aceste livrabile de trimitere de reglementare prin ingerarea mai întâi a datelor din câteva surse în RStudio pe SageMaker. Am văzut apoi cum putem procesa datele ingerate în format XPT; convertiți-l în cadre de date R pentru a crea SDTM, ADaM și TLF; și apoi încărcați rezultatele într-o găleată S3.

Sperăm că, cu ideile generale prezentate în postare, programatorii statistici și biostatisticienii pot vizualiza cu ușurință procesul de la capăt la capăt al încărcării, procesării și analizării datelor de cercetare din studiile clinice în RStudio pe SageMaker și să utilizeze învățările pentru a defini un personalizat. flux de lucru potrivit pentru trimiterile dvs. de reglementare.

Vă puteți gândi la alte aplicații de utilizare a RStudio pentru a ajuta cercetătorii, statisticienii și programatorii R să-și facă viața mai ușoară? Ne-ar plăcea să auzim despre ideile tale! Și dacă aveți întrebări, vă rugăm să le împărtășiți în secțiunea de comentarii.

Resurse

Pentru mai multe informații, vizitați următoarele linkuri:

Despre autori

Rohit Banga este un specialist global în industria de dezvoltare clinică cu sediul în Londra, Marea Britanie. El este biostatistician prin formare și ajută clienții din domeniul sănătății și LifeScience să implementeze soluții inovatoare de dezvoltare clinică pe AWS. Este pasionat de modul în care știința datelor, AI/ML și tehnologiile emergente pot fi folosite pentru a rezolva probleme reale de afaceri din industria Sănătății și LifeScience. În timpul liber, lui Rohit îi place să schieze, să facă grătar și să petreacă timpul cu familia și prietenii.

Utilizați RStudio pe Amazon SageMaker pentru a crea trimiteri de reglementare pentru industria științelor vieții PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Georgios Schinas este arhitect specializat în soluții pentru AI/ML în regiunea EMEA. Are sediul la Londra și lucrează îndeaproape cu clienții din Marea Britanie și Irlanda. Georgios îi ajută pe clienți să proiecteze și să implementeze aplicații de învățare automată în producție pe AWS, cu un interes deosebit pentru practicile MLOps și le permite clienților să efectueze învățarea automată la scară. În timpul liber, îi place să călătorească, să gătească și să petreacă timpul cu prietenii și familia.

Timestamp-ul: 20 Septembrie, 202221 Septembrie, 2022

Timestamp-ul: Noiembrie 8, 2022

Utilizați RStudio pe Amazon SageMaker pentru a crea trimiteri de reglementare pentru industria științelor vieții

Republicat de Platon

Procesul de dezvoltare a medicamentelor

R pentru trimiterile de cercetare în studii clinice

RStudio pe SageMaker

Prezentare generală a soluțiilor

Configurați RStudio pe SageMaker

Ingerați date în RStudio

Accesați datele stocate într-un depozit de la distanță

Accesați datele stocate în Amazon S3

Procesați datele XPT

Încărcați rezultate pe Amazon S3

A curăța

Provocări

Concluzie

Resurse

Despre autori

Mai mult de la Învățare automată AWS

Automatizați clasificarea solicitărilor de servicii IT cu un clasificator personalizat Amazon Comprehend

Utilizați Amazon Lex pentru a captura adresele străzilor

„ID + Selfie” – Îmbunătățirea verificării identității digitale folosind AWS

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont