Használja az RStudio alkalmazást az Amazon SageMakeren, hogy szabályozói beadványokat készítsen az élettudományi ipar PlatoBlockchain Data Intelligence számára. Függőleges keresés. Ai.

Használja az RStudio alkalmazást az Amazon SageMakeren, hogy szabályozói beadványokat készítsen az élettudományi ágazat számára

Azoknak a gyógyszergyártó cégeknek, amelyek engedélyt kérnek a szabályozó ügynökségektől, például az Egyesült Államok Élelmiszer- és Gyógyszerügyi Hatóságától (FDA) vagy a Japanese Pharmaceuticals and Medical Devices Agency (PMDA) gyógyszereik piaci értékesítéséhez, bizonyítékot kell benyújtaniuk annak bizonyítására, hogy gyógyszerük biztonságos és hatásos a rendeltetésszerűen. használat. Orvosokból, statisztikusokból, vegyészekből, farmakológusokból és más klinikai tudósokból álló csapat tekinti át a klinikai vizsgálat benyújtott adatait és a javasolt címkézést. Ha a felülvizsgálat azt állapítja meg, hogy elegendő statisztikai bizonyíték áll rendelkezésre annak bizonyítására, hogy a gyógyszer egészségügyi előnyei meghaladják a kockázatokat, a gyógyszert engedélyezik az értékesítésre.

A klinikai vizsgálat benyújtására szolgáló csomag táblázatos adatokból, elemzési adatokból, vizsgálati metaadatokból, valamint statisztikai táblázatokból, listákból és ábrákból álló statisztikai jelentésekből áll. Az Egyesült Államok FDA esetében az elektronikus közös műszaki dokumentum (eCTD) a szabványos formátum a kérelmek, módosítások, kiegészítések és jelentések benyújtásához az FDA Biológiai Értékelési és Kutatási Központjához (CBER) és a Kábítószerértékelő és Kutatási Központhoz. CDER). Az FDA és a japán PMDA esetében jogszabályi előírás, hogy táblázatos adatokat a CDISC szabványos adattáblázati modellben (SDTM), elemzési adatokat a CDISC elemzési adatkészlet modellben (ADaM) és próba metaadatokat a CDISC Define-XML-ben (az operatív adatmodell alapján) kell benyújtani. (ODM)).

Ebben a bejegyzésben bemutatjuk, hogyan használhatjuk az RStudiót Amazon SageMaker hogy ilyen szabályozási benyújtási dokumentumokat hozzanak létre. Ez a bejegyzés leírja a klinikai vizsgálatok benyújtásának folyamatát, valamint azt, hogy hogyan tudjuk feldolgozni a klinikai vizsgálatok kutatási adatait, táblázatba foglalni és elemezni, majd statisztikai jelentéseket készíteni – összefoglaló táblázatokat, adatlistákat és ábrákat (TLF). Ez a módszer lehetővé teszi a gyógyszeripari vásárlók számára, hogy zökkenőmentesen kapcsolódjanak az AWS-környezetükben tárolt klinikai adatokhoz, feldolgozzák azokat R segítségével, és felgyorsítsák a klinikai vizsgálati kutatási folyamatot.

A gyógyszerfejlesztési folyamat

A gyógyszerfejlesztési folyamat nagyjából öt fő lépésre osztható, amint azt a következő ábra szemlélteti.

Átlagosan 10–15 év és hozzávetőleg 1–3 milliárd USD kell ahhoz, hogy egy gyógyszer sikeres jóváhagyást kapjon a körülbelül 10,000 XNUMX potenciális molekula közül. A kutatás korai szakaszában (a gyógyszerfelfedezési szakaszban) ígéretes gyógyszerjelölteket azonosítanak, amelyek továbblépnek a preklinikai kutatások felé. A preklinikai fázisban a kutatók a gyógyszer toxicitását próbálják kideríteni, előadással in vitro kísérletek a laborban és in vivo állatokon végzett kísérletek. A preklinikai tesztelés után a gyógyszerek a klinikai vizsgálati kutatási fázisba kerülnek, ahol embereken kell tesztelni őket, hogy megbizonyosodjanak biztonságosságukról és hatékonyságukról. A kutatók klinikai vizsgálatokat terveznek, és a vizsgálati tervet a klinikai vizsgálati protokollban részletezik. Meghatározzák a különböző klinikai kutatási fázisokat – a kis 1. fázisú vizsgálatoktól a gyógyszerbiztonság és adagolás meghatározására, a nagyobb, 2. fázisú vizsgálatokig a gyógyszer hatékonyságának és mellékhatásainak meghatározására, a még nagyobb, 3. és 4. fázisú vizsgálatokig a gyógyszer hatékonyságának, biztonságosságának, ill. a mellékhatások nyomon követése. A sikeres humán klinikai vizsgálatok után a gyógyszerszponzor új gyógyszerkérelmet (NDA) nyújt be a gyógyszer forgalomba hozatalára. A szabályozó ügynökségek felülvizsgálják az összes adatot, együttműködnek a szponzorral a vényköteles címkézési információkon, és jóváhagyják a gyógyszert. A gyógyszer jóváhagyása után a szabályozó ügynökségek felülvizsgálják a forgalomba hozatalt követő biztonsági jelentéseket, hogy biztosítsák a termék teljes biztonságát.

1997-ben önkéntes csoportként megalakult a Clinical Data Interchange Standards Consortium (CDISC), egy globális, non-profit szervezet, amely gyógyszeripari cégekből, CRO-kból, biotechnológiából, tudományos intézményekből, egészségügyi szolgáltatókból és kormányzati szervekből áll. A CDISC adatszabványokat tett közzé, hogy racionalizálja az adatgyűjtéstől a benyújtásig terjedő adatáramlást, és megkönnyítse a partnerek és a szolgáltatók közötti adatcserét. A CDISC a következő szabványokat tette közzé:

  • CDASH (Clinical Data Acquisition Standards Harmonization) – Az összegyűjtött adatok szabványai
  • SDTM (Study Data Tabulation Model) – Szabványok a táblázatos adatok benyújtására
  • ADaM (elemzési adatmodell) – Az elemzési adatok szabványai
  • KÜLDÉS (a nem klinikai adatok cseréjének szabványa) – Szabványok a nem klinikai adatokra
  • PRM (Protocol Representation Model) – A protokoll szabványai

Ezek a szabványok segíthetnek a képzett bírálóknak az adatok hatékonyabb és gyorsabb elemzésében szabványos eszközök használatával, ezáltal csökkentve a gyógyszer-jóváhagyási időt. Az amerikai FDA és a japán PMDA szabályozási előírása, hogy minden táblázatos adatot SDTM formátumban kell benyújtani.

R klinikai vizsgálati kutatási beadványok esetén

A SAS és az R a két leggyakrabban használt statisztikai elemző szoftver a gyógyszeriparban. Amikor a CDISC megkezdte az SDTM-szabványok kidolgozását, a SAS-t szinte univerzálisan alkalmazták a gyógyszeriparban és az FDA-nál. Az R azonban manapság óriási népszerűségre tesz szert, mert nyílt forráskódú, és folyamatosan bővülnek az új csomagok és könyvtárak. A hallgatók elsősorban tanulmányaik és kutatásaik során használják az R-t, és ezt az R-rel kapcsolatos ismereteket a munkájukban is alkalmazzák. Az R olyan feltörekvő technológiákhoz is támogatást nyújt, mint a fejlett mély tanulási integrációk.

Az olyan felhőszolgáltatók, mint az AWS, mára a gyógyszeripari vásárlók által választott platformokká váltak infrastruktúra üzemeltetésére. Az AWS emellett felügyelt szolgáltatásokat is nyújt, például a SageMaker-t, amely megkönnyíti a gépi tanulási (ML) modellek létrehozását, betanítását és telepítését a felhőben. A SageMaker ezenkívül lehetővé teszi a hozzáférést az RStudio IDE-hez bárhonnan egy webböngészőn keresztül. Ez a bejegyzés részletezi, hogy a statisztikai programozók és biostatisztikusok hogyan tudják beemelni klinikai adataikat az R-környezetbe, hogyan futtatható az R-kód, és hogyan tárolhatók az eredmények. Olyan kódrészleteket biztosítunk, amelyek lehetővé teszik a klinikai vizsgálati adatokkal foglalkozó tudósok számára, hogy XPT-fájlokat vigyenek be az R-környezetbe, R-adatkereteket hozzanak létre az SDTM-hez és az ADaM-hez, és végül TLF-et hozzanak létre, amelyet egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) tárgytároló vödör.

RStudio a SageMakeren

2. november 2021-án az AWS együttműködve RStudio PBC bejelentés - a RStudio a SageMakeren, az iparág első teljesen felügyelt RStudio Workbench IDE-je a felhőben. Mostantól elhozhatja jelenlegi RStudio licencét, és néhány egyszerű lépésben könnyedén áttelepítheti saját maga által kezelt RStudio környezeteit a SageMakerbe. Ha többet szeretne megtudni erről az izgalmas együttműködésről, nézze meg Az RStudio bejelentése az Amazon SageMakeren.

Az RStudio Workbench mellett az RStudio csomag R fejlesztőknek is kínál RStudio Connect és RStudio Package Manager szolgáltatást. Az RStudio Connect célja, hogy lehetővé tegye az adatkutatók számára betekintést, irányítópultokat és webalkalmazásokat.. Könnyűvé teszi az adattudományi és adattudományi ismeretek megosztását az adatkutatók bonyolult munkájából, és a döntéshozók kezébe helyezi azokat. Az RStudio Connect emellett egyszerűvé és széleskörű fogyasztáshoz méretezhetővé teszi a tartalomszolgáltatást és -kezelést.

Megoldás áttekintése

A következő szakaszokban megvitatjuk, hogyan importálhatunk nyers adatokat távoli adattárból vagy S3 tárolóból a SageMaker RStudio programjában. Lehetőség van közvetlen csatlakozásra is Amazon Relációs adatbázis-szolgáltatás (Amazon RDS) és adattárházak, mint pl Amazon RedShift (Lásd: Az R összekapcsolása az Amazon Redshifttel) közvetlenül az RStudio-ból; ez azonban kívül esik ennek a bejegyzésnek a hatókörén. Miután az adatokat több különböző forrásból feldolgoztuk, feldolgozzuk, és R adatkeretet hozunk létre egy táblázathoz. Ezután a táblázat adatkeretét RTF fájllá alakítjuk, és az eredményeket visszatároljuk egy S3 vödörbe. Ezek a kimenetek ezután potenciálisan felhasználhatók hatósági benyújtási célokra, feltéve, hogy a bejegyzésben használt R-csomagokat az ügyfél jóváhagyta a hatósági beadványokhoz való használatra.

Állítsa be az RStudiót a SageMakeren

Az RStudio SageMakeren a környezetében történő beállításához lásd: Kezdje el az RStudio használatát a SageMakeren. Győződjön meg arról, hogy az RStudio végrehajtási szerepköre a SageMaker-en hozzáférhet az adatok letöltéséhez és feltöltéséhez az S3 tárolóba, amelyben az adatok tárolódnak. Ha többet szeretne megtudni az R-csomagok kezeléséről és az elemzések közzétételéről a SageMaker RStudio használatával, tekintse meg a következőt: Bejelentjük a teljesen menedzselt RStudiót a SageMaker for Data Scientists webhelyen.

Nyújtsa be az adatokat az RStudióba

Ebben a lépésben különböző forrásokból származó adatokat gyűjtünk be, hogy elérhetővé tegyük azokat az R munkamenetünk számára. SAS XPT formátumban importálunk adatokat; a folyamat azonban hasonló, ha más formátumban szeretne adatokat feldolgozni. Az RStudio SageMakeren való használatának egyik előnye, hogy ha a forrásadatokat az AWS-fiókjaiban tárolják, akkor a SageMaker natív módon hozzáférhet az adatokhoz AWS Identity and Access Management (IAM) szerepek.

Hozzáférés a távoli adattárban tárolt adatokhoz

Ebben a lépésben ADaM adatokat importálunk a Az FDA GitHub tárháza. Létrehozunk egy helyi könyvtárat data az RStudio környezetben az adatok tárolásához és a demográfiai adatok letöltéséhez (dm.xpt) a távoli adattárból. Ebben az összefüggésben a helyi címtár az Ön privát Amazon EFS-tárhelyén létrehozott könyvtárra utal, amely alapértelmezés szerint az R munkamenet-környezethez van csatolva. Lásd a következő kódot:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Ha ez a lépés befejeződött, láthatja dm.xpt letöltése a következő helyre navigálással történik Fájlok, dátum, dm.xpt.

Hozzáférés az Amazon S3-ban tárolt adatokhoz

Ebben a lépésben letöltjük a fiókunkban egy S3 tárolóban tárolt adatokat. Átmásoltuk az FDA GitHub adattárának tartalmát az S3 nevű tárolóba. aws-sagemaker-rstudio ehhez a példához. Lásd a következő kódot:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Ha a lépés befejeződött, láthatja pp.xpt letöltése a következő helyre navigálással történik Fájlok, dátum, pp.xpt.

XPT adatok feldolgozása

Most, hogy az R környezetben elérhetőek a SAS XPT fájlok, át kell alakítanunk őket R adatkeretekké, és feldolgoznunk kell őket. Használjuk a haven könyvtár XPT fájlok olvasásához. A CDISC SDTM adatkészleteket egyesítjük dm és a pp ADPP adatkészlet létrehozásához. Ezután az ADPP adatkeret segítségével összefoglaló statisztikai táblázatot készítünk. Az összefoglaló táblázat ezután RTF formátumban kerül exportálásra.

Először az XPT-fájlokat a read_xpt a menedékkönyvtár funkciója. Ezután egy elemzési adatkészlet jön létre a sqldf funkció sqldf könyvtár. Lásd a következő kódot:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Ezután egy kimeneti adatkeret jön létre a függvények segítségével Tplyr és a dplyr könyvtárak:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

A kimeneti adatkeret ezután RTF fájlként kerül tárolásra az RStudio környezet kimeneti mappájában:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Töltsd fel a kimeneteket az Amazon S3-ra

A kimenet létrehozása után visszatesszük az adatokat egy S3 vödörbe. Ezt úgy érhetjük el, hogy újra létrehozunk egy SageMaker munkamenetet, ha egy munkamenet még nem aktív, és a kimeneti mappa tartalmát feltöltjük egy S3 tárolóba a session$upload_data funkció:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Ezekkel a lépésekkel adatokat gyűjtöttünk be, dolgoztunk fel, és az eredményeket feltöltöttük, hogy elérhetővé tegyük a szabályozó hatóságoknak.

Tisztítsuk meg

A nem kívánt költségek elkerülése érdekében ki kell lépnie az aktuális munkamenetből. Az oldal jobb felső sarkában válassza ki a bekapcsológombot. Ez automatikusan leállítja az alapul szolgáló példányt, és így megszűnik a nem szándékos számítási költség.

Használja az RStudio alkalmazást az Amazon SageMakeren, hogy szabályozói beadványokat készítsen az élettudományi ipar PlatoBlockchain Data Intelligence számára. Függőleges keresés. Ai.

Kihívások

A bejegyzés felvázolta az S3 tárolóban vagy távoli tárolóból tárolt nyers adatok feldolgozásának lépéseit. A klinikai vizsgálatokhoz azonban számos más nyers adatforrás is létezik, elsősorban az EDC (elektronikus adatrögzítő) rendszerekben tárolt eCRF (elektronikus esetjelentési űrlapok) adatok, mint például az Oracle Clinical, a Medidata Rave, az OpenClinica vagy a Snowflake; laboratóriumi adatok; az eCOA (klinikai eredményértékelés) és az ePRO (elektronikus páciens által jelentett eredmények) adatai; valós adatok alkalmazásokból és orvosi eszközökből; és elektronikus egészségügyi nyilvántartások (EHR) a kórházakban. Jelentős előfeldolgozásra van szükség, mielőtt ezeket az adatokat felhasználhatóvá tennék a hatósági beadványokhoz. A különböző adatforrásokhoz csatlakozók kiépítése és központi adattárba (CDR) vagy klinikai adattárakban történő gyűjtése, a megfelelő hozzáférés-szabályozás fenntartása mellett, jelentős kihívásokat jelent.

Egy másik kulcsfontosságú leküzdendő kihívás a szabályozási megfelelés. A hatósági benyújtási kimenetek létrehozásához használt számítógépes rendszernek meg kell felelnie a megfelelő előírásoknak, például a 21 CFR Part 11, a HIPAA, a GDPR vagy bármely más GxP követelménynek vagy ICH-irányelvnek. Ez azt jelenti, hogy egy hitelesített és minősített környezetben kell dolgozni, ahol a hozzáférés, a biztonság, a biztonsági mentés és az auditálhatóság szabályozása a helyén van. Ez azt is jelenti, hogy a hatósági benyújtási kimenetek létrehozására használt R-csomagokat használat előtt érvényesíteni kell.

Következtetés

Ebben a bejegyzésben láttuk, hogy az eCTD-benyújtás kulcsfontosságú szállítmányai a CDISC SDTM, az ADaM-adatkészletek és a TLF voltak. Ez a bejegyzés felvázolta azokat a lépéseket, amelyek szükségesek ahhoz, hogy létrehozzák ezeket a szabályozói benyújtási dokumentumokat, először néhány forrásból származó adatokat feldolgozva a SageMaker RStudiójába. Ezután megnéztük, hogyan tudjuk feldolgozni a bevitt adatokat XPT formátumban; konvertálja R adatkeretekbe az SDTM, ADaM és TLF létrehozásához; majd végül töltse fel az eredményeket egy S3 tárolóba.

Reméljük, hogy a posztban megfogalmazott tág ötletekkel a statisztikai programozók és biostatisztikusok könnyen megjeleníthetik a klinikai vizsgálatok kutatási adatainak betöltésének, feldolgozásának és elemzésének végpontok közötti folyamatát a SageMakeren található RStudio alkalmazásba, és felhasználhatják a tanulságokat egy egyéni definícióra. a szabályozási beadványokhoz megfelelő munkafolyamat.

Eszedbe jut más alkalmazás az RStudio használatára a kutatók, statisztikusok és R-programozók életének megkönnyítésére? Szívesen hallanánk ötleteiteket! És ha bármilyen kérdése van, kérjük, ossza meg őket a megjegyzések részben.

Tudástár

További információért látogasson el az alábbi linkekre:


A szerzőkről

Használja az RStudio alkalmazást az Amazon SageMakeren, hogy szabályozói beadványokat készítsen az élettudományi ipar PlatoBlockchain Data Intelligence számára. Függőleges keresés. Ai.Rohit Banga egy globális klinikai fejlesztési iparági szakértő Londonban, az Egyesült Királyságban. Képzettsége biostatisztika, és segít az Healthcare és LifeScience ügyfeleinek innovatív klinikai fejlesztési megoldások bevezetésében az AWS-en. Szenvedélyesen foglalkoztatja, hogy az adattudományt, az AI/ML-t és a feltörekvő technológiákat hogyan lehet valódi üzleti problémák megoldására használni az egészségügyi és élettudományi ágazaton belül. Szabadidejében Rohit szeret síelni, grillezni, és családjával és barátaival tölti az idejét.

Használja az RStudio alkalmazást az Amazon SageMakeren, hogy szabályozói beadványokat készítsen az élettudományi ipar PlatoBlockchain Data Intelligence számára. Függőleges keresés. Ai.Georgios Schinas az EMEA régióban az AI/ML speciális megoldások építésze. Székhelye Londonban van, és szorosan együttműködik az Egyesült Királyságban és Írországban élő ügyfelekkel. A Georgios segít az ügyfeleknek a gépi tanulási alkalmazások tervezésében és üzembe helyezésében az AWS-en, különös tekintettel az MLOps-gyakorlatokra, és lehetővé teszi az ügyfelek számára a gépi tanulás nagyarányú végrehajtását. Szabadidejében szívesen utazik, főz, és a barátaival és családjával tölti az idejét.

Időbélyeg:

Még több AWS gépi tanulás