Użyj RStudio na Amazon SageMaker, aby tworzyć zgłoszenia regulacyjne dla branży nauk przyrodniczych PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Użyj RStudio na Amazon SageMaker, aby tworzyć zgłoszenia regulacyjne dla branży nauk przyrodniczych

Firmy farmaceutyczne ubiegające się o zgodę agencji regulacyjnych, takich jak amerykańska Agencja ds. Żywności i Leków (FDA) lub Japońska Agencja Farmaceutyczna i Urządzeń Medycznych (PMDA), aby sprzedawać swoje leki na rynku, muszą przedstawić dowody na to, że ich lek jest bezpieczny i skuteczny zgodnie z jego przeznaczeniem posługiwać się. Zespół lekarzy, statystyków, chemików, farmakologów i innych naukowców klinicznych sprawdza dane przedłożonego badania klinicznego i proponowane oznakowanie. Jeśli przegląd wykaże, że istnieją wystarczające dowody statystyczne, aby udowodnić, że korzyści zdrowotne leku przewyższają ryzyko, lek zostaje dopuszczony do sprzedaży.

Pakiet do składania wniosków dotyczących badania klinicznego składa się z danych tabelarycznych, danych analitycznych, metadanych badania oraz raportów statystycznych składających się z tabel statystycznych, zestawień i rycin. W przypadku amerykańskiej FDA, elektroniczny wspólny dokument techniczny (eCTD) jest standardowym formatem składania wniosków, poprawek, suplementów i raportów do Centrum Oceny i Badań Biologicznych FDA (CBER) oraz Centrum Oceny i Badań Leków ( CDER). W przypadku FDA i japońskiego PMDA wymagane prawem jest przesyłanie danych tabelarycznych w standardowym modelu tabelarycznym danych CDISC (SDTM), danych analitycznych w modelu zestawu danych analitycznych CDISC (ADaM) oraz metadanych próbnych w modelu CDISC Define-XML (w oparciu o model danych operacyjnych (ODM)).

W tym poście pokazujemy, jak możemy używać RStudio na Amazon Sage Maker do tworzenia takich dokumentów do składania wniosków regulacyjnych. Ten post opisuje proces składania prób klinicznych, w jaki sposób możemy przyswajać dane z badań klinicznych, zestawiać i analizować dane, a następnie tworzyć raporty statystyczne — tabele podsumowujące, wykazy danych i dane liczbowe (TLF). Ta metoda może umożliwić klientom farmaceutycznym bezproblemowe łączenie się z danymi klinicznymi przechowywanymi w ich środowisku AWS, przetwarzanie ich za pomocą języka R i przyspieszenie procesu badań klinicznych.

Proces rozwoju leku

Proces opracowywania leku można ogólnie podzielić na pięć głównych etapów, jak pokazano na poniższym rysunku.

Pomyślne zatwierdzenie jednego leku spośród około 10 15 potencjalnych cząsteczek zajmuje średnio 1–3 lat i około 10,000–XNUMX miliardów USD. We wczesnych fazach badań (faza odkrywania leków) identyfikuje się obiecujących kandydatów na leki, które przechodzą dalej do badań przedklinicznych. W fazie przedklinicznej naukowcy próbują ustalić toksyczność leku, wykonując in vitro eksperymenty w laboratorium i in vivo eksperymenty na zwierzętach. Po testach przedklinicznych leki przechodzą do fazy badań klinicznych, w których muszą być testowane na ludziach, aby potwierdzić ich bezpieczeństwo i skuteczność. Naukowcy projektują badania kliniczne i szczegółowo opisują plan badań w protokole badania klinicznego. Definiują różne fazy badań klinicznych — od małych badań fazy 1 w celu określenia bezpieczeństwa i dawkowania leku, przez większe badania fazy 2 w celu określenia skuteczności leku i skutków ubocznych, po jeszcze większe badania fazy 3 i 4 w celu określenia skuteczności, bezpieczeństwa i monitorowanie działań niepożądanych. Po udanych badaniach klinicznych na ludziach sponsor leku składa wniosek o nowy lek (NDA) w celu wprowadzenia leku na rynek. Agencje regulacyjne przeglądają wszystkie dane, współpracują ze sponsorem w zakresie informacji na etykiecie recepty i zatwierdzają lek. Po zatwierdzeniu leku agencje regulacyjne przeglądają raporty bezpieczeństwa po wprowadzeniu do obrotu, aby zapewnić pełne bezpieczeństwo produktu.

W 1997 roku, jako grupa wolontariuszy, powstało Clinical Data Interchange Standards Consortium (CDISC), globalna organizacja non-profit składająca się z firm farmaceutycznych, CRO, biotechnologii, instytucji akademickich, świadczeniodawców opieki zdrowotnej i agencji rządowych. CDISC opublikowało standardy danych w celu usprawnienia przepływu danych od zbierania do przesyłania oraz ułatwiło wymianę danych między partnerami i dostawcami. CDISC opublikował następujące standardy:

  • CDASH (harmonizacja standardów akwizycji danych klinicznych) – Standardy gromadzonych danych
  • SDTM (Model tabelaryczny danych badania) – Standardy przekazywania danych tabelarycznych
  • ADaM (Model danych analitycznych) – Standardy danych analitycznych
  • WYŚLIJ (standard wymiany danych nieklinicznych) – Standardy danych nieklinicznych
  • PRM (Model Reprezentacji Protokołu) – Standardy protokołu

Standardy te mogą pomóc przeszkolonym recenzentom skuteczniej i szybciej analizować dane przy użyciu standardowych narzędzi, skracając w ten sposób czas zatwierdzania leków. Amerykańska Agencja ds. Żywności i Leków (FDA) i japońskie PMDA (PMDA) nakazują przesyłanie wszystkich danych tabelarycznych w formacie SDTM.

R dla zgłoszeń dotyczących badań klinicznych

SAS i R to dwa z najczęściej używanych programów do analizy statystycznej stosowanych w przemyśle farmaceutycznym. Kiedy CDISC rozpoczęło opracowywanie standardów SDTM, SAS był niemal powszechnie stosowany w przemyśle farmaceutycznym i FDA. Jednak obecnie R zyskuje ogromną popularność, ponieważ jest open source, a nowe pakiety i biblioteki są stale dodawane. Studenci przede wszystkim używają R podczas swoich zajęć akademickich i badań, a tę znajomość R wykorzystują w swojej pracy. R oferuje również wsparcie dla nowych technologii, takich jak zaawansowane integracje uczenia głębokiego.

Dostawcy usług w chmurze, tacy jak AWS, stali się obecnie preferowaną platformą dla klientów farmaceutycznych do hostowania ich infrastruktury. AWS udostępnia również usługi zarządzane, takie jak SageMaker, które ułatwiają tworzenie, trenowanie i wdrażanie modeli uczenia maszynowego (ML) w chmurze. SageMaker umożliwia również dostęp do RStudio IDE z dowolnego miejsca za pośrednictwem przeglądarki internetowej. W tym poście szczegółowo opisano, w jaki sposób programiści statystyczni i biostatystycy mogą wprowadzać swoje dane kliniczne do środowiska R, jak można uruchomić kod R i jak przechowywać wyniki. Udostępniamy fragmenty kodu, które umożliwiają analitykom danych z badań klinicznych pobieranie plików XPT do środowiska R, tworzenie ramek danych R dla SDTM i ADaM, a na koniec tworzenie TLF, które można przechowywać w Usługa Amazon Simple Storage (Amazon S3) zasobnik do przechowywania obiektów.

RStudio na SageMaker

2 listopada 2021 r. AWS we współpracy z RStudio PBC ogłosił ogólna dostępność RStudio na SageMaker, pierwsze w branży w pełni zarządzane środowisko IDE RStudio Workbench w chmurze. Możesz teraz przenieść swoją aktualną licencję RStudio, aby w kilku prostych krokach łatwo przeprowadzić migrację samodzielnie zarządzanych środowisk RStudio do SageMaker. Aby dowiedzieć się więcej o tej ekscytującej współpracy, sprawdź Zapowiedź RStudio na Amazon SageMaker.

Wraz z RStudio Workbench pakiet RStudio dla deweloperów języka R oferuje również RStudio Connect i RStudio Package Manager. RStudio Connect został zaprojektowany, aby umożliwić analitykom danych publikowanie spostrzeżeń, pulpitów nawigacyjnych i aplikacji internetowych. Ułatwia udostępnianie spostrzeżeń dotyczących uczenia maszynowego i nauki o danych ze skomplikowanej pracy naukowców zajmujących się danymi i oddanie ich w ręce decydentów. RStudio Connect sprawia, że ​​hosting i zarządzanie zawartością są proste i skalowalne do szerokiego wykorzystania.

Omówienie rozwiązania

W kolejnych sekcjach omówimy, w jaki sposób możemy importować nieprzetworzone dane ze zdalnego repozytorium lub zasobnika S3 w RStudio na SageMaker. Możliwe jest również bezpośrednie połączenie z Usługa relacyjnych baz danych Amazon (Amazon RDS) i hurtownie danych, takie jak Amazonka Przesunięcie ku czerwieni (Patrz Łączenie R z Amazon Redshift) bezpośrednio z RStudio; jednak wykracza to poza zakres tego postu. Po pobraniu danych z kilku różnych źródeł przetwarzamy je i tworzymy ramki danych R dla tabeli. Następnie konwertujemy ramkę danych tabeli do pliku RTF i przechowujemy wyniki z powrotem w wiadrze S3. Te dane wyjściowe mogą następnie potencjalnie zostać wykorzystane do celów składania wniosków regulacyjnych, pod warunkiem, że pakiety R użyte w poście zostały zatwierdzone do użytku przez klienta w celu składania wniosków regulacyjnych.

Skonfiguruj RStudio w SageMaker

Aby uzyskać instrukcje dotyczące konfigurowania RStudio w programie SageMaker w swoim środowisku, zapoznaj się z Zacznij korzystać z RStudio w SageMaker. Upewnij się, że rola wykonania RStudio w SageMaker ma dostęp do pobierania i przesyłania danych do zasobnika S3, w którym dane są przechowywane. Aby dowiedzieć się więcej o tym, jak zarządzać pakietami R i publikować analizy za pomocą RStudio w SageMaker, zapoznaj się z Zapowiedź w pełni zarządzanego RStudio w SageMaker dla naukowców zajmujących się danymi.

Pozyskiwanie danych do RStudio

W tym kroku pozyskujemy dane z różnych źródeł, aby udostępnić je dla naszej sesji R. Importujemy dane w formacie SAS XPT; jednak proces jest podobny, jeśli chcesz pozyskać dane w innych formatach. Jedną z zalet korzystania z RStudio na SageMaker jest to, że jeśli dane źródłowe są przechowywane na kontach AWS, SageMaker może natywnie uzyskać dostęp do danych za pomocą AWS Zarządzanie tożsamością i dostępem (IAM) role.

Dostęp do danych przechowywanych w zdalnym repozytorium

W tym kroku importujemy dane ADaM z Repozytorium GitHub FDA. Tworzymy lokalny katalog o nazwie data w środowisku RStudio do przechowywania danych i pobierania danych demograficznych (dm.xpt) ze zdalnego repozytorium. W tym kontekście katalog lokalny odnosi się do katalogu utworzonego w prywatnym magazynie Amazon EFS, który jest domyślnie dołączony do środowiska sesji R. Zobacz następujący kod:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Po zakończeniu tego kroku możesz zobaczyć dm.xpt pobierane przez nawigację do Akta, dane, dm.xpt.

Uzyskaj dostęp do danych przechowywanych w Amazon S3

W tym kroku pobieramy dane przechowywane w wiadrze S3 na naszym koncie. Skopiowaliśmy zawartość z repozytorium GitHub FDA do zasobnika S3 o nazwie aws-sagemaker-rstudio dla tego przykładu. Zobacz następujący kod:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Po zakończeniu kroku możesz zobaczyć pp.xpt pobierane przez nawigację do Akta, dane, pp.xpt.

Przetwarzaj dane XPT

Teraz, gdy mamy już pliki SAS XPT dostępne w środowisku R, musimy je przekonwertować na ramki danych R i przetworzyć. Używamy haven biblioteka do odczytu plików XPT. Łączymy zbiory danych CDISC SDTM dm i pp do tworzenia zestawu danych ADPP. Następnie tworzymy tabelę statystyk podsumowujących przy użyciu ramki danych ADPP. Tabela podsumowania jest następnie eksportowana w formacie RTF.

Najpierw pliki XPT są odczytywane za pomocą read_xpt funkcja biblioteki schronienia. Następnie zestaw danych analitycznych jest tworzony za pomocą sqldf funkcja sqldf biblioteka. Zobacz następujący kod:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Następnie tworzona jest ramka danych wyjściowych za pomocą funkcji z Tplyr i dplyr biblioteki:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

Ramka danych wyjściowych jest następnie przechowywana jako plik RTF w folderze wyjściowym w środowisku RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Prześlij dane wyjściowe do Amazon S3

Po wygenerowaniu danych wyjściowych umieszczamy dane z powrotem w wiadrze S3. Możemy to osiągnąć, ponownie tworząc sesję SageMaker, jeśli sesja nie jest jeszcze aktywna, i przesyłając zawartość folderu wyjściowego do zasobnika S3 za pomocą session$upload_data funkcjonować:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Dzięki tym krokom pozyskaliśmy dane, przetworzyliśmy je i przesłaliśmy wyniki, które mają być udostępnione do przesłania organom regulacyjnym.

Sprzątać

Aby uniknąć ponoszenia niezamierzonych kosztów, musisz zakończyć obecną sesję. W prawym górnym rogu strony wybierz ikonę zasilania. Spowoduje to automatyczne zatrzymanie bazowego wystąpienia, a zatem przestanie ponosić niezamierzone koszty obliczeniowe.

Użyj RStudio na Amazon SageMaker, aby tworzyć zgłoszenia regulacyjne dla branży nauk przyrodniczych PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wyzwania

W poście nakreślono kroki dotyczące przyjmowania nieprzetworzonych danych przechowywanych w zasobniku S3 lub ze zdalnego repozytorium. Istnieje jednak wiele innych źródeł nieprzetworzonych danych do badania klinicznego, przede wszystkim dane eCRF (elektroniczne formularze zgłoszeń przypadków) przechowywane w systemach EDC (elektroniczne przechwytywanie danych), takich jak Oracle Clinical, Medidata Rave, OpenClinica lub Snowflake; dane laboratoryjne; dane z eCOA (ocena wyników klinicznych) i ePRO (elektroniczne wyniki zgłaszane przez pacjenta); rzeczywiste dane z aplikacji i urządzeń medycznych; oraz elektroniczne kartoteki zdrowia (EHR) w szpitalach. Zanim te dane będą mogły zostać wykorzystane do celów przedłożenia wymaganych przepisami, konieczne jest znaczne wstępne przetwarzanie. Tworzenie łączników do różnych źródeł danych i gromadzenie ich w scentralizowanym repozytorium danych (CDR) lub w klinicznych jeziorach danych, przy jednoczesnym zachowaniu odpowiedniej kontroli dostępu, stanowi poważne wyzwanie.

Kolejnym kluczowym wyzwaniem do pokonania jest zgodność z przepisami. System komputerowy używany do tworzenia danych wyjściowych do składania wniosków regulacyjnych musi być zgodny z odpowiednimi przepisami, takimi jak 21 CFR Part 11, HIPAA, GDPR lub wszelkimi innymi wymaganiami GxP lub wytycznymi ICH. Przekłada się to na pracę w sprawdzonym i kwalifikowanym środowisku z wdrożonymi mechanizmami kontroli dostępu, bezpieczeństwa, tworzenia kopii zapasowych i kontroli. Oznacza to również, że wszystkie pakiety języka R, które są używane do tworzenia danych wyjściowych przedłożenia wymaganych przepisami, muszą zostać zweryfikowane przed użyciem.

Wnioski

W tym poście widzieliśmy, że niektóre z kluczowych elementów dostarczanych do zgłoszenia eCTD to CDISC SDTM, zestawy danych ADaM i TLF. W tym poście nakreślono kroki potrzebne do utworzenia tych wymaganych przez przepisy elementów dostarczanych przez pobranie danych z kilku źródeł do RStudio w programie SageMaker. Następnie zobaczyliśmy, jak możemy przetwarzać pozyskiwane dane w formacie XPT; przekonwertuj go na ramki danych R, aby utworzyć SDTM, ADaM i TLF; a następnie w końcu przesłać wyniki do wiadra S3.

Mamy nadzieję, że dzięki szerokim koncepcjom przedstawionym w poście, programiści statystyczni i biostatystycy będą mogli łatwo zwizualizować kompleksowy proces ładowania, przetwarzania i analizowania danych z badań klinicznych do RStudio na SageMaker i wykorzystać wiedzę do zdefiniowania niestandardowego przepływ pracy dostosowany do zgłoszeń regulacyjnych.

Czy możesz pomyśleć o innych zastosowaniach RStudio do pomocy naukowcom, statystykom i programistom R w ułatwianiu im życia? Chętnie poznamy Twoje pomysły! A jeśli masz jakieś pytania, podziel się nimi w sekcji komentarzy.

Zasoby

Aby uzyskać więcej informacji, skorzystaj z następujących łączy:


O autorach

Użyj RStudio na Amazon SageMaker, aby tworzyć zgłoszenia regulacyjne dla branży nauk przyrodniczych PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Rohita Bangę jest globalnym specjalistą branży rozwoju klinicznego z siedzibą w Londynie w Wielkiej Brytanii. Z wykształcenia jest biostatystykiem i pomaga klientom Healthcare i LifeScience wdrażać innowacyjne rozwiązania do rozwoju klinicznego na AWS. Pasjonuje się tym, jak data science, sztuczna inteligencja i nowe technologie mogą być wykorzystywane do rozwiązywania rzeczywistych problemów biznesowych w branży Healthcare i LifeScience. W wolnym czasie Rohit lubi jeździć na nartach, grillować i spędzać czas z rodziną i przyjaciółmi.

Użyj RStudio na Amazon SageMaker, aby tworzyć zgłoszenia regulacyjne dla branży nauk przyrodniczych PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Georgios Schinas jest Specjalistą Architektem Rozwiązań dla AI/ML w regionie EMEA. Mieszka w Londynie i ściśle współpracuje z klientami w Wielkiej Brytanii i Irlandii. Georgios pomaga klientom projektować i wdrażać aplikacje do uczenia maszynowego w środowisku produkcyjnym na AWS, ze szczególnym zainteresowaniem praktykami MLOps i umożliwianiem klientom wykonywania uczenia maszynowego na dużą skalę. W wolnym czasie lubi podróżować, gotować i spędzać czas z przyjaciółmi i rodziną.

Znak czasu:

Więcej z Uczenie maszynowe AWS