Use RStudio On Amazon SageMaker To Create Regulatory Submissions For The Life Sciences Industry

Republié par Platon

Suiveurs: 0

Les sociétés pharmaceutiques qui souhaitent obtenir l'approbation d'organismes de réglementation tels que la Food & Drug Administration (FDA) des États-Unis ou l'Agence japonaise des produits pharmaceutiques et des dispositifs médicaux (PMDA) pour vendre leurs médicaments sur le marché doivent fournir des preuves pour prouver que leur médicament est sûr et efficace pour l'usage auquel il est destiné. utilisation. Une équipe de médecins, de statisticiens, de chimistes, de pharmacologues et d'autres scientifiques cliniciens examinent les données de soumission des essais cliniques et l'étiquetage proposé. Si l'examen établit qu'il existe suffisamment de preuves statistiques pour prouver que les avantages pour la santé du médicament l'emportent sur les risques, la vente du médicament est approuvée.

Le dossier de soumission d'essai clinique comprend des données tabulées, des données d'analyse, des métadonnées d'essai et des rapports statistiques composés de tableaux statistiques, de listes et de chiffres. Dans le cas de la FDA américaine, le document technique commun électronique (eCTD) est le format standard pour soumettre des demandes, des modifications, des suppléments et des rapports au Center for Biologics Evaluation and Research (CBER) et au Center for Drug Evaluation and Research ( CDRE). Pour la FDA et la PMDA japonaise, il est obligatoire de soumettre des données tabulées dans CDISC Standard Data Tabulation Model (SDTM), des données d'analyse dans CDISC Analysis Dataset Model (ADaM) et des métadonnées d'essai dans CDISC Define-XML (basées sur Operational Data Model (ODM)).

Dans cet article, nous montrons comment nous pouvons utiliser RStudio sur Amazon Sage Maker pour créer ces livrables de soumission réglementaire. Cet article décrit le processus de soumission d'essais cliniques, comment nous pouvons ingérer des données de recherche d'essais cliniques, tabuler et analyser les données, puis créer des rapports statistiques - tableaux récapitulatifs, listes de données et chiffres (TLF). Cette méthode peut permettre aux clients pharmaceutiques de se connecter de manière transparente aux données cliniques stockées dans leur environnement AWS, de les traiter à l'aide de R et d'aider à accélérer le processus de recherche d'essais cliniques.

Processus de développement de médicaments

Le processus de développement de médicaments peut être divisé en cinq étapes principales, comme illustré dans la figure suivante.

Il faut en moyenne 10 à 15 ans et environ 1 à 3 milliards de dollars américains pour qu'un médicament reçoive une approbation réussie sur environ 10,000 XNUMX molécules potentielles. Au cours des premières phases de la recherche (la phase de découverte de médicaments), des candidats-médicaments prometteurs sont identifiés, qui passent ensuite à la recherche préclinique. Au cours de la phase préclinique, les chercheurs tentent de découvrir la toxicité du médicament en effectuant in vitro expériences en laboratoire et in vivo expériences sur les animaux. Après les tests précliniques, les médicaments passent à la phase de recherche des essais cliniques, où ils doivent être testés sur des humains pour vérifier leur innocuité et leur efficacité. Les chercheurs conçoivent des essais cliniques et détaillent le plan d'étude dans le protocole d'essai clinique. Ils définissent les différentes phases de recherche clinique - des petites études de phase 1 pour déterminer l'innocuité et la posologie des médicaments, à des essais de phase 2 plus importants pour déterminer l'efficacité et les effets secondaires des médicaments, à des essais de phases 3 et 4 encore plus importants pour déterminer l'efficacité, l'innocuité et la surveillance des effets indésirables. Après des essais cliniques humains réussis, le promoteur du médicament dépose une demande de nouveau médicament (NDA) pour commercialiser le médicament. Les organismes de réglementation examinent toutes les données, travaillent avec le promoteur sur les informations d'étiquetage des ordonnances et approuvent le médicament. Après l'approbation du médicament, les organismes de réglementation examinent les rapports de sécurité post-commercialisation pour garantir la sécurité complète du produit.

En 1997, le Clinical Data Interchange Standards Consortium (CDISC), une organisation mondiale à but non lucratif composée de sociétés pharmaceutiques, d'ORC, de biotechnologies, d'institutions universitaires, de prestataires de soins de santé et d'agences gouvernementales, a été créée en tant que groupe de bénévoles. Le CDISC a publié des normes de données pour rationaliser le flux de données depuis la collecte jusqu'aux soumissions, et a facilité l'échange de données entre les partenaires et les fournisseurs. Le CDISC a publié les normes suivantes :

CDASH (Harmonisation des normes d'acquisition de données cliniques) – Normes pour les données collectées
SDTM (modèle de tabulation des données d'étude) – Normes de soumission des données tabulées
ADaM (modèle de données d'analyse) – Normes pour les données d'analyse
ENVOYER (Standard pour l'échange de données non cliniques) – Normes pour les données non cliniques
PRM (modèle de représentation de protocole) – Normes pour le protocole

Ces normes peuvent aider les examinateurs formés à analyser les données plus efficacement et plus rapidement à l'aide d'outils standard, réduisant ainsi les délais d'approbation des médicaments. C'est une exigence réglementaire de la FDA américaine et de la PMDA japonaise de soumettre toutes les données tabulées en utilisant le format SDTM.

R pour les soumissions de recherche d'essais cliniques

SAS et R sont deux des logiciels d'analyse statistique les plus utilisés dans l'industrie pharmaceutique. Lorsque le développement des normes SDTM a été lancé par le CDISC, SAS était presque universellement utilisé dans l'industrie pharmaceutique et à la FDA. Cependant, R gagne en popularité de nos jours car il est open source et de nouveaux packages et bibliothèques sont continuellement ajoutés. Les étudiants utilisent principalement R pendant leurs études et leurs recherches, et ils appliquent cette familiarité avec R à leur travail. R offre également une prise en charge des technologies émergentes telles que les intégrations avancées d'apprentissage en profondeur.

Les fournisseurs de cloud tels qu'AWS sont désormais devenus la plate-forme de choix des clients pharmaceutiques pour héberger leur infrastructure. AWS fournit également des services gérés tels que SageMaker, qui facilitent la création, la formation et le déploiement de modèles d'apprentissage automatique (ML) dans le cloud. SageMaker permet également d'accéder à l'IDE RStudio de n'importe où via un navigateur Web. Cet article détaille comment les programmeurs statistiques et les biostatisticiens peuvent ingérer leurs données cliniques dans l'environnement R, comment le code R peut être exécuté et comment les résultats sont stockés. Nous fournissons des extraits de code qui permettent aux scientifiques des données d'essais cliniques d'ingérer des fichiers XPT dans l'environnement R, de créer des trames de données R pour SDTM et ADaM, et enfin de créer TLF qui peut être stocké dans un Service de stockage simple Amazon (Amazon S3) compartiment de stockage d'objets.

RStudio sur SageMaker

Le 2 novembre 2021, AWS en collaboration avec PBC de RStudio annoncé la disponibilité générale de RStudio sur SageMaker, le premier IDE RStudio Workbench entièrement géré dans le cloud. Vous pouvez désormais apporter votre licence RStudio actuelle pour migrer facilement vos environnements RStudio autogérés vers SageMaker en quelques étapes simples. Pour en savoir plus sur cette collaboration passionnante, consultez Annonce de RStudio sur Amazon SageMaker.

Outre RStudio Workbench, la suite RStudio pour les développeurs R propose également RStudio Connect et RStudio Package Manager. RStudio Connect est conçu pour permettre aux scientifiques des données de publier des informations, des tableaux de bord et des applications Web. Il facilite le partage des informations sur le ML et la science des données issues du travail complexe des data scientists et les met entre les mains des décideurs. RStudio Connect rend également l'hébergement et la gestion de contenu simples et évolutifs pour une large consommation.

Vue d'ensemble de la solution

Dans les sections suivantes, nous expliquons comment importer des données brutes à partir d'un référentiel distant ou d'un compartiment S3 dans RStudio sur SageMaker. Il est également possible de se connecter directement à Service de base de données relationnelle Amazon (Amazon RDS) et des entrepôts de données comme Redshift d'Amazon (voir Connecter R avec Amazon Redshift) directement depuis RStudio ; cependant, cela sort du cadre de cet article. Une fois que les données ont été ingérées à partir de plusieurs sources différentes, nous les traitons et créons des trames de données R pour une table. Ensuite, nous convertissons la trame de données de la table en un fichier RTF et stockons les résultats dans un compartiment S3. Ces sorties peuvent ensuite potentiellement être utilisées à des fins de soumission réglementaire, à condition que les packages R utilisés dans la publication aient été validés pour être utilisés pour les soumissions réglementaires par le client.

Configurer RStudio sur SageMaker

Pour obtenir des instructions sur la configuration de RStudio sur SageMaker dans votre environnement, reportez-vous à Démarrer avec RStudio sur SageMaker. Assurez-vous que le rôle d'exécution de RStudio sur SageMaker a accès au téléchargement et au chargement des données dans le compartiment S3 dans lequel les données sont stockées. Pour en savoir plus sur la gestion des packages R et la publication de votre analyse à l'aide de RStudio sur SageMaker, reportez-vous à Annonce du RStudio entièrement géré sur SageMaker pour les scientifiques des données.

Ingérer des données dans RStudio

Dans cette étape, nous ingérons des données provenant de diverses sources pour les rendre disponibles pour notre session R. Nous importons des données au format SAS XPT ; cependant, le processus est similaire si vous souhaitez ingérer des données dans d'autres formats. L'un des avantages de l'utilisation de RStudio sur SageMaker est que si les données source sont stockées dans vos comptes AWS, SageMaker peut accéder nativement aux données à l'aide de Gestion des identités et des accès AWS (IAM).

Accéder aux données stockées dans un référentiel distant

Dans cette étape, nous importons des données ADaM à partir du Dépôt GitHub de la FDA. Nous créons un répertoire local appelé data dans l'environnement RStudio pour stocker les données et télécharger les données démographiques (dm.xpt) à partir du référentiel distant. Dans ce contexte, le répertoire local fait référence à un répertoire créé sur votre stockage Amazon EFS privé qui est attaché par défaut à votre environnement de session R. Voir le code suivant :

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

Lorsque cette étape est terminée, vous pouvez voir dm.xpt en cours de téléchargement en naviguant vers Fichiers, données, dm.xpt.

Accéder aux données stockées dans Amazon S3

Dans cette étape, nous téléchargeons les données stockées dans un compartiment S3 dans notre compte. Nous avons copié le contenu du référentiel GitHub de la FDA dans le compartiment S3 nommé aws-sagemaker-rstudio pour cet exemple. Voir le code suivant :

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

Lorsque l'étape est terminée, vous pouvez voir pp.xpt en cours de téléchargement en naviguant vers Fichiers, données, pp.xpt.

Traiter les données XPT

Maintenant que nous avons des fichiers SAS XPT disponibles dans l'environnement R, nous devons les convertir en trames de données R et les traiter. Nous utilisons le haven bibliothèque pour lire les fichiers XPT. Nous fusionnons les ensembles de données CDISC SDTM dm ainsi que pp pour créer un jeu de données ADPP. Ensuite, nous créons un tableau statistique récapitulatif à l'aide de la base de données ADPP. Le tableau récapitulatif est ensuite exporté au format RTF.

Tout d'abord, les fichiers XPT sont lus à l'aide de la read_xpt fonction de la bibliothèque de refuge. Ensuite, un jeu de données d'analyse est créé à l'aide de la sqldf fonction de la sqldf bibliothèque. Voir le code suivant :

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

Ensuite, une trame de données de sortie est créée à l'aide des fonctions de la Tplyr ainsi que dplyr bibliothèques :

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

La trame de données de sortie est ensuite stockée sous forme de fichier RTF dans le dossier de sortie de l'environnement RStudio :

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Charger les sorties sur Amazon S3

Une fois la sortie générée, nous remettons les données dans un compartiment S3. Nous pouvons y parvenir en créant à nouveau une session SageMaker, si une session n'est pas déjà active, et en téléchargeant le contenu du dossier de sortie dans un compartiment S3 à l'aide du session$upload_data fonction:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

Avec ces étapes, nous avons ingéré des données, les avons traitées et téléchargé les résultats à mettre à disposition pour soumission aux autorités réglementaires.

Nettoyer

Pour éviter d'encourir des coûts imprévus, vous devez quitter votre session en cours. Dans le coin supérieur droit de la page, choisissez l'icône d'alimentation. Cela arrêtera automatiquement l'instance sous-jacente et cessera donc d'encourir des coûts de calcul imprévus.

Défis

Le message a décrit les étapes pour ingérer des données brutes stockées dans un compartiment S3 ou à partir d'un référentiel distant. Cependant, il existe de nombreuses autres sources de données brutes pour un essai clinique, principalement des données eCRF (formulaires de rapport de cas électroniques) stockées dans des systèmes EDC (saisie de données électroniques) tels qu'Oracle Clinical, Medidata Rave, OpenClinica ou Snowflake ; données de laboratoire ; les données de l'eCOA (évaluation des résultats cliniques) et de l'ePRO (résultats électroniques rapportés par les patients) ; données du monde réel provenant d'applications et d'appareils médicaux ; et les dossiers de santé électroniques (DSE) dans les hôpitaux. Un prétraitement important est nécessaire avant que ces données puissent être rendues utilisables pour les soumissions réglementaires. Construire des connecteurs vers diverses sources de données et les collecter dans un référentiel de données centralisé (CDR) ou un lac de données cliniques, tout en maintenant des contrôles d'accès appropriés, pose des défis importants.

Un autre défi clé à surmonter est celui de la conformité réglementaire. Le système informatique utilisé pour créer les sorties de soumission réglementaires doit être conforme aux réglementations appropriées, telles que 21 CFR Part 11, HIPAA, GDPR ou toute autre exigence GxP ou directive ICH. Cela se traduit par un travail dans un environnement validé et qualifié avec des contrôles d'accès, de sécurité, de sauvegarde et d'auditabilité en place. Cela signifie également que tous les packages R utilisés pour créer des sorties de soumission réglementaire doivent être validés avant utilisation.

Conclusion

Dans cet article, nous avons vu que certains des livrables clés pour une soumission eCTD étaient le CDISC SDTM, les ensembles de données ADaM et le TLF. Cet article décrit les étapes nécessaires pour créer ces livrables de soumission réglementaire en ingérant d'abord les données de quelques sources dans RStudio sur SageMaker. Nous avons ensuite vu comment traiter les données ingérées au format XPT ; convertissez-le en trames de données R pour créer SDTM, ADaM et TLF ; puis enfin télécharger les résultats dans un compartiment S3.

Nous espérons qu'avec les idées générales exposées dans l'article, les programmeurs statistiques et les biostatisticiens pourront facilement visualiser le processus de bout en bout de chargement, de traitement et d'analyse des données de recherche d'essais cliniques dans RStudio sur SageMaker et utiliser les apprentissages pour définir un personnalisé flux de travail adapté à vos soumissions réglementaires.

Pouvez-vous penser à d'autres applications utilisant RStudio pour aider les chercheurs, les statisticiens et les programmeurs R à se simplifier la vie ? Nous serions ravis de connaître vos idées ! Et si vous avez des questions, n'hésitez pas à les partager dans la section des commentaires.

Ressources

Pour plus d'informations, visitez les liens suivants :

À propos des auteurs

Rohit Banga est un spécialiste mondial de l'industrie du développement clinique basé à Londres, au Royaume-Uni. Il est biostatisticien de formation et aide les clients des secteurs de la santé et des sciences de la vie à déployer des solutions de développement clinique innovantes sur AWS. Il est passionné par la façon dont la science des données, l'IA/ML et les technologies émergentes peuvent être utilisées pour résoudre de vrais problèmes commerciaux dans le secteur de la santé et des sciences de la vie. Dans ses temps libres, Rohit aime skier, faire des barbecues et passer du temps avec sa famille et ses amis.

Utilisez RStudio sur Amazon SageMaker pour créer des soumissions réglementaires pour le secteur des sciences de la vie PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Georgios Schinas est un architecte de solutions spécialisé pour l'IA/ML dans la région EMEA. Il est basé à Londres et travaille en étroite collaboration avec des clients au Royaume-Uni et en Irlande. Georgios aide les clients à concevoir et à déployer des applications d'apprentissage automatique en production sur AWS avec un intérêt particulier pour les pratiques MLOps et permettant aux clients d'effectuer l'apprentissage automatique à grande échelle. Dans ses temps libres, il aime voyager, cuisiner et passer du temps avec ses amis et sa famille.

Horodatage: 20 septembre 202221 septembre 2022

Horodatage: Le 8 novembre 2022

Utilisez RStudio sur Amazon SageMaker pour créer des soumissions réglementaires pour l'industrie des sciences de la vie

Republié par Platon

Processus de développement de médicaments

R pour les soumissions de recherche d'essais cliniques

RStudio sur SageMaker

Vue d'ensemble de la solution

Configurer RStudio sur SageMaker

Ingérer des données dans RStudio

Accéder aux données stockées dans un référentiel distant

Accéder aux données stockées dans Amazon S3

Traiter les données XPT

Charger les sorties sur Amazon S3

Nettoyer

Défis

Conclusion

Ressources

À propos des auteurs

Plus de Apprentissage automatique AWS

Automatisez la classification des demandes de service informatique avec un classificateur personnalisé Amazon Comprehend

Utilisez Amazon Lex pour capturer les adresses postales

« ID + Selfie » – Améliorer la vérification de l'identité numérique à l'aide d'AWS

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte