Amazon SageMaker에서 RStudio를 사용하여 생명과학 산업 PlatoBlockchain Data Intelligence에 대한 규제 제출물을 생성하세요. 수직 검색. 일체 포함.

Amazon SageMaker에서 RStudio를 사용하여 생명 과학 산업에 대한 규제 제출물 생성

미국 식품의약국(FDA) 또는 일본 의약품 및 의료기기청(PMDA)과 같은 규제 기관의 승인을 받아 시장에 의약품을 판매하려는 제약 회사는 해당 의약품이 의도한 대로 안전하고 효과적이라는 증거를 제출해야 합니다. 사용. 의사, 통계학자, 화학자, 약리학자 및 기타 임상 과학자로 구성된 팀이 임상 시험 제출 데이터와 제안된 라벨링을 검토합니다. 검토 결과 해당 약물의 건강상의 이점이 위험을 능가함을 입증하는 충분한 통계적 증거가 있는 것으로 확인되면 해당 약물의 판매가 승인됩니다.

임상 시험 제출 패키지는 표, 분석 데이터, 시험 메타데이터 및 통계표, 목록 및 그림으로 구성된 통계 보고서로 구성됩니다. 미국 FDA의 경우 전자공통기술문서(eCTD)는 FDA 생물의약품평가연구센터(CBER)와 의약품평가연구센터(CBER)에 신청서, 수정, 보완, 보고서를 제출하는 표준 형식이다. CDER). FDA 및 일본 PMDA의 경우 CDISC SDTM(Standard Data Tabulation Model)의 표 데이터, CDISC Analysis Dataset Model(ADAM)의 분석 데이터 및 CDISC Define-XML(운영 데이터 모델 기반)의 시험 메타데이터를 제출하는 것이 규제 요건입니다. (ODM)).

이 포스트에서 우리는 RStudio를 어떻게 사용할 수 있는지 보여줍니다. 아마존 세이지 메이커 그러한 규제 제출 결과물을 생성합니다. 이 게시물은 임상 시험 제출 프로세스, 임상 시험 연구 데이터를 수집하고 데이터를 표로 작성 및 분석한 다음 통계 보고서(요약 표, 데이터 목록 및 수치(TLF))를 만드는 방법에 대해 설명합니다. 이 방법을 사용하면 제약 고객이 AWS 환경에 저장된 임상 데이터에 원활하게 연결하고 R을 사용하여 처리하고 임상 시험 연구 프로세스를 가속화할 수 있습니다.

약물 개발 과정

약물 개발 과정은 다음 그림과 같이 크게 XNUMX단계로 나눌 수 있습니다.

약 10개의 잠재적 분자 중에서 하나의 약물이 성공적인 승인을 받는 데 평균 15~1년이 걸리고 약 3~10,000억 달러가 소요됩니다. 연구의 초기 단계(신약 발견 단계)에서 유망한 약물 후보가 식별되어 전임상 연구로 이동합니다. 전임상 단계에서 연구자들은 다음을 수행하여 약물의 독성을 알아내려고 합니다. 체외에서 실험실에서의 실험과 생체내에서 동물에 대한 실험. 전임상 시험 후, 약물은 안전성과 효능을 확인하기 위해 인간에게 시험되어야 하는 임상 시험 연구 단계로 이동합니다. 연구원은 임상 시험을 설계하고 임상 시험 프로토콜에서 연구 계획을 자세히 설명합니다. 그들은 다양한 임상 연구 단계를 정의합니다. 약물 안전성 및 용량을 결정하기 위한 소규모 1상 연구부터 약물 효능 및 부작용을 결정하기 위한 더 큰 2상 시험, 약물 효능, 안전성 및 용량을 결정하기 위한 더 큰 3상 및 4상 시험에 이르기까지 이상 반응 모니터링. 성공적인 인간 임상 시험 후, 약물 후원자는 약물을 판매하기 위해 신약 신청(NDA)을 제출합니다. 규제 기관은 모든 데이터를 검토하고 처방약 라벨 정보에 대해 스폰서와 협력하고 약물을 승인합니다. 의약품 승인 후, 규제 기관은 완전한 제품의 안전성을 보장하기 위해 시판 후 안전성 보고서를 검토합니다.

1997년에는 제약 회사, CRO, 생명 공학, 학술 기관, 의료 제공자 및 정부 기관으로 구성된 글로벌 비영리 조직인 CDISC(Clinical Data Interchange Standards Consortium)가 자원 봉사 그룹으로 시작되었습니다. CDISC는 수집에서 제출까지의 데이터 흐름을 간소화하고 파트너와 공급자 간의 데이터 교환을 촉진하기 위해 데이터 표준을 발표했습니다. CDISC는 다음 표준을 발표했습니다.

  • CDASH(임상 데이터 수집 표준 조화) – 수집 데이터 기준
  • SDTM(연구 데이터 표 모델) – 표 데이터 제출 기준
  • ADaM(분석 데이터 모델) – 분석자료의 기준
  • SEND(비임상 데이터 교환 표준) – 비임상 데이터 기준
  • PRM(프로토콜 표현 모델) – 프로토콜 표준

이러한 표준은 숙련된 검토자가 표준 도구를 사용하여 데이터를 보다 효과적이고 빠르게 분석하여 약물 승인 시간을 줄이는 데 도움이 될 수 있습니다. SDTM 형식을 사용하여 모든 표 데이터를 제출하는 것은 미국 FDA 및 일본 PMDA의 규제 요구 사항입니다.

R 임상 시험 연구 제출용

SAS 및 R은 제약 산업에서 가장 많이 사용되는 통계 분석 소프트웨어입니다. CDISC에서 SDTM 표준 개발을 시작했을 때 SAS는 제약 산업과 FDA에서 거의 보편적으로 사용되었습니다. 그러나 R은 오픈 소스이기 때문에 요즘 엄청난 인기를 얻고 있으며 새로운 패키지와 라이브러리가 계속 추가되고 있습니다. 학생들은 학업 및 연구 중에 주로 R을 사용하며 R에 대한 이러한 친숙함을 업무에 활용합니다. R은 또한 고급 딥 러닝 통합과 같은 새로운 기술에 대한 지원도 제공합니다.

AWS와 같은 클라우드 제공업체는 이제 제약 고객이 인프라를 호스팅할 수 있는 플랫폼이 되었습니다. AWS는 또한 SageMaker와 같은 관리형 서비스를 제공하므로 클라우드에서 기계 학습(ML) 모델을 손쉽게 생성, 교육 및 배포할 수 있습니다. 또한 SageMaker를 사용하면 웹 브라우저를 통해 어디에서나 RStudio IDE에 액세스할 수 있습니다. 이 게시물은 통계 프로그래머와 생물통계학자가 임상 데이터를 R 환경으로 수집하는 방법, R 코드를 실행하는 방법, 결과를 저장하는 방법에 대해 자세히 설명합니다. 우리는 임상 시험 데이터 과학자가 XPT 파일을 R 환경으로 수집하고, SDTM 및 ADaM용 R 데이터 프레임을 생성하고, 마지막으로 아마존 단순 스토리지 서비스 (Amazon S3) 객체 스토리지 버킷.

SageMaker의 RStudio

2년 2021월 XNUMX일 AWS는 알스튜디오 PBC 발표 일반적인 가용성 SageMaker의 RStudio, 클라우드에서 업계 최초의 완전 관리형 RStudio Workbench IDE. 이제 현재 RStudio 라이선스를 가져와서 몇 가지 간단한 단계를 거쳐 자체 관리형 RStudio 환경을 SageMaker로 쉽게 마이그레이션할 수 있습니다. 이 흥미로운 협업에 대해 자세히 알아보려면 다음을 확인하세요. Amazon SageMaker에서 RStudio 발표.

RStudio Workbench와 함께 R 개발자용 RStudio 제품군은 RStudio Connect 및 RStudio Package Manager도 제공합니다. RStudio Connect는 데이터 과학자가 통찰력, 대시보드 및 웹 애플리케이션을 게시할 수 있도록 설계되었습니다.. 데이터 과학자의 복잡한 작업에서 얻은 ML 및 데이터 과학 통찰력을 쉽게 공유하고 의사 결정자의 손에 전달할 수 있습니다. 또한 RStudio Connect를 사용하면 콘텐츠 호스팅 및 관리를 간단하고 광범위하게 사용할 수 있도록 확장할 수 있습니다.

솔루션 개요

다음 섹션에서는 SageMaker의 RStudio에 있는 원격 리포지토리 또는 S3 버킷에서 원시 데이터를 가져오는 방법에 대해 설명합니다. 에 직접 연결하는 것도 가능합니다. Amazon 관계형 데이터베이스 서비스 (Amazon RDS) 및 다음과 같은 데이터 웨어하우스 아마존 레드 시프트 (참조 Amazon Redshift와 R 연결) RStudio에서 직접; 그러나 이것은 이 게시물의 범위를 벗어납니다. 몇 가지 다른 소스에서 데이터를 수집한 후 이를 처리하고 테이블에 대한 R 데이터 프레임을 생성합니다. 그런 다음 테이블 데이터 프레임을 RTF 파일로 변환하고 결과를 다시 S3 버킷에 저장합니다. 게시물에 사용된 R 패키지가 고객의 규제 제출용으로 검증된 경우 이러한 출력은 규제 제출 목적으로 잠재적으로 사용될 수 있습니다.

SageMaker에서 RStudio 설정

사용자 환경의 SageMaker에서 RStudio를 설정하는 방법에 대한 지침은 다음을 참조하십시오. SageMaker에서 RStudio 시작하기. SageMaker에서 RStudio의 실행 역할에 데이터가 저장된 S3 버킷에 데이터를 다운로드 및 업로드할 수 있는 액세스 권한이 있는지 확인합니다. R 패키지를 관리하고 SageMaker에서 RStudio를 사용하여 분석을 게시하는 방법에 대한 자세한 내용은 다음을 참조하십시오. 데이터 과학자를 위한 SageMaker의 완전 관리형 RStudio 발표.

RStudio로 데이터 수집

이 단계에서는 다양한 소스에서 데이터를 수집하여 R 세션에서 사용할 수 있도록 합니다. SAS XPT 형식으로 데이터를 가져옵니다. 그러나 다른 형식의 데이터를 수집하려는 경우 프로세스가 유사합니다. SageMaker에서 RStudio를 사용할 때의 장점 중 하나는 소스 데이터가 AWS 계정에 저장되어 있으면 SageMaker가 다음을 사용하여 기본적으로 데이터에 액세스할 수 있다는 것입니다. AWS 자격 증명 및 액세스 관리 (IAM) 역할.

원격 저장소에 저장된 데이터 액세스

이 단계에서는 ADaM 데이터를 가져옵니다. FDA의 GitHub 저장소. 라는 로컬 디렉토리를 생성합니다. data RStudio 환경에서 데이터를 저장하고 인구 통계 데이터(dm.xpt) 원격 저장소에서. 이 컨텍스트에서 로컬 디렉터리는 기본적으로 R 세션 환경에 연결된 프라이빗 Amazon EFS 스토리지에서 생성된 디렉터리를 나타냅니다. 다음 코드를 참조하십시오.

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

이 단계가 완료되면 다음을 볼 수 있습니다. dm.xpt 로 이동하여 다운로드 중 파일, 데이터, dm.xpt.

Amazon S3에 저장된 데이터 액세스

이 단계에서는 계정의 S3 버킷에 저장된 데이터를 다운로드합니다. FDA의 GitHub 리포지토리에서 다음 S3 버킷으로 콘텐츠를 복사했습니다. aws-sagemaker-rstudio 이 예의 경우. 다음 코드를 참조하십시오.

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

단계가 완료되면 다음을 볼 수 있습니다. pp.xpt 로 이동하여 다운로드 중 파일, 데이터, pp.xpt.

XPT 데이터 처리

이제 R 환경에서 SAS XPT 파일을 사용할 수 있으므로 R 데이터 프레임으로 변환하고 처리해야 합니다. 우리는 사용 haven XPT 파일을 읽는 라이브러리. CDISC SDTM 데이터 세트를 병합합니다. dmpp ADPP 데이터셋을 생성합니다. 그런 다음 ADPP 데이터 프레임을 사용하여 요약 통계 테이블을 만듭니다. 그런 다음 요약 테이블을 RTF 형식으로 내보냅니다.

먼저 XPT 파일은 다음을 사용하여 읽습니다. read_xpt 헤이븐 라이브러리의 기능. 그런 다음 분석 데이터 세트는 다음을 사용하여 생성됩니다. sqldf 기능 sqldf 도서관. 다음 코드를 참조하십시오.

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

그런 다음 출력 데이터 프레임은 다음의 함수를 사용하여 생성됩니다. Tplyrdplyr 라이브러리:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

그런 다음 출력 데이터 프레임은 RStudio 환경의 출력 폴더에 RTF 파일로 저장됩니다.

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

Amazon S3에 출력 업로드

출력이 생성된 후 데이터를 다시 S3 버킷에 넣습니다. 세션이 아직 활성화되지 않은 경우 SageMaker 세션을 다시 생성하고 session$upload_data 기능:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

이러한 단계를 통해 우리는 데이터를 수집하고 처리하고 규제 당국에 제출할 수 있도록 결과를 업로드했습니다.

정리

의도하지 않은 비용이 발생하지 않도록 하려면 현재 세션을 종료해야 합니다. 페이지 오른쪽 상단에서 전원 아이콘을 선택합니다. 이렇게 하면 기본 인스턴스가 자동으로 중지되므로 의도하지 않은 컴퓨팅 비용이 발생하지 않습니다.

Amazon SageMaker에서 RStudio를 사용하여 생명과학 산업 PlatoBlockchain Data Intelligence에 대한 규제 제출물을 생성하세요. 수직 검색. 일체 포함.

도전

이 게시물은 S3 버킷 또는 원격 리포지토리에 저장된 원시 데이터를 수집하는 단계를 설명했습니다. 그러나 임상 시험을 위한 원시 데이터의 다른 소스가 많이 있습니다. 주로 Oracle Clinical, Medidata Rave, OpenClinica 또는 Snowflake와 같은 EDC(전자 데이터 캡처) 시스템에 저장된 eCRF(전자 사례 보고서 양식) 데이터입니다. 실험실 데이터; eCOA(임상 결과 평가) 및 ePRO(전자 환자 보고 결과)의 데이터; 앱 및 의료 기기의 실제 데이터 및 병원의 전자 건강 기록(EHR). 이 데이터를 규제 제출에 사용할 수 있으려면 상당한 사전 처리가 필요합니다. 적절한 액세스 제어를 유지하면서 다양한 데이터 소스에 대한 커넥터를 구축하고 중앙 집중식 데이터 저장소(CDR) 또는 임상 데이터 레이크에서 수집하는 것은 상당한 문제를 야기합니다.

극복해야 할 또 다른 주요 과제는 규정 준수입니다. 규제 제출 결과를 생성하는 데 사용되는 컴퓨터 시스템은 21 CFR Part 11, HIPAA, GDPR 또는 기타 GxP 요구 사항 또는 ICH 지침과 같은 적절한 규정을 준수해야 합니다. 이는 액세스, 보안, 백업 및 감사 가능성에 대한 제어 기능이 있는 검증되고 적격한 환경에서 작업하는 것으로 해석됩니다. 이는 또한 규제 제출 출력을 생성하는 데 사용되는 모든 R 패키지를 사용하기 전에 검증해야 함을 의미합니다.

결론

이 게시물에서 우리는 eCTD 제출을 위한 주요 결과물 중 일부가 CDISC SDTM, ADaM 데이터 세트 및 TLF임을 확인했습니다. 이 게시물에서는 먼저 몇 가지 소스의 데이터를 SageMaker의 RStudio로 수집하여 이러한 규제 제출 결과물을 만드는 데 필요한 단계를 설명했습니다. 그런 다음 수집된 데이터를 XPT 형식으로 처리하는 방법을 보았습니다. R 데이터 프레임으로 변환하여 SDTM, ADaM 및 TLF를 생성합니다. 그런 다음 마지막으로 결과를 S3 버킷에 업로드합니다.

포스트에 나와 있는 광범위한 아이디어를 통해 통계 프로그래머와 생물통계학자가 임상 시험 연구 데이터를 SageMaker의 RStudio에 로드, 처리 및 분석하는 종단 간 프로세스를 쉽게 시각화하고 학습 내용을 사용하여 사용자 정의를 정의할 수 있기를 바랍니다. 규제 제출에 적합한 워크플로.

RStudio를 사용하여 연구원, 통계학자 및 R 프로그래머가 삶을 더 쉽게 만드는 데 도움이 되는 다른 응용 프로그램을 생각할 수 있습니까? 여러분의 아이디어를 듣고 싶습니다! 그리고 질문이 있으면 의견 섹션에서 공유하십시오.

자료

자세한 내용은 다음 링크를 참조하십시오.


저자 소개

Amazon SageMaker에서 RStudio를 사용하여 생명과학 산업 PlatoBlockchain Data Intelligence에 대한 규제 제출물을 생성하세요. 수직 검색. 일체 포함.로힛 방가 영국 런던에 기반을 둔 글로벌 임상 개발 산업 전문가입니다. 그는 교육을 받은 생물통계학자이며 Healthcare 및 LifeScience 고객이 AWS에서 혁신적인 임상 개발 솔루션을 배포하도록 돕습니다. 그는 데이터 과학, AI/ML 및 새로운 기술을 사용하여 의료 및 생명과학 산업 내에서 실제 비즈니스 문제를 해결하는 방법에 대해 열정적입니다. 여가 시간에 Rohit은 스키, 바베큐, 가족 및 친구들과 시간을 보내는 것을 즐깁니다.

Amazon SageMaker에서 RStudio를 사용하여 생명과학 산업 PlatoBlockchain Data Intelligence에 대한 규제 제출물을 생성하세요. 수직 검색. 일체 포함.게오르기오스 쉬나스 EMEA 지역의 AI/ML 전문 솔루션 설계자입니다. 그는 런던에 기반을 두고 있으며 영국 및 아일랜드의 고객과 긴밀하게 협력하고 있습니다. Georgios는 고객이 MLOps 사례에 특히 관심을 갖고 AWS의 프로덕션 환경에서 기계 학습 애플리케이션을 설계 및 배포하고 고객이 대규모로 기계 학습을 수행할 수 있도록 지원합니다. 여가 시간에는 여행, 요리, 친구 및 가족과 함께 시간을 보내는 것을 즐깁니다.

타임 스탬프 :

더보기 AWS 기계 학습