استخدم RStudio على Amazon SageMaker لإنشاء عمليات إرسال تنظيمية لصناعة علوم الحياة PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

استخدم RStudio على Amazon SageMaker لإنشاء عمليات إرسال تنظيمية لصناعة علوم الحياة

يجب على شركات الأدوية التي تسعى للحصول على موافقة من الهيئات التنظيمية مثل إدارة الغذاء والدواء الأمريكية (FDA) أو وكالة الأدوية والأجهزة الطبية اليابانية (PMDA) لبيع أدويتهم في السوق تقديم دليل يثبت أن أدويتهم آمنة وفعالة للغرض المقصود منها استعمال. يقوم فريق من الأطباء والإحصائيين والكيميائيين وعلماء الصيدلة وعلماء سريريين آخرين بمراجعة بيانات تقديم التجارب السريرية ووضع العلامات المقترحة. إذا أثبتت المراجعة أن هناك أدلة إحصائية كافية لإثبات أن الفوائد الصحية للدواء تفوق المخاطر ، تمت الموافقة على بيع الدواء.

تتكون حزمة تقديم التجارب السريرية من بيانات مجدولة ، وبيانات التحليل ، وبيانات وصفية للتجارب ، وتقارير إحصائية تتكون من جداول إحصائية ، وقوائم ، وأرقام. في حالة إدارة الغذاء والدواء الأمريكية ، فإن المستند التقني المشترك الإلكتروني (eCTD) هو التنسيق القياسي لتقديم الطلبات والتعديلات والمكملات والتقارير إلى مركز تقييم وبحوث البيولوجيا التابع لإدارة الغذاء والدواء (CBER) ومركز تقييم الأدوية والبحوث ( CDER). بالنسبة لـ FDA و PMDA اليابانية ، من المتطلبات التنظيمية تقديم البيانات المجدولة في نموذج جدولة البيانات القياسي CDISC (SDTM) ، وتحليل البيانات في نموذج مجموعة بيانات تحليل CDISC (ADaM) ، والبيانات الوصفية التجريبية في CDISC Define-XML (بناءً على نموذج البيانات التشغيلية (ODM)).

في هذا المنشور ، نوضح كيف يمكننا استخدام RStudio على الأمازون SageMaker لإنشاء مثل هذه التسليمات التنظيمية. يصف هذا المنشور عملية تقديم التجارب السريرية ، وكيف يمكننا استيعاب بيانات أبحاث التجارب السريرية ، وجدولة البيانات وتحليلها ، ثم إنشاء تقارير إحصائية - جداول موجزة ، وقوائم بيانات ، وأرقام (TLF). يمكن أن تمكّن هذه الطريقة عملاء المستحضرات الصيدلانية من الاتصال بسلاسة بالبيانات السريرية المخزنة في بيئة AWS الخاصة بهم ، ومعالجتها باستخدام R ، والمساعدة في تسريع عملية البحث التجريبي السريري.

عملية تطوير الأدوية

يمكن تقسيم عملية تطوير الدواء بشكل عام إلى خمس خطوات رئيسية ، كما هو موضح في الشكل التالي.

يستغرق الأمر في المتوسط ​​من 10 إلى 15 عامًا وحوالي 1 إلى 3 مليار دولار أمريكي للحصول على موافقة ناجحة من حوالي 10,000 جزيء محتمل. خلال المراحل المبكرة من البحث (مرحلة اكتشاف الدواء) ، يتم تحديد الأدوية المرشحة الواعدة ، والتي تنتقل أكثر إلى البحث قبل السريري. خلال المرحلة قبل السريرية ، يحاول الباحثون اكتشاف سمية الدواء عن طريق الأداء المختبر تجارب في المختبر و في الجسم الحي تجارب على الحيوانات. بعد الاختبارات قبل السريرية ، تنتقل الأدوية إلى مرحلة البحث في التجارب السريرية ، حيث يجب اختبارها على البشر للتأكد من سلامتها وفعاليتها. يقوم الباحثون بتصميم التجارب السريرية وتفصيل الخطة الدراسية في بروتوكول التجارب السريرية. إنهم يحددون مراحل البحث الإكلينيكي المختلفة - من دراسات المرحلة الأولى الصغيرة لتحديد سلامة الدواء وجرعته ، إلى تجارب المرحلة الثانية الأكبر لتحديد فعالية الدواء والآثار الجانبية ، إلى تجارب أكبر للمرحلة الثالثة والرابعة لتحديد فعالية الدواء ، وسلامته ، و مراقبة ردود الفعل السلبية. بعد التجارب السريرية البشرية الناجحة ، قدم راعي الدواء تطبيق دواء جديد (NDA) لتسويق الدواء. تقوم الهيئات التنظيمية بمراجعة جميع البيانات ، والعمل مع الجهة الراعية بشأن معلومات توسيم الوصفات الطبية ، والموافقة على الدواء. بعد الموافقة على الدواء ، تقوم الهيئات التنظيمية بمراجعة تقارير السلامة بعد التسويق لضمان سلامة المنتج بالكامل.

في عام 1997 ، بدأ اتحاد معايير تبادل البيانات السريرية (CDISC) ، وهو منظمة عالمية غير ربحية تتألف من شركات الأدوية ، و CROs ، والتكنولوجيا الحيوية ، والمؤسسات الأكاديمية ، ومقدمي الرعاية الصحية ، والوكالات الحكومية ، كمجموعة تطوعية. نشرت CDISC معايير البيانات لتبسيط تدفق البيانات من التجميع من خلال التقديمات ، وتسهيل تبادل البيانات بين الشركاء ومقدمي الخدمات. نشر CDISC المعايير التالية:

  • CDASH (تنسيق معايير الحصول على البيانات السريرية) - معايير البيانات المجمعة
  • SDTM (نموذج جدولة بيانات الدراسة) - معايير تقديم البيانات المجدولة
  • ADaM (نموذج بيانات التحليل) - معايير تحليل البيانات
  • إرسال (معيار تبادل البيانات غير السريرية) - معايير البيانات غير السريرية
  • PRM (نموذج تمثيل البروتوكول) - معايير البروتوكول

يمكن أن تساعد هذه المعايير المراجعين المدربين على تحليل البيانات بشكل أكثر فعالية وسرعة باستخدام الأدوات القياسية ، وبالتالي تقليل أوقات الموافقة على الأدوية. إنه مطلب تنظيمي من إدارة الغذاء والدواء الأمريكية وشركة PMDA اليابانية لتقديم جميع البيانات المجدولة باستخدام تنسيق SDTM.

R لتقديم أبحاث التجارب السريرية

SAS و R هما من أكثر برامج التحليل الإحصائي استخدامًا في صناعة المستحضرات الصيدلانية. عندما بدأ تطوير معايير SDTM من قبل CDISC ، كان SAS في الاستخدام الشامل تقريبًا في صناعة الأدوية وفي إدارة الغذاء والدواء. ومع ذلك ، فإن R تكتسب شعبية هائلة في الوقت الحاضر لأنها مفتوحة المصدر ، ويتم إضافة حزم ومكتبات جديدة باستمرار. يستخدم الطلاب R بشكل أساسي أثناء دراستهم الأكاديمية وأبحاثهم ، ويأخذون هذه المعرفة بـ R في وظائفهم. يقدم R أيضًا دعمًا للتقنيات الناشئة مثل تكامل التعلم العميق المتقدم.

أصبح مقدمو الخدمات السحابية مثل AWS الآن النظام الأساسي المفضل لعملاء المستحضرات الصيدلانية لاستضافة البنية التحتية الخاصة بهم. توفر AWS أيضًا خدمات مُدارة مثل SageMaker ، مما يجعل إنشاء نماذج التعلم الآلي (ML) وتدريبها ونشرها في السحابة أمرًا يسيرًا. يسمح SageMaker أيضًا بالوصول إلى RStudio IDE من أي مكان عبر متصفح الويب. يوضح هذا المنشور كيف يمكن للمبرمجين الإحصائيين والإحصائيين الحيويين استيعاب بياناتهم السريرية في بيئة R ، وكيف يمكن تشغيل كود R ، وكيفية تخزين النتائج. نحن نقدم مقتطفات من التعليمات البرمجية التي تسمح لعلماء بيانات التجارب السريرية باستيعاب ملفات XPT في بيئة R ، وإنشاء إطارات بيانات R لـ SDTM و ADaM ، وأخيراً إنشاء TLF التي يمكن تخزينها في خدمة تخزين أمازون البسيطة (Amazon S3) حاوية تخزين عنصر.

RStudio على SageMaker

في 2 نوفمبر 2021 ، AWS بالتعاون مع ارستوديو بي بي سي أعلن توافر العام لل RStudio على SageMaker، هو أول بيئة تطوير متكاملة RStudio Workbench IDE مُدارة بالكامل في الصناعة في السحابة. يمكنك الآن إحضار ترخيص RStudio الحالي الخاص بك لترحيل بيئات RStudio المدارة ذاتيًا بسهولة إلى SageMaker في بضع خطوات بسيطة. لمعرفة المزيد حول هذا التعاون المثير ، تحقق من الإعلان عن RStudio على Amazon SageMaker.

إلى جانب RStudio Workbench ، تقدم مجموعة RStudio لمطوري R أيضًا RStudio Connect و RStudio Package Manager. تم تصميم RStudio Connect للسماح لعلماء البيانات بنشر الأفكار ولوحات المعلومات وتطبيقات الويب. إنه يجعل من السهل مشاركة رؤى تعلم الآلة وعلوم البيانات من العمل المعقد لعلماء البيانات ووضعها في أيدي صانعي القرار. يجعل RStudio Connect أيضًا استضافة المحتوى وإدارته أمرًا بسيطًا وقابلًا للتطوير للاستهلاك على نطاق واسع.

حل نظرة عامة

في الأقسام التالية ، نناقش كيف يمكننا استيراد البيانات الأولية من مستودع بعيد أو حاوية S3 في RStudio على SageMaker. من الممكن أيضًا الاتصال مباشرة بـ خدمة قاعدة بيانات الأمازون (Amazon RDS) ومستودعات البيانات مثل الأمازون الأحمر (انظر ربط R بـ Amazon Redshift) مباشرة من RStudio ؛ ومع ذلك ، هذا خارج نطاق هذا المنشور. بعد استيعاب البيانات من عدة مصادر مختلفة ، نقوم بمعالجتها وإنشاء إطارات بيانات R للجدول. ثم نقوم بتحويل إطار بيانات الجدول إلى ملف RTF وتخزين النتائج مرة أخرى في دلو S3. يمكن بعد ذلك استخدام هذه المخرجات لأغراض التقديم التنظيمي ، بشرط التحقق من صحة حزم R المستخدمة في المنشور لاستخدامها في التقديمات التنظيمية من قبل العميل.

قم بإعداد RStudio على SageMaker

للحصول على إرشادات حول إعداد RStudio على SageMaker في بيئتك ، ارجع إلى ابدأ مع RStudio على SageMaker. تأكد من أن دور التنفيذ الخاص بـ RStudio على SageMaker لديه حق الوصول لتنزيل البيانات وتحميلها إلى حاوية S3 حيث يتم تخزين البيانات. لمعرفة المزيد حول كيفية إدارة حزم R ونشر تحليلك باستخدام RStudio على SageMaker ، ارجع إلى الإعلان عن RStudio مُدار بالكامل على SageMaker لعلماء البيانات.

استيعاب البيانات في RStudio

في هذه الخطوة ، نستوعب البيانات من مصادر مختلفة لإتاحتها لجلسة R. نقوم باستيراد البيانات بتنسيق SAS XPT ؛ ومع ذلك ، فإن العملية مماثلة إذا كنت ترغب في استيعاب البيانات بتنسيقات أخرى. تتمثل إحدى مزايا استخدام RStudio على SageMaker في أنه إذا تم تخزين بيانات المصدر في حسابات AWS الخاصة بك ، فيمكن لـ SageMaker الوصول أصلاً إلى البيانات باستخدام إدارة الهوية والوصول AWS (IAM) الأدوار.

الوصول إلى البيانات المخزنة في مستودع بعيد

في هذه الخطوة ، نقوم باستيراد بيانات ADaM من ملف مستودع GitHub التابع لإدارة الغذاء والدواء. نقوم بإنشاء دليل محلي يسمى data في بيئة RStudio لتخزين البيانات وتنزيل البيانات الديموغرافية (dm.xpt) من المستودع البعيد. في هذا السياق ، يشير الدليل المحلي إلى دليل تم إنشاؤه على مخزن Amazon EFS الخاص بك والذي يتم إرفاقه افتراضيًا ببيئة جلسة R الخاصة بك. انظر الكود التالي:

######################################################
# Step 1.1 – Ingest Data from Remote Data Repository #
######################################################

# Remote Data Path 
raw_data_url = “https://github.com/FDA/PKView/raw/master/Installation%20Package/OCP/data/clinical/DRUG000/0000/m5/datasets/test001/tabulations/sdtm”
raw_data_name = “dm.xpt”

#Create Local Directory to store downloaded files
dir.create(“data”)
local_file_location <- paste0(getwd(),”/data/”)
download.file(raw_data_url, paste0(local_file_location,raw_data_name))

عندما تكتمل هذه الخطوة ، يمكنك أن ترى dm.xpt يتم تنزيله بالانتقال إلى ملفات, البيانات, dm.xpt.

الوصول إلى البيانات المخزنة في Amazon S3

في هذه الخطوة ، نقوم بتنزيل البيانات المخزنة في حاوية S3 في حسابنا. لقد قمنا بنسخ المحتويات من مستودع GitHub التابع لإدارة الأغذية والعقاقير إلى دلو S3 المسمى aws-sagemaker-rstudio على هذا المثال. انظر الكود التالي:

#####################################################
# Step 1.2 - Ingest Data from S3 Bucket             #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()

s3_bucket = "aws-sagemaker-rstudio"
s3_key = "DRUG000/test001/tabulations/sdtm/pp.xpt"

session$download_data(local_file_location, s3_bucket, s3_key)

عندما تكتمل الخطوة ، يمكنك أن ترى pp.xpt يتم تنزيله بالانتقال إلى ملفات, البيانات, ص.

معالجة بيانات XPT

الآن بعد أن أصبح لدينا ملفات SAS XPT متوفرة في بيئة R ، نحتاج إلى تحويلها إلى إطارات بيانات R ومعالجتها. نحن نستخدم ال haven مكتبة لقراءة ملفات XPT. نقوم بدمج مجموعات بيانات CDISC SDTM dm و pp لإنشاء مجموعة بيانات ADPP. ثم نقوم بإنشاء جدول إحصائي ملخص باستخدام إطار بيانات ADPP. ثم يتم تصدير جدول الملخص في تنسيق RTF.

أولاً ، تتم قراءة ملفات XPT باستخدام امتداد read_xpt وظيفة مكتبة الملاذ. ثم يتم إنشاء مجموعة بيانات التحليل باستخدام sqldf وظيفة من sqldf مكتبة. انظر الكود التالي:

########################################################
# Step 2.1 - Read XPT files. Create Analysis dataset.  #
########################################################

library(haven)
library(sqldf)


# Read XPT Files, convert them to R data frame
dm = read_xpt("data/dm.xpt")
pp = read_xpt("data/pp.xpt")

# Create ADaM dataset
adpp = sqldf("select a.USUBJID
                    ,a.PPCAT as ACAT
                    ,a.PPTESTCD
                    ,a.PPTEST
                    ,a.PPDTC
                    ,a.PPSTRESN as AVAL
                    ,a.VISIT as AVISIT
                    ,a.VISITNUM as AVISITN
                    ,b.sex
                from pp a 
           left join dm b 
                  on a.usubjid = b.usubjid
             ")

بعد ذلك ، يتم إنشاء إطار بيانات الإخراج باستخدام وظائف من ملف Tplyr و dplyr المكتبات:

########################################################
# Step 2.2 - Create output table                       #
########################################################

library(Tplyr)
library(dplyr)

t = tplyr_table(adpp, SEX) %>% 
  add_layer(
    group_desc(AVAL, by = "Area under the concentration-time curve", where= PPTESTCD=="AUC") %>% 
      set_format_strings(
        "n"        = f_str("xx", n),
        "Mean (SD)"= f_str("xx.x (xx.xx)", mean, sd),
        "Median"   = f_str("xx.x", median),
        "Q1, Q3"   = f_str("xx, xx", q1, q3),
        "Min, Max" = f_str("xx, xx", min, max),
        "Missing"  = f_str("xx", missing)
      )
  )  %>% 
  build()

output = t %>% 
  rename(Variable = row_label1,Statistic = row_label2,Female =var1_F, Male = var1_M) %>% 
  select(Variable,Statistic,Female, Male)

يتم بعد ذلك تخزين إطار بيانات الإخراج كملف RTF في مجلد الإخراج في بيئة RStudio:

#####################################################
# Step 3 - Save the Results as RTF                  #
#####################################################
library(rtf)

dir.create("output")
rtf = RTF("output/tab_adpp.rtf")  
addHeader(rtf,title="Section 1 - Tables", subtitle="This Section contains all tables")
addParagraph(rtf, "Table 1 - Pharmacokinetic Parameters by Sex:n")
addTable(rtf, output)
done(rtf)

تحميل المخرجات إلى Amazon S3

بعد إنشاء المخرجات ، نعيد البيانات إلى حاوية S3. يمكننا تحقيق ذلك عن طريق إنشاء جلسة SageMaker مرة أخرى ، إذا لم تكن الجلسة نشطة بالفعل ، وتحميل محتويات مجلد الإخراج إلى حاوية S3 باستخدام session$upload_data وظيفة:

#####################################################
# Step 4 - Upload outputs to S3                     #
#####################################################
library("reticulate")

SageMaker = import('sagemaker')
session <- SageMaker$Session()
s3_bucket = "aws-sagemaker-rstudio"
output_location = "output/"
s3_folder_name = "output"
session$upload_data(output_location, s3_bucket, s3_folder_name)

من خلال هذه الخطوات ، استوعبنا البيانات وعالجناها وحملنا النتائج لتكون متاحة لتقديمها إلى السلطات التنظيمية.

تنظيف

لتجنب تكبد أي تكاليف غير مقصودة ، عليك إنهاء جلستك الحالية. في الزاوية العلوية اليمنى من الصفحة ، اختر رمز الطاقة. سيؤدي هذا إلى إيقاف المثيل الأساسي تلقائيًا وبالتالي يتوقف عن تكبد أي تكاليف حساب غير مقصودة.

استخدم RStudio على Amazon SageMaker لإنشاء عمليات إرسال تنظيمية لصناعة علوم الحياة PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

التحديات

حدد المنشور خطوات استيعاب البيانات الأولية المخزنة في حاوية S3 أو من مستودع بعيد. ومع ذلك ، هناك العديد من المصادر الأخرى للبيانات الأولية للتجربة السريرية ، وبشكل أساسي بيانات eCRF (نماذج تقرير الحالة الإلكترونية) المخزنة في أنظمة EDC (التقاط البيانات الإلكترونية) مثل Oracle Clinical أو Medidata Rave أو OpenClinica أو Snowflake ؛ بيانات المختبر بيانات من eCOA (تقييم النتائج السريرية) و ePRO (النتائج الإلكترونية التي يبلغ عنها المريض) ؛ بيانات العالم الحقيقي من التطبيقات والأجهزة الطبية ؛ والسجلات الصحية الإلكترونية (EHRs) في المستشفيات. يتم تضمين المعالجة المسبقة الهامة قبل أن تصبح هذه البيانات قابلة للاستخدام في التقديمات التنظيمية. يشكل بناء موصلات لمصادر بيانات مختلفة وتجميعها في مستودع بيانات مركزي (CDR) أو بحيرة بيانات إكلينيكية ، مع الحفاظ على ضوابط الوصول المناسبة ، تحديات كبيرة.

التحدي الرئيسي الآخر الذي يجب التغلب عليه هو الامتثال التنظيمي. يجب أن يكون نظام الكمبيوتر المستخدم لإنشاء مخرجات التقديم التنظيمية متوافقًا مع اللوائح المناسبة ، مثل 21 CFR Part 11 أو HIPAA أو GDPR أو أي متطلبات GxP أخرى أو إرشادات ICH. يُترجم هذا إلى العمل في بيئة مؤهلة ومعتمدة مع وجود ضوابط للوصول والأمان والنسخ الاحتياطي وقابلية التدقيق. هذا يعني أيضًا أنه يجب التحقق من صحة أي حزم R تُستخدم لإنشاء مخرجات تقديم تنظيمية قبل الاستخدام.

وفي الختام

في هذا المنشور ، رأينا أن بعض الإنجازات الرئيسية لتقديم eCTD كانت CDISC SDTM ومجموعات بيانات ADaM و TLF. حدد هذا المنشور الخطوات اللازمة لإنشاء مخرجات التقديم التنظيمية هذه عن طريق استيعاب البيانات أولاً من عدة مصادر في RStudio على SageMaker. ثم رأينا كيف يمكننا معالجة البيانات التي تم إدخالها بتنسيق XPT ؛ تحويلها إلى إطارات بيانات R لإنشاء SDTM و ADaM و TLF ؛ ثم أخيرًا قم بتحميل النتائج إلى حاوية S3.

نأمل أنه من خلال الأفكار العامة الموضحة في المنشور ، يمكن للمبرمجين الإحصائيين وعلماء الإحصاء الحيوي تصور بسهولة العملية الشاملة لتحميل بيانات التجارب السريرية ومعالجتها وتحليلها في RStudio على SageMaker واستخدام ما تعلمته لتعريف مخصص سير العمل المناسب لعمليات الإرسال التنظيمية الخاصة بك.

هل يمكنك التفكير في أي تطبيقات أخرى لاستخدام RStudio لمساعدة الباحثين والإحصائيين ومبرمجي R على تسهيل حياتهم؟ نود أن نسمع عن أفكارك! وإذا كان لديك أي أسئلة ، يرجى مشاركتها في قسم التعليقات.

الموارد

لمزيد من المعلومات قم بزيارة الروابط التالية:


عن المؤلفين

استخدم RStudio على Amazon SageMaker لإنشاء عمليات إرسال تنظيمية لصناعة علوم الحياة PlatoBlockchain Data Intelligence. البحث العمودي. عاي.روهيت بانجا هو متخصص عالمي في صناعة التنمية السريرية ومقره لندن ، المملكة المتحدة. وهو خبير إحصائي حيوي من خلال التدريب ويساعد عملاء الرعاية الصحية و LifeScience على نشر حلول تطوير سريرية مبتكرة على AWS. إنه متحمس لكيفية استخدام علوم البيانات والذكاء الاصطناعي / تعلم الآلة والتقنيات الناشئة لحل مشاكل العمل الحقيقية في مجال الرعاية الصحية وعلوم الحياة. في أوقات فراغه ، يستمتع روهيت بالتزلج والشواء وقضاء الوقت مع العائلة والأصدقاء.

استخدم RStudio على Amazon SageMaker لإنشاء عمليات إرسال تنظيمية لصناعة علوم الحياة PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جورجيوس شيناس مهندس حلول متخصص للذكاء الاصطناعي / تعلم الآلة في منطقة أوروبا والشرق الأوسط وإفريقيا. يقيم في لندن ويعمل بشكل وثيق مع العملاء في المملكة المتحدة وأيرلندا. يساعد Georgios العملاء على تصميم ونشر تطبيقات التعلم الآلي في الإنتاج على AWS مع اهتمام خاص بممارسات MLOps وتمكين العملاء من أداء التعلم الآلي على نطاق واسع. في أوقات فراغه ، يستمتع بالسفر والطهي وقضاء الوقت مع الأصدقاء والعائلة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS