قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler

شارك في كتابة هذا المنشور شيبانجي ساها ، عالم البيانات ، وجراسييلا كرافتزوف ، الشريك المؤسس والمدير التقني لشركة Equilibrium Point.

يعاني العديد من الأفراد من أعراض جديدة للمرض العقلي ، مثل التوتر والقلق والاكتئاب وتعاطي المخدرات واضطراب ما بعد الصدمة (PTSD). وفق مؤسسة كايزر فاميليأبلغ حوالي نصف البالغين (47٪) على الصعيد الوطني عن آثار سلبية على الصحة العقلية أثناء الجائحة ، وهي زيادة كبيرة عن مستويات ما قبل الجائحة. بالإضافة إلى ذلك ، فإن بعض الأجناس والفئات العمرية هم من بين الأكثر عرضة للإبلاغ عن التوتر والقلق ، بمعدلات أعلى بكثير من غيرهم. بالإضافة إلى ذلك ، من المرجح أن تبلغ مجموعات عرقية معينة عن "تأثير كبير" على صحتها العقلية أكثر من غيرها.

أظهرت العديد من الاستطلاعات ، بما في ذلك تلك التي جمعتها مراكز السيطرة على الأمراض (CDC) ، زيادات كبيرة في أعراض الصحة السلوكية المبلغ عنها ذاتيًا. وفقًا لتقرير CDC ، الذي شمل البالغين في جميع أنحاء الولايات المتحدة في أواخر يونيو من عام 2020 ، أبلغ 31٪ من المشاركين عن أعراض القلق أو الاكتئاب ، وأفاد 13٪ أنهم بدأوا أو زادوا من تعاطي المخدرات ، وأبلغ 26٪ عن أعراض مرتبطة بالتوتر ، و 11٪ أبلغت عن وجود أفكار جدية بالانتحار في الثلاثين يومًا الماضية.

يمكن أن تخضع البيانات المبلغ عنها ذاتيًا ، على الرغم من أهميتها المطلقة في تشخيص اضطرابات الصحة العقلية ، للتأثيرات المتعلقة بالوصمة المستمرة التي تحيط بالصحة العقلية وعلاج الصحة العقلية. بدلاً من الاعتماد فقط على البيانات المبلغ عنها ذاتيًا ، يمكننا تقدير الاضطراب العقلي والتنبؤ به باستخدام بيانات من السجلات الصحية وبيانات المطالبات لمحاولة الإجابة على سؤال أساسي: هل يمكننا توقع من سيحتاج على الأرجح إلى مساعدة الصحة العقلية قبل أن يحتاج إليها؟ إذا أمكن تحديد هؤلاء الأفراد ، يمكن تطوير برامج التدخل المبكر والموارد ونشرها للاستجابة لأي أعراض جديدة أو زيادة في الأعراض الأساسية للتخفيف من آثار وتكاليف الاضطرابات النفسية.

القول أسهل من الفعل بالنسبة لأولئك الذين عانوا في إدارة ومعالجة كميات كبيرة من بيانات المطالبات المعقدة والمليئة بالفجوات! في هذا المنشور ، نشارك كيف نقطة التوازن إنترنت الأشياء مستعمل أمازون سيج ميكر داتا رانجلر لتبسيط إعداد بيانات المطالبات لحالة استخدام الصحة العقلية الخاصة بنا ، مع ضمان جودة البيانات خلال كل خطوة في العملية.

حل نظرة عامة

يعد إعداد البيانات أو هندسة الميزات عملية شاقة ، تتطلب من علماء البيانات والمهندسين ذوي الخبرة قضاء الكثير من الوقت والجهد في صياغة وصفات للتحولات (الخطوات) المختلفة اللازمة للحصول على البيانات في شكلها الصحيح. في الواقع ، تُظهر الأبحاث أن إعداد البيانات للتعلم الآلي (ML) يستهلك ما يصل إلى 80٪ من وقت علماء البيانات. عادةً ما يستخدم العلماء والمهندسون العديد من أطر معالجة البيانات ، مثل Pandas و PySpark و SQL ، لترميز تحويلاتهم وإنشاء وظائف معالجة موزعة. باستخدام Data Wrangler ، يمكنك أتمتة هذه العملية. البيانات رانجلر هو أحد مكونات أمازون ساجميكر ستوديو يوفر حلاً شاملاً لاستيراد البيانات وإعدادها وتحويلها وتميزها وتحليلها. يمكنك دمج Data Wrangler تدفق البيانات في تدفقات عمل ML الحالية لتبسيط وتبسيط معالجة البيانات وهندسة الميزات باستخدام القليل من الترميز أو بدونه.

في هذا المنشور ، نتصفح الخطوات لتحويل مجموعات البيانات الأولية الأصلية إلى ميزات جاهزة لـ ML لاستخدامها في بناء نماذج التنبؤ في المرحلة التالية. أولاً ، نتعمق في طبيعة مجموعات البيانات المختلفة المستخدمة لحالة الاستخدام الخاصة بنا وكيف انضممنا إلى مجموعات البيانات هذه عبر Data Wrangler. بعد الصلات ودمج مجموعة البيانات ، نصف التحويلات الفردية التي طبقناها على مجموعة البيانات مثل إلغاء التكرار ، والتعامل مع القيم المفقودة ، والصيغ المخصصة ، متبوعًا بكيفية استخدامنا لتحليل النموذج السريع المدمج للتحقق من صحة الحالة الحالية للتحولات للتنبؤات.

قواعد البيانات

بالنسبة لتجربتنا ، قمنا أولاً بتنزيل بيانات المريض من عميل الصحة السلوكية لدينا. تتضمن هذه البيانات ما يلي:

  • بيانات المطالبات
  • تهم زيارة غرفة الطوارئ
  • عدد زيارات المرضى الداخليين
  • تهم الوصفات الطبية المتعلقة بالصحة العقلية
  • يقوم ترميز الحالة الهرمية (HCC) بتشخيص التهم المتعلقة بالصحة العقلية

كان الهدف هو الانضمام إلى مجموعات البيانات المنفصلة هذه بناءً على هوية المريض واستخدام البيانات للتنبؤ بتشخيص الصحة العقلية. استخدمنا Data Wrangler لإنشاء مجموعة بيانات ضخمة تتكون من عدة ملايين من صفوف البيانات ، وهي عبارة عن ضم خمس مجموعات بيانات منفصلة. استخدمنا أيضًا Data Wrangler لإجراء العديد من التحويلات للسماح بحسابات الأعمدة. في الأقسام التالية ، نصف تحويلات إعداد البيانات المختلفة التي طبقناها.

قم بإسقاط الأعمدة المكررة بعد الصلة

يوفر Amazon SageMaker Data Wrangler العديد من عمليات تحويل بيانات تعلم الآلة لتبسيط تنظيف بياناتك وتحويلها وتميزها. عند إضافة تحويل ، فإنه يضيف خطوة إلى تدفق البيانات. يقوم كل تحويل تضيفه بتعديل مجموعة البيانات الخاصة بك وينتج إطار بيانات جديدًا. تنطبق جميع عمليات التحويل اللاحقة على إطار البيانات الناتج. يتضمن Data Wrangler تحويلات مضمنة ، والتي يمكنك استخدامها لتحويل الأعمدة بدون أي كود. يمكنك أيضًا إضافة تحويلات مخصصة باستخدام PySpark و Pandas و PySpark SQL. تعمل بعض التحويلات في مكانها ، بينما يقوم البعض الآخر بإنشاء عمود إخراج جديد في مجموعة البيانات الخاصة بك.

بالنسبة لتجاربنا ، نظرًا لأنه بعد كل انضمام في معرف المريض ، تم ترك أعمدة معرّف المريض مكررة. كنا بحاجة إلى إسقاط هذه الأعمدة. لقد أسقطنا عمود معرف المريض الصحيح ، كما هو موضح في لقطة الشاشة التالية باستخدام الجهاز المدمج مسبقًا إدارة الأعمدة ->عمود الإسقاط تحويل ، للاحتفاظ فقط بعمود معرف مريض واحد (معرف المريض في مجموعة البيانات النهائية).

ML8274-image001

اجعل مجموعة بيانات محورية باستخدام Pandas

كانت مجموعات بيانات المطالبات على مستوى المريض مع زيارة الطوارئ (ER) ، والمرضى الداخليين (IP) ، وعدد الوصفات الطبية ، وبيانات التشخيص التي تم تجميعها بالفعل حسب أكواد HCC المراسلة (حوالي 189 رمزًا). لبناء سوق بيانات للمريض ، نقوم بتجميع أكواد HCC للمطالبات حسب المريض ونقوم بتوجيه رمز HCC من الصفوف إلى الأعمدة. استخدمنا Pandas لتدوير مجموعة البيانات ، وحساب عدد أكواد HCC حسب المريض ، ثم الانضمام إلى مجموعة البيانات الأساسية في معرف المريض. استخدمنا خيار التحويل المخصص في Data Wrangler باختيار Python (Pandas) كإطار عمل مفضل.

ML8274-image002

يُظهر مقتطف الشفرة التالي منطق التحويل لمحور الجدول:

# Table is available as variable df
import pandas as pd
import numpy as np table = pd.pivot_table(df, values = 'claim_count', index=['patient_id0'], columns = 'hcc', fill_value=0).reset_index()
df = table

إنشاء أعمدة جديدة باستخدام الصيغ المخصصة

لقد درسنا الأدبيات البحثية لتحديد أكواد سرطان الكبد (HCC) التي تعتبر حاسمة في تشخيصات الصحة العقلية. قمنا بعد ذلك بكتابة هذا المنطق باستخدام تحويل صيغة Data Wrangler المخصص الذي يستخدم تعبير Spark SQL لحساب العمود الهدف لتشخيص الصحة العقلية (MH) ، والذي أضفناه إلى نهاية DataFrame.

ML8274-image003

استخدمنا منطق التحويل التالي:

# Output: MH
IF (HCC_Code_11 > 0 or HCC_Code_22 > 0 or HCC_Code_23 > 0 or HCC_Code_54 > 0 or HCC_Code_55 > 0 or HCC_Code_57 > 0 or HCC_Code_72 > 0, 1, 0)

قم بإسقاط الأعمدة من DataFrame باستخدام PySpark

بعد حساب العمود الهدف (MH) ، أسقطنا جميع الأعمدة المكررة غير الضرورية. احتفظنا بمعرف المريض وعمود MH للانضمام إلى مجموعة البيانات الأساسية الخاصة بنا. تم تسهيل ذلك من خلال تحويل SQL مخصص يستخدم PySpark SQL كإطار عمل من اختيارنا.

ML8274-image005

استخدمنا المنطق التالي:

/* Table is available as variable df */ select MH, patient_id0 from df

انقل العمود MH للبدء

تتطلب خوارزمية ML الخاصة بنا أن يكون الإدخال المسمى في العمود الأول. لذلك ، قمنا بنقل العمود المحسوب MH إلى بداية DataFrame ليكون جاهزًا للتصدير.

ML8274-image006

املأ الفراغات بالرقم 0 باستخدام Pandas

تتطلب خوارزمية ML الخاصة بنا أيضًا ألا تحتوي بيانات الإدخال على حقول فارغة. لذلك ، ملأنا الحقول الفارغة لمجموعة البيانات النهائية بالأصفار. يمكننا القيام بذلك بسهولة عن طريق التحويل المخصص (Pandas) في Data Wrangler.

ML8274-image007

استخدمنا المنطق التالي:

# Table is available as variable df
df.fillna(0, inplace=True)

عمود المصبوب من عائم إلى طويل

يمكنك أيضًا تحليل عمود وإرساله إلى أي نوع بيانات جديد بسهولة في Data Wrangler. لأغراض تحسين الذاكرة ، قمنا بصياغة عمود إدخال ملصق الصحة العقلية كعائم.

ML8274-image008

تحليل نموذج سريع: رسم بياني لأهمية الميزة

بعد إنشاء مجموعة البيانات النهائية الخاصة بنا ، استخدمنا نوع تحليل النموذج السريع في Data Wrangler لتحديد تناقضات البيانات بسرعة وإذا كانت دقة نموذجنا في النطاق المتوقع ، أو إذا احتجنا إلى مواصلة هندسة الميزات قبل قضاء وقت تدريب النموذج. أعاد النموذج درجة F1 بقيمة 0.901 ، مع كون الرقم 1 هو الأعلى. درجة F1 هي طريقة للجمع بين الدقة واسترجاع النموذج ، ويتم تعريفها على أنها المتوسط ​​التوافقي للاثنين. بعد فحص هذه النتائج الإيجابية الأولية ، كنا مستعدين لتصدير البيانات والمضي قدمًا في تدريب النموذج باستخدام مجموعة البيانات التي تم تصديرها.

ML8274-image009

قم بتصدير مجموعة البيانات النهائية إلى Amazon S3 عبر دفتر Jupyter

كخطوة أخيرة ، لتصدير مجموعة البيانات في شكلها الحالي (محولة) إلى خدمة تخزين أمازون البسيطة (Amazon S3) للاستخدام المستقبلي في تدريب النموذج ، نستخدم ملف حفظ في Amazon S3 (عبر Jupyter Notebook) خيار التصدير. يبدأ هذا الكمبيوتر الدفتري في توزيعه وقابليته للتطوير أمازون SageMaker معالجة المهمة التي تطبق الوصفة المُنشأة (تدفق البيانات) على مدخلات محددة (عادةً مجموعات بيانات أكبر) وتحفظ النتائج في Amazon S3. يمكنك أيضًا تصدير الأعمدة المحولة (الميزات) إلى متجر ميزات Amazon SageMaker أو تصدير التحويلات كخط أنابيب باستخدام خطوط أنابيب Amazon SageMaker، أو ببساطة قم بتصدير التحويلات كرمز Python.

لتصدير البيانات إلى Amazon S3 ، لديك ثلاثة خيارات:

  • قم بتصدير البيانات المحولة مباشرة إلى Amazon S3 عبر واجهة مستخدم Data Wrangler
  • قم بتصدير التحويلات كمهمة معالجة SageMaker عبر دفتر Jupyter (كما نفعل في هذا المنشور).
  • قم بتصدير التحويلات إلى Amazon S3 عبر عقدة وجهة. تخبر العقدة الوجهة Data Wrangler بمكان تخزين البيانات بعد معالجتها. بعد إنشاء عقدة وجهة ، تقوم بإنشاء مهمة معالجة لإخراج البيانات.

ML8274-image010

وفي الختام

في هذا المنشور ، أظهرنا كيف تستخدم Equilibrium Point IoT Data Wrangler لتسريع عملية تحميل كميات كبيرة من بيانات مطالباتنا لتنظيف البيانات وتحويلها استعدادًا لـ ML. لقد أوضحنا أيضًا كيفية دمج هندسة الميزات مع التحولات المخصصة باستخدام Pandas و PySpark في Data Wrangler ، مما يسمح لنا بتصدير البيانات خطوة بخطوة (بعد كل انضمام) لأغراض ضمان الجودة. أدى تطبيق هذه التحولات سهلة الاستخدام في Data Wrangler إلى تقليل الوقت المستغرق في تحويل البيانات من طرف إلى طرف بنسبة تقارب 50٪. أيضًا ، سمحت لنا ميزة تحليل النموذج السريع في Data Wrangler بالتحقق بسهولة من حالة التحولات أثناء قيامنا بالتنقل خلال عملية إعداد البيانات وهندسة الميزات.

الآن بعد أن أعددنا البيانات لحالة استخدام نمذجة مخاطر الصحة العقلية الخاصة بنا ، كخطوة تالية ، نخطط لبناء نموذج ML باستخدام SageMaker والخوارزميات المدمجة التي يقدمها ، باستخدام مجموعة بيانات المطالبات لتحديد الأعضاء الذين يجب أن يسعوا للحصول على الصحة العقلية قبل أن يصلوا إلى النقطة التي يحتاجون إليها. ابقوا متابعين!


حول المؤلف

قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.شيبانغي ساها هو عالم بيانات في Equilibrium Point. تجمع بين خبرتها في بيانات مطالبات دافعي الرعاية الصحية والتعلم الآلي لتصميم وتنفيذ وأتمتة وتوثيق خطوط أنابيب البيانات الصحية وإعداد التقارير وعمليات التحليل التي تقود الرؤى والتحسينات القابلة للتنفيذ في نظام تقديم الرعاية الصحية. حصلت شيبانجي على درجة الماجستير في العلوم في المعلوماتية الحيوية من كلية العلوم بجامعة نورث إيسترن وبكالوريوس العلوم في علم الأحياء وعلوم الكمبيوتر من كلية خوري لعلوم الكمبيوتر وعلوم المعلومات.

قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جراسييلا كرافتزوف هو الشريك المؤسس والمدير التقني لشركة Equilibrium Point. شغلت Grace مناصب قيادية على المستوى C / نائب الرئيس في الهندسة والعمليات والجودة ، وعملت كمستشار تنفيذي لاستراتيجية الأعمال وتطوير المنتجات في قطاعي الرعاية الصحية والتعليم والفضاء الصناعي لإنترنت الأشياء. حصلت غريس على درجة الماجستير في العلوم في الهندسة الكهروميكانيكية من جامعة بوينس آيرس ودرجة الماجستير في علوم الكمبيوتر من جامعة بوسطن.

قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

قم ببناء نموذج مخاطر التعلم الآلي للصحة العقلية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي. أجاي شارما هو مدير أول للمنتجات في Amazon SageMaker حيث يركز على SageMaker Data Wrangler ، وهي أداة لإعداد البيانات المرئية لعلماء البيانات. قبل AWS ، كان Ajai خبيرًا في علوم البيانات في شركة McKinsey and Company حيث قاد المشاركات التي تركز على ML لشركات التمويل والتأمين الرائدة في جميع أنحاء العالم. أجاي شغوف بعلوم البيانات ويحب استكشاف أحدث الخوارزميات وتقنيات التعلم الآلي.

الطابع الزمني:

اكثر من التعلم الآلي من AWS