هندسة الميزات على نطاق واسع للرعاية الصحية وعلوم الحياة مع Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

يؤدي التعلم الآلي (ML) إلى تعطيل الكثير من الصناعات بوتيرة غير مسبوقة. شهدت صناعة الرعاية الصحية وعلوم الحياة (HCLS) تطورًا سريعًا في السنوات الأخيرة حيث احتضنت ML عبر العديد من حالات الاستخدام لتقديم رعاية جيدة وتحسين نتائج المرضى.

في دورة حياة تعلم الآلة النموذجية ، يقضي مهندسو البيانات والعلماء معظم وقتهم في إعداد البيانات وخطوات هندسة الميزات قبل البدء في عملية بناء النموذج والتدريب. إن امتلاك أداة يمكنها تقليل الحاجز أمام الدخول لإعداد البيانات ، وبالتالي تحسين الإنتاجية ، هو طلب مرغوب فيه للغاية لهؤلاء الأشخاص. أمازون سيج ميكر داتا رانجلر تم إنشاؤه بواسطة AWS لتقليل منحنى التعلم وتمكين ممارسي البيانات من إنجاز مهام إعداد البيانات وتنظيفها وهندستها في أقل جهد ووقت. يوفر واجهة المستخدم الرسومية مع العديد من الوظائف المدمجة والتكامل مع خدمات AWS الأخرى مثل خدمة تخزين أمازون البسيطة (Amazon S3) و متجر ميزات Amazon SageMaker، بالإضافة إلى مصادر بيانات الشركاء بما في ذلك Snowflake و Databricks.

في هذا المنشور ، نوضح كيفية استخدام Data Wrangler لإعداد بيانات الرعاية الصحية لتدريب نموذج للتنبؤ بفشل القلب ، بالنظر إلى التركيبة السكانية للمريض ، والحالات الطبية السابقة ، وتاريخ نتائج الاختبارات المعملية.

حل نظرة عامة

يتكون الحل من الخطوات التالية:

الحصول على مجموعة بيانات الرعاية الصحية كمدخل إلى Data Wrangler.
استخدم وظائف التحويل المضمنة في Data Wrangler لتحويل مجموعة البيانات. يتضمن ذلك أعمدة الإسقاط ، وتمييز البيانات / الوقت ، وضم مجموعات البيانات ، وإسناد القيم المفقودة ، وتشفير المتغيرات الفئوية ، والقيم الرقمية للمقياس ، وموازنة مجموعة البيانات ، والمزيد.
استخدم وظيفة التحويل المخصصة لـ Data Wrangler (كود Pandas أو PySpark) لتكملة التحويلات الإضافية المطلوبة خارج التحويلات المضمنة وإثبات قابلية توسيع Data Wrangler. يتضمن ذلك صفوف التصفية وبيانات المجموعة وتشكيل إطارات بيانات جديدة بناءً على الشروط والمزيد.
استخدم وظائف التصور المضمنة في Data Wrangler لإجراء التحليل المرئي. يتضمن ذلك التسرب المستهدف ، ارتباط الميزات ، النموذج السريع ، والمزيد.
استخدم خيارات التصدير المضمنة في Data Wrangler لتصدير مجموعة البيانات المحولة إلى Amazon S3.
قم بتشغيل دفتر ملاحظات Jupyter لاستخدام مجموعة البيانات المحولة في Amazon S3 كمدخل لتدريب نموذج.

أنشئ مجموعة بيانات

الآن بعد أن استقرنا على بيان مشكلة ML ، وضعنا أنظارنا أولاً في الحصول على البيانات التي نحتاجها. الدراسات البحثية مثل توقع قصور القلب قد توفر بيانات في حالة جيدة بالفعل. ومع ذلك ، فإننا غالبًا ما نواجه سيناريوهات تكون فيها البيانات فوضوية تمامًا وتتطلب الانضمام والتطهير والعديد من التحولات الأخرى الخاصة جدًا بمجال الرعاية الصحية قبل أن يمكن استخدامها لتدريب تعلم الآلة. نريد إيجاد أو إنشاء بيانات فوضوية بدرجة كافية ونرشدك خلال خطوات إعدادها باستخدام Data Wrangler. مع وضع ذلك في الاعتبار ، اخترنا Synthea كأداة لإنشاء بيانات تركيبية تناسب هدفنا. سينثيا هو مولد اصطناعي مفتوح المصدر للمرضى يصمم التاريخ الطبي للمرضى الاصطناعية. لإنشاء مجموعة البيانات الخاصة بك ، أكمل الخطوات التالية:

اتبع التعليمات حسب بداية سريعة الوثائق لإنشاء ملف أمازون ساجميكر ستوديو المجال وبدء تشغيل الاستوديو.
هذه خطوة أساسية. إنه اختياري إذا تم إعداد Studio بالفعل في حسابك.
بعد تشغيل الاستوديو ، في راجمة علامة التبويب، اختر محطة النظام.
يؤدي هذا إلى تشغيل جلسة طرفية تمنحك واجهة سطر أوامر للعمل معها.

لتثبيت Synthea وإنشاء مجموعة البيانات بتنسيق CSV ، قم بتشغيل الأوامر التالية في جلسة المحطة الطرفية التي تم تشغيلها:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

نحن نوفر معلمة لإنشاء مجموعات البيانات التي يبلغ عدد سكانها 10,000. لاحظ أن معلمة الحجم تشير إلى عدد أعضاء المجتمع على قيد الحياة. بالإضافة إلى ذلك ، تقوم Synthea أيضًا بإنشاء بيانات لأفراد متوفين من السكان والتي قد تضيف بضع نقاط بيانات إضافية أعلى حجم العينة المحدد.

انتظر حتى يكتمل إنشاء البيانات. تستغرق هذه الخطوة عادةً حوالي ساعة أو أقل. ينشئ Synthea مجموعات بيانات متعددة ، بما في ذلك patients, medications, allergies, conditions، و اكثر. في هذا المنشور ، نستخدم ثلاثة من مجموعات البيانات الناتجة:

مرضى. csv - تبلغ مجموعة البيانات هذه حوالي 3.2 ميغابايت وتحتوي على ما يقرب من 11,000 صف من بيانات المريض (25 عمودًا بما في ذلك معرف المريض وتاريخ الميلاد والجنس والعنوان والمزيد)
الظروف. csv - تبلغ مساحة مجموعة البيانات هذه حوالي 47 ميغابايت وتحتوي على ما يقرب من 370,000 صف من بيانات الحالة الطبية (ستة أعمدة بما في ذلك معرف المريض وتاريخ بدء الحالة ورمز الحالة والمزيد)
الملاحظات. csv - تبلغ مساحة مجموعة البيانات هذه حوالي 830 ميغابايت وتحتوي على ما يقرب من 5 ملايين صف من بيانات المراقبة (ثمانية أعمدة بما في ذلك معرف المريض وتاريخ المراقبة ورمز المراقبة والقيمة والمزيد)

توجد علاقة رأس بأطراف بين patients و conditions مجموعات البيانات. هناك أيضًا علاقة رأس بأطراف بين patients و observations مجموعات البيانات. للحصول على قاموس بيانات مفصل ، ارجع إلى قاموس بيانات ملف CSV.

لتحميل مجموعات البيانات التي تم إنشاؤها إلى حاوية المصدر في Amazon S3 ، قم بتشغيل الأوامر التالية في جلسة المحطة الطرفية:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

إطلاق داتا رانجلر

اختار موارد SageMaker في صفحة التنقل في Studio وعلى المشاريع القائمة، اختر داتا رانجلر لإنشاء تدفق بيانات رانجلر. للحصول على خطوات تفصيلية حول كيفية تشغيل Data Wrangler من داخل Studio ، ارجع إلى ابدأ مع داتا رانجلر.

تواريخ الاستيراد

لاستيراد بياناتك ، أكمل الخطوات التالية:

اختار الأمازون S3 وحدد موقع ملف customers.csv في حاوية S3.
في مجلة التفاصيل جزء ، اختر أول ك For أخذ العينات.
أدخل 1100 For حجم العينة.
في جزء المعاينة ، يسحب Data Wrangler أول 100 صف من مجموعة البيانات ويسردها كمعاينة.
اختار استيراد.
تختار Data Wrangler أول 1,100 مريض من إجمالي المرضى (11,000 صف) التي تم إنشاؤها بواسطة Synthea وتستورد البيانات. يتيح نهج أخذ العينات لـ Data Wrangler معالجة بيانات العينة فقط. إنها تمكننا من تطوير تدفق البيانات لدينا باستخدام مجموعة بيانات أصغر ، مما يؤدي إلى معالجة أسرع وحلقة ملاحظات أقصر. بعد إنشاء تدفق البيانات ، يمكننا إرسال الوصفة المطورة إلى ملف معالجة SageMaker المهمة لتوسيع نطاق المعالجة أفقيًا لمجموعة البيانات الكاملة أو الأكبر بطريقة موزعة.
كرر هذه العملية لـ conditions و observations مجموعات البيانات.
1. بالنسبة conditions مجموعة البيانات ، أدخل 37000 For حجم العينة، والتي تمثل 1/10 من إجمالي 370,000 صف تم إنشاؤها بواسطة Synthea.
2. بالنسبة observations مجموعة البيانات ، أدخل 500000 For حجم العينة، وهي 1/10 من إجمالي الملاحظات 5 ملايين صف تم إنشاؤها بواسطة Synthea.

يجب أن تشاهد ثلاث مجموعات بيانات كما هو موضح في لقطة الشاشة التالية.

تحويل البيانات

تحويل البيانات هو عملية تغيير بنية أو قيمة أو تنسيق عمود واحد أو أكثر في مجموعة البيانات. عادةً ما يتم تطوير العملية بواسطة مهندس بيانات ويمكن أن تكون صعبة للأشخاص الذين لديهم مجموعة مهارات أصغر في هندسة البيانات لفك تشفير المنطق المقترح للتحول. يعد تحويل البيانات جزءًا من عملية هندسة الميزات الأوسع ، والتسلسل الصحيح للخطوات هو معيار مهم آخر يجب مراعاته أثناء تصميم مثل هذه الوصفات.

تم تصميم Data Wrangler ليكون أداة ذات رمز منخفض لتقليل حاجز الدخول من أجل إعداد البيانات بشكل فعال. يأتي مزودًا بأكثر من 300 تحويل بيانات تم تكوينه مسبقًا لتختار من بينها دون كتابة سطر واحد من التعليمات البرمجية. في الأقسام التالية ، نرى كيفية تحويل مجموعات البيانات المستوردة في Data Wrangler.

قم بإسقاط الأعمدة في ملف .csv

نقوم أولاً بإسقاط بعض الأعمدة من ملف patients مجموعة البيانات. يؤدي إسقاط الأعمدة الزائدة عن الحاجة إلى إزالة المعلومات غير ذات الصلة من مجموعة البيانات ويساعدنا على تقليل كمية موارد الحوسبة المطلوبة لمعالجة مجموعة البيانات وتدريب النموذج. في هذا القسم ، نسقط أعمدة مثل SSN أو رقم جواز السفر بناءً على الفطرة السليمة بأن هذه الأعمدة ليس لها قيمة تنبؤية. بعبارة أخرى ، لا تساعد نموذجنا في التنبؤ بفشل القلب. لا تهتم دراستنا أيضًا بأعمدة أخرى مثل تأثير نفقات مكان الولادة أو الرعاية الصحية على قصور القلب لدى المريض ، لذلك فإننا نتخلى عنها أيضًا. يمكن أيضًا تحديد الأعمدة الزائدة عن طريق تشغيل التحليلات المضمنة مثل التسرب المستهدف ، والارتباط بين الميزات ، والخطوات المتعددة الخطية ، والمزيد ، والتي تم تضمينها في Data Wrangler. لمزيد من التفاصيل حول أنواع التحليلات المدعومة ، يرجى الرجوع إلى تحليل وتصور. بالإضافة إلى ذلك ، يمكنك استخدام ملف تقرير الرؤى وجودة البيانات لإجراء تحليلات آلية على مجموعات البيانات للوصول إلى قائمة بالأعمدة الزائدة عن الحاجة للتخلص منها.

اختر علامة الجمع الموجودة بجانب أنواع البيانات للمرضى. csv مجموعة البيانات والاختيار أضف التحويل.
اختار أضف خطوة واختر إدارة الأعمدة.
في حالة تحولأختر عمود الإسقاط.
في حالة أعمدة لإسقاطها، اختر الأعمدة التالية:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
اختار أرسال لمراجعة مجموعة البيانات المحولة ، ثم اختر أضف.

يجب أن ترى الخطوة عمود الإسقاط في قائمة التحويلات الخاصة بك.

خصص التاريخ / الوقت في ملف .csv

الآن نستخدم وظيفة تاريخ / وقت الميزة الجديدة لإنشاء الميزة الجديدة Year من BIRTHDATE العمود في patients مجموعة البيانات. نستخدم الميزة الجديدة في خطوة لاحقة لحساب عمر المريض في وقت الملاحظة.

في مجلة التحويلات جزء من ملف عمود الإسقاط صفحة ل patients مجموعة البيانات ، اختر أضف خطوة.
اختيار يميز التاريخ / الوقت تحول.
اختار استخراج الأعمدة.
في حالة أعمدة الإدخال، أضف العمود BIRTHDATE.
أختار السنة وإلغاء الاختيار شهر, يوم, ساعة, دقيقة, الثاني.
اختار أرسال، ثم اختر أضف.

أضف تحويلات في notes.csv

يدعم Data Wrangler التحويلات المخصصة باستخدام Python (وظائف محددة من قبل المستخدم) أو PySpark أو Pandas أو PySpark (SQL). يمكنك اختيار نوع التحويل الخاص بك بناءً على إلمامك بكل خيار وتفضيل. بالنسبة للخيارات الثلاثة الأخيرة ، تكشف Data Wrangler المتغير df لتتمكن من الوصول إلى إطار البيانات وتطبيق التحويلات عليه. للحصول على شرح وأمثلة مفصلة ، الرجوع إلى تحويلات مخصصة. في هذا القسم ، نضيف ثلاثة تحويلات مخصصة إلى ملف observations مجموعة البيانات.

أضف تحويلاً إلى updates.csv وقم بإسقاط ملف DESCRIPTION العمود.
اختار أرسال، ثم اختر أضف.
في مجلة التحويلات جزء ، اختر أضف خطوة واختر تحويل مخصص.
في القائمة المنسدلة ، اختر بايثون (الباندا).

أدخل الكود التالي:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

هذه رموز LONIC تتوافق مع الملاحظات التالية التي نحن مهتمون باستخدامها كميزات للتنبؤ بفشل القلب:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

اختار أرسال، ثم اختر أضف.
إضافة تحويل لاستخراج Year و Quarter من DATE العمود.
اختار أرسال، ثم اختر أضف.
اختار أضف خطوة واختر تحويل مخصص.
في القائمة المنسدلة ، اختر بايثون (PySpark).

قد لا يتم دائمًا تسجيل الأنواع الخمسة من الملاحظات في نفس التاريخ. على سبيل المثال ، قد يزور المريض طبيب الأسرة في 21 يناير ويتم قياس وتسجيل ضغط الدم الانقباضي وضغط الدم الانبساطي ومعدل ضربات القلب ومؤشر كتلة الجسم. ومع ذلك ، يمكن إجراء اختبار معمل يتضمن الصفائح الدموية في تاريخ لاحق في 2 فبراير. لذلك ، ليس من الممكن دائمًا الانضمام إلى إطارات البيانات بحلول تاريخ المراقبة. ننضم هنا إلى إطارات البيانات على مستوى تفصيلي رقيق على أساس ربع سنوي.

أدخل الكود التالي:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

اختار أرسال، ثم اختر أضف.
اختار أضف خطوة، ثم اختر إدارة الصفوف.
في حالة تحول، اختر إسقاط التكرارات.
اختار أرسال، ثم اختر أضف.
اختار أضف خطوة واختر تحويل مخصص.
في القائمة المنسدلة ، اختر بايثون (الباندا).

أدخل الرمز التالي لأخذ متوسط نقاط البيانات التي تشترك في نفس قيمة الوقت:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

اختار أرسال، ثم اختر أضف.

انضم للمرضى. csv والملاحظات. csv

في هذه الخطوة ، نعرض كيفية تنفيذ الصلات المعقدة بشكل فعال وسهل على مجموعات البيانات دون كتابة أي رمز عبر واجهة مستخدم Data Wrangler القوية. لمعرفة المزيد حول أنواع الصلات المدعومة ، ارجع إلى تحويل البيانات.

على يمين التحويل: clients.csv، اختر علامة الجمع الموجودة بجانب خطوات واختر انضم.
يمكنك رؤية ملف clients.csv المحول المدرج أسفل قواعد البيانات في الجزء الأيمن.
على يمين التحويل: notes.csv، اضغط على خطوات لبدء عملية الانضمام.
تم إدراج ملف notes.csv المحول الآن ضمن قواعد البيانات في الجزء الأيمن.
اختار ضبط.
في حالة نوع الارتباط، اختر داخلي.
في حالة اليسار، اختر Id.
في حالة حق، اختر المريض.
اختار أرسال، ثم اختر أضف.

أضف تحويلًا مخصصًا إلى مجموعات البيانات المنضمة

في هذه الخطوة نحسب عمر المريض وقت الملاحظة. نقوم أيضًا بإسقاط الأعمدة التي لم تعد هناك حاجة إليها.

اختر علامة الجمع الموجودة بجانب 1 الانضمام واختر أضف التحويل.

أضف تحويلًا مخصصًا في Pandas:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

اختار أرسال، ثم اختر أضف.

أضف تحويلات مخصصة إلى condition.csv

اختر علامة الجمع الموجودة بجانب التحويل: condition.csv واختر أضف التحويل.

أضف تحويلًا مخصصًا في Pandas:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

ملحوظة: كما أوضحنا سابقًا ، يمكنك إسقاط الأعمدة إما باستخدام رمز مخصص أو باستخدام التحويلات المضمنة التي توفرها Data Wrangler. توفر التحويلات المخصصة داخل Data Wrangler المرونة لإحضار منطق التحويل الخاص بك في شكل مقتطفات التعليمات البرمجية في أطر العمل المدعومة. يمكن البحث في هذه المقتطفات لاحقًا وتطبيقها إذا لزم الأمر.

الرموز في التحويل السابق هي رموز SNOMED-CT التي تتوافق مع الشروط التالية. ال heart failure or chronic congestive heart failure تصبح الحالة التسمية. نستخدم الشروط المتبقية كميزات للتنبؤ بفشل القلب. نقوم أيضًا بإسقاط بعض الأعمدة التي لم تعد هناك حاجة إليها.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

بعد ذلك ، دعنا نضيف تحويلًا مخصصًا في PySpark:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

نجري صلة خارجية يسرى للاحتفاظ بجميع الإدخالات في إطار بيانات قصور القلب. عمود جديد has_xxx يتم حسابه لكل حالة بخلاف قصور القلب بناءً على تاريخ بدء الحالة. نحن مهتمون فقط بالحالات الطبية التي تم تسجيلها قبل فشل القلب ونستخدمها كميزات للتنبؤ بفشل القلب.

أضف ملف إدارة الأعمدة تحويل لإسقاط الأعمدة الزائدة التي لم تعد مطلوبة:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
مقتطف Year و Quarter من heartfailure العمود.
يتطابق هذا مع التفاصيل التي استخدمناها سابقًا في تحويل ملف observations مجموعة البيانات.
يجب أن يكون لدينا إجمالي 6 خطوات لـ terms.csv.

قم بربط الشروط. csv بمجموعة البيانات المنضمة

نقوم الآن بإجراء عملية ربط جديدة للانضمام إلى مجموعة بيانات الشروط إلى المجموعة المنضمة patients و observations مجموعة البيانات.

اختار التحويل: الانضمام الأول.
اختر علامة الجمع واختر انضم.
اختار خطوات قرب التحويل: condition.csv.
اختار ضبط.
في حالة نوع الارتباط، اختر اليسار الخارجي.
في حالة اليسار، اختر Id.
في حالة حق، اختر المريض.
اختار أرسال، ثم اختر أضف.

أضف تحويلات إلى مجموعات البيانات المنضمة

الآن بعد أن انضممت جميع مجموعات البيانات الثلاث ، دعنا نطبق بعض التحويلات الإضافية.

أضف التحويل المخصص التالي في PySpark هكذا has_heartfailure يصبح عمود التسمية لدينا:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

أضف التحويل المخصص التالي في PySpark:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
نحن مهتمون فقط بالملاحظات المسجلة قبل تشخيص حالة قصور القلب ونستخدمها كميزات للتنبؤ بفشل القلب. قد تتأثر الملاحظات المأخوذة بعد تشخيص قصور القلب بالأدوية التي يتناولها المريض ، لذلك نريد استبعاد تلك الملاحظات.
قم بإسقاط الأعمدة الزائدة التي لم تعد مطلوبة:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
على تحليل الأداء علامة التبويب ، لـ نوع التحليلأختر ملخص الجدول.
مسح سريع من خلال الملخص يوضح أن ملف MARITAL يحتوي العمود على بيانات مفقودة.
اختيار البيانات علامة التبويب وإضافة خطوة.
اختار التعامل مع مفقود.
في حالة تحول، اختر ملء مفقود.
في حالة أعمدة الإدخال، اختر الزواج.
في حالة قيمة التعبئة، أدخل S.
استراتيجيتنا هنا هي افتراض أن المريض أعزب إذا كانت الحالة الاجتماعية تفتقد إلى قيمة. يمكن أن يكون لديك استراتيجية مختلفة.
اختار أرسال، ثم اختر أضف.
املأ القيمة المفقودة كـ 0 من أجل has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital و Gender هي متغيرات فئوية. يحتوي Data Wrangler على وظيفة مضمنة لتشفير المتغيرات الفئوية.

أضف خطوة واختر تشفير قاطع.
في حالة تحول، اختر تشفير واحد ساخن.
في حالة أعمدة الإدخال، اختر الزواج.
في حالة أسلوب الإخراج، اختر عمود.
ينتج نمط الإخراج هذا قيمًا مشفرة في أعمدة منفصلة.
اختار أرسال، ثم اختر أضف.
كرر هذه الخطوات لملف الجنس العمود.

يقسم التشفير الواحد الساخن العمود الزوجي إلى Marital_M (متزوج) و Marital_S (مفرد) ، ويقسم عمود الجنس إلى Gender_M (ذكر) و Gender_F (أنثى). لان Marital_M و Marital_S متنافية (كما هي Gender_M و Gender_F) ، يمكننا إسقاط عمود واحد لتجنب الميزات الزائدة عن الحاجة.

قطرة Marital_S و Gender_F.

الميزات الرقمية مثل الانقباضي ومعدل ضربات القلب والعمر لها معايير وحدة مختلفة. بالنسبة للنموذج القائم على الانحدار الخطي ، نحتاج إلى تسوية هذه الميزات الرقمية أولاً. بخلاف ذلك ، قد يكون لبعض الميزات ذات القيم المطلقة الأعلى ميزة غير مبررة على الميزات الأخرى ذات القيم المطلقة الأقل وتؤدي إلى أداء نموذج رديء. يحتوي Data Wrangler على أداة التحويل المضمنة Min-max scaler لتطبيع البيانات. بالنسبة إلى نموذج التصنيف المستند إلى شجرة القرار ، فإن التسوية غير مطلوبة. دراستنا هي مشكلة تصنيف لذلك لا نحتاج إلى تطبيق التطبيع. الفصول غير المتوازنة مشكلة شائعة في التصنيف. يحدث عدم التوازن عندما تحتوي مجموعة بيانات التدريب على توزيع منحرف بشدة للفصول. على سبيل المثال ، عندما تحتوي مجموعة البيانات الخاصة بنا على عدد غير متناسب من المرضى الذين يعانون من قصور في القلب أكثر من المرضى الذين يعانون من قصور في القلب ، فقد يتسبب ذلك في انحياز النموذج نحو التنبؤ بعدم وجود قصور في القلب وأداء ضعيف. يحتوي Data Wrangler على وظيفة مضمنة لمعالجة المشكلة.

أضف تحويلًا مخصصًا في Pandas لتحويل نوع بيانات الأعمدة من نوع "كائن" إلى نوع رقمي:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
اختيار تحليل الأداء علامة التبويب.
في حالة نوع التحليلأختر الرسم البياني.
في حالة محور X، اختر فشل القلب.
اختار أرسال.

من الواضح أن لدينا فئة غير متوازنة (تم تصنيف المزيد من نقاط البيانات على أنها عدم وجود قصور في القلب أكثر من نقاط البيانات المسماة بفشل القلب).
العودة إلى البيانات التبويب. يختار أضف خطوة واختر بيانات التوازن.
في حالة العمود الهدف، اختر فشل القلب.
في حالة النسبة المرغوبة، أدخل 1.
في حالة تحول، اختر سموت.

SMOTE تعني تقنية الإفراط في أخذ العينات من الأقليات الاصطناعية. إنها تقنية لإنشاء حالات أقلية جديدة وإضافتها إلى مجموعة البيانات للوصول إلى توازن الفصل. للحصول على معلومات مفصلة ، يرجى الرجوع إلى SMOTE: تقنية الإفراط في أخذ العينات من الأقلية الاصطناعية.
اختار أرسال، ثم اختر أضف.
كرر تحليل الرسم البياني في الخطوة 20-23. والنتيجة هي فئة متوازنة.

تصور التسرب الهدف وارتباط الميزات

بعد ذلك ، سنقوم بإجراء بعض التحليلات المرئية باستخدام مجموعة أدوات Data Wrangler الغنية لأنواع التحليل المتقدمة المدعومة من ML. أولاً ، ننظر إلى التسرب المستهدف. يحدث التسرب الهدف عندما ترتبط البيانات الموجودة في مجموعة بيانات التدريب ارتباطًا وثيقًا بالتسمية المستهدفة ، ولكنها غير متوفرة في بيانات العالم الحقيقي في وقت الاستدلال.

على علامة التبويب "التحليل"، ل نوع التحليلأختر الهدف التسرب.
في حالة نوع المشكلة، اختر تصنيف.
في حالة الهدف، اختر فشل القلب.
اختار أرسال.

بناءً على التحليل ، hr هو تسرب الهدف. سنقوم بإسقاطها في خطوة لاحقة. age تم وضع علامة على تسرب مستهدف. من المعقول أن نقول إن عمر المريض سيكون متاحًا خلال وقت الاستدلال ، لذلك نحافظ على العمر كميزة. Systolic و diastolic تم تمييزها أيضًا على أنها تسرب مستهدف محتمل. نتوقع الحصول على القياسين خلال وقت الاستدلال ، لذلك نحتفظ بهما كميزات.
اختار أضف لإضافة التحليل.

بعد ذلك ، ننظر إلى ارتباط الميزة. نريد تحديد الميزات المرتبطة بالهدف ولكنها غير مرتبطة ببعضها البعض.

على علامة التبويب "التحليل"، ل نوع التحليلأختر ارتباط الميزة.
في حالة نوع الارتباطأختر خطي.
اختار أرسال.

تشير درجات المعامل إلى ارتباطات قوية بين الأزواج التالية:

systolic و diastolic
bmi و age
has_hypertension و has_heartfailure (ضع الكلمة المناسبة)

بالنسبة إلى الميزات المرتبطة بقوة ، يصعب عكس المصفوفات حسابيًا ، مما قد يؤدي إلى تقديرات غير مستقرة عدديًا. لتخفيف الارتباط ، يمكننا ببساطة إزالة الارتباط من الزوج. نسقط diastolic و bmi والحفاظ على systolic و age في خطوة لاحقة.

إسقاط الأعمدة الانبساطية و bmi

أضف خطوات تحويل إضافية لإسقاط ملف hr, diastolic و bmi أعمدة باستخدام التحويل المدمج.

قم بإنشاء تقرير جودة البيانات والرؤى

AWS مؤخرًا أعلن ميزة تقرير جودة البيانات والرؤى الجديدة في Data Wrangler. يتحقق هذا التقرير تلقائيًا من جودة البيانات ويكتشف الشذوذ في بياناتك. يمكن لعلماء البيانات ومهندسي البيانات استخدام هذه الأداة لتطبيق معرفة المجال بكفاءة وسرعة لمعالجة مجموعات البيانات لتدريب نموذج ML. هذه الخطوة اختيارية. لإنشاء هذا التقرير في مجموعات البيانات الخاصة بنا ، أكمل الخطوات التالية:

على تحليل الأداء علامة التبويب ، لـ نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
في حالة العمود الهدف، اختر فشل القلب.
في حالة نوع المشكلة، حدد تصنيف.
اختار إنشاء.

في غضون دقائق قليلة ، يقوم بإنشاء تقرير مع ملخص ومرئيات وتوصيات.

قم بإنشاء تحليل نموذج سريع

لقد أكملنا إعداد البيانات ، والتنظيف ، وهندسة الميزات. يحتوي Data Wrangler على وظيفة مضمنة توفر تقديرًا تقريبيًا للجودة المتوقعة المتوقعة والقدرة التنبؤية للميزات في مجموعة البيانات الخاصة بنا.

على تحليل الأداء علامة التبويب ، لـ نوع التحليلأختر نموذج سريع.
في حالة تُشير، اختر فشل القلب.
اختار أرسال.

وفقًا لتحليل النموذج السريع الخاص بنا ، يمكننا رؤية الميزة has_hypertension لديه أعلى درجة أهمية للميزة بين جميع الميزات.

تصدير البيانات وتدريب النموذج

الآن ، دعنا نصدر الميزات المحولة الجاهزة لـ ML إلى حاوية S3 الوجهة وقم بتوسيع خط الأنابيب الهندسي للميزات بالكامل الذي أنشأناه حتى الآن باستخدام العينات في مجموعة البيانات بأكملها بطريقة موزعة.

اختر علامة الجمع بجوار المربع الأخير في تدفق البيانات واختر أضف الوجهة.
اختار الأمازون S3.
إدخال اسم مجموعة البيانات. إلى موقع Amazon S3، اختر حاوية S3 ، ثم اختر أضف وجهة.
اختار خلق وظيفة لإطلاق مهمة معالجة PySpark الموزعة لإجراء التحويل وإخراج البيانات إلى حاوية S3 الوجهة.

اعتمادًا على حجم مجموعات البيانات ، يتيح لنا هذا الخيار تكوين المجموعة بسهولة والتوسع أفقيًا بطريقة بدون رمز. لا داعي للقلق بشأن تقسيم مجموعات البيانات أو إدارة الكتلة و Spark الداخلية. كل هذا يتم الاهتمام به تلقائيًا بواسطة Data Wrangler.
في الجزء الأيمن ، اختر التالي ، 2. تكوين الوظيفة.
ثم اختر يجري.

بدلاً من ذلك ، يمكننا أيضًا تصدير الإخراج المحول إلى S3 عبر Jupyter Notebook. باستخدام هذا النهج ، يقوم Data Wrangler تلقائيًا بإنشاء دفتر Jupyter مع كل التعليمات البرمجية اللازمة لبدء مهمة معالجة لتطبيق خطوات تدفق البيانات (التي تم إنشاؤها باستخدام عينة) على مجموعة البيانات الكاملة الأكبر واستخدام مجموعة البيانات المحولة كميزات لبدء- من وظيفة تدريبية في وقت لاحق. يمكن تشغيل رمز الكمبيوتر الدفتري بسهولة مع إجراء تغييرات أو بدونها. دعنا الآن نتعرف على الخطوات الخاصة بكيفية القيام بذلك عبر واجهة مستخدم Data Wrangler.

اختر علامة الجمع بجوار الخطوة الأخيرة في تدفق البيانات واختر تصدير الى.
اختار Amazon S3 (عبر دفتر Jupyter).
يفتح تلقائيًا علامة تبويب جديدة مع دفتر Jupyter.
في دفتر Jupyter ، حدد الخلية في ملف (اختياري) الخطوات التالية القسم والتغيير run_optional_steps تبدأ من False إلى True.
تؤدي الخطوات الاختيارية الممكّنة في الكمبيوتر الدفتري ما يلي:
- تدريب نموذج باستخدام XGBoost
ارجع إلى الجزء العلوي من دفتر الملاحظات وعلى يجري القائمة، اختر قم بتشغيل كافة الخلايا.

إذا كنت تستخدم الكمبيوتر الدفتري الذي تم إنشاؤه كما هو ، فإنه يقوم بتشغيل مهمة معالجة SageMaker التي تعمل على توسيع نطاق المعالجة عبر مثيلين بحجم m5.4xlarge لمعالجة مجموعة البيانات الكاملة في حاوية S3. يمكنك ضبط عدد المثيلات وأنواع المثيلات بناءً على حجم مجموعة البيانات والوقت الذي تحتاجه لإكمال المهمة.

انتظر حتى تكتمل مهمة التدريب من الخلية الأخيرة. يقوم بإنشاء نموذج في دلو SageMaker الافتراضي S3.

النموذج المدرَّب جاهز للنشر إما للاستدلال في الوقت الفعلي أو لتحويل الدُفعات. لاحظ أننا استخدمنا البيانات التركيبية لإثبات الوظائف في Data Wrangler واستخدمنا البيانات المعالجة لنموذج التدريب. بالنظر إلى أن البيانات التي استخدمناها تركيبية ، فإن نتيجة الاستدلال من النموذج المدرب لا تعني تشخيص الحالة الطبية في العالم الحقيقي أو استبدال الحكم من الممارسين الطبيين.

يمكنك أيضًا تصدير مجموعة البيانات المحولة مباشرةً إلى Amazon S3 عن طريق الاختيار تصدير أعلى صفحة معاينة التحويل. يقوم خيار التصدير المباشر بتصدير العينة المحولة فقط إذا تم تمكين أخذ العينات أثناء الاستيراد. هذا الخيار هو الأنسب إذا كنت تتعامل مع مجموعات بيانات أصغر. يمكن أيضًا استيعاب البيانات المحولة مباشرةً في متجر الميزات. لمزيد من المعلومات ، يرجى الرجوع إلى متجر ميزات Amazon SageMaker. يمكن أيضًا تصدير تدفق البيانات كخط أنابيب SageMaker يمكن تنسيقه وجدولته وفقًا لمتطلباتك. لمزيد من المعلومات، راجع خطوط أنابيب Amazon SageMaker.

وفي الختام

في هذا المنشور ، أوضحنا كيفية استخدام Data Wrangler لمعالجة بيانات الرعاية الصحية وأداء هندسة ميزات قابلة للتطوير بأسلوب يعتمد على الأدوات ومنخفض الكود. لقد تعلمنا كيفية تطبيق التحولات والتحليلات المضمنة بشكل مناسب عند الحاجة ، ودمجها مع التحويلات المخصصة لإضافة المزيد من المرونة لسير عمل إعداد البيانات لدينا. استعرضنا أيضًا الخيارات المختلفة لتوسيع نطاق وصفة تدفق البيانات عبر وظائف المعالجة الموزعة. تعلمنا أيضًا كيف يمكن استخدام البيانات المحولة بسهولة لتدريب نموذج للتنبؤ بفشل القلب.

هناك العديد من الميزات الأخرى في Data Wrangler التي لم نقم بتغطيتها في هذا المنشور. اكتشف ما هو ممكن في قم بإعداد بيانات ML مع Amazon SageMaker Data Wrangler وتعلم كيفية الاستفادة من Data Wrangler لمشروعك التالي لعلوم البيانات أو التعلم الآلي.

حول المؤلف

فورست صن هو مهندس حلول أقدم مع فريق القطاع العام لدى AWS في تورنتو ، كندا. عمل في مجال الرعاية الصحية والتمويل على مدى العقدين الماضيين. خارج العمل ، يستمتع بالتخييم مع أسرته.

هندسة الميزات على نطاق واسع للرعاية الصحية وعلوم الحياة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي. أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

الطابع الزمني: 7 تموز، 202219 تموز، 2022

الطابع الزمني: مارس 28 ،2023

هندسة الميزات على نطاق واسع للرعاية الصحية وعلوم الحياة باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

حل نظرة عامة

أنشئ مجموعة بيانات

إطلاق داتا رانجلر

تواريخ الاستيراد

تحويل البيانات

قم بإسقاط الأعمدة في ملف .csv

خصص التاريخ / الوقت في ملف .csv

أضف تحويلات في notes.csv

انضم للمرضى. csv والملاحظات. csv

أضف تحويلًا مخصصًا إلى مجموعات البيانات المنضمة

أضف تحويلات مخصصة إلى condition.csv

قم بربط الشروط. csv بمجموعة البيانات المنضمة

أضف تحويلات إلى مجموعات البيانات المنضمة

تصور التسرب الهدف وارتباط الميزات

إسقاط الأعمدة الانبساطية و bmi

قم بإنشاء تقرير جودة البيانات والرؤى

قم بإنشاء تحليل نموذج سريع

تصدير البيانات وتدريب النموذج

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

رتب النصوص الخاصة بك إلى فقرات باستخدام Amazon Transcribe | خدمات أمازون ويب

التدريب الموزع والتوسع الفعال باستخدام نموذج Amazon SageMaker Parallel ومكتبات البيانات المتوازية | خدمات الويب الأمازون

قم بتوفير مساعدة الوكيل المباشر لمستخدمي chatbot لديك من خلال مركز الاتصال السحابي Amazon Lex وTalkdesk | خدمات الويب الأمازون

تقديم برنامج Amazon Textract Bulk Document Uploader لتحسين التقييم والتحليل | خدمات أمازون ويب

كيف استخدم Amp على Amazon البيانات لزيادة مشاركة العملاء ، الجزء 1: إنشاء منصة لتحليل البيانات

كيف تستخدم Yara ميزات MLOps في Amazon SageMaker لتوسيع نطاق تحسين الطاقة عبر مصانع الأمونيا الخاصة بها

تقديم Fortuna: مكتبة لتقدير عدم اليقين

أفضل الممارسات وأنماط التصميم لبناء مسارات عمل التعلم الآلي باستخدام Amazon SageMaker Pipelines | خدمات ويب أمازون

تحليل في الوقت الفعلي لمشاعر العملاء باستخدام AWS

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي