הנדסת תכונות בקנה מידה עבור בריאות ומדעי החיים עם Amazon SageMaker Data Wrangler

הועלה מחדש על ידי אפלטון

עוקב: 0

למידת מכונה (ML) משבשת הרבה תעשיות בקצב חסר תקדים. תעשיית הבריאות ומדעי החיים (HCLS) עוברת התפתחות מהירה בשנים האחרונות תוך שהיא מאמצת ML על פני מספר רב של מקרי שימוש למתן טיפול איכותי ושיפור תוצאות המטופל.

במחזור חיים טיפוסי של ML, מהנדסי נתונים ומדענים מבלים את רוב זמנם בהכנת הנתונים ובשלבי הנדסת התכונות לפני שהם בכלל מתחילים בתהליך של בניית מודל והדרכה. יש כלי שיכול להוריד את מחסום הכניסה להכנת נתונים, ובכך לשפר את הפרודוקטיביות, היא בקשה מאוד רצויה עבור הפרסונות הללו. רנגלר הנתונים של אמזון SageMaker הוא נבנה למטרה של AWS כדי לצמצם את עקומת הלמידה ולאפשר למתרגלי נתונים לבצע הכנת נתונים, ניקוי ומשימות הנדסיות בפחות מאמץ וזמן. הוא מציע ממשק GUI עם הרבה פונקציות מובנות ואינטגרציות עם שירותי AWS אחרים כגון שירות אחסון פשוט של אמזון (אמזון S3) ו- חנות הפונקציות של אמזון SageMaker, כמו גם מקורות נתונים של שותפים כולל Snowflake ו-Databricks.

בפוסט זה, אנו מדגימים כיצד להשתמש ב-Data Wrangler כדי להכין נתוני בריאות לאימון מודל לניבוי אי ספיקת לב, בהתחשב בנתונים הדמוגרפיים של המטופל, במצבים רפואיים קודמים ובהיסטוריה של תוצאות בדיקות מעבדה.

סקירת פתרונות

הפתרון מורכב מהשלבים הבאים:

רכוש מערך נתונים של שירותי בריאות כקלט ל-Data Wrangler.
השתמש בפונקציות הטרנספורמציה המובנות של Data Wrangler כדי לשנות את מערך הנתונים. זה כולל שחרור עמודות, הצגת נתונים/זמן, הצטרפות למערכי נתונים, זקיפת ערכים חסרים, קידוד משתנים קטגוריים, קנה מידה של ערכים מספריים, איזון מערך הנתונים ועוד.
השתמש בפונקציית ההמרה המותאמת אישית של Data Wrangler (קוד Pandas או PySpark) כדי להשלים טרנספורמציות נוספות הנדרשות מעבר לטרנספורמציות המובנות ולהדגים את יכולת ההרחבה של Data Wrangler. זה כולל שורות סינון, נתונים מקבצים, יצירת מסגרות נתונים חדשות המבוססות על תנאים ועוד.
השתמש בפונקציות ההדמיה המובנות של Data Wrangler כדי לבצע ניתוח חזותי. זה כולל דליפת יעד, מתאם תכונות, מודל מהיר ועוד.
השתמש באפשרויות הייצוא המובנות של Data Wrangler כדי לייצא את מערך הנתונים שעבר שינוי לאמזון S3.
הפעל מחברת Jupyter כדי להשתמש במערך הנתונים שעבר שינוי ב- Amazon S3 כקלט כדי לאמן מודל.

צור מערך נתונים

כעת, לאחר שהסתפקנו בהצהרת הבעיות של ML, אנו שמים את הכוונתנו תחילה על רכישת הנתונים הדרושים לנו. מחקרי מחקר כגון חיזוי אי ספיקת לב עשוי לספק נתונים שכבר נמצאים במצב טוב. עם זאת, לעתים קרובות אנו נתקלים בתרחישים שבהם הנתונים מבולגנים למדי ודורשים הצטרפות, ניקוי ועוד כמה טרנספורמציות ספציפיות מאוד לתחום הבריאות לפני שניתן יהיה להשתמש בהם לאימון ML. אנחנו רוצים למצוא או ליצור נתונים מספיק מבולגנים ולהדריך אותך בשלבי הכנתם באמצעות Data Wrangler. עם זאת בחשבון, בחרנו את Synthea ככלי ליצירת נתונים סינתטיים שמתאימים למטרה שלנו. סינתיאה הוא מחולל מטופלים סינתטיים בקוד פתוח המדגים את ההיסטוריה הרפואית של מטופלים סינתטיים. כדי ליצור את מערך הנתונים שלך, בצע את השלבים הבאים:

עקוב אחר ההוראות לפי ה התחלה מהירה תיעוד ליצירת סטודיו SageMaker של אמזון דומיין והפעל את Studio.
זהו שלב הכרחי. זה אופציונלי אם Studio כבר מוגדר בחשבון שלך.
לאחר השקת Studio, ב- משגר בחר, בחר מסוף מערכת.
זה משיק הפעלת מסוף שנותנת לך ממשק שורת פקודה לעבוד איתו.

כדי להתקין את Synthea וליצור את מערך הנתונים בפורמט CSV, הפעל את הפקודות הבאות בהפעלת הטרמינל שהושקה:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

אנו מספקים פרמטר ליצירת מערכי הנתונים עם גודל אוכלוסייה של 10,000. שימו לב, פרמטר הגודל מציין את מספר בני האוכלוסייה החיים. בנוסף, Synthea גם מייצרת נתונים עבור חברים מתים באוכלוסייה, אשר עשויים להוסיף כמה נקודות נתונים נוספות על גודל המדגם שצוין.

המתן עד להשלמת יצירת הנתונים. שלב זה אורך בדרך כלל כשעה או פחות. Synthea מייצר מערכי נתונים מרובים, כולל patients, medications, allergies, conditions, ועוד. עבור פוסט זה, אנו משתמשים בשלושה ממערכי הנתונים שהתקבלו:

patients.csv – מערך הנתונים הזה הוא כ-3.2 מגה-בייט ומכיל כ-11,000 שורות של נתוני מטופל (25 עמודות כולל מזהה מטופל, תאריך לידה, מין, כתובת ועוד)
conditions.csv - מערך נתונים זה הוא כ-47 מגה-בייט ומכיל כ-370,000 שורות של נתוני מצב רפואי (שש עמודות כולל מזהה מטופל, תאריך תחילת מצב, קוד מצב ועוד)
observations.csv - מערך נתונים זה הוא כ-830 מגה-בייט ומכיל כ-5 מיליון שורות של נתוני תצפית (שמונה עמודות כולל מזהה מטופל, תאריך תצפית, קוד תצפית, ערך ועוד)

יש מערכת יחסים של אחד לרבים בין ה patients ו conditions מערכי נתונים. יש גם מערכת יחסים של אחד לרבים בין patients ו observations מערכי נתונים. למילון נתונים מפורט, עיין ב מילון נתוני קובץ CSV.

כדי להעלות את מערכי הנתונים שנוצרו לדלי מקור באמזון S3, הפעל את הפקודות הבאות בסשן הטרמינל:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

הפעל את Data Wrangler

בחרו משאבי SageMaker בדף הניווט בסטודיו וב- פרויקטים בתפריט, בחר רנגלר נתונים כדי ליצור זרימת נתונים של Data Wrangler. לשלבים מפורטים כיצד להפעיל את Data Wrangler מתוך Studio, עיין ב התחל לעבוד עם Data Wrangler.

ייבא נתונים

כדי לייבא את הנתונים שלך, בצע את השלבים הבאים:

בחרו אמזון S3 ואתרו את קובץ patients.csv בדלי S3.
ב פרטים חלונית, בחר הראשון ק ל דגימה.
זן 1100 ל גודל המדגם.
בחלונית התצוגה המקדימה, Data Wrangler שולף את 100 השורות הראשונות ממערך הנתונים ומפרט אותן כתצוגה מקדימה.
בחרו תבואו.
Data Wrangler בוחר את 1,100 המטופלים הראשונים מתוך סך המטופלים (11,000 שורות) שנוצרו על ידי Synthea ומייבא את הנתונים. גישת הדגימה מאפשרת ל-Data Wrangler לעבד רק את נתוני הדגימה. זה מאפשר לנו לפתח את זרימת הנתונים שלנו עם מערך נתונים קטן יותר, מה שמביא לעיבוד מהיר יותר וללולאת משוב קצרה יותר. לאחר שניצור את זרימת הנתונים, נוכל להגיש את המתכון שפותח ל- a עיבוד SageMaker עבודה להרחיב אופקית את העיבוד עבור מערך הנתונים המלא או הגדול יותר בצורה מבוזרת.
חזור על תהליך זה עבור conditions ו observations מערכי נתונים.
1. כדי להתאים conditions מערך נתונים, הזן 37000 ל גודל המדגם, שהוא 1/10 מסך 370,000 השורות שנוצרו על ידי Synthea.
2. כדי להתאים observations מערך נתונים, הזן 500000 ל גודל המדגם, שהוא 1/10 מסך התצפיות 5 מיליון שורות שנוצרו על ידי סינתיאה.

אתה אמור לראות שלושה מערכי נתונים כפי שמוצג בצילום המסך הבא.

להפוך את הנתונים

טרנספורמציה של נתונים היא תהליך של שינוי המבנה, הערך או הפורמט של עמודה אחת או יותר במערך הנתונים. התהליך מפותח בדרך כלל על ידי מהנדס נתונים ויכול להיות מאתגר עבור אנשים בעלי כישורי הנדסת נתונים קטנים יותר לפענח את ההיגיון המוצע לשינוי. טרנספורמציה של נתונים היא חלק מתהליך הנדסת התכונות הרחב יותר, והרצף הנכון של השלבים הוא קריטריון חשוב נוסף שיש לזכור בעת הכנת מתכונים כאלה.

Data Wrangler נועד להיות כלי דל קוד להפחתת מחסום הכניסה להכנת נתונים יעילה. הוא מגיע עם למעלה מ-300 טרנספורמציות נתונים מוגדרות מראש לבחירתך מבלי לכתוב שורת קוד אחת. בסעיפים הבאים, אנו רואים כיצד לשנות את מערכי הנתונים המיובאים ב-Data Wrangler.

שחרר עמודות ב-patients.csv

קודם כל נשמט כמה עמודות מה- patients מערך נתונים. הפלת עמודות מיותרות מסירה מידע לא רלוונטי ממערך הנתונים ועוזרת לנו להפחית את כמות משאבי המחשוב הנדרשים לעיבוד מערך הנתונים והכשרת מודל. בסעיף זה, אנו שומטים עמודות כגון SSN או מספר דרכון בהתבסס על השכל הישר שלעמודות אלו אין ערך חיזוי. במילים אחרות, הם לא עוזרים למודל שלנו לחזות אי ספיקת לב. המחקר שלנו גם לא מודאג לגבי עמודות אחרות כמו השפעת מקום לידה או הוצאות בריאות על אי ספיקת לב של מטופל, אז אנחנו מוותרים גם אותם. ניתן לזהות עמודות מיותרות גם על ידי הפעלת הניתוחים המובנים כמו דליפת מטרה, מתאם תכונה, מולטי-קולינאריות ועוד, המובנים ב-Data Wrangler. לפרטים נוספים על סוגי הניתוחים הנתמכים, עיין ב נתח ודמיין. בנוסף, אתה יכול להשתמש ב- דוח איכות נתונים ותובנות לבצע ניתוחים אוטומטיים על מערכי הנתונים כדי להגיע לרשימה של עמודות מיותרות לביטול.

בחר את סימן הפלוס שליד סוגי מידע עבור מערך הנתונים patients.csv ובחר הוסף טרנספורמציה.
בחרו הוסף שלב ולבחור נהל עמודות.
בעד לשנותבחר זרוק טור.
בעד עמודות להורדה, בחר את העמודות הבאות:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
בחרו תצוגה מקדימה כדי לסקור את מערך הנתונים שעבר שינוי, ולאחר מכן בחר להוסיף.

אתה אמור לראות את הצעד זרוק טור ברשימת התמורות שלך.

הצג תאריך/שעה ב-patients.csv

כעת אנו משתמשים בפונקציית הצג תאריך/שעה כדי ליצור את התכונה החדשה Year מ BIRTHDATE טור ב patients מערך נתונים. אנו משתמשים בתכונה החדשה בשלב הבא כדי לחשב את גילו של המטופל בזמן התצפית.

ב הופך חלונית שלך זרוק טור דף עבור patients מערך נתונים, בחר הוסף שלב.
בחר את הצג תאריך/שעה שינוי צורה.
בחרו חלץ עמודות.
בעד עמודות קלט, הוסף את העמודה BIRTHDATE.
בחר שנתי ובטל את הבחירה חוֹדֶשׁ, יְוֹם, שעה, דקה, שנית.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.

הוסף טרנספורמציות ב-observations.csv

Data Wrangler תומך בהמרות מותאמות אישית באמצעות Python (פונקציות המוגדרות על ידי משתמש), PySpark, Pandas או PySpark (SQL). אתה יכול לבחור את סוג ההמרה שלך על סמך ההיכרות שלך עם כל אפשרות והעדפה. עבור שלוש האפשרויות האחרונות, Data Wrangler חושף את המשתנה df כדי שתוכל לגשת למסגרת הנתונים ולהחיל עליה טרנספורמציות. להסבר מפורט ודוגמאות, עיין ב טרנספורמציות מותאמות אישית. בחלק זה, אנו מוסיפים שלוש טרנספורמציות מותאמות אישית ל- observations מערך נתונים.

הוסף טרנספורמציה ל-observations.csv ושחרר את ה- DESCRIPTION עמודה.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
ב הופך חלונית, בחר הוסף שלב ולבחור טרנספורמציה מותאמת אישית.
בתפריט הנפתח בחר פייתון (פנדה).

הזן את הקוד הבא:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

אלו הם קודי LONIC התואמים לתצפיות הבאות שאנו מעוניינים להשתמש בהן כתכונות לניבוי אי ספיקת לב:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

בחרו תצוגה מקדימה, ואז לבחור להוסיף.
הוסף טרנספורמציה לחילוץ Year ו Quarter מ DATE עמודה.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
בחרו הוסף שלב ולבחור טרנספורמציה מותאמת אישית.
בתפריט הנפתח בחר Python (PySpark).

ייתכן שחמשת סוגי התצפיות לא תמיד נרשמים באותו תאריך. לדוגמה, מטופל יכול לבקר את רופא המשפחה שלו ב-21 בינואר ולמדוד ולהקליט את לחץ הדם הסיסטולי, לחץ הדם הדיאסטולי, קצב הלב ומסת הגוף שלו. עם זאת, בדיקת מעבדה הכוללת טסיות עשויה להתבצע במועד מאוחר יותר ב-2 בפברואר. לכן, לא תמיד ניתן להצטרף ל-dataframes עד תאריך התצפית. כאן אנו מצטרפים למסגרות נתונים בפירוט גס על בסיס הרבעון.

הזן את הקוד הבא:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

בחרו תצוגה מקדימה, ואז לבחור להוסיף.
בחרו הוסף שלב, ואז לבחור נהל שורות.
בעד לשנות, בחר שחרר כפילויות.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
בחרו הוסף שלב ולבחור טרנספורמציה מותאמת אישית.
בתפריט הנפתח בחר פייתון (פנדה).

הזן את הקוד הבא כדי לקחת ממוצע של נקודות נתונים שחולקות את אותו ערך זמן:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

בחרו תצוגה מקדימה, ואז לבחור להוסיף.

הצטרף ל-patients.csv ו-observations.csv

בשלב זה, אנו מציגים כיצד לבצע ביעילות ובקלות צירוף מורכב על מערכי נתונים מבלי לכתוב שום קוד דרך ממשק המשתמש החזק של Data Wrangler. למידע נוסף על סוגי ההצטרפות הנתמכים, עיין ב הפוך נתונים.

לימין ה טרנספורמציה: patients.csv, בחר את סימן הפלוס שליד צעדים ולבחור לְהִצְטַרֵף.
אתה יכול לראות את קובץ ה-patients.csv שהשתנה ברשימה תחת מערכי נתונים בחלונית השמאלית.
לימין ה טרנספורמציה: observations.csv, הקלק על ה צעדים כדי להתחיל את פעולת ההצטרפות.
קובץ ה-transformed observations.csv מופיע כעת תחת מערכי נתונים בחלונית השמאלית.
בחרו גדר.
בעד סוג הצטרפות, בחר פנימי.
בעד שמאל, בחר Id.
בעד ימין, בחר חולה.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.

הוסף טרנספורמציה מותאמת אישית למערכי הנתונים המצורפים

בשלב זה, אנו מחשבים את גיל המטופל בזמן ההסתכלות. אנחנו גם מפילים עמודות שכבר אין צורך בהן.

בחר את סימן הפלוס שליד הצטרף ראשון ולבחור הוסף טרנספורמציה.

הוסף טרנספורמציה מותאמת אישית בפנדות:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

בחרו תצוגה מקדימה, ואז לבחור להוסיף.

הוסף טרנספורמציות מותאמות אישית ל-conditions.csv

בחר את סימן הפלוס שליד טרנספורמציה: conditions.csv ולבחור הוסף טרנספורמציה.

הוסף טרנספורמציה מותאמת אישית בפנדות:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

הערה: כפי שהדגמנו קודם לכן, אתה יכול להוריד עמודות באמצעות קוד מותאם אישית או באמצעות הטרנספורמציות המובנות שסופק על ידי Data Wrangler. טרנספורמציות מותאמות אישית בתוך Data Wrangler מספקת את הגמישות להביא את היגיון הטרנספורמציה שלך בצורה של קטעי קוד במסגרות הנתמכות. מאוחר יותר ניתן לחפש קטעים אלה ולהחיל אותם במידת הצורך.

הקודים בהמרה הקודמת הם קודי SNOMED-CT המתאימים לתנאים הבאים. ה heart failure or chronic congestive heart failure מצב הופך לתווית. אנו משתמשים בתנאים הנותרים כמאפיינים לניבוי אי ספיקת לב. אנחנו גם שומטים כמה עמודות שכבר אין צורך בהן.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

לאחר מכן, בואו נוסיף טרנספורמציה מותאמת אישית ב- PySpark:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

אנו מבצעים צירוף חיצוני שמאלי כדי לשמור את כל הערכים במסגרת הנתונים של אי ספיקת לב. טור חדש has_xxx מחושב עבור כל מצב מלבד אי ספיקת לב בהתבסס על תאריך ההתחלה של המצב. אנו מעוניינים רק במצבים רפואיים שתועדו לפני אי ספיקת הלב ומשתמשים בהם כמאפיינים לניבוי אי ספיקת לב.

הוסף מובנה נהל עמודות טרנספורמציה כדי להוריד את העמודות המיותרות שאינן נחוצות עוד:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
להוציא Year ו Quarter מ heartfailure עמודה.
זה תואם את הפירוט שבה השתמשנו קודם לכן בשינוי ה- observations מערך נתונים.
אמורים להיות לנו סך של 6 שלבים עבור conditions.csv.

חבר conditions.csv למערך הנתונים המצורף

כעת אנו מבצעים הצטרפות חדשה כדי להצטרף למערך הנתונים של התנאים למצורף patients ו observations מערך נתונים.

בחרו טרנספורמציה: הצטרפות ראשונה.
בחר את סימן הפלוס ובחר לְהִצְטַרֵף.
בחרו צעדים ליד טרנספורמציה: conditions.csv.
בחרו גדר.
בעד סוג הצטרפות, בחר שמאל חיצוני.
בעד שמאל, בחר Id.
בעד ימין, בחר חולה.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.

הוסף טרנספורמציות למערכי הנתונים המצורפים

כעת, לאחר שהצטרפו לנו כל שלושת מערכי הנתונים, הבה נחיל כמה טרנספורמציות נוספות.

הוסף את ההמרה המותאמת אישית הבאה ב- PySpark כך has_heartfailure הופך לעמודת התווית שלנו:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

הוסף את השינוי המותאם אישית הבא ב- PySpark:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
אנו מעוניינים רק בתצפיות שתועדו לפני מועד האבחנה של מצב אי ספיקת הלב ומשתמשים בהן כמאפיינים לניבוי אי ספיקת לב. תצפיות שנלקחו לאחר אבחון אי ספיקת לב עשויות להיות מושפעות מהתרופות שמטופל נוטל, ולכן אנו רוצים לשלול את אלו.
שחרר את העמודות המיותרות שאינן נחוצות עוד:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
על אָנָלִיזָה לשונית, עבור סוג ניתוחבחר סיכום טבלה.
סריקה מהירה בסיכום מראה כי MARITAL בעמודה חסרים נתונים.
בחר את נתונים לשונית ולהוסיף שלב.
בחרו ידית חסרה.
בעד לשנות, בחר מילוי חסר.
בעד עמודות קלט, בחר נישואים.
בעד ערך מילוי, להיכנס S.
האסטרטגיה שלנו כאן היא להניח שהמטופל רווק אם למצב המשפחתי יש ערך חסר. אתה יכול לקבל אסטרטגיה אחרת.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
מלא את הערך החסר כ-0 עבור has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital ו Gender הם משתנים קטגוריים. ל-Data Wrangler פונקציה מובנית לקידוד משתנים קטגוריים.

הוסף שלב ובחר מקודד קטגוריה.
בעד לשנות, בחר קידוד חם אחד.
בעד עמודות קלט, בחר נישואים.
בעד סגנון פלט, בחר טור.
סגנון פלט זה מייצר ערכים מקודדים בעמודות נפרדות.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
חזור על שלבים אלה עבור מין עמודה.

הקידוד החם אחד מפצל את העמודה הזוגית ל Marital_M (נשוי) ו Marital_S (יחיד), ומפצל את העמודה מגדר ל Gender_M (זכר) ו Gender_F (נְקֵבָה). כי Marital_M ו Marital_S סותרים זה את זה (כמו שהם Gender_M ו Gender_F), נוכל להוריד עמודה אחת כדי להימנע מתכונות מיותרות.

ירידה Marital_S ו Gender_F.

לתכונות מספריות כגון סיסטולי, דופק וגיל יש סטנדרטים שונים של יחידות. עבור מודל מבוסס רגרסיה ליניארית, עלינו לנרמל תחילה את התכונות המספריות הללו. אחרת, לתכונות מסוימות עם ערכים מוחלטים גבוהים יותר עשוי להיות יתרון בלתי מוצדק על פני תכונות אחרות עם ערכים אבסולוטיים נמוכים יותר ולגרום לביצועי דגם גרועים. ל-Data Wrangler יש את ה-Transformation Min-max scaler המובנה כדי לנרמל את הנתונים. עבור מודל סיווג מבוסס עץ החלטות, אין צורך בנורמליזציה. המחקר שלנו הוא בעיית סיווג ולכן איננו צריכים ליישם נורמליזציה. שיעורים לא מאוזנים הם בעיה נפוצה בסיווג. חוסר איזון מתרחש כאשר מערך ההדרכה מכיל התפלגות כיתות מוטה מאוד. לדוגמה, כאשר מערך הנתונים שלנו מכיל באופן לא פרופורציונלי יותר חולים ללא אי ספיקת לב מאשר חולים עם אי ספיקת לב, זה יכול לגרום למודל להיות מוטה לניבוי אי ספיקת לב וביצועים גרועים. ל-Data Wrangler יש פונקציה מובנית להתמודדות עם הבעיה.

הוסף טרנספורמציה מותאמת אישית ב-Pandas כדי להמיר סוג נתונים של עמודות מסוג "אובייקט" לסוג מספרי:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
בחר את אָנָלִיזָה TAB.
בעד סוג ניתוחבחר היסטוגרמה.
בעד ציר X, בחר יש_כשל לב.
בחרו תצוגה מקדימה.

ברור שיש לנו מחלקה לא מאוזנת (יותר נקודות נתונים מסווגות כלא אי ספיקת לב מאשר נקודות נתונים המתויגות כאי ספיקת לב).
חזור נתונים כרטיסייה. בחר הוסף שלב ולבחור נתוני איזון.
בעד עמודת יעד, בחר יש_כשל לב.
בעד יחס רצוי, להיכנס 1.
בעד לשנות, בחר עשן.

SMOTE ראשי תיבות של Synthetic Minority Over-sampling Technique. זוהי טכניקה ליצור מופעי מיעוטים חדשים ולהוסיף למערך הנתונים כדי להגיע לאיזון מחלקה. למידע מפורט, עיין ב SMOTE: טכניקת דגימה יתר של מיעוט סינתטי.
בחרו תצוגה מקדימה, ואז לבחור להוסיף.
חזור על ניתוח ההיסטוגרמה בשלב 20-23. התוצאה היא שיעור מאוזן.

דמיין דליפת מטרה ומתאם תכונה

לאחר מכן, אנו הולכים לבצע מספר ניתוחים חזותיים באמצעות ערכת הכלים העשיר של Data Wrangler של סוגי ניתוח מתקדמים הנתמכים ב-ML. ראשית, אנו מסתכלים על דליפת מטרה. דליפת יעד מתרחשת כאשר הנתונים במערך הנתונים של האימון נמצאים בקורלציה חזקה עם תווית היעד, אך אינם זמינים בנתונים מהעולם האמיתי בזמן ההסקה.

על לשונית ניתוח, עבור סוג ניתוחבחר דליפת מטרה.
בעד סוג הבעיה, בחר מיון.
בעד יעד, בחר יש_כשל לב.
בחרו תצוגה מקדימה.

בהתבסס על הניתוח, hr היא דליפת מטרה. נשאיר את זה בשלב הבא. age מסומן כדליפת מטרה. סביר לומר שגילו של מטופל יהיה זמין בזמן ההסקה, ולכן אנו שומרים על גיל כתכונה. Systolic ו diastolic מסומנים גם כדליפת מטרה צפויה. אנו מצפים לקבל את שתי המדידות במהלך זמן ההסקה, ולכן אנו שומרים אותן כתכונות.
בחרו להוסיף כדי להוסיף את הניתוח.

לאחר מכן, אנו מסתכלים על מתאם תכונה. אנו רוצים לבחור תכונות המתואמות עם היעד אך אינן מתואמות בינן לבין עצמן.

על לשונית ניתוח, עבור סוג ניתוחבחר מתאם תכונה.
בעד סוג מתאםבחר קווים.
בחרו תצוגה מקדימה.

ציוני המקדמים מצביעים על מתאם חזק בין הזוגות הבאים:

systolic ו diastolic
bmi ו age
has_hypertension ו has_heartfailure (תווית)

עבור תכונות שיש להן מתאם חזק, קשה להפוך מטריצות מבחינה חישובית, מה שעלול להוביל לאומדנים לא יציבים מבחינה מספרית. כדי להפחית את המתאם, אנחנו יכולים פשוט להסיר אחד מהזוג. אנחנו נופלים diastolic ו bmi ולשמור systolic ו age בשלב הבא.

זרוק עמודות דיאסטוליות ו-bmi

הוסף שלבי טרנספורמציה נוספים כדי לבטל את hr, diastolic ו bmi עמודות באמצעות הטרנספורמציה המובנית.

הפק את דוח איכות הנתונים ותובנות

AWS לאחרונה הודיע התכונה החדשה של דוח איכות נתונים ותובנות ב-Data Wrangler. דוח זה מאמת אוטומטית את איכות הנתונים ומזהה חריגות בנתונים שלך. מדעני נתונים ומהנדסי נתונים יכולים להשתמש בכלי זה כדי ליישם ביעילות ובמהירות ידע תחום כדי לעבד מערכי נתונים עבור אימון מודלים של ML. שלב זה הוא אופציונלי. כדי להפיק דוח זה על מערכי הנתונים שלנו, בצע את השלבים הבאים:

על אָנָלִיזָה לשונית, עבור סוג ניתוח, בחר דוח איכות נתונים ותובנות.
בעד עמודת יעד, בחר יש_כשל לב.
בעד סוג הבעיה, בחר מִיוּן.
בחרו צור.

תוך דקות ספורות הוא יוצר דוח עם תקציר, תמונות והמלצות.

צור ניתוח מודל מהיר

סיימנו את הכנת הנתונים, הניקוי והנדסת התכונות שלנו. ל-Data Wrangler יש פונקציה מובנית המספקת הערכה גסה של האיכות החזויה הצפויה וכוח הניבוי של תכונות במערך הנתונים שלנו.

על אָנָלִיזָה לשונית, עבור סוג ניתוחבחר דגם מהיר.
בעד תווית, בחר יש_כשל לב.
בחרו תצוגה מקדימה.

לפי ניתוח המודל המהיר שלנו, אנו יכולים לראות את התכונה has_hypertension בעל ציון חשיבות התכונה הגבוה ביותר מבין כל התכונות.

ייצא את הנתונים והכשרת את המודל

כעת הבה לייצא את התכונות המוכנות ל-ML שעברו טרנספורמציה לדלי S3 של יעד ונשנה את כל צינור הנדסת התכונות שיצרנו עד כה תוך שימוש בדוגמאות למערך הנתונים כולו בצורה מבוזרת.

בחר את סימן הפלוס ליד התיבה האחרונה בזרימת הנתונים ובחר הוסף יעד.
בחרו אמזון S3.
הזן שם ערכת נתונים. פורום מיקום אמזון S3, בחר דלי S3 ולאחר מכן בחר הוסף יעד.
בחרו צור עבודה להשיק עבודת עיבוד PySpark מבוזרת כדי לבצע את הטרנספורמציה ולהוציא את הנתונים לדלי S3 היעד.

בהתאם לגודל מערכי הנתונים, אפשרות זו מאפשרת לנו להגדיר בקלות את האשכול וקנה מידה אופקי בצורה ללא קוד. אנחנו לא צריכים לדאוג לגבי חלוקת מערכי הנתונים או ניהול האשכול והחלק הפנימי של Spark. כל זה מטופל עבורנו באופן אוטומטי על ידי Data Wrangler.
בחלונית השמאלית, בחר לאחר מכן, 2. הגדר עבודה.
אז תבחר הפעלה.

לחלופין, אנו יכולים גם לייצא את הפלט שעבר טרנספורמציה ל-S3 באמצעות מחברת Jupyter. עם גישה זו, Data Wrangler מייצר אוטומטית מחברת Jupyter עם כל הקוד הדרוש להתחלה של עבודת עיבוד כדי להחיל את שלבי זרימת הנתונים (שנוצרו באמצעות דוגמה) על מערך הנתונים המלא הגדול יותר ולהשתמש במערך הנתונים שהשתנה כתכונות כדי לבעוט- לצאת מעבודת הכשרה מאוחר יותר. ניתן להפעיל את קוד המחברת בקלות עם או בלי ביצוע שינויים. כעת נעבור על השלבים כיצד לבצע זאת באמצעות ממשק המשתמש של Data Wrangler.

בחר את סימן הפלוס שליד השלב האחרון בזרימת הנתונים ובחר ייצוא ל.
בחרו Amazon S3 (באמצעות Jupyter Notebook).
זה פותח אוטומטית כרטיסייה חדשה עם מחברת Jupyter.
במחברת Jupyter, אתר את התא ב- (אופציונלי) השלבים הבאים סעיף ושינוי run_optional_steps החל מ- False ל True.
השלבים האופציונליים המופעלים במחברת מבצעים את הפעולות הבאות:
- אימון דגם באמצעות XGBoost
חזור לראש המחברת וב- הפעלה בתפריט, בחר הפעל את כל התאים.

אם אתה משתמש במחברת שנוצרה כפי שהיא, היא משיקה עבודת עיבוד של SageMaker שמרחיבה את העיבוד על פני שני מופעים m5.4xlarge כדי לעבד את מערך הנתונים המלא בדלי S3. אתה יכול להתאים את מספר המופעים וסוגי המופעים על סמך גודל הנתונים והזמן הדרושים לך להשלמת העבודה.

המתן עד שתסתיים עבודת ההדרכה מהתא האחרון. הוא מייצר דגם בדלי ברירת המחדל של SageMaker S3.

המודל המאומן מוכן לפריסה להסקה בזמן אמת או לשינוי אצווה. שימו לב שהשתמשנו בנתונים סינתטיים כדי להדגים פונקציונליות ב-Data Wrangler והשתמשנו בנתונים מעובדים למודל אימון. בהתחשב בעובדה שהנתונים שבהם השתמשנו הם סינתטיים, תוצאת ההסקה מהמודל המיומן אינה מיועדת לאבחון מצב רפואי בעולם האמיתי או להחלפת שיקול דעת של רופאים.

אתה יכול גם לייצא ישירות את מערך הנתונים שהשתנה לאמזון S3 על ידי בחירה יצוא בחלק העליון של דף התצוגה המקדימה של טרנספורמציה. אפשרות הייצוא הישיר מייצאת את המדגם שעבר טרנספורמציה רק אם הדגימה הופעלה במהלך הייבוא. אפשרות זו מתאימה ביותר אם אתה מתמודד עם מערכי נתונים קטנים יותר. ניתן להטמיע את הנתונים שעברו טרנספורמציה ישירות לתוך מאגר תכונות. למידע נוסף, עיין ב חנות הפונקציות של אמזון SageMaker. ניתן לייצא את זרימת הנתונים גם כצינור של SageMaker שניתן לתזמן ולתזמן לפי הדרישות שלך. למידע נוסף, ראה צינורות SageMaker של אמזון.

סיכום

בפוסט זה, הראינו כיצד להשתמש ב-Data Wrangler כדי לעבד נתוני בריאות ולבצע הנדסת תכונות ניתנות להרחבה בצורה מונעת כלים, קוד נמוך. למדנו כיצד ליישם את הטרנספורמציות והניתוחים המובנים בצורה הולמת בכל מקום שצריך, תוך שילובם עם טרנספורמציות מותאמות אישית כדי להוסיף עוד יותר גמישות לזרימת העבודה של הכנת הנתונים שלנו. עברנו גם על האפשרויות השונות להרחבת מתכון זרימת הנתונים באמצעות עבודות עיבוד מבוזרות. למדנו גם כיצד ניתן להשתמש בקלות בנתונים שהשתנו לאימון מודל לניבוי אי ספיקת לב.

ישנן תכונות רבות אחרות ב-Data Wrangler שלא סקרנו בפוסט הזה. חקור מה אפשרי ב הכן את נתוני ה- ML עם Amazon SageMaker Data Wrangler ולמד כיצד למנף את Data Wrangler לפרויקט מדעי הנתונים או למידת מכונה הבא שלך.

על הכותבים

פורסט סאן הוא ארכיטקט פתרונות בכיר בצוות המגזר הציבורי של AWS בטורונטו, קנדה. הוא עבד בתעשיות הבריאות והפיננסים בשני העשורים האחרונים. מחוץ לעבודה, הוא נהנה לקמפינג עם משפחתו.

הנדסת תכונות בקנה מידה עבור בריאות ומדעי החיים עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.

בול זמן: 7 ביולי 202219 ביולי 2022

בול זמן: מר 28, 2023

הנדסת תכונות בקנה מידה גדול עבור בריאות ומדעי החיים עם Amazon SageMaker Data Wrangler

הועלה מחדש על ידי אפלטון

סקירת פתרונות

צור מערך נתונים

הפעל את Data Wrangler

ייבא נתונים

להפוך את הנתונים

שחרר עמודות ב-patients.csv

הצג תאריך/שעה ב-patients.csv

הוסף טרנספורמציות ב-observations.csv

הצטרף ל-patients.csv ו-observations.csv

הוסף טרנספורמציה מותאמת אישית למערכי הנתונים המצורפים

הוסף טרנספורמציות מותאמות אישית ל-conditions.csv

חבר conditions.csv למערך הנתונים המצורף

הוסף טרנספורמציות למערכי הנתונים המצורפים

דמיין דליפת מטרה ומתאם תכונה

זרוק עמודות דיאסטוליות ו-bmi

הפק את דוח איכות הנתונים ותובנות

צור ניתוח מודל מהיר

ייצא את הנתונים והכשרת את המודל

סיכום

על הכותבים

עוד מ למידת מכונות AWS

סדר את התמלילים שלך לפסקאות עם Amazon Transcribe | שירותי האינטרנט של אמזון

הכשרה מבוזרת ושינוי קנה מידה יעיל עם הספריות המקבילות והדאטות המקבילות של מודל Amazon SageMaker | שירותי האינטרנט של אמזון

ספק סיוע לסוכן חי למשתמשי הצ'אטבוט שלך עם מרכז הקשר בענן של Amazon Lex ו-Talkdesk | שירותי האינטרנט של אמזון

היכרות עם Amazon Textract Bulk Document Uploader להערכה וניתוח משופרים | שירותי האינטרנט של אמזון

כיצד Amp באמזון השתמשה בנתונים כדי להגביר את מעורבות הלקוחות, חלק 1: בניית פלטפורמת ניתוח נתונים

כיצד יארה משתמשת בתכונות MLOps של Amazon SageMaker כדי להגדיל את אופטימיזציית האנרגיה על פני מפעלי האמוניה שלהם

היכרות עם Fortuna: ספרייה לכימות אי ודאות

שיטות עבודה מומלצות ודפוסי עיצוב לבניית תהליכי עבודה של למידת מכונה עם Amazon SageMaker Pipelines | שירותי האינטרנט של אמזון

ניתוח בזמן אמת של סנטימנט הלקוחות באמצעות AWS

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן