בנו מודל סיכונים ללימוד מכונה לבריאות הנפש באמצעות Amazon SageMaker Data Wrangler

הועלה מחדש על ידי אפלטון

עוקב: 0

פוסט זה נכתב על ידי שיבאנגי סהא, מדען נתונים, ו-Graciela Kravtzov, מייסדת שותפה ו-CTO, מ-Equilibrium Point.

אנשים רבים חווים תסמינים חדשים של מחלות נפש, כגון מתח, חרדה, דיכאון, שימוש בסמים והפרעת דחק פוסט טראומטית (PTSD). לפי קרן משפחת קייזר, כמחצית מהמבוגרים (47%) ברחבי הארץ דיווחו על השפעות שליליות על בריאות הנפש במהלך המגיפה, עלייה משמעותית מהרמות שלפני המגפה. כמו כן, מגדרים וקבוצות גיל מסוימות הם מהסבירים ביותר לדווח על לחץ ודאגה, בשיעורים גבוהים בהרבה מאחרים. בנוסף, מספר קבוצות אתניות ספציפיות נוטות יותר לדווח על "השפעה גדולה" על בריאותן הנפשית מאשר אחרות.

מספר סקרים, כולל אלה שנאספו על ידי המרכז לבקרת מחלות (CDC), הראו עלייה משמעותית בתסמינים בריאותיים התנהגותיים המדווחים על עצמם. על פי דו"ח אחד של ה-CDC, שסקר מבוגרים ברחבי ארה"ב בסוף יוני 2020, 31% מהמשיבים דיווחו על תסמינים של חרדה או דיכאון, 13% דיווחו שהחלו או הגבירו שימוש בחומרים, 26% דיווחו על תסמינים הקשורים ללחץ ו-11% דיווח על מחשבות חמורות על התאבדות ב-30 הימים האחרונים.

נתונים מדווחים עצמיים, למרות שהם קריטיים לחלוטין באבחון הפרעות בבריאות הנפש, יכולים להיות נתונים להשפעות הקשורות לסטיגמה המתמשכת סביב טיפול נפשי וטיפול בבריאות הנפש. במקום להסתמך רק על נתונים מדווחים עצמיים, אנו יכולים להעריך ולחזות מצוקה נפשית באמצעות נתונים מרישומי בריאות ונתוני תביעות כדי לנסות לענות על שאלה מהותית: האם נוכל לחזות מי יזדקק לעזרה בבריאות הנפש לפני שהם יזדקקו לה? אם ניתן לזהות אנשים אלו, ניתן לפתח ולפרוס תוכניות התערבות מוקדמות ומשאבים כדי להגיב לכל תסמינים חדשים או עלייה בתסמינים הבסיסיים כדי להפחית את ההשפעות והעלויות של הפרעות נפשיות.

קל יותר לומר מאשר לעשות עבור אלה שנאבקו בניהול ועיבוד כמויות גדולות של נתוני תביעות מורכבים ורוויי פערים! בפוסט זה, אנו משתפים כיצד נקודת שיווי משקל IoT מְשׁוּמָשׁ רנגלר הנתונים של אמזון SageMaker לייעל הכנת נתוני תביעות למקרה השימוש שלנו בבריאות הנפש, תוך הבטחת איכות הנתונים לאורך כל שלב בתהליך.

סקירת פתרונות

הכנת נתונים או הנדסת תכונה היא תהליך מייגע, הדורש מדעני נתונים ומהנדסים מנוסים להשקיע זמן ואנרגיה רבים בגיבוש מתכונים לטרנספורמציות (השלבים) השונים הדרושים כדי להעביר את הנתונים לצורתם הנכונה. למעשה, מחקרים מראים שהכנת נתונים ללמידת מכונה (ML) גוזלת עד 80% מזמנם של מדעני נתונים. בדרך כלל, מדענים ומהנדסים משתמשים במסגרות שונות לעיבוד נתונים, כגון Pandas, PySpark ו- SQL, כדי לקודד את הטרנספורמציות שלהם וליצור עבודות עיבוד מבוזרות. עם Data Wrangler, אתה יכול להפוך תהליך זה לאוטומטי. Data Wrangler הוא מרכיב של סטודיו SageMaker של אמזון המספק פתרון מקצה לקצה לייבוא, הכנה, שינוי, הצגת נתונים וניתוח נתונים. אתה יכול לשלב Data Wrangler זרימת נתונים לתוך זרימות העבודה הקיימות שלך ב-ML כדי לפשט ולייעל את עיבוד הנתונים והנדסת תכונות תוך שימוש בקידוד מועט או ללא קידוד.

בפוסט זה, אנו עוברים על השלבים להפיכת מערכי נתונים גולמיים מקוריים לתכונות מוכנות ל-ML לשימוש לבניית מודלים לחיזוי בשלב הבא. ראשית, אנו מתעמקים בטבעם של מערכי הנתונים השונים המשמשים למקרה השימוש שלנו וכיצד הצטרפנו למערכי הנתונים הללו באמצעות Data Wrangler. לאחר ההצטרפות ואיחוד מערך הנתונים, אנו מתארים את התמורות הבודדות שהחלנו על מערך הנתונים כמו ביטול כפילויות, טיפול בערכים חסרים ונוסחאות מותאמות אישית, ולאחר מכן כיצד השתמשנו בניתוח המודל המהיר המובנה כדי לאמת את המצב הנוכחי של התמורות לתחזיות.

מערכי נתונים

לצורך הניסוי שלנו, הורדנו לראשונה נתוני מטופלים מלקוח הבריאות ההתנהגותי שלנו. נתונים אלה כוללים את הדברים הבאים:

נתוני תביעות
ספירת ביקורים בחדר מיון
ביקורי אשפוז נחשבים
ספירת מרשמים לתרופות הקשורות לבריאות הנפש
קידוד מצב היררכי (HCC) מאבחן ספירות הקשורות לבריאות הנפש

המטרה הייתה להצטרף למערכי נתונים נפרדים אלה בהתבסס על זיהוי המטופל ולנצל את הנתונים כדי לחזות אבחנה של בריאות הנפש. השתמשנו ב-Data Wrangler כדי ליצור מערך נתונים מסיבי של כמה מיליוני שורות של נתונים, שהוא חיבור של חמישה מערכי נתונים נפרדים. השתמשנו גם ב-Data Wrangler כדי לבצע מספר טרנספורמציות כדי לאפשר חישובי עמודות. בסעיפים הבאים, אנו מתארים את טרנספורמציות הכנת הנתונים השונות שיישמנו.

שחרר עמודות כפולות לאחר הצטרפות

Amazon SageMaker Data Wrangler מספקת טרנספורמציות רבות של נתוני ML כדי לייעל את הניקוי, השינוי וההצגה של הנתונים שלך. כאשר אתה מוסיף טרנספורמציה, זה מוסיף שלב לזרימת הנתונים. כל טרנספורמציה שאתה מוסיף משנה את מערך הנתונים שלך ומייצר מסגרת נתונים חדשה. כל ההמרות הבאות חלות על מסגרת הנתונים המתקבלת. Data Wrangler כולל טרנספורמציות מובנות, שבהן אתה יכול להשתמש כדי להפוך עמודות ללא כל קוד. אתה יכול גם להוסיף טרנספורמציות מותאמות אישית באמצעות PySpark, Pandas ו- PySpark SQL. טרנספורמציות מסוימות פועלות במקום, בעוד שאחרות יוצרות עמודת פלט חדשה במערך הנתונים שלך.

עבור הניסויים שלנו, מאחר שלאחר כל הצטרפות במזהה המטופל, נשארנו עם עמודות זיהוי מטופל כפולות. היינו צריכים להוריד את העמודות האלה. הורדנו את עמודת מזהה המטופל הימנית, כפי שמוצג בצילום המסך הבא באמצעות הקוד המובנה נהל עמודות ->זרוק טור transform, כדי לשמור רק עמודת מזהה מטופל אחת (patient_id במערך הנתונים הסופי).

ML8274-image001

סובב מערך נתונים באמצעות Pandas

מערכי הנתונים של הטענות היו ברמת המטופל עם ביקור חירום (ER), אשפוז (IP), ספירת מרשמים ונתוני אבחנה שכבר מקובצים לפי קודי ה-HCC שלהם (כ-189 קודים). כדי לבנות Datamart למטופלים, אנו אוספים את קודי ה-HCC לטענות לפי מטופל ומעבירים את קוד HCC בציר משורות לעמודות. השתמשנו ב-Pandas כדי לסובב את מערך הנתונים, לספור את מספר קודי HCC לפי מטופל, ולאחר מכן להצטרף למערך הנתונים הראשי על זיהוי המטופל. השתמשנו באפשרות הטרנספורמציה המותאמת אישית ב-Data Wrangler ובחרנו ב-Python (Pandas) כמסגרת הבחירה.

ML8274-image002

קטע הקוד הבא מציג את לוגיקת הטרנספורמציה לסיבוב הטבלה:

# Table is available as variable df
import pandas as pd
import numpy as np table = pd.pivot_table(df, values = 'claim_count', index=['patient_id0'], columns = 'hcc', fill_value=0).reset_index()
df = table

צור עמודות חדשות באמצעות נוסחאות מותאמות אישית

למדנו ספרות מחקרית כדי לקבוע אילו קודי HCC הם דטרמיניסטיים באבחון בריאות הנפש. לאחר מכן כתבנו את ההיגיון הזה באמצעות טרנספורמציה של נוסחה מותאמת אישית של Data Wrangler המשתמשת בביטוי Spark SQL כדי לחשב עמודת יעד של אבחון בריאות הנפש (MH), שהוספנו לסוף ה-DataFrame.

ML8274-image003

השתמשנו בלוגיקת הטרנספורמציה הבאה:

# Output: MH
IF (HCC_Code_11 > 0 or HCC_Code_22 > 0 or HCC_Code_23 > 0 or HCC_Code_54 > 0 or HCC_Code_55 > 0 or HCC_Code_57 > 0 or HCC_Code_72 > 0, 1, 0)

שחרר עמודות מ-DataFrame באמצעות PySpark

לאחר חישוב עמודת המטרה (MH), הורדנו את כל העמודות הכפולות המיותרות. שמרנו את מזהה החולה ואת העמודה MH כדי להצטרף למערך הנתונים הראשי שלנו. זה נעשה על ידי טרנספורמציה של SQL מותאמת אישית המשתמשת ב- PySpark SQL כמסגרת לבחירתנו.

ML8274-image005

השתמשנו בלוגיקה הבאה:

/* Table is available as variable df */ select MH, patient_id0 from df

הזז את העמודה MH כדי להתחיל

אלגוריתם ה-ML שלנו דורש שהקלט המסומן יהיה בעמודה הראשונה. לכן, העברנו את העמודה המחושבת MH לתחילת ה-DataFrame כדי להיות מוכנה לייצוא.

ML8274-image006

מלא את החסר עם 0 באמצעות Pandas

אלגוריתם ה-ML שלנו דורש גם שלנתוני הקלט אין שדות ריקים. לכן, מילאנו את השדות הריקים של מערך הנתונים הסופי ב-0s. אנחנו יכולים לעשות זאת בקלות באמצעות טרנספורמציה מותאמת אישית (Pandas) ב-Data Wrangler.

ML8274-image007

השתמשנו בלוגיקה הבאה:

# Table is available as variable df
df.fillna(0, inplace=True)

עמוד יצוק מצוף לארוך

אתה יכול גם לנתח ולהעביר עמודה לכל סוג נתונים חדש בקלות ב-Data Wrangler. למטרות אופטימיזציה של זיכרון, אנו מטילים את עמודת הקלט של תווית בריאות הנפש שלנו כציפה.

ML8274-image008

ניתוח מודל מהיר: גרף חשיבות תכונה

לאחר יצירת מערך הנתונים הסופי שלנו, השתמשנו בסוג ניתוח המודל המהיר ב-Data Wrangler כדי לזהות במהירות חוסר עקביות בנתונים ואם דיוק המודל שלנו היה בטווח הצפוי, או אם עלינו להמשיך בהנדסת תכונות לפני שהקדשנו את הזמן לאימון המודל. הדגם החזיר ציון F1 של 0.901, כאשר 1 הוא הגבוה ביותר. ציון F1 הוא דרך לשלב את הדיוק והזיכרון של הדגם, והוא מוגדר כממוצע ההרמוני של השניים. לאחר בדיקת התוצאות החיוביות הראשוניות הללו, היינו מוכנים לייצא את הנתונים ולהמשיך בהכשרת מודלים באמצעות מערך הנתונים המיוצא.

ML8274-image009

ייצא את מערך הנתונים הסופי לאמזון S3 באמצעות מחברת Jupyter

כשלב אחרון, לייצא את מערך הנתונים בצורתו הנוכחית (השתנה) אל שירות אחסון פשוט של אמזון (Amazon S3) לשימוש עתידי באימוני מודלים, אנו משתמשים ב- שמור באמזון S3 (דרך Jupyter Notebook) אפשרות ייצוא. מחברת זו מתחילה מבוזרת וניתנת להרחבה עיבוד אמזון SageMaker עבודה המיישמת את המתכון שנוצר (זרימת נתונים) על תשומות שצוינו (בדרך כלל מערכי נתונים גדולים יותר) ושומרת את התוצאות באמזון S3. אתה יכול גם לייצא את העמודות (התכונות) שהשתנו חנות הפונקציות של אמזון SageMaker או ייצא את הטרנספורמציות כצינור באמצעות צינורות SageMaker של אמזון, או פשוט ייצא את הטרנספורמציות כקוד Python.

כדי לייצא נתונים לאמזון S3, יש לך שלוש אפשרויות:

ייצא את הנתונים שעברו טרנספורמציה ישירות לאמזון S3 דרך ממשק המשתמש של Data Wrangler
ייצא את הטרנספורמציות כעבודת SageMaker Processing באמצעות מחברת Jupyter (כפי שאנו עושים עבור פוסט זה).
ייצא את הטרנספורמציות לאמזון S3 דרך צומת יעד. צומת יעד אומר ל-Data Wrangler היכן לאחסן את הנתונים לאחר עיבודם. לאחר יצירת צומת יעד, אתה יוצר עבודת עיבוד לפלט את הנתונים.

ML8274-image010

סיכום

בפוסט זה, הצגנו כיצד Equilibrium Point IoT משתמש ב-Data Wrangler כדי להאיץ את תהליך הטעינה של כמויות גדולות של נתוני התביעות שלנו לניקוי נתונים וטרנספורמציה לקראת ML. הדגמנו גם כיצד לשלב הנדסת תכונות עם טרנספורמציות מותאמות אישית באמצעות Pandas ו- PySpark ב-Data Wrangler, מה שמאפשר לנו לייצא נתונים צעד אחר צעד (לאחר כל הצטרפות) למטרות אבטחת איכות. היישום של טרנספורמציות קלות לשימוש אלה ב-Data Wrangler צמצם את הזמן המושקע בטרנספורמציה של נתונים מקצה לקצה בכמעט 50%. כמו כן, תכונת ניתוח המודל המהיר ב-Data Wrangler אפשרה לנו לאמת בקלות את מצב הטרנספורמציות בזמן שאנו עוברים במחזוריות של תהליך הכנת הנתונים והנדסת תכונות.

כעת, לאחר שהכנו את הנתונים למקרה השימוש שלנו במודלים של סיכון בריאות הנפש, כשלב הבא, אנו מתכננים לבנות מודל ML באמצעות SageMaker והאלגוריתמים המובנים שהוא מציע, תוך שימוש במערך הטענות שלנו כדי לזהות חברים שצריכים לחפש בריאות נפשית שירותים לפני שהם מגיעים לנקודה שבה הם צריכים את זה. המשך לעקוב!

על הכותבים

שיבאנגי סאה הוא מדען נתונים ב-Equilibrium Point. היא משלבת את המומחיות שלה בנתוני תביעות משלמי שירותי בריאות ולמידת מכונה כדי לתכנן, להטמיע, לבצע אוטומציה ולתעד עבור צינורות נתוני בריאות, דיווח ותהליכי ניתוח המניעים תובנות ושיפורים ניתנים לפעולה במערכת אספקת שירותי הבריאות. שיבנגי קיבלה את התואר השני שלה לביואינפורמטיקה מהמכללה למדע של אוניברסיטת Northeastern ותואר ראשון בביולוגיה ומדעי המחשב ממכללת חורי למדעי המחשב ומדעי המידע.

גרסיאלה קרבצוב הוא המייסד וה-CTO של Equilibrium Point. גרייס כיהנה בתפקידי מנהיגות בדרג C/סמנכ"ל בתחום הנדסה, תפעול ואיכות, ושימשה כיועצת בכיר לאסטרטגיה עסקית ופיתוח מוצרים בתעשיות הבריאות והחינוך ובמרחב התעשייתי של ה-IoT. גרייס קיבלה תואר שני במדעים בהנדסה אלקטרומכנית מאוניברסיטת בואנוס איירס ותואר שני במדעי המחשב מאוניברסיטת בוסטון.

ארונפרשת שנקר הוא אדריכל פתרונות מומחים לבינה מלאכותית ולמידת מכונות (AI / ML) עם AWS, המסייע ללקוחות גלובליים לשנות את פתרונות ה- AI שלהם ביעילות וביעילות בענן. בזמנו הפנוי, ארון נהנה לצפות בסרטי מדע בדיוני ולהאזין למוזיקה קלאסית.

אג'אי שארמה הוא מנהל מוצר בכיר של Amazon SageMaker, שם הוא מתמקד ב- SageMaker Data Wrangler, כלי להכנת נתונים חזותיים עבור מדעני נתונים. לפני AWS, אג'אי היה מומחה למדעי נתונים בחברת McKinsey and Company, שם הוביל התקשרויות ממוקדות ML עבור חברות פיננסים וביטוח מובילות ברחבי העולם. אג'אי נלהב ממדעי הנתונים ואוהב לחקור את האלגוריתמים האחרונים וטכניקות למידת מכונה.

בול זמן: במרץ 25, 2022

בול זמן: נובמבר 27, 2023

הועלה מחדש על ידי אפלטון

התאם אישית כללים עסקיים לעיבוד מסמכים חכם עם סקירה אנושית והדמיית BI

זיהוי חריגות עם Amazon SageMaker Edge Manager באמצעות AWS IoT Greengrass V2

כיצד Amp באמזון השתמשה בנתונים כדי להגביר את מעורבות הלקוחות, חלק 1: בניית פלטפורמת ניתוח נתונים

השתמש בתסריטי אימון משלך ובחר אוטומטית את הדגם הטוב ביותר באמצעות אופטימיזציה של היפרפרמטרים באמזון SageMaker

הגדר פרויקט סיכום טקסט עם מחבקי פנים רובוטריקים: חלק 1

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן