ב 2021, תעשיית התרופות הניבה הכנסות של 550 מיליארד דולר בארה"ב. חברות תרופות מוכרות בשוק מגוון של תרופות שונות, לעתים קרובות חדשות, שבהן עלולות להתרחש לפעמים תופעות לוואי לא מכוונות אך חמורות.
ניתן לדווח על אירועים אלו בכל מקום, מבתי חולים או בבית, ויש לעקוב אחריהם באחריות וביעילות. עיבוד ידני מסורתי של תופעות לוואי הופך למאתגר בגלל הכמות הגוברת של נתוני בריאות ועלויות. בסך הכל, 384 מיליארד דולר צפויה להיות העלות של פעילויות מעקב תרופתי לתעשיית הבריאות הכוללת עד 2022. כדי לתמוך בפעילויות כלליות של מעקב תרופתי, לקוחות התרופות שלנו רוצים להשתמש בכוח של למידת מכונה (ML) כדי להפוך את זיהוי תופעות לוואי ממקורות מידע שונים. , כגון עדכונים של מדיה חברתית, שיחות טלפון, מיילים והערות בכתב יד, ומפעילים פעולות מתאימות.
בפוסט זה, אנו מראים כיצד לפתח פתרון מונחה ML באמצעות אמזון SageMaker לאיתור תופעות לוואי באמצעות מערך הנתונים של תגובות שליליות של תרופות הזמינות לציבור על חיבוק פנים. בפתרון זה, אנו מכווננים מגוון דגמים ב-Huging Face אשר הוכשרו מראש על נתונים רפואיים ומשתמשים במודל BioBERT, אשר הוכשר מראש ב- מערך נתונים של Pubmed ומבצע את הטוב ביותר מבין אלה שנוסו.
הטמענו את הפתרון באמצעות ה ערכת פיתוח ענן AWS (AWS CDK). עם זאת, אנו לא מכסים את הפרטים של בניית הפתרון בפוסט זה. למידע נוסף על יישום פתרון זה, עיין ב בנה מערכת לאיתור תופעות לוואי בזמן אמת באמצעות Amazon SageMaker ו- Amazon QuickSight.
פוסט זה מתעמק במספר תחומים מרכזיים ומספק חקירה מקיפה של הנושאים הבאים:
- אתגרי הנתונים שבהם נתקלים השירותים המקצועיים של AWS
- הנוף והיישום של מודלים של שפה גדולה (LLMs):
- רובוטריקים, BERT ו-GPT
- פנים מחבקות
- פתרון ה-LLM המותאם והמרכיבים שלו:
- הכנת נתונים
- אימון מודל
אתגר נתונים
הטיית נתונים היא לעתים קרובות בעיה כאשר מגיעים עם משימות סיווג. באופן אידיאלי תרצה לקבל מערך נתונים מאוזן, ומקרה שימוש זה אינו יוצא מן הכלל.
אנחנו מתייחסים להטיה הזו עם AI ייצור מודלים (Falcon-7B ו-Falcon-40B), שהתבקשו להפיק דגימות של אירועים על סמך חמש דוגמאות ממערך האימונים כדי להגדיל את המגוון הסמנטי ולהגדיל את גודל המדגם של אירועים חריגים שסומנו. זה יתרון עבורנו להשתמש כאן במודלים של פלקון מכיוון שבניגוד לחלק מה-LLMs ב-Hugging Face, Falcon נותן לך את מערך ההדרכה שבו הם משתמשים, כך שאתה יכול להיות בטוח שאף אחת מהדוגמאות של ערכת המבחנים שלך אינה כלולה בערכת האימונים של Falcon ולהימנע מנתונים נְגִיעוּת.
אתגר הנתונים הנוסף עבור לקוחות שירותי בריאות הם דרישות תאימות HIPAA. יש לשלב הצפנה במנוחה ובמעבר בפתרון כדי לעמוד בדרישות אלו.
רובוטריקים, BERT ו-GPT
ארכיטקטורת השנאים היא ארכיטקטורת רשת עצבית המשמשת למשימות עיבוד שפה טבעית (NLP). זה הוצג לראשונה בעיתון "תשומת לב היא כל מה שאתה צריך" מאת Vaswani et al. (2017). ארכיטקטורת השנאי מבוססת על מנגנון הקשב, המאפשר למודל ללמוד תלות ארוכת טווח בין מילים. רובוטריקים, כפי שנקבעו במסמך המקורי, מורכבים משני מרכיבים עיקריים: המקודד והמפענח. המקודד לוקח את רצף הקלט כקלט ומייצר רצף של מצבים נסתרים. לאחר מכן המפענח לוקח את המצבים הנסתרים הללו כקלט ומייצר את רצף הפלט. מנגנון הקשב משמש גם במקודד וגם במפענח. מנגנון הקשב מאפשר למודל לטפל במילים ספציפיות ברצף הקלט בעת יצירת רצף הפלט. זה מאפשר למודל ללמוד תלות ארוכת טווח בין מילים, דבר חיוני למשימות NLP רבות, כגון תרגום מכונה וסיכום טקסט.
אחת הארכיטקטורות הפופולריות והשימושיות יותר מבין ארכיטקטורות השנאים, Bidirectional Encoder Representations from Transformers (BERT), היא מודל ייצוג שפה שהיה מוצג ב 2018. BERT מאומן על רצפים שבהם חלק מהמילים במשפט מכוסות, ועליו למלא את המילים הללו תוך התחשבות במילים לפני ואחרי המילים המסכות. ניתן לכוונן את BERT למגוון משימות NLP, כולל מענה לשאלות, הסקת שפה טבעית וניתוח סנטימנטים.
ארכיטקטורת השנאים הפופולרית הנוספת שכבשה את העולם בסערה היא Generative Pre-trained Transformer (GPT). דגם ה-GPT הראשון היה הוצג בשנת 2018 על ידי OpenAI. זה עובד על ידי הכשרה לחזות בקפדנות את המילה הבאה ברצף, רק מודע להקשר שלפני המילה. מודלים של GPT מאומנים על מערך נתונים עצום של טקסט וקוד, וניתן לכוונן אותם עבור מגוון משימות NLP, כולל הפקת טקסט, מענה לשאלות וסיכום.
באופן כללי, BERT טוב יותר במשימות הדורשות הבנה מעמיקה יותר של ההקשר של מילים, ואילו GPT מתאים יותר למשימות הדורשות יצירת טקסט.
פנים מחבקות
Hugging Face היא חברת בינה מלאכותית המתמחה ב-NLP. הוא מספק פלטפורמה עם כלים ומשאבים המאפשרים למפתחים לבנות, לאמן ולפרוס מודלים של ML המתמקדים במשימות NLP. אחת ההצעות המרכזיות של Hugging Face היא הספרייה שלה, רוֹבּוֹטרִיקִים, הכולל מודלים מאומנים מראש שניתן לכוונן עבור משימות שפה שונות כגון סיווג טקסט, תרגום, סיכום ומענה לשאלות.
Hugging Face משתלב בצורה חלקה עם SageMaker, שהוא שירות מנוהל במלואו המאפשר למפתחים ומדעני נתונים לבנות, לאמן ולפרוס מודלים של ML בקנה מידה. סינרגיה זו מועילה למשתמשים בכך שהיא מספקת תשתית חזקה וניתנת להרחבה לטיפול במשימות NLP עם הדגמים החדישים שמציעה Hugging Face, בשילוב עם שירותי ה-ML החזקים והגמישים של AWS. אתה יכול גם לגשת לדגמי Hugging Face ישירות מ אמזון SageMaker JumpStart, מה שהופך את זה לנוח להתחיל עם פתרונות מובנים מראש.
סקירת פתרונות
השתמשנו בספריית Hugging Face Transformers כדי לכוונן עדין דגמי שנאים ב- SageMaker עבור המשימה של סיווג אירועי לוואי. עבודת ההדרכה נבנית באמצעות הערכת SageMaker PyTorch. ל- SageMaker JumpStart יש גם כמה אינטגרציות משלימות עם Hugging Face שמאפשרות יישום פשוט. בחלק זה, אנו מתארים את השלבים העיקריים הכרוכים בהכנת נתונים ובהכשרת מודלים.
הכנת נתונים
השתמשנו בנתוני התגובות השליליות (ade_corpus_v2) בתוך מערך הנתונים של Hugging Face עם חלוקת הדרכה/מבחן של 80/20. למבנה הנתונים הנדרש עבור אימון והסקת המודל שלנו יש שתי עמודות:
- עמודה אחת לתוכן טקסט כנתוני קלט של מודל.
- עמודה נוספת למחלקת התווית. יש לנו שתי כיתות אפשריות לטקסט:
Not_AE
וAdverse_Event
.
אימון וניסוי מודל
על מנת לחקור ביעילות את המרחב של מודלים אפשריים של Hugging Face כדי לכוונן את הנתונים המשולבים שלנו של אירועים חריגים, בנינו עבודה של SageMaker Hyperparameter Optimization (HPO) והעברנו מודלים שונים של Hugging Face כהיפרפרמטר, יחד עם יתר פרמטרים חשובים אחרים כגון גודל אצווה אימון, אורך רצף, מודלים וקצב למידה. בעבודות ההדרכה נעשה שימוש במופע ml.p3dn.24xlarge ולקח בממוצע 30 דקות לכל עבודה עם סוג המופע הזה. מדדי אימון נלכדו למרות ה ניסויים באמזון SageMaker כלי, וכל עבודת הכשרה עברה 10 עידנים.
אנו מציינים את הדברים הבאים בקוד שלנו:
- גודל אצווה אימון – מספר הדגימות שעובדו יחד לפני עדכון משקלי הדגם
- אורך רצף – אורך מקסימלי של רצף הקלט ש-BERT יכול לעבד
- שיעור למידה – באיזו מהירות הדגם מעדכן את המשקולות שלו במהלך האימון
- מודלים – דוגמניות שהוכשרו מראש לחבק פנים
תוצאות
הדגם שהציג את הביצועים הטובים ביותר במקרה השימוש שלנו היה monologg/biobert_v1.1_pubmed
מודל מתארח ב-Huging Face, שהיא גרסה של ארכיטקטורת BERT שהוכשרה מראש במערך הנתונים של Pubmed, המורכב מ-19,717 פרסומים מדעיים. אימון מקדים של BERT על מערך נתונים זה נותן למודל זה מומחיות נוספת בכל הנוגע לזיהוי הקשר סביב מונחים מדעיים הקשורים לרפואה. זה מגביר את ביצועי המודל עבור משימת זיהוי אירועי לוואי מכיוון שהוא עבר הכשרה מראש על תחביר ספציפי רפואי המופיע לעתים קרובות במערך הנתונים שלנו.
הטבלה הבאה מסכמת את מדדי ההערכה שלנו.
מספר סימוכין | דיוק | להיזכר | F1 |
בסיס BERT | 0.87 | 0.95 | 0.91 |
ביו-ברט | 0.89 | 0.95 | 0.92 |
BioBERT עם HPO | 0.89 | 0.96 | 0.929 |
BioBERT עם HPO ותופעות לוואי שנוצרו באופן סינתטי | 0.90 | 0.96 | 0.933 |
למרות שמדובר בשיפורים קטנים יחסית ומצטברים בהשוואה למודל BERT הבסיסי, זה בכל זאת מדגים כמה אסטרטגיות ברות קיימא לשיפור ביצועי המודל באמצעות שיטות אלו. נראה כי יצירת נתונים סינתטיים עם Falcon טומנת בחובה הרבה הבטחות ופוטנציאל לשיפורי ביצועים, במיוחד כאשר דגמי הבינה המלאכותית הגנרטיבית הללו משתפרים עם הזמן.
לנקות את
כדי להימנע מחיובים עתידיים, מחק את כל המשאבים שנוצרו כמו המודל ונקודות הקצה של המודל שיצרת עם הקוד הבא:
סיכום
חברות תרופות רבות היום רוצות להפוך את תהליך זיהוי תופעות לוואי מאינטראקציות עם הלקוחות שלהן באופן שיטתי על מנת לעזור לשפר את בטיחות הלקוח ואת התוצאות. כפי שהראינו בפוסט זה, ה-LLM BioBERT המכוונן עדין עם תופעות לוואי שנוצרו באופן סינתטי שנוספו לנתונים מסווג את תופעות הלוואי עם ציוני F1 גבוהים וניתן להשתמש בו כדי לבנות פתרון תואם HIPAA עבור הלקוחות שלנו.
כמו תמיד, AWS מברכת על המשוב שלך. אנא השאר את המחשבות והשאלות שלך בקטע ההערות.
על המחברים
זאק פיטרסון הוא מדען נתונים בשירותים מקצועיים של AWS. הוא עוסק במתן פתרונות למידת מכונה ללקוחות כבר שנים רבות ובעל תואר שני בכלכלה.
ד"ר אדוואלה אקינפדרין הוא מדען נתונים בכיר במדעי הבריאות והחיים ב-AWS. המומחיות שלו היא בשיטות AI/ML הניתנות לשחזור ומקצה לקצה, יישומים מעשיים וסיוע ללקוחות שירותי בריאות גלובליים לגבש ולפתח פתרונות ניתנים להרחבה לבעיות בינתחומיות. יש לו שני תארים מתקדמים בפיזיקה ותואר דוקטור בהנדסה.
אקטה וואליה בהולאר, PhD, הוא יועץ בכיר בינה מלאכותית/ML ביחידה העסקית של שירותי הבריאות ומדעי החיים של AWS (HCLS). יש לה ניסיון רב ביישום AI/ML בתחום הבריאות, במיוחד ברדיולוגיה. מחוץ לעבודה, כשהיא לא דנה בבינה מלאכותית ברדיולוגיה, היא אוהבת לרוץ ולטייל.
האן מן הוא מנהל בכיר למדעי נתונים ולמידת מכונה עם שירותים מקצועיים של AWS שבסיסו בסן דייגו, קליפורניה. יש לו דוקטורט בהנדסה מאוניברסיטת נורת'ווסטרן ויש לו ניסיון של מספר שנים כיועץ ניהולי בייעוץ ללקוחות בייצור, שירותים פיננסיים ואנרגיה. כיום, הוא עובד בלהט עם לקוחות מפתח ממגוון רחב של ענפים בתעשייה כדי לפתח ולהטמיע פתרונות ML ו-AI גנרטיביים ב-AWS.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- גישה
- חֶשְׁבּוֹן
- ACM
- פעולות
- פעילויות
- הוסיף
- כתובת
- יתרון
- שְׁלִילִי
- ייעוץ
- לאחר
- AI
- דגמי AI
- AI / ML
- AL
- תעשיות
- מאפשר
- לאורך
- גם
- תמיד
- אמזון בעברית
- אמזון SageMaker
- אמזון שירותי אינטרנט
- כמות
- an
- אנליזה
- ו
- מענה
- כל
- בְּכָל מָקוֹם
- בקשה
- מתאים
- ארכיטקטורה
- ארכיטקטורות
- ARE
- אזורים
- סביב
- מלאכותי
- בינה מלאכותית
- AS
- At
- השתתף
- תשומת לב
- אוטומטי
- זמין
- מְמוּצָע
- לְהִמָנַע
- מודע
- AWS
- שירותים מקצועיים של AWS
- מאוזן
- בסיס
- מבוסס
- BE
- כי
- היה
- לפני
- להיות
- הטבות
- הטוב ביותר
- מוטב
- בֵּין
- דו כיוונית
- B
- מגביר
- שניהם
- גבולות
- לִבנוֹת
- בִּניָן
- נבנה
- עסקים
- אבל
- by
- CA
- שיחות
- CAN
- נתפס
- מקרה
- לאתגר
- האתגרים
- אתגר
- חיובים
- בכיתה
- כיתות
- מיון
- לקוחות
- ענן
- קוד
- טור
- עמודות
- משולב
- מגיע
- מגיע
- הערות
- חברות
- חברה
- משלימה
- הענות
- רכיבים
- מַקִיף
- מורכב
- בנוי
- יועץ
- הכלול
- תוכן
- הקשר
- נוֹחַ
- עלות
- עלויות
- לכסות
- לִיצוֹר
- נוצר
- לקוח
- לקוחות
- נתונים
- הכנת נתונים
- מדע נתונים
- מדען נתונים
- מבנה נתונים
- עמוק יותר
- לְהַגדִיר
- תואר
- אספקה
- מתעמק
- מדגים
- תלות
- לפרוס
- לתאר
- איתור
- לפתח
- מפתחים
- צעצועי התפתחות
- דייגו
- אחר
- ישירות
- דנים
- גיוון
- תחום
- לא
- תרופה
- סמים
- בְּמַהֲלָך
- E&T
- כל אחד
- כלכלה
- יעילות
- מיילים
- לאפשר
- מאפשר
- הצף
- מקצה לקצה
- אנרגיה
- הנדסה
- תקופות
- במיוחד
- חיוני
- הערכה
- אירוע
- אירועים
- דוגמאות
- יוצא מן הכלל
- ניסיון
- מומחיות
- חקירה
- לחקור
- נרחב
- ניסיון רב
- נוסף
- f1
- פָּנִים
- מָשׁוֹב
- למלא
- כספי
- שירותים פיננסיים
- ראשון
- חמש
- גמיש
- מרוכז
- הבא
- בעד
- החל מ-
- לגמרי
- עתיד
- כללי
- ליצור
- נוצר
- יצירת
- דור
- גנרטטיבית
- AI Generative
- לקבל
- נותן
- גלוֹבָּלִי
- בוגר
- לטפל
- ידיים
- יש
- he
- בְּרִיאוּת
- בריאות
- תעשיית הבריאות
- HealthTech
- לעזור
- עזרה
- כאן
- מוּסתָר
- גָבוֹהַ
- טיול
- שֶׁלוֹ
- להחזיק
- עמוד הבית
- בתי חולים
- אירח
- איך
- איך
- אולם
- HTTPS
- אופטימיזציה של היפר-פרמטרים
- באופן אידיאלי
- זיהוי
- ליישם
- הפעלה
- יישומים
- יושם
- לייבא
- חשוב
- לשפר
- שיפורים
- in
- כולל
- כולל
- התאגדה
- להגדיל
- גדל
- מצטבר
- תעשייה
- מידע
- תשתית
- קלט
- למשל
- משלב
- ואינטגרציות
- מוֹדִיעִין
- יחסי גומלין
- אל תוך
- הציג
- מעורב
- IT
- שֶׁלָה
- עבודה
- מקומות תעסוקה
- jpg
- מפתח
- אזורי מפתח
- תווית
- הניח
- נוף
- שפה
- גָדוֹל
- לִלמוֹד
- למידה
- יציאה
- אורך
- סִפְרִיָה
- החיים
- מדעי חיים
- כמו
- אוהב
- LLM
- מגרש
- מכונה
- למידת מכונה
- עשוי
- ראשי
- גדול
- עושה
- עשייה
- איש
- הצליח
- ניהול
- מנהל
- מדריך ל
- ייצור
- רב
- שוק
- מסיבי
- מאסטר
- לְהַגדִיל
- מקסימום
- מנגנון
- מדיה
- רפואי
- נתונים רפואיים
- לִפְגוֹשׁ
- שיטות
- מדדים
- דקות
- ML
- מודל
- מודלים
- פיקוח
- יותר
- צריך
- שם
- טבעי
- עיבוד שפה טבעית
- רשת
- עצבי
- רשת עצבית
- אף על פי כן
- הבא
- NLP
- לא
- ללא חתימה
- הערות
- רומן
- מספר
- להתרחש
- of
- הצעות
- המיוחדות שלנו
- לעתים קרובות
- on
- ONE
- רק
- אופטימיזציה
- or
- להזמין
- מְקוֹרִי
- אחר
- שלנו
- הַחוּצָה
- תוצאות
- תפוקה
- בחוץ
- יותר
- מקיף
- יתר על המידה
- מאמר
- עבר
- עבור
- ביצועים
- ביצעתי
- מבצע
- התרופות
- דוקטורט
- טלפון
- שיחות טלפון
- פיסיקה
- פלטפורמה
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- אנא
- פופולרי
- אפשרי
- הודעה
- פוטנציאל
- כּוֹחַ
- חזק
- מעשי
- לחזות
- הכנה
- בעיה
- בעיות
- תהליך
- מעובד
- תהליך
- ייצור
- מקצועי
- מוקרן
- הבטחה
- מספק
- מתן
- פרסומים
- בפומבי
- פיטורך
- שאלה
- שאלות
- מהירות
- רכס
- ציון
- תגובה
- זמן אמת
- להתייחס
- regex
- קָשׁוּר
- יחסית
- דווח
- נציגות
- לדרוש
- נדרש
- דרישות
- משאבים
- באחריות
- REST
- חָסוֹן
- הפעלה
- בְּטִיחוּת
- בעל חכמים
- לִטעוֹם
- סן
- סן דייגו
- להרחבה
- סולם
- מדע
- מדעים
- מדעי
- מַדְעָן
- מדענים
- בצורה חלקה
- סעיף
- נראה
- למכור
- סמנטי
- לחצני מצוקה לפנסיונרים
- משפט
- רגש
- רצף
- רציני
- שרות
- שירותים
- סט
- כמה
- היא
- לְהַצִיג
- הראה
- הופעות
- מידה
- מוטה
- קטן
- So
- חֶברָתִי
- מדיה חברתית
- פִּתָרוֹן
- פתרונות
- כמה
- לפעמים
- מקורות
- מֶרחָב
- מתמחה
- ספציפי
- פירוט
- לפצל
- התחלה
- מדינה-of-the-art
- הברית
- צעדים
- סטורם
- פשוט
- אסטרטגיות
- מִבְנֶה
- כזה
- תמיכה
- בטוח
- סינרגיה
- תחביר
- סינטטי
- נתונים סינתטיים
- באופן סינתטי
- מערכת
- שולחן
- משימות
- לוקח
- נטילת
- המשימות
- משימות
- מונחים
- מבחן
- טֶקסט
- סיווג טקסט
- זֶה
- השמיים
- העולם
- שֶׁלָהֶם
- אז
- אלה
- הֵם
- זֶה
- אלה
- אם כי?
- דרך
- זמן
- ל
- היום
- יַחַד
- לקח
- כלי
- כלים
- נושאים
- מסורתי
- רכבת
- מְאוּמָן
- הדרכה
- שנאי
- רוֹבּוֹטרִיקִים
- מעבר
- תרגום
- ניסיתי
- להפעיל
- שתיים
- סוג
- הבנה
- יחידה
- אוניברסיטה
- בניגוד
- עדכונים
- us
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- מועיל
- משתמשים
- באמצעות
- מגוון
- שונים
- גרסה
- אנכיות
- בַּר חַיִים
- רוצה
- היה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- מברך
- היו
- מתי
- ואילו
- אשר
- עם
- בתוך
- Word
- מילים
- תיק עבודות
- עובד
- עובד
- עוֹלָם
- היה
- שנים
- אתה
- זפירנט