היכרות עם פורטונה: ספרייה לכימות אי ודאות

הועלה מחדש על ידי אפלטון

עוקב: 0

הערכה נכונה של אי ודאות חיזוי היא בסיסית ביישומים הכוללים החלטות קריטיות. ניתן להשתמש באי-ודאות כדי להעריך את מהימנות תחזיות המודל, להפעיל התערבות אנושית או להחליט אם ניתן לפרוס מודל בבטחה בטבע.

אנחנו מציגים Fortune, ספריית קוד פתוח לכימות אי ודאות. Fortuna מספקת שיטות כיול, כגון חיזוי קונפורמי, שניתן ליישם על כל רשת עצבית מאומנת כדי לקבל אומדני אי ודאות מכוילים. הספרייה תומכת בנוסף במספר שיטות היסק בייסיאניות שניתן ליישם על רשתות עצביות עמוקות שנכתבו ב פשתן. הספרייה מקלה על הפעלת מדדים ותאפשר למתרגלים לבנות פתרונות AI חזקים ואמינים על ידי ניצול טכניקות כימות מתקדמות של אי ודאות.

הבעיה של ביטחון יתר בלמידה עמוקה

אם אי פעם הסתכלת על הסתברויות מחלקות שהוחזרו על ידי מסווג רשת עצבית עמוקה מאומן, אולי היית רואה שההסתברות של מחלקה אחת הייתה גדולה בהרבה מהאחרות. משהו כזה, למשל:

p = [0.0001, 0.0002, …, 0.9991, 0.0003, …, 0.0001]

אם זה המקרה עבור רוב התחזיות, המודל שלך עשוי להיות בטוח יתר על המידה. על מנת להעריך את תקפות ההסתברויות המוחזרות על ידי המסווג, אנו עשויים להשוות אותן עם הדיוק בפועל שהושג על פני מערך נתונים מחזיק. אכן, טבעי להניח ששיעור נקודות הנתונים המסווגות כהלכה צריך להתאים בערך להסתברות המשוערת של המחלקה החזויה. מושג זה ידוע בשם כִּיוּל [Guo C. et al., 2017].

לרוע המזל, רשתות עצביות עמוקות מאומנות רבות מכוילות בצורה שגויה, כלומר ההסתברות המשוערת של המחלקה החזויה גבוהה בהרבה מהשיעור של נקודות נתוני קלט מסווגות כהלכה. במילים אחרות, המסווג בטוח בעצמו יתר על המידה.

ביטחון עצמי יתר על המידה עשוי להיות בעייתי בפועל. ייתכן שרופא לא יזמין בדיקות נוספות רלוונטיות, כתוצאה מאבחון בריא עם בטחון יתר שנוצר על ידי AI. מכונית בנהיגה עצמית עשויה להחליט שלא לבלום משום שהיא העריכה בביטחון שהאובייקט שלפניו אינו אדם. מושל עשוי להחליט לפנות עיר מכיוון שהסבירות לאסון טבע בולט המוערך על ידי בינה מלאכותית גבוהה מדי. ביישומים אלה ורבים אחרים, אומדני אי ודאות מכוילים הם קריטיים כדי להעריך את מהימנות תחזיות המודל, לחזור למקבל החלטות אנושי או להחליט אם ניתן לפרוס מודל בבטחה.

Fortuna: ספרייה לכימות אי ודאות

ישנן טכניקות רבות שפורסמו כדי להעריך או לכייל את אי הוודאות של התחזיות, למשל, מסקנות בייסיאניות [Wilson AG, 2020], קנה המידה של הטמפרטורה [Guo C. et al., 2017], ותחזית קונפורמית [Angelopoulos AN et al., 2022] שיטות. עם זאת, לכלים וספריות קיימים לכימות אי ודאות יש היקף צר ואינם מציעים מגוון רחב של טכניקות במקום אחד. זה גורם לתקורה משמעותית, המעכב את אימוץ אי הוודאות למערכות הייצור.

על מנת למלא את הפער הזה, אנו משיקים את Fortuna, ספרייה לכימות אי ודאות המאגדת שיטות בולטות ברחבי הספרות והופכת אותן לזמינות למשתמשים עם ממשק סטנדרטי ואינטואיטיבי.

כדוגמה, נניח שיש לך מעמיסי נתונים להדרכה, כיול ובדיקה tensorflow.Tensor פורמט, כלומר train_data_loader, calib_data_loader ו test_data_loader. יתר על כן, יש לך מודל למידה עמוקה שנכתב פשתן, כלומר דגם. לאחר מכן תוכל להשתמש בפורטונה כדי:

להתאים התפלגות אחורית;
כייל את פלטי הדגם;
לבצע תחזיות מכוילות;
אומדני אי ודאות;
לחשב מדדי הערכה.

הקוד הבא עושה את כל זה בשבילך.

from fortuna.data import DataLoader
from fortuna.prob_model.classification import ProbClassifier
from fortuna.metric.classification import expected_calibration_error

# convert data loaders
train_data_loader = DataLoader.from_tensorflow_data_loader(train_data_loader)
calib_data_loader = DataLoader.from_tensorflow_data_loader(calib_data_loader)
test_data_loader = DataLoader.from_tensorflow_data_loader(test_data_loader)

# define and train a probabilistic model
prob_model = ProbClassifier(model=model)
train_status = prob_model.train(train_data_loader=train_data_loader, calib_data_loader=calib_data_loader)

# make predictions and estimate uncertainty
test_inputs_loader = test_data_loader.to_inputs_loader()
test_means = prob_model.predictive.mean(inputs_loader=test_inputs_loader)
test_modes = prob_model.predictive.mode(inputs_loader=test_inputs_loader, means=test_means)

# compute the expected calibration error and plot a reliability diagram
test_targets = test_data_loader.to_array_targets()
ece = expected_calibration_error(preds=test_modes, probs=test_means, targets=test_targets)

הקוד לעיל עושה שימוש במספר אפשרויות ברירת מחדל, כולל SWAG [Madox WJ et al., 2019] כשיטת הסקה אחורית, קנה מידה של טמפרטורה [Guo C. et al., 2017] כדי לכייל את פלטי הדגם, והפצה גאוסית קודמת סטנדרטית, כמו גם את התצורה של תהליכי ההתאמה והכיול האחוריים. אתה יכול להגדיר בקלות את כל הרכיבים הללו, ומומלץ מאוד לעשות זאת אם אתה מחפש תצורה ספציפית או אם אתה רוצה להשוות בין כמה.

מצבי שימוש

פורטונה מציעה שלושה מצבי שימוש: 1/ החל מדגמי פשתן, 2 / החל מתפוקות הדגם, ו-3/ החל מהערכות אי ודאות. הצינורות שלהם מתוארים באיור הבא, כל אחד מתחיל מאחד הלוחות הירוקים. קטע הקוד שלמעלה הוא דוגמה לשימוש ב-Fortuna החל ממודלים של Flax, המאפשרים אימון מודל באמצעות נהלי היסק בייסיאני. לחלופין, אתה יכול להתחיל לפי תפוקות מודל או ישירות מהערכות אי הוודאות שלך. שני המצבים האחרונים הללו הם עצמאית במסגרת ולעזור לך להשיג אומדני אי ודאות מכוילים החל מא דגם מאומן.

1/ החל מהערכות אי ודאות

החל מהערכות אי ודאות יש דרישות תאימות מינימליות, וזו הרמה המהירה ביותר של אינטראקציה עם הספרייה. מצב שימוש זה מציע שיטות חיזוי קונפורמיות הן לסיווג והן לרגרסיה. אלה לוקחים הערכות אי ודאות numpy.ndarray לעצב ולהחזיר קבוצות תחזיות קפדניות ששומרות על רמת הסתברות הנתונה למשתמש. במשימות רגרסיה חד-ממדיות, ניתן לחשוב על סטים קונפורמיים כגרסאות מכוילות של ביטחון או מרווחים אמינים.

שימו לב שאם הערכות אי הוודאות שאתם מספקים בתשומות אינן מדויקות, קבוצות קונפורמיות עשויות להיות גדולות ולא שמישות. מסיבה זו, אם היישום שלך מאפשר זאת, אנא שקול את ה החל מתפוקות הדגם ו החל מדגמי פשתן מצבי שימוש המפורטים להלן.

2/ החל מתפוקות הדגם

מצב זה מניח שכבר אימנתם דגם במסגרת כלשהי והגעתם לפורטונה עם פלטי דגם numpy.ndarray פורמט עבור כל נקודת נתוני קלט. מצב שימוש זה מאפשר לך לכייל את תפוקות המודל שלך, להעריך אי ודאות, לחשב מדדים ולהשיג ערכות קונפורמיות.

בהשוואה ל החל מהערכות אי ודאות מצב שימוש, החל מתפוקות הדגם מספק שליטה טובה יותר, מכיוון שהוא יכול לוודא שהערכות אי-הוודאות מכוילות כראוי. עם זאת, אם המודל היה מאומן בשיטות קלאסיות, כימות אי הוודאות של המודל (הידוע גם אפיסטמי) עשוי להיות גרוע. כדי להקל על בעיה זו, אנא שקול את החל מדגמי פשתן מצב שימוש.

3/ החל מדגמי פשתן

החל מדגמי פשתן יש דרישות תאימות גבוהות יותר מאשר החל מהערכות אי ודאות ו החל מתפוקות הדגם מצבי שימוש, מכיוון שהוא דורש מודלים של למידה עמוקה שנכתבו ב פשתן. עם זאת, זה מאפשר לך להחליף אימון מודלים סטנדרטיים בהליכי הסקת מסקנות בייסיאניות ניתנות להרחבה, שעשויים לשפר משמעותית את הכימות של אי ודאות חיזוי.

שיטות בייסיאניות פועלות על ידי ייצוג אי ודאות לגבי איזה פתרון נכון, בהינתן מידע מוגבל, באמצעות אי ודאות לגבי פרמטרים של מודל. סוג זה של אי ודאות נקרא אי ודאות "אפיסטמית". מכיוון שרשתות עצביות יכולות לייצג פתרונות רבים ושונים, התואמים להגדרות שונות של הפרמטרים שלהן, שיטות בייסיאניות יכולות להיות משפיעות במיוחד בלמידה עמוקה. אנו מספקים נהלי הסקה בייסיאניים רבים שניתן להרחיב בהם, אשר לעתים קרובות ניתן להשתמש בהם כדי לספק הערכות אי ודאות, כמו גם דיוק וכיול משופרים, ללא תקורה של זמן אימון למעשה.

סיכום

הכרזנו על הזמינות הכללית של Fortuna, ספרייה לכימות אי ודאות בלמידה עמוקה. Fortuna מרכזת שיטות בולטות ברחבי הספרות, למשל, שיטות קונפורמיות, קנה מידה טמפרטורה והסקת בייסיאנית, והופכת אותן לזמינות למשתמשים עם ממשק סטנדרטי ואינטואיטיבי. כדי להתחיל עם Fortuna, תוכל להתייעץ עם המשאבים הבאים:

נסה את Fortuna, וספר לנו מה אתה חושב! אתה מוזמן לתרום לספרייה או להשאיר את ההצעות והתרומות שלך - פשוט צור סוגיה או לפתוח א בקשת משיכה. מהצד שלנו, נמשיך לשפר את Fortuna, להגדיל את הכיסוי שלה לשיטות לכימות אי ודאות ולהוסיף דוגמאות נוספות המציגות את השימושיות שלה במספר תרחישים.

על המחברים

הכירו את Fortuna: ספרייה לכימות אי-ודאות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ג'אנלוקה דטומאסו הוא מדען יישומי ב-AWS. כיום הוא עובד על כימות אי ודאות בלמידה עמוקה. בזמנו הפנוי, ג'אנלוקה אוהב לעסוק בספורט, לאכול אוכל מעולה וללמוד מיומנויות חדשות.

אלברטו גספרין הוא מדען יישומי ב-Amazon Community Shopping מאז יולי 2021. תחומי העניין שלו כוללים עיבוד שפה טבעית, אחזור מידע וכימות אי ודאות. הוא חובב אוכל ויין.

מישל דוניני הוא Sr Applied Scientist ב-AWS. הוא מוביל צוות של מדענים שעובדים על AI אחראי ותחומי המחקר שלו הם הוגנות אלגוריתמית ולמידת מכונה ניתנת להסבר.

מתיאס סיגר הוא מדען יישומי ראשי ב-AWS.

סדריק ארכמבו הוא מדען יישומי ראשי ב-AWS ועמית במעבדה האירופית ללמידה ומערכות חכמות.

אנדרו גורדון ווילסון הוא פרופסור חבר במכון קורנט למדעי המתמטיקה והמרכז למדעי הנתונים באוניברסיטת ניו יורק, ואקדמאי מבקר באמזון ב-AWS. הוא עוסק במיוחד בבניית שיטות ללמידה עמוקה בייסיאנית והסתברותית, תהליכי גאוס ניתנים להרחבה, אופטימיזציה בייסיאנית ולמידת מכונה בהשראת הפיזיקה.

בול זמן: דצמבר 16, 2022דצמבר 19, 2022

בול זמן: אוקטובר 5, 2023

היכרות עם Fortuna: ספרייה לכימות אי ודאות

הועלה מחדש על ידי אפלטון

הבעיה של ביטחון יתר בלמידה עמוקה

Fortuna: ספרייה לכימות אי ודאות

מצבי שימוש

1/ החל מהערכות אי ודאות

2/ החל מתפוקות הדגם

3/ החל מדגמי פשתן

סיכום

על המחברים

עוד מ למידת מכונות AWS

ארגן את מסע למידת המכונה שלך עם Amazon SageMaker Experiments ו-Amazon SageMaker Pipelines

סדר את התמלילים שלך לפסקאות עם Amazon Transcribe | שירותי האינטרנט של אמזון

כוונן דגמי ML למטרות נוספות כמו הוגנות עם SageMaker Automatic Model Tuning

השתמש בשירותי AWS AI ו-ML כדי לטפח נגישות והכלה של אנשים עם לקות ראייה או תקשורת

"מזהה + סלפי" - שיפור אימות הזהות הדיגיטלית באמצעות AWS

המלצת כוח וחיפוש באמצעות גרף ידע IMDb - חלק 1

כוונון עדין של LLaMA 2 מהיר וחסכוני עם AWS Trainium | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן