כיצד להעריך את איכות הנתונים הסינתטיים - מדידה מנקודת מבט של נאמנות, שימושיות ופרטיות

הועלה מחדש על ידי אפלטון

עוקב: 0

בעולם יותר ויותר מתמקד בנתונים, ארגונים חייבים להתמקד באיסוף מידע פיזי בעל ערך וגם ביצירת המידע שהם צריכים אבל לא יכולים ללכוד בקלות. גישה לנתונים, רגולציה ותאימות הם מקור גובר לחיכוך לחדשנות באנליטיקה ובינה מלאכותית (AI).

עבור מגזרים בפיקוח גבוה כמו שירותים פיננסיים, בריאות, מדעי החיים, רכב, רובוטיקה וייצור, הבעיה גדולה עוד יותר. זה גורם לחסמים לתכנון מערכת, שיתוף נתונים (פנימי וחיצוני), מונטיזציה, ניתוח ולמידת מכונה (ML).

נתונים סינתטיים הם כלי שמתמודד עם אתגרי נתונים רבים, במיוחד בינה מלאכותית ובעיות ניתוח כמו הגנה על פרטיות, תאימות לרגולציה, נגישות, מחסור בנתונים והטיה. זה כולל גם שיתוף נתונים וזמן עד לנתונים (ולכן זמן לשוק).

נתונים סינתטיים נוצרים באופן אלגוריתמי. זה משקף מאפיינים סטטיסטיים ודפוסים מנתוני המקור. אבל מה שחשוב הוא לא מכיל נקודות נתונים רגישות, פרטיות או אישיות.

אתה שואל שאלות על הנתונים הסינתטיים ומקבל את אותן תשובות שהיית מקבל מהנתונים האמיתיים.

בשלנו פוסט מוקדם יותר, הדגמנו כיצד להשתמש ברשתות יריבות כמו Generative Adversarial Networks (GANS) כדי ליצור מערכי נתונים טבלאיים כדי לשפר את ההדרכה של מודל הונאות אשראי.

כדי שבעלי עניין עסקיים יאמצו נתונים סינתטיים עבור פרויקטי ה-ML והאנליטיקה שלהם, הכרחי לא רק לוודא שהנתונים הסינתטיים שנוצרו יתאימו למטרה וליישומים הצפויים במורד הזרם, אלא גם כדי שהם יוכלו למדוד ולהדגים את האיכות של הנתונים שנוצרו.

עם התגברות החובות המשפטיות והאתיות בשמירה על הפרטיות, אחת מנקודות החוזק של נתונים סינתטיים היא היכולת להסיר מידע רגיש ומקורי במהלך הסינתזה שלו. לכן, בנוסף לאיכות, אנו זקוקים למדדים כדי להעריך את הסיכון לדליפות מידע פרטיות, אם בכלל, ולהעריך שתהליך היצירה אינו "שינון" או העתקה של כל אחד מהנתונים המקוריים.

כדי להשיג את כל זה, אנו יכולים למפות את איכות הנתונים הסינתטיים למימדים, שיעזרו למשתמשים, לבעלי העניין ולנו להבין טוב יותר את הנתונים שנוצרו.

שלושת המימדים של הערכת איכות נתונים סינתטית

הנתונים הסינתטיים שנוצרו נמדדים מול שלושה ממדי מפתח:

דיוק
שירות
פרטיות

אלו הן חלק מהשאלות לגבי כל נתונים סינתטיים שנוצרו, שעליהם יש לענות על ידי דוח איכות נתונים סינתטי:

עד כמה הנתונים הסינטטיים האלה דומים בהשוואה לסט האימונים המקורי?
עד כמה הנתונים הסינטטיים האלה שימושיים עבור היישומים במורד הזרם שלנו?
האם מידע כלשהו דלף מנתוני האימון המקוריים לנתונים הסינתטיים?
האם נתונים כלשהם שנחשבים רגישים בעולם האמיתי (ממערכי נתונים אחרים שאינם משמשים לאימון המודל) סונתז בטעות על ידי המודל שלנו?

המדדים שמתרגמים כל אחד מהממדים הללו עבור משתמשי הקצה הם גמישים במקצת. אחרי הכל, הנתונים שייווצרו יכולים להשתנות מבחינת התפלגות, גודל והתנהגויות. הם צריכים להיות גם קלים לתפיסה ולפירוש.

בסופו של דבר, המדדים חייבים להיות מונחי נתונים לחלוטין, ולא דורשים ידע מוקדם או מידע ספציפי לתחום. עם זאת, אם המשתמש רוצה להחיל כללים ואילוצים ספציפיים החלים על תחום עסקי ספציפי, אז הוא אמור להיות מסוגל להגדיר אותם במהלך תהליך הסינתזה כדי לוודא שהנאמנות הספציפית לתחום מתקיימת.

אנו בוחנים כל אחד מהמדדים הללו ביתר פירוט בסעיפים הבאים.

מדדים להבנת נאמנות

בכל פרויקט מדעי נתונים, עלינו להבין האם אוכלוסיית מדגם מסוימת רלוונטית לבעיה שאנו פותרים. באופן דומה, לתהליך הערכת הרלוונטיות של הנתונים הסינתטיים שנוצרו, עלינו להעריך אותו במונחים של דיוק בהשוואה למקור.

ייצוגים חזותיים של מדדים אלה מקלים על ההבנה שלהם. נוכל להמחיש האם הקרדינליות והיחס בין הקטגוריות כובדו, המתאמים בין המשתנים השונים נשמרו, וכן הלאה.

הדמיה של הנתונים לא רק עוזרת להעריך את איכות הנתונים הסינתטיים, אלא גם משתלבת כאחד השלבים הראשוניים במחזור החיים של מדעי הנתונים להבנה טובה יותר של הנתונים.

בואו נצלול לכמה מדדי נאמנות ביתר פירוט.

השוואות סטטיסטיות חקרניות

במסגרת ההשוואות הסטטיסטיות החקרניות, התכונות של מערכי הנתונים המקוריים והסינטטיים נחקרות באמצעות מדדים סטטיסטיים מרכזיים, כגון ממוצע, חציון, סטיית תקן, ערכים ברורים, ערכים חסרים, מינימה, מקסימום, טווחי רבעונים עבור תכונות רציפות ומספר של רשומות לכל קטגוריה, ערכים חסרים לכל קטגוריה, ורוב התווים המתרחשים עבור תכונות קטגוריות.

השוואה זו צריכה להתבצע בין מערך הנתונים המקורי של ה-hold-out לבין הנתונים הסינתטיים. הערכה זו תגלה אם מערכי הנתונים שהושוו דומים סטטיסטית. אם הם לא, אז נבין אילו תכונות ומידות שונות. כדאי לשקול אימון מחדש וחידוש הנתונים הסינתטיים עם פרמטרים שונים אם יש הבדל משמעותי.

בדיקה זו פועלת כסינון ראשוני כדי לוודא שלנתונים הסינתטיים יש נאמנות סבירה למערך הנתונים המקורי ולכן יכול לעבור בדיקה קפדנית יותר.

ציון דמיון היסטוגרמה

ציון הדמיון ההיסטוגרמה מודד את ההתפלגות השולית של כל תכונה של מערכי הנתונים הסינתטיים והמקוריים.

ציון הדמיון מוגבל בין אפס לאחד, כאשר ציון אחד מצביע על כך שהתפלגות הנתונים הסינתטיים חופפות בצורה מושלמת את ההתפלגות של הנתונים המקוריים.

ציון קרוב לאחד ייתן למשתמשים את הביטחון שמערך הנתונים החזק ומערך הנתונים הסינטטי דומים סטטיסטית.

ציון מידע הדדי

ציון המידע ההדדי מודד את התלות ההדדית של שתי תכונות, מספריות או קטגוריות, ומציין כמה מידע ניתן לקבל מתכונה אחת על ידי צפייה באחרת.

מידע הדדי יכול למדוד קשרים לא ליניאריים, ולספק הבנה מקיפה יותר של איכות הנתונים הסינתטיים שכן הוא מאפשר לנו להבין את מידת שימור הקשרים של המשתנה.

ציון של אחד מצביע על כך שהתלות ההדדית בין תכונות נתפסה בצורה מושלמת בנתונים הסינתטיים.

ציון מתאם

ציון המתאם מודד עד כמה המתאמים במערך הנתונים המקורי נלכדו בנתונים הסינתטיים.

מתאמים בין שתי עמודות או יותר חשובים ביותר עבור יישומי ML, אשר מסייעים לחשוף קשרים בין תכונות ומשתנה היעד ועוזרים ליצור מודל מאומן היטב.

ציון המתאם מוגבל בין אפס לאחד, כאשר ציון אחד מצביע על התאמה מושלמת של המתאמים.

בניגוד לנתונים טבלאיים מובנים, שאנו נתקלים בהם בדרך כלל בבעיות נתונים, לסוגים מסוימים של נתונים מובנים יש התנהגות מסוימת שבה לתצפיות קודמות יש סבירות להשפיע על התצפית הבאה. אלה ידועים כסדרות זמן או נתונים עוקבים - לדוגמה, מערך נתונים עם מדידות שעתיות של טמפרטורת החדר.

התנהגות זו פירושה שקיימת דרישה להגדיר מדדים מסוימים שיכולים למדוד באופן ספציפי את האיכות של מערכי נתונים אלה של סדרות זמן

ציון אוטוקורלציה וציון אוטוקורלציה חלקי

למרות שדומה למתאם, אוטוקורלציה מראה את הקשר של סדרת זמן בערכה הנוכחי כפי שהיא מתייחסת לערכיה הקודמים. הסרת ההשפעות של פיגור הזמן הקודמים מניבה אוטוקורלציה חלקית. לכן, ציון המתאם האוטומטי מודד עד כמה הנתונים הסינתטיים תפסו את המתאמים האוטומטיים המשמעותיים, או המתאמים החלקיים, ממערך הנתונים המקורי.

מדדים להבנת התועלת

כעת אולי הבנו סטטיסטית שהנתונים הסינתטיים דומים למערך הנתונים המקורי. בנוסף, עלינו גם להעריך עד כמה מערך הנתונים המסונתז מסתדר בבעיות מדעיות נפוצות כאשר מאומנים במספר אלגוריתמים של ML.

שימוש בדברים הבאים תועלת במדדים, אנו שואפים לבנות ביטחון שאנו באמת יכולים להשיג ביצועים ביישומים במורד הזרם לגבי ביצועי הנתונים המקוריים.

ציון חיזוי

מדידת הביצועים של נתונים סינתטיים בהשוואה לנתונים האמיתיים המקוריים יכולה להתבצע באמצעות מודלים של ML. ציון המודל במורד זורם לוכד את איכות הנתונים הסינתטיים על ידי השוואת הביצועים של מודלים של ML שהוכשרו הן על מערכי הנתונים הסינתטיים והן המקוריים ואומתו על נתוני בדיקה שנמנעו ממערך הנתונים המקורי. זה מספק א ציון אמתי של מבחן סינתטי (TSTR). וכן רכבת מבחן אמיתי אמיתי (TRTR) ציון בהתאמה.

ציוני TSTR, TRTR וציון חשיבות התכונה (תמונה לפי מחבר)

הציון משלב מגוון רחב של אלגוריתמי ML המהימנים ביותר עבור משימות רגרסיה או סיווג. שימוש במספר מסווגים ורגרסורים מוודא שהניקוד ניתן להכללה יותר ברוב האלגוריתמים, כך שהנתונים הסינתטיים עשויים להיחשב שימושיים בעתיד.

בסופו של דבר, אם ציון TSTR וציון TRTR ניתנים להשוואה, זה מצביע על כך שלנתונים הסינתטיים יש את האיכות לשמש להכשרת מודלים אפקטיביים של ML עבור יישומים בעולם האמיתי.

ציון חשיבות תכונה

קשור מאוד לציון הניבוי, ציון חשיבות התכונה (FI) מרחיב אותו על ידי הוספת פרשנות לציוני TSTR ו-TRTR.

ציון F1 משווה את השינויים והיציבות של סדר החשיבות של התכונה המתקבלת עם ציון החיזוי. קבוצה סינתטית של נתונים נחשבת לתועלת גבוהה אם היא מניבה אותו סדר של חשיבות תכונה כמו הנתונים האמיתיים המקוריים.

QScore

כדי לוודא שמודל שאומן על פי הנתונים החדשים שלנו יפיק את אותן תשובות לאותן שאלות כמו מודל שאומן באמצעות הנתונים המקוריים, אנו משתמשים ב-Qscore. זה מודד את הביצועים במורד הזרם של הנתונים הסינתטיים על ידי הפעלת שאילתות רבות מבוססות צבירה אקראיות הן במערך הנתונים הסינתטי והן במערך הנתונים המקורי (והחזק).

הרעיון כאן הוא ששתי השאילתות הללו צריכות להחזיר תוצאות דומות.

QScore גבוה מוודא שיישומים במורד הזרם המשתמשים בפעולות שאילתה וצבירה יכולים לספק כמעט ערך שווה לזה של מערך הנתונים המקורי.

מדדים להבנת הפרטיות

עם פְּרָטִיוּת התקנות שכבר קיימות, זוהי חובה אתית ודרישה משפטית לוודא שמידע רגיש מוגן.

לפני שניתן יהיה לשתף נתונים סינתטיים אלה בחופשיות ולהשתמש בהם עבור יישומים במורד הזרם, עלינו לשקול את מדדי הפרטיות שיכולים לעזור לבעל העניין להבין היכן עומדים הנתונים הסינתטיים שנוצרו בהשוואה לנתונים המקוריים מבחינת היקף המידע שדלף. יתרה מכך, עלינו לקבל החלטות קריטיות לגבי האופן שבו ניתן לשתף את הנתונים הסינטטיים ולהשתמש בהם.

ציון התאמה מדויק

הערכה ישירה ואינטואיטיבית של פרטיות היא לחפש עותקים של הנתונים האמיתיים בין הרשומות הסינתטיות. ציון ההתאמה המדויק סופר את מספר השיאים האמיתיים שניתן למצוא בין הסט הסינתטי.

הציון צריך להיות אפס, ולציין שאין מידע אמיתי כמות שהוא בנתונים הסינתטיים. מדד זה פועל כמנגנון מיון לפני שאנו מעריכים מדדי פרטיות נוספים.

ציון הפרטיות של השכנים

יתר על כן, ציון הפרטיות של השכנים מודד את היחס בין רשומות סינתטיות שעלולות להיות קרובות מדי בדמיון לאלה האמיתיות. זה אומר שלמרות שהם לא עותקים ישירים, הם נקודות פוטנציאליות של זליגת פרטיות ומקור מידע שימושי להתקפות מסקנות.

הציון מחושב על ידי ביצוע חיפוש במידות גבוהות של השכנים הקרובים ביותר על הנתונים הסינתטיים שחופפים לנתונים המקוריים.

ציון מסקנות חברות

במחזור החיים של מדעי הנתונים, ברגע שמודל הוכשר, הוא כבר לא צריך גישה לדגימות ההדרכה ויכול לבצע תחזיות על נתונים בלתי נראים. באופן דומה, במקרה שלנו, לאחר הכשרה של מודל הסינתיסייזר, ניתן להפיק דוגמאות של נתונים סינתטיים ללא צורך בנתונים המקוריים.

דרך סוג של התקפה שנקרא "התקפת מסקנות חברות", תוקפים יכולים לנסות לחשוף את הנתונים ששימשו ליצירת הנתונים הסינתטיים, מבלי שיש להם גישה לנתונים המקוריים. זה מביא לפגיעה בפרטיות.

ציון מסקנות החברות מודד את הסבירות שהתקפת מסקנות חברות תצליח.

ציון נמוך מצביע על היתכנות להסיק שרשומה מסוימת הייתה חברה במערך ההדרכה שהוביל ליצירת הנתונים הסינתטיים. במילים אחרות, ההתקפות יכולות להסיק פרטים של רשומה בודדת, ובכך לפגוע בפרטיות.

ציון מסקנות גבוה לחברות מצביע על כך שתוקף לא סביר שיקבע אם רשומה מסוימת הייתה חלק ממערך הנתונים המקורי ששימש ליצירת הנתונים הסינתטיים. זה גם אומר שאף מידע של אדם לא נפגע באמצעות הנתונים הסינתטיים.

מושג ההחזקה

שיטה מומלצת חשובה שעלינו לפעול היא לוודא שהנתונים הסינתטיים הם כלליים מספיק ואינם מתאימים יותר מדי לנתונים המקוריים עליהם הם הוכשרו. בזרימה טיפוסית של מדעי הנתונים, תוך כדי בניית מודלים של ML כגון מסווג יער אקראי, אנו מניחים בצד נתוני בדיקה, מאמנים את המודלים באמצעות נתוני האימון ומעריכים את המדדים על נתוני מבחן בלתי נראים.

באופן דומה, עבור נתונים סינתטיים, אנו שומרים בצד דגימה מהנתונים המקוריים - המכונה בדרך כלל מערך נתונים מחזיק או נתוני בדיקה שלא נראים - ומעריכים את הנתונים הסינתטיים שנוצרו מול מערך הנתונים החזק.

מערך הנתונים החזק צפוי להיות ייצוג של הנתונים המקוריים, אך לא נראה כאשר הנתונים הסינתטיים נוצרו. לכן, חיוני לקבל ציונים דומים עבור כל המדדים כאשר משווים את המקור ל-holdout ומערכי הנתונים הסינתטיים.

כאשר מתקבלים ציונים דומים, אנו יכולים לקבוע שנקודות הנתונים הסינתטיות אינן תוצאה של שינון של נקודות הנתונים המקוריות, תוך שמירה על אותה נאמנות ושימושיות.

מחשבות סופיות

העולם מתחיל להבין את החשיבות האסטרטגית של נתונים סינתטיים. בתור מדעני נתונים ומחוללי נתונים, מחובתנו לבנות אמון בנתונים הסינתטיים שאנו מייצרים ולוודא שהם מיועדים למטרה מסוימת.

נתונים סינתטיים מתפתחים למוצר חובה בערכת הכלים לפיתוח מדעי הנתונים. MIT Technology Review יש ציין נתונים סינתטיים כאחת הטכנולוגיות פורצות הדרך של 2022. אנחנו לא יכולים לדמיין בניית מודלים של AI בעלי ערך מצוין ללא נתונים סינתטיים, טוען גרטנר.

לפי מקינזי, נתונים סינתטיים ממזערים עלויות וחסמים שאחרת הייתם צריכים בעת פיתוח אלגוריתמים או קבלת גישה לנתונים.

יצירת נתונים סינתטיים עוסקת בהכרת היישומים במורד הזרם והבנת הפשרות בין הממדים השונים לאיכות הנתונים הסינטטיים.

<br> סיכום

כמשתמש בנתונים הסינתטיים, חיוני להגדיר את ההקשר של מקרה השימוש שעבורו ישמש כל דוגמה של סינטטי בעתיד. בדיוק כמו עם נתונים אמיתיים, איכות הנתונים הסינתטיים תלויה במקרה השימוש המיועד, כמו גם בפרמטרים שנבחרו לסינתזה.

לדוגמה, שמירת חריגים בנתונים הסינתטיים כמו בנתונים המקוריים שימושית למקרה שימוש בגילוי הונאה. עם זאת, זה לא שימושי במקרה של שימוש בשירותי בריאות עם חששות לפרטיות, שכן חריגים בדרך כלל יכולים להיות דליפת מידע.

יתר על כן, קיים פשרה בין נאמנות, שימושיות ופרטיות. לא ניתן לבצע אופטימיזציה של הנתונים עבור שלושתם בו זמנית. מדדים אלו מאפשרים לבעלי העניין לתעדף מה חיוני לכל מקרה שימוש ולנהל ציפיות מהנתונים הסינתטיים שנוצרו.

בסופו של דבר, כאשר אנו רואים את הערכים של כל מדד וכאשר הם עומדים בציפיות, בעלי העניין יכולים להיות בטוחים בפתרונות שהם בונים באמצעות הנתונים הסינתטיים.

מקרי השימוש לנתונים סינתטיים מובנים מכסים מגוון רחב של יישומים מנתוני בדיקה לפיתוח תוכנה ועד ליצירת זרועות בקרה סינתטיות בניסויים קליניים.

פנה כדי לחקור את ההזדמנויות האלה או בנה PoC כדי להדגים את הערך.

פאריס חדד הוא ה-Data & Insights Lead בצוות AABG Strategic Pursuits. הוא עוזר לארגונים להפוך בהצלחה מונעי נתונים.

בול זמן: דצמבר 16, 2022דצמבר 18, 2022

בול זמן: אוקטובר 6, 2022

כיצד להעריך את איכות הנתונים הסינתטיים - מדידה מנקודת מבט של נאמנות, שימושיות ופרטיות

הועלה מחדש על ידי אפלטון

שלושת המימדים של הערכת איכות נתונים סינתטית

מדדים להבנת נאמנות

השוואות סטטיסטיות חקרניות

ציון דמיון היסטוגרמה

ציון מידע הדדי

ציון מתאם

ציון אוטוקורלציה וציון אוטוקורלציה חלקי

מדדים להבנת התועלת

ציון חיזוי

ציון חשיבות תכונה

QScore

מדדים להבנת הפרטיות

ציון התאמה מדויק

ציון הפרטיות של השכנים

ציון מסקנות חברות

מושג ההחזקה

מחשבות סופיות

<br> סיכום

עוד מ למידת מכונות AWS

הפעל כוונון דגמים אוטומטי עם Amazon SageMaker JumpStart

הקטנת הזיות באמצעות Generation Augmented Retrieval באמצעות מסד נתונים וקטורים Pinecone ו-Llama-2 מבית Amazon SageMaker JumpStart | שירותי האינטרנט של אמזון

הכנת נתונים מאוחדת, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2

הפעל מסקנות בקנה מידה עבור OpenFold, מודל ML מתקפל חלבון מבוסס PyTorch, באמצעות Amazon EKS

Exafunction תומך ב-AWS Inferentia כדי לפתוח את ביצועי המחיר הטובים ביותר להסקת למידת מכונה

כיצד Synamedia משתמשת ב-Amazon Rekognition Video כדי לבנות יכולות חיפוש וידאו מתקדמות לווידאו ארוך

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן