למה אתה צריך לדעת את מוצא ה-AI שלך

למה אתה צריך לדעת את מוצא ה-AI שלך

למה אתה צריך להכיר את מודיעין הנתונים PlatoBlockchain של ה-AI שלך. חיפוש אנכי. איי.

פַּרשָׁנוּת

בינה מלאכותית (AI) משנה במהירות כמעט כל היבט בחיי היומיום שלנו, מאיך שאנחנו עובדים דרך האופן שבו אנחנו בולעים מידע ועד איך אנחנו קובעים את המנהיגים שלנו. כמו בכל טכנולוגיה, בינה מלאכותית היא לא מוסרית, אבל אפשר להשתמש בה כדי לקדם את החברה או לספק נזק.

נתונים הם הגנים המניעים יישומי AI. זה DNA ו-RNA כולם עטופים באחד. כפי שנאמר לעתים קרובות בעת בניית מערכות תוכנה: "זבל פנימה/זבל החוצה." טכנולוגיית AI מדויקת, מאובטחת ופונקציונלית רק כמו מקורות הנתונים עליהם היא מסתמכת. המפתח להבטיח שבינה מלאכותית ממלאת את הבטחתה ותימנע מהסיוטים שלה טמון ביכולת להרחיק את האשפה ולמנוע ממנה להתרבות ולהשתכפל על פני מיליוני יישומי בינה מלאכותית.

זה נקרא מקור נתונים, ואנחנו לא יכולים לחכות עוד יום כדי ליישם בקרות שמונעות מהעתיד שלנו בינה מלאכותית להפוך לערימת אשפה ענקית.

נתונים גרועים מובילים למודלים של AI שיכולים להפיץ פרצות אבטחת סייבר, מידע מוטעה והתקפות אחרות ברחבי העולם תוך שניות. של היום AI ייצור מודלים (GenAI) הם מורכבים להפליא, אבל, בבסיסם, מודלים של GenAI פשוט מנבאים את נתח הנתונים הבא הטוב ביותר לפלט, בהתחשב בקבוצה של נתונים קודמים קיימים.

מדידה של דיוק

מודל מסוג ChatGPT מעריך את קבוצת המילים המרכיבות את השאלה המקורית שנשאלה ואת כל המילים בתגובת המודל עד כה כדי לחשב את המילה הטובה הבאה לפלט. היא עושה זאת שוב ושוב עד שהיא מחליטה שנתנה מספיק תגובה. נניח שאתה מעריך את יכולתו של המודל לחבר מילים המרכיבות משפטים מנוסחים היטב, נכונים מבחינה דקדוקית, שהם על הנושא ורלוונטיים בדרך כלל לשיחה. במקרה כזה, הדגמים של היום טובים להפליא - מדידה של דיוק.

לצלול עמוק יותר לתוך האם הטקסט המיוצר על ידי AI תמיד מעביר מידע "נכון". ומציין כראוי את רמת האמון של המידע המועבר. זה חושף בעיות שמגיעות מדגמים שחזו טוב מאוד בממוצע, אבל לא כל כך טוב על מקרי קצה - המייצגים בעיית חוסן. זה יכול להיות מורכב כאשר פלט נתונים גרוע ממודלים של AI מאוחסן באינטרנט ומשמש כנתוני אימון עתידיים עבור מודלים אלה ואחרים.

התפוקות העלובות יכולות לשכפל בקנה מידה שמעולם לא ראינו, ולגרום ללולאת אבדון בינה מלאכותית כלפי מטה.

אם שחקן רע רצה לעזור לתהליך הזה, הם יכולים לעודד בכוונה מידע רע במיוחד להפקה, לאחסן ולהפיץ - מה שיוביל לעוד יותר מידע מוטעה שיוצא מצ'אטבוטים, או משהו מרושע ומפחיד כמו דגמי טייס אוטומטי של רכב שמחליטים שהם צריכים לסטות מכונית במהירות ימינה למרות שאובייקטים מפריעים אם הם "רואים" תמונה שנוצרה במיוחד לפניהם (באופן היפותטי, כמובן).

לאחר עשרות שנים, תעשיית פיתוח התוכנה - בראשות סוכנות אבטחת תשתיות סייבר - מיישמת סוף סוף מאובטח-על-ידי עיצוב מסגרת. מאובטח לפי עיצוב קובע כי אבטחת סייבר נמצאת בבסיס תהליך פיתוח התוכנה, ואחד מעקרונות הליבה שלה הוא לדרוש קטלוג של כל רכיב פיתוח תוכנה - א. רשימות חומרי תוכנה (SBOM) - כדי לחזק את הביטחון והחוסן. לבסוף, האבטחה מחליפה את המהירות כגורם היציאה לשוק הקריטי ביותר.

אבטחת עיצובי AI

AI צריך משהו דומה. לולאת המשוב של AI מונעת טכניקות הגנה נפוצות בעבר בתחום אבטחת סייבר, כגון מעקב אחר חתימות תוכנות זדוניות, בניית היקפים סביב משאבי רשת או סריקת קוד שנכתב על ידי אדם לאיתור נקודות תורפה. עלינו להפוך עיצובי בינה מלאכותית מאובטחת לדרישה בתקופת הינקות של הטכנולוגיה כדי שניתן יהיה להפוך את הבינה המלאכותית מאובטחת הרבה לפני פתיחת תיבת פנדורה.

אז איך פותרים את הבעיה הזו? כדאי שנוציא דף מעולם האקדמיה. אנו מאמנים סטודנטים עם נתוני הכשרה מאוצרים במיוחד, מפורשים ומועברים אליהם באמצעות תעשייה של מורים. אנו ממשיכים בגישה זו כדי ללמד מבוגרים, אך מבוגרים צפויים לבצע יותר איסוף נתונים בעצמם.

אימון מודל AI צריך לנקוט בגישת נתונים אוצרת דו-שלבית. ראשית, מודלים בסיסיים של AI יוכשרו תוך שימוש במתודולוגיות עדכניות תוך שימוש בכמויות אדירות של מערכי נתונים פחות אוצרים. מודלים בסיסיים של שפה גדולה (LLM) יהיו דומים בערך לתינוק שזה עתה נולד. לאחר מכן, המודלים ברמת הבסיס יוכשרו עם מערכי נתונים שנאספו במיוחד בדומה לאופן שבו מלמדים ומגדלים ילדים להפוך למבוגרים.

המאמץ לבנות מערכי אימון גדולים ואצורים עבור כל סוגי המטרות לא יהיה קטן. זה מקביל לכל המאמץ שהורים, בתי ספר וחברה משקיעים כדי לספק סביבה איכותית ומידע איכותי לילדים כשהם גדלים לתפקד (בתקווה) תורמים ערך מוסף לחברה. זו רמת המאמץ הנדרשת לבניית מערכי נתונים איכותיים כדי להכשיר מודלים איכותיים, מתפקדים היטב, פגומים מינימלית, והיא עלולה להוביל לתעשייה שלמה של בינה מלאכותית ובני אדם לעבוד יחד כדי ללמד מודלים של בינה מלאכותית להיות טובים בעבודת המטרה שלהם. .

המצב של תהליך אימון הבינה המלאכותית של היום מראה כמה סימנים לתהליך דו-שלבי זה. אבל, בשל תחילת הדרך של טכנולוגיית GenAI והתעשייה, יותר מדי הכשרה נוקטת בגישה הפחות אוצרת, בשלב ראשון.

כשזה מגיע לאבטחת AI, אנחנו לא יכולים להרשות לעצמנו לחכות שעה, שלא לדבר על עשור. בינה מלאכותית זקוקה לאפליקציית 23andMe המאפשרת סקירה מלאה של "גנאלוגיית האלגוריתמים" כדי שהמפתחים יוכלו להבין את ההיסטוריה ה"משפחתית" של הבינה המלאכותית כדי למנוע שכפול של בעיות כרוניות, להדביק את המערכות הקריטיות עליהן אנו מסתמכים מדי יום וליצור נזק כלכלי וחברתי זה עשוי להיות בלתי הפיך.

הביטחון הלאומי שלנו תלוי בזה.

בול זמן:

עוד מ קריאה אפלה