מה זה אומר ליישר AI עם ערכים אנושיים? PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מה זה אומר ליישר AI עם ערכי אנוש?

מבוא

לפני שנים רבות, למדתי לתכנת ב-Symbolics Lisp Machine ישנה. למערכת ההפעלה הייתה פקודה מובנית שנכתבה "DWIM", קיצור של "עשה מה שאני מתכוון". אם הקלדתי פקודה וקיבלתי שגיאה, אוכל להקליד "DWIM", והמכונה תנסה להבין מה התכוונתי לעשות. חלק מפתיע מהזמן, זה באמת עבד.

פקודת DWIM הייתה מיקרוקוסמוס של הבעיה המודרנית יותר של "יישור AI": אנו בני האדם נוטים לתת למכונות הוראות מעורפלות או מוטעות, ואנחנו רוצים שהם יעשו את מה שאנחנו מתכוונים, לא בהכרח את מה שאנחנו אומרים.

מחשבים לעתים קרובות מפרשים לא נכון את מה שאנו רוצים שהם יעשו, עם תוצאות בלתי צפויות ולעתים קרובות משעשעות. חוקר למידת מכונה אחד, למשל, בזמן שחקר את התוצאות הטובות באופן מחשיד של תוכנית סיווג תמונות, גילה שהוא ביסס סיווגים לא על התמונה עצמה, אלא על משך הזמן שלקח לגשת לקובץ התמונה - התמונות ממחלקות שונות נשמרו במאגרי מידע עם זמני גישה שונים במקצת. אַחֵר מתכנת יוזם רצה שהשואב שלו Roomba יפסיק להיתקל ברהיטים, אז הוא חיבר את Roomba לרשת עצבית שמתגמלת מהירות אבל הענישה את Roomba כשהפגוש הקדמי התנגש במשהו. המכונה השיגה יעדים אלה על ידי נסיעה תמיד לאחור.

אבל הקהילה של חוקרי יישור בינה מלאכותית רואה צד אפל יותר באנקדוטות הללו. למעשה, הם מאמינים שחוסר היכולת של המכונות להבחין מה אנחנו באמת רוצים שהם יעשו הוא סיכון קיומי. כדי לפתור בעיה זו, הם מאמינים, עלינו למצוא דרכים ליישר מערכות בינה מלאכותית עם העדפות, מטרות וערכים אנושיים.

השקפה זו זכתה לבולטות עם הספר רב המכר משנת 2014 התבונה העל על ידי הפילוסוף ניק בוסטרום, שטען בחלקו שהאינטליגנציה העולה של המחשבים עלולה להוות איום ישיר על עתיד האנושות. בוסטרום מעולם לא הגדיר במדויק אינטליגנציה, אבל, כמו רוב האחרים בקהילת יישור הבינה המלאכותית, הוא אימץ הגדרה מאוחר יותר מנסח על ידי חוקר הבינה המלאכותית סטיוארט ראסל כמו: "ישות נחשבת לאינטליגנטית, באופן גס, אם היא בוחרת בפעולות שצפויות להשיג את מטרותיה, בהתחשב במה שהיא תפסה."

בוסטרום ביסס את השקפתו על הסיכונים של AI על שתי תזות. הראשון הוא תזה האורתוגונליות, הקובעת, במילותיו של בוסטרום, "אינטליגנציה ויעדים סופיים הם צירים אורתוגונליים שלאורכם יכולים סוכנים אפשריים להשתנות בחופשיות. במילים אחרות, ניתן לשלב פחות או יותר כל רמה של אינטליגנציה באופן עקרוני עם פחות או יותר כל מטרה סופית". השני הוא תזת ההתכנסות האינסטרומנטלית, המרמזת שסוכן אינטליגנטי יפעל בדרכים המקדמות את הישרדותו, שיפור עצמי ורכישת משאבים, כל עוד אלו מגדילים את הסיכוי לסוכן להשיג את מטרתו הסופית. ואז הוא הניח הנחה אחת אחרונה: בקרוב ייצרו חוקרים אינטליגנציה-על של AI - כזו ש"עולה בהרבה על הביצועים הקוגניטיביים של בני אדם כמעט בכל תחומי העניין".

עבור Bostrom ואחרים בקהילת יישור הבינה המלאכותית, הסיכוי הזה מאיים אבדון לאנושות אלא אם כן נצליח ליישר AIs סופר-אינטליגנטיים עם הרצונות והערכים שלנו. בוסטרום ממחיש את הסכנה הזו באמצעות ניסוי מחשבתי מפורסם כעת: תארו לעצמכם לתת לבינה מלאכותית סופר-אינטליגנטית את המטרה למקסם את הייצור של מהדקי נייר. על פי התזות של בוסטרום, במטרה להשיג מטרה זו, מערכת הבינה המלאכותית תשתמש בברק העל-אנושי וביצירתיות שלה כדי להגביר את הכוח והשליטה שלה, ובסופו של דבר תרכוש את כל המשאבים של העולם לייצור מהדקי נייר נוספים. האנושות תמות, אבל ייצור מהדקי הנייר אכן יהיה מקסימלי.

אם אתה מאמין שהאינטליגנציה מוגדרת על ידי היכולת להשיג מטרות, שכל מטרה יכולה להיות "מוכנסת" על ידי בני אדם לסוכן AI סופר אינטליגנטי, ושסוכן כזה ישתמש באינטליגנציה העל שלו כדי לעשות הכל כדי להשיג את המטרה הזו, אז תעשה להגיע לאותו דבר מסקנה שראסל עשה: "כל מה שצריך כדי להבטיח קטסטרופה הוא מכונה מוכשרת ביותר בשילוב עם בני אדם שיש להם יכולת לא מושלמת לציין העדפות אנושיות בצורה מלאה ונכונה."

זהו טרופית מוכרת במדע הבדיוני - האנושות מאוימת על ידי מכונות שיצאו משליטה שפירשו לא נכון את הרצונות האנושיים. כעת חלק לא מבוטל בקהילת המחקר של AI מודאג מאוד מתרחישים מסוג זה שמתרחשים בחיים האמיתיים. עשרות מכונים כבר הוציאו מאות מיליוני דולרים על הבעיה, ומאמצי מחקר על יישור נערכים באוניברסיטאות ברחבי העולם ובחברות בינה מלאכותית גדולות כמו גוגל, מטה ו-OpenAI.

מה לגבי הסיכונים המיידיים יותר הנשקפים מ-AI לא סופר אינטליגנטי, כגון אובדן עבודה, הטיה, הפרות פרטיות והפצת מידע שגוי? מסתבר שיש חפיפה מועטה בין הקהילות העוסקות בעיקר בסיכונים קצרי טווח כאלה לבין אלו שדואגות יותר לסיכוני יישור לטווח ארוך יותר. למעשה, יש משהו כמו מלחמת תרבות בינה מלאכותית, כאשר צד אחד מודאג יותר מהסיכונים הנוכחיים האלה מאשר מה שהם רואים כטכנו-פוטוריזם לא מציאותי, והצד השני מחשיב את הבעיות הנוכחיות פחות דחופות מהסיכונים הקטסטרופליים הפוטנציאליים הנשקפים מ-AI סופר-אינטליגנט.

לרבים מחוץ לקהילות הספציפיות הללו, יישור בינה מלאכותית נראה משהו כמו דת - כזו עם מנהיגים נערצים, דוקטרינה ללא עוררין ותלמידים מסורים הנלחמים באויב שעלול להיות כל יכול (בינה מלאכותית על-אינטליגנטית לא מיושרת). ואכן, מדען המחשבים והבלוגר סקוט אהרונסון לאחרונה ציין שיש כיום ענפים "אורתודוכסים" ו"רפורמיים" של אמונת היישור בינה מלאכותית. הראשון, הוא כותב, מודאג כמעט לחלוטין מ"AI לא מיושר שמטעה בני אדם בזמן שהוא פועל להרוס אותם". לעומת זאת, הוא כותב, "אנחנו גורמי ה-Reform AI מסתכנים באפשרות הזו, אבל אנחנו דואגים לפחות באותה מידה לגבי בינה מלאכותית עוצמתית שמופעלות בנשק על ידי בני אדם רעים, שאנו מצפים להוות סיכונים קיומיים הרבה קודם לכן."

חוקרים רבים עוסקים באופן פעיל בפרויקטים מבוססי יישור, החל מ ניסיונות להקנות עקרונות של פילוסופיה מוסרית למכונות, ל הכשרת דגמי שפה גדולים על פסקי דין אתיים במקור המונים. אף אחד מהמאמצים הללו לא היה שימושי במיוחד כדי לגרום למכונות להגיב על מצבים בעולם האמיתי. סופרים רבים ציינו את המכשולים הרבים המונעים ממכונות ללמוד העדפות וערכים אנושיים: אנשים הם לעתים קרובות לא רציונליים ומתנהגים בדרכים הסותרות את ערכיהם, וערכים יכולים להשתנות לאורך חיים ודורות בודדים. אחרי הכל, לא ברור את הערכים של מי כדאי שהמכונות ינסו ללמוד.

רבים בקהילת המערך חושבים שהדרך המבטיחה ביותר קדימה היא טכניקת למידת מכונה הידועה בשם למידת חיזוק הפוך (IRL). עם IRL, למכונה לא ניתנת מטרה למקסם; מטרות "מוכנסות" כאלה, מאמינים תומכי היישור, עלולות להוביל מבלי משים לתרחישים של מקסום מהדק נייר. במקום זאת, המשימה של המכונה היא להתבונן בהתנהגות של בני אדם ולהסיק את העדפותיהם, המטרות והערכים שלהם. בשנים האחרונות, חוקרים השתמשו ב-IRL כדי הרכבת מכונות לשחק משחקי וידאו על ידי התבוננות בבני אדם וללמד רובוטים איך לעשות סיבובים לאחור על ידי מתן משוב מצטבר מבני אדם (אנשים צפו בקטעים קצרים של ניסיונותיו השונים של רובוט ובחרו את זה שנראה הכי טוב).

לא ברור אם שיטות דומות יכולות ללמד מכונות את הרעיונות העדינים והמופשטים יותר של ערכים אנושיים. הסופר בריאן כריסטיאן, מחבר א ספר מדע פופולרי על יישור AI, הוא אופטימי: "זה לא כזה מתיחה לדמיין להחליף את המושג המעורפל של 'היפוך לאחור' במושג מעורפל ובלתי ניתן לתיאור אפילו יותר, כמו 'עזרה'. או 'חסד'. או התנהגות 'טובה'".

עם זאת, אני חושב שזה ממעיט בערכו של האתגר. מושגים אתיים כמו טוב לב והתנהגות טובה הם הרבה יותר מורכבים ותלויי הקשר מכל מה ש-IRL שלטה עד כה. שקול את הרעיון של "אמת" - ערך שאנו בוודאי רוצים במערכות ה-AI שלנו. אכן, בעיה מרכזית במודלים של שפה גדולים של ימינו היא חוסר היכולת שלהם להבחין בין אמת לשקר. יחד עם זאת, ייתכן שלפעמים נרצה שעוזרי הבינה המלאכותית שלנו, בדיוק כמו בני אדם, יבלמו את אמיתותם: כדי להגן על הפרטיות, להימנע מהעלבת אחרים או לשמור על מישהו בטוח, בין אינספור מצבים אחרים שקשה לנסח אותם.

מושגים אתיים אחרים מורכבים באותה מידה. זה צריך להיות ברור שצעד ראשון חיוני לקראת הוראת תפיסות אתיות למכונות הוא לאפשר למכונות לתפוס מושגים כמו אנושיים מלכתחילה, שלטענתי הם עדיין ה-AI של AI הבעיה הפתוחה החשובה ביותר.

יתר על כן, אני רואה בעיה מהותית עוד יותר עם המושגים הבסיסיים של המדע של יישור AI. רוב הדיונים מדמיינים AI סופר אינטליגנטי כמכונה שאמנם עולה על בני אדם בכל המשימות הקוגניטיביות, אך עדיין חסרה שכל ישר כמו אנושי ונשארת מכנית בצורה מוזרה. וחשוב מכך, בהתאם לתזה האורתוגונלית של בוסטרום, המכונה השיגה אינטליגנציה-על מבלי שתהיה לה אף מטרה או ערכים משלה, במקום זאת מחכה למטרות שיוכנסו על ידי בני אדם.

ובכל זאת האם המודיעין יכול לעבוד כך? שום דבר במדע הנוכחי של פסיכולוגיה או מדעי המוח אינו תומך באפשרות זו. אצל בני אדם, לפחות, אינטליגנציה קשורה באופן עמוק עם המטרות והערכים שלנו, כמו גם עם תחושת העצמי שלנו והסביבה החברתית והתרבותית המיוחדת שלנו. האינטואיציה שאפשר להפריד סוג של אינטליגנציה טהורה משאר הגורמים הללו הובילה אליה תחזיות רבות כושלות בהיסטוריה של AI. ממה שאנחנו יודעים, נראה הרבה יותר סביר שמטרות של מערכת בינה מלאכותית אינטליגנטית בדרך כלל לא יכלו להכנס בקלות, אלא יצטרכו להתפתח, כמו שלנו, כתוצאה מהחינוך החברתי והתרבותי שלה.

בספרו תואם אנושי, ראסל טוען לדחיפות המחקר על בעיית היישור: "הזמן הנכון לדאוג לבעיה שעלולה להיות רצינית עבור האנושות תלוי לא רק מתי הבעיה תתרחש אלא גם בכמה זמן ייקח להכין וליישם פתרון. ” אך ללא הבנה טובה יותר של מהי אינטליגנציה ועד כמה היא ניתנת להפרדה מהיבטים אחרים של חיינו, איננו יכולים אפילו להגדיר את הבעיה, ועוד פחות מכך למצוא פתרון. הגדרה נכונה ופתרון של בעיית היישור לא יהיה קל; זה ידרוש מאיתנו לפתח תיאוריה רחבה, מבוססת מדעית של אינטליגנציה.

בול זמן:

עוד מ קוונטמגזין