הבינה המלאכותית האחרונה של DeepMind פוגעת בשחקנים אנושיים במשחק 'Stratego' PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הבינה המלאכותית האחרונה של DeepMind פוגעת בשחקנים אנושיים במשחק 'סטרטגו'

בינה מלאכותית שונאת אי ודאות. ובכל זאת כדי לנווט בעולם הבלתי צפוי שלנו, הוא צריך ללמוד לעשות בחירות עם מידע לא מושלם - כפי שאנו עושים בכל יום.

דיפמיינד פשוט לקח דקירה בפתרון החידה הזו. החוכמה הייתה לשזור את תורת המשחקים לאסטרטגיה אלגוריתמית המבוססת באופן רופף על המוח האנושי שנקראת למידת חיזוק עמוק. התוצאה, DeepNash, הפילה מומחים אנושיים במשחק לוח אסטרטגי ביותר בשם Stratego. משחק קשה הידוע לשמצה עבור AI, Stratego דורש חוזקות מרובות של שנינות אנושית: חשיבה לטווח ארוך, בלוף ואסטרטגיה, והכל מבלי לדעת את החלקים של היריב שלך על הלוח.

"בניגוד לשחמט ולגו, סטרטגו הוא משחק של מידע לא מושלם: שחקנים לא יכולים לצפות ישירות בזהות של הכלים של היריב שלהם", DeepMind כתב בפוסט בבלוג. עם DeepNash, "מערכות בינה מלאכותית (AI) למשחקי משחק התקדמו לגבול חדש".

זה לא הכל כיף ומשחקים. מערכות בינה מלאכותית שיכולות לתמרן בקלות את האקראיות של עולמנו ולהתאים את ה"התנהגות" שלהן בהתאם, יכולות יום אחד להתמודד עם בעיות בעולם האמיתי עם מידע מוגבל, כמו אופטימיזציה של זרימת התנועה כדי לצמצם את זמן הנסיעה ו(בתקווה) כיבוי זעם הכבישים כנהיגה עצמית מכוניות הופכות נוכחות יותר ויותר.

"אם אתה מייצר מכונית לנהיגה עצמית, אתה לא רוצה להניח שכל שאר הנהגים על הכביש הם רציונליים לחלוטין ויתנהגו בצורה אופטימלית." אמר ד"ר נועם בראון ב-Meta AI, שלא היה מעורב במחקר.

הניצחון של DeepNash מגיע לוהט בעקבות התקדמות AI נוספת החודש, שם אלגוריתם למד לשחק דיפלומטיה-משחק שדורש משא ומתן ושיתוף פעולה כדי לנצח. ככל שה-AI מקבל חשיבה גמישה יותר, הופכת להכללה יותר ולומדת לנווט במצבים חברתיים, היא עשויה גם לעורר תובנות לגבי התהליכים והקוגניציה העצבית של המוח שלנו.

הכירו את סטרטגו

מבחינת המורכבות, Stratego היא חיה שונה לחלוטין בהשוואה לשחמט, גו או פוקר - כולם משחקים שה-AI שלטה בעבר.

המשחק הוא בעצם לכידת הדגל. לכל צד יש 40 חלקים שהם יכולים למקם בכל מיקום על הלוח. לכל יצירה יש שם ודירוג מספרי שונים, כגון "מרשל", "גנרל", "צופית" או "מרגל". חלקים בדירוג גבוה יותר יכולים ללכוד חלקים נמוכים יותר. המטרה היא לחסל את האופוזיציה ולתפוס את דגלה.

Stratego מאתגר במיוחד עבור AI מכיוון ששחקנים לא יכולים לראות את מיקומם של החלקים של יריביהם, הן במהלך ההגדרה הראשונית והן במהלך המשחק. בניגוד לשחמט או Go, שבהם כל חלק ותנועה מוצגים, Stratego הוא משחק עם מידע מוגבל. השחקנים חייבים "לאזן את כל התוצאות האפשריות" בכל פעם שהם מקבלים החלטה, הסבירו המחברים.

רמת חוסר הוודאות הזו היא חלקית הסיבה לכך שסטרטגו הכחישה את הבינה המלאכותית במשך עידנים. אפילו האלגוריתמים המוצלחים ביותר למשחק, כגון AlphaGo ו אלפא אפס, הסתמכו על מידע מלא. לסטרטגו, לעומת זאת, יש מגע של טקסס הולדם, משחק פוקר DeepMind שנכבש בעבר עם אלגוריתם. אבל האסטרטגיה הזו דשדשה עבור Stratego, בעיקר בגלל משך המשחק, שבניגוד לפוקר, בדרך כלל מקיף מאות מהלכים.

מספר משחקי המשחק הפוטנציאליים מעורר מחשבה. לשחמט יש עמדת מוצא אחת. לסטרטגו יש יותר מ-1066 עמדות מוצא אפשריות - הרבה יותר מכל הכוכבים ביקום. עץ המשחק של Stratego, סכום כל המהלכים הפוטנציאליים במשחק, מסתכם ב-10 מדהים535.

"המורכבות העצומה של מספר התוצאות האפשריות ב-Strego פירושה אלגוריתמים שמבצעים ביצועים טובים במשחקי מידע מושלמים, ואפילו אלה שעובדים עבור פוקר, לא עובדים." אמר מחבר המחקר ד"ר ג'וליאן פרולט ב-DeepMind. האתגר הוא "מה ריגש אותנו", אמר.

נפלאות התבונה

המורכבות של Stratego פירושה שהאסטרטגיה הרגילה לחיפוש מהלכי משחק אינה באה בחשבון. המכונה "חיפוש עצי מונטה קרלו", "גישה איתנה לגיימינג מבוסס בינה מלאכותית", הטכניקה מתווה מסלולים פוטנציאליים - כמו ענפים על עץ - שיכולים להביא לניצחון.

במקום זאת, מגע הקסם של DeepNash הגיע מהמתמטיקאי ג'ון נאש, המתואר בסרט נפלאות התבונה. חלוץ בתורת המשחקים, נאש זכה בפרס נובל על עבודתו למען שיווי משקל נאש. במילים פשוטות, בכל משחק, שחקנים יכולים לנצל קבוצה של אסטרטגיות שכולם עוקבים אחריהן, כך שאף שחקן בודד לא ירוויח כלום על ידי שינוי האסטרטגיה שלו. בסטייטגו זה מביא למשחק סכום אפס: כל רווח ששחקן עושה מביא להפסד ליריבו.

בגלל המורכבות של Stratego, DeepNash נקטה בגישה נטולת מודלים לאלגוריתם שלהם. כאן, הבינה המלאכותית לא מנסה לדגמן במדויק את התנהגות יריבתה. כמו תינוק, יש לו לוח ריק, למיניהם, ללמוד. מערך זה שימושי במיוחד בשלבים מוקדמים של המשחק, "כאשר DeepNash יודע מעט על החלקים של היריב", מה שהופך את התחזיות ל"קשות, אם לא בלתי אפשריות", אמרו המחברים.

לאחר מכן, הצוות השתמש בלמידת חיזוק עמוק כדי להניע את DeepNash, במטרה למצוא את שיווי המשקל של Nash של המשחק. זו התאמה משמיים: למידת חיזוק עוזרת להחליט על המהלך הבא הטוב ביותר בכל שלב של המשחק, בעוד DeepNash מספקת אסטרטגיית למידה כוללת. כדי להעריך את המערכת, הצוות גם הנדס "מורה" שמשתמש בידע מהמשחק כדי לסנן טעויות ברורות שכנראה לא יהיו הגיוניות בעולם האמיתי.

תרגול מביא לשלמות

כצעד למידה ראשון, DeepNash שיחקה נגד עצמה ב-5.5 מיליארד משחקים, גישה פופולרית באימון בינה מלאכותית שכונתה משחק עצמי.

כאשר צד אחד מנצח, הבינה המלאכותית מקבלת פרס, ופרמטרי הרשת העצבית המלאכותית הנוכחית שלו מתחזקים. הצד השני - אותו בינה מלאכותית - מקבל עונש כדי להפחית את חוזק הרשת העצבית שלו. זה כמו לחזור על נאום לעצמך מול המראה. עם הזמן, אתה מגלה טעויות וביצוע טוב יותר. במקרה של DeepNash, הוא גולש לעבר שיווי משקל נאש למשחק הטוב ביותר.

מה לגבי ביצועים בפועל?

הצוות בדק את האלגוריתם מול בוטים אחרים של אסטרטגו עילית, שחלקם זכו באליפות העולם של אסטרטגי מחשב. DeepNash מחצה את יריביה עם שיעור ניצחונות של כ-97 אחוזים. כשהשתחררה נגד Gravon - פלטפורמה מקוונת לשחקנים אנושיים - DeepNash ביטלה את יריביה האנושיים. לאחר יותר משבועיים של משחקים נגד שחקני גראבון באפריל השנה, DeepNash עלתה למקום השלישי בכל המשחקים המדורגים מאז 2002.

זה מראה שלא צריך אתחול נתוני משחק אנושיים ל-AI כדי שה-DeepNash יגיע לביצועים ברמת האדם - ולנצח אותו.

ה-AI גם הפגין התנהגות מסקרנת עם ההגדרה הראשונית ובמהלך המשחק. לדוגמה, במקום להסתפק בעמדת התחלה "מוטבת" מסוימת, DeepNash הזיזה ללא הרף את החלקים כדי למנוע מיריבה לזהות דפוסים לאורך זמן. במהלך המשחק, הבינה המלאכותית קפצה בין מהלכים חסרי הגיון לכאורה - כמו הקרבת חלקים בדירוג גבוה - כדי לאתר את הכלים בדירוג גבוה עוד יותר של היריב בהתקפת נגד.

DeepNash יכול גם לבלף. במשחק אחד, הבינה המלאכותית הזיזה יצירה בדרג נמוך כאילו היה יצירה בדרגה גבוהה, ופיתה את היריב האנושי לרדוף אחרי היצירה עם הקולונל הגבוה שלו. ה-AI הקריב את הרגל, אבל בתורו, פיתה את כלי הריגול היקר של היריב למארב.

למרות ש-DeepNash פותחה עבור Stratego, היא ניתנת להכללה לעולם האמיתי. שיטת הליבה עשויה להורות לבינה מלאכותית להתמודד טוב יותר עם העתיד הבלתי צפוי שלנו באמצעות מידע מוגבל - החל מבקרת קהל ותנועה ועד לניתוח סערת השוק.

"ביצירת מערכת בינה מלאכותית ניתנת להכללה, חזקה מול אי ודאות, אנו מקווים להביא את יכולות פתרון הבעיות של בינה מלאכותית יותר לעולם הבלתי צפוי שלנו", אמר הצוות.

תמונת אשראי: דרק בראף / פליקר

בול זמן:

עוד מ רכזת הסינגולריות