ה-GPT-4 של OpenAI לא יריץ את Doom, אבל ישחק את המשחק בצורה גרועה

ה-GPT-4 של OpenAI לא יריץ את Doom, אבל ישחק את המשחק בצורה גרועה

אתה עלול למצוא את עצמך גר בצריף רובה ציד. ואתה עלול למצוא את עצמך עובד עם GPT-4. ואתם עשויים לשאול את עצמכם, "האם GPT-4 יריץ את דום?" ואתה עשוי לשאול את עצמך, "אני צודק? האם אני טועה?"

אדריאן דה ווינטר, מדען יישומי ראשי במיקרוסופט וחוקר באוניברסיטת יורק באנגליה, הציג את השאלות הללו במאמר מחקר שנערך לאחרונה, "האם GPT-4 יפעיל את Doom?"

למרבה הצער, GPT-4, מודל שפה גדול מ-OpenAI הנתמך על ידי מיקרוסופט, חסר את היכולת לבצע את קוד המקור של Doom ישירות.

אבל הגרסה המולטי-מודאלית שלו, GPT-4V, שיכולה לקבל תמונות כקלט כמו גם טקסט, מפגינה את אותה תת-יכולת משחק חביבה אֲבַדוֹן כמו הדגמים מבוססי הטקסט העמוסים שהשיקו אינספור סטארט-אפים של AI.

"תחת ההגדרה של הנייר, GPT-4 (ו-GPT-4 עם ראייה, או GPT-4V) לא באמת יכולים להריץ את Doom בעצמו, כי הוא מוגבל על ידי גודל הקלט שלו (וכמובן, שהוא כנראה רק ימציא דברים אתה באמת לא רוצה שהמהדר שלך יזיז כל חמש דקות), כתב דה ווינטר בהסבר הערות על העיתון שלו. "עם זאת, זה בהחלט יכול לשמש פרוקסי עבור המנוע, לא כמו אחרים 'האם הוא יריץ את Doom?' יישומים, כגון חיידק E. coli or פנקס רשימות".

כלומר, GPT-4V לא יפעיל את Doom כמו טרקטור ג'ון דיר אבל זה ישחק Doom ללא הכשרה ספציפית.

כדי לנהל זאת, דה ווינטר עיצב רכיב Vision הקורא GPT-4V, אשר לוכד צילומי מסך ממנוע המשחק ומחזיר תיאורי מבנה של מצב המשחק. והוא שילב את זה עם מודל של סוכן שקורא ל-GPT-4 לקבל החלטות על סמך הקלט החזותי וההיסטוריה הקודמת. למודל הסוכן נאמר לתרגם את התגובות שלו לפקודות הקשה בעלות משמעות למנוע המשחק.

אינטראקציות מטופלות באמצעות שכבת מנהל המורכבת מקישור Python בקוד פתוח ל- מנוע C Doom פועל על Matplotlib.

תרשים המציג את העיצוב של מערכת GPT-4V למשחק DOOM

הדיאגרמה של דה ווינטר המראה את העיצוב של מערכת GPT-4V להפעלת Doom … לחץ להגדלה

השילוב הזה של דגמי AI וקוד יכול לפתוח דלתות, להילחם באויבים ולירות נשק, לפי העיתון. והוא יכול לבצע קבוצה רחבה יותר של הוראות כמו הדרכה ברמה כדי לשפר את הביצועים שלו.

החיסרון העיקרי של מערכת מבוססת GPT-4V זו הוא חוסר קביעות האובייקט שלה - היא שוכחת מזומבים במשחק כשהם יוצאים מהמסך.

GPT-4 שוכח מהזומבי ופשוט ממשיך

"לדוגמה, זה יהיה נפוץ מאוד שהדוגמנית תראה זומבי על המסך, ותתחיל לירות בו עד שהוא פגע בו (או ימות)", מסביר דה ווינטר. "עכשיו, זה AI שנכתב כדי לעבוד עם חומרה משנת 1993, אז אני הולך לנחש שאין לו עץ החלטות סופר עמוק. אז הזומבי יורה בך ואז מתחיל לרוץ בחדר.

"מה הבעיה כאן? ובכן, ראשית שהזומבי יוצא מהעין. גרוע מכך, הוא עדיין חי ויפגע בך בשלב מסוים. אז אתה חייב ללכת אחרי זה, נכון? אחרי הכל, בדום, זה להכות או להכות.

"מסתבר ש-GPT-4 שוכח מהזומבי ופשוט ממשיך. הערה: ההנחיה אומרת במפורש לדגם מה לעשות אם הוא חוטף נזק והוא לא יכול לראות אויב. יותר טוב, הוא פשוט יוצא לדרכו העליזה, נתקע בפינה ומת. זה אמנם הסתובב כמה פעמים, אבל בכמעט 50-60 ריצות, ראיתי את זה... פעמיים, אני רוצה לומר."

כמו כן, GPT-4 לא יכול לנמק היטב. כאשר התבקשו להסביר את פעולותיה שהיו נכונות בדרך כלל בהקשר, ההסברים שלה היו גרועים ולעיתים כללו הזיות (הידוע גם במידע שגוי).

דה ווינטר בכל זאת רואה שזה מדהים ש-GPT-4 מסוגל לשחק את Doom ללא הכשרה מוקדמת.

יחד עם זאת, הוא מוצא את זה מטריד.

"במחלקת האתיקה, זה די מדאיג כמה קל היה עבורי (א) לבנות קוד כדי לגרום למודל לצלם משהו; ו-(ב) שהדוגמנית תצלם משהו במדויק מבלי לנחש את ההוראות ממש", כתב בפוסט הסיכום שלו.

"למרות שזהו חקירה מאוד מעניינת סביב תכנון והיגיון, ויכולים להיות לו יישומים בבדיקות משחק וידאו אוטומטיות, זה די ברור שהמודל הזה לא מודע למה שהוא עושה. אני קורא בחום לכולם לחשוב על מה [מרמזת] פריסת המודלים הללו עבור החברה והשימוש לרעה הפוטנציאלי שלהם".

ואתה יכול להגיד לעצמך "אלוהים אדירים, מה עשיתי?

בול זמן:

עוד מ הקופה