בינה מלאכותית של גוגל צפתה ב-30,000 שעות של משחקי וידאו

הועלה מחדש על ידי אפלטון

עוקב: 0

בינה מלאכותית של גוגל צפתה ב-30,000 שעות של משחקי וידאו - כעת היא מייצרת את מודיעין הנתונים PlatoBlockchain משלו. חיפוש אנכי. איי.

בינה מלאכותית ממשיכה לייצר הרבה אור וחום. הדגמים הטובים ביותר בטקסט ובתמונות - כעת מצוות מנויים ושזורים במוצרי צריכה - מתחרים על אינצ'ים. OpenAI, Google ואנתרופיק הם כולם, פחות או יותר, צוואר וצוואר.

אין זה מפתיע, אם כן, כי חוקרי בינה מלאכותית מחפשים לדחוף מודלים גנרטיביים לטריטוריה חדשה. מכיוון שבינה מלאכותית דורשת כמויות אדירות של נתונים, אחת הדרכים לחזות היכן הדברים מתקדמים היא לבדוק אילו נתונים זמינים באופן נרחב באינטרנט, אך עדיין לא מנוצלים במידה רבה.

וידאו, שיש הרבה ממנו, הוא השלב הבא ברור. ואכן, בחודש שעבר, תצוגה מקדימה של OpenAI AI חדש של טקסט לווידאו בשם Sora שהדהים את הצופים.

אבל מה לגבי משחקי וידאו?

שאל וקבל

מסתבר שיש לא מעט סרטוני גיימרים ברשת. גוגל DeepMind אומרת שהיא הכשירה בינה מלאכותית חדשה, Genie, על 30,000 שעות של קטעי וידיאו מאוצרים המציגים גיימרים משחקים פלטפורמות פשוטות - חשבו על משחקי נינטנדו מוקדמים - ו כעת הוא יכול ליצור דוגמאות משלו.

Genie הופך תמונה, תמונה או סקיצה פשוטה למשחק וידאו אינטראקטיבי.

בהינתן הנחיה, למשל ציור של דמות וסביבתה, ה-AI יכול לקבל קלט משחקן כדי להעביר דמות בעולם שלה. בפוסט בבלוג, DeepMind הראה את היצירות של Genie מנווטות בנופים דו-ממדיים, מסתובבת או קופצת בין פלטפורמות. כמו נחש שאוכל את זנבו, חלק מהעולמות האלה אפילו נבעו מתמונות שנוצרו על ידי בינה מלאכותית.

בניגוד למשחקי וידאו מסורתיים, Genie מייצר את העולמות האינטראקטיביים האלה מסגרת אחר מסגרת. בהינתן הנחיה ופקודה לזוז, הוא חוזה את הפריימים הבאים בסבירות גבוהה ויוצר אותם תוך כדי תנועה. הוא אפילו למד לכלול תחושה של פרלקסה, תכונה שכיחה בפלטפורמות שבהן החזית נעה מהר יותר מהרקע.

יש לציין שהאימונים של ה-AI לא כללו תוויות. במקום זאת, Genie למד לתאם פקודות קלט - כמו, ללכת שמאלה, ימינה או לקפוץ - עם תנועות במשחק פשוט על ידי התבוננות בדוגמאות באימון שלה. כלומר, כאשר דמות בסרטון זזה שמאלה, לא הייתה תווית המקשרת את הפקודה לתנועה. ג'יני הבינה את החלק הזה לבד. זה אומר, פוטנציאלי, ניתן לאמן גרסאות עתידיות על כמות הסרטונים הרלוונטיים שיש באינטרנט.

הבינה המלאכותית היא הוכחה מרשימה לקונספט, אבל היא עדיין בשלב מוקדם מאוד בפיתוח, ו-DeepMind עדיין לא מתכננת לפרסם את הדגם לציבור.

המשחקים עצמם הם עולמות מפוקסלים הזורמים במהירות פריים אחד לשנייה. לשם השוואה, משחקי וידאו עכשוויים יכולים להגיע ל-60 או 120 פריימים לשנייה. כמו כן, כמו כל האלגוריתמים הגנרטיביים, Genie מייצר חפצים חזותיים מוזרים או לא עקביים. זה גם נוטה להזוי "עתיד לא מציאותי", הצוות כתב במאמר שלהם ותיאר את הבינה המלאכותית.

עם זאת, יש כמה סיבות להאמין שג'יני ישתפר מכאן.

מקציפה עולמות

מכיוון שה-AI יכול ללמוד מסרטונים מקוונים ללא תווית והוא עדיין בגודל צנוע - רק 11 מיליארד פרמטרים - יש מספיק הזדמנויות להגדיל. דגמים גדולים יותר שהוכשרו על מידע נוסף נוטים להשתפר באופן דרמטי. ועם א תעשייה צומחת המתמקדת בהסקת מסקנות— התהליך שבו AI מאומן מבצע משימות, כמו יצירת תמונות או טקסט — סביר להניח שהוא ילך מהר יותר.

DeepMind אומר ש-Genie יכולה לעזור לאנשים, כמו מפתחים מקצועיים, ליצור משחקי וידאו. אבל כמו OpenAI - שמאמין שסורה עוסקת ביותר מסרטונים - הצוות חושב יותר. הגישה יכולה ללכת הרבה מעבר למשחקי וידאו.

דוגמא אחת: AI שיכול לשלוט ברובוטים. הצוות אימן דגם נפרד בווידאו של זרועות רובוטיות המשלימות משימות שונות. המודל למד לתמרן את הרובוטים ולטפל במגוון חפצים.

DeepMind גם אמרה כי ניתן להשתמש בסביבות משחקי וידאו שנוצרו על ידי Genie כדי להכשיר סוכני AI. זו לא אסטרטגיה חדשה. במאמר מ-2021, אחר צוות DeepMind התאר משחק וידאו בשם XLand שהיה מאוכלס על ידי סוכני AI ואדון AI שיצר משימות ומשחקים כדי לאתגר אותם. הרעיון שהצעד הגדול הבא בבינה מלאכותית ידרוש אלגוריתמים שיכולים לאמן אחד את השני או לייצר נתוני אימון סינתטיים הוא צובר תאוצה.

כל זה הוא המבצע האחרון בתחרות אינטנסיבית בין OpenAI וגוגל כדי להראות התקדמות ב-AI. בעוד שאחרים בתחום, כמו אנתרופי, מקדמות מודלים מולטי-מודאליים הדומים ל-GPT-4, נראה שגם גוגל ו-OpenAI מתמקדות באלגוריתמים המדמים את העולם. אלגוריתמים כאלה עשויים להיות טובים יותר בתכנון ובאינטראקציה. שניהם יהיו מיומנויות חיוניות עבור סוכני הבינה המלאכותית ששני הארגונים מתכוונים לייצר.

"ניתן לעודד את ג'יני באמצעות תמונות שהיא מעולם לא ראתה בעבר, כגון תצלומי עולם אמיתי או סקיצות, המאפשרות לאנשים לקיים אינטראקציה עם העולמות הווירטואליים המדומיינים שלהם - בעצם פועלים כמודל עולמי יסוד", כתבו החוקרים ב- פוסט בבלוג של Genie. "אנחנו מתמקדים סרטונים של משחקי פלטפורמה דו-ממדיים ורובוטיקה אבל השיטה שלנו היא כללית וצריכה לעבוד עבור כל סוג של תחום, והיא ניתנת להרחבה למערכי נתונים באינטרנט גדולים יותר".

באופן דומה, כאשר OpenAI צפה בתצוגה מקדימה של סורה בחודש שעבר, חוקרים הציעו שזה עשוי לבשר על משהו בסיסי יותר: סימולטור עולמי. כלומר, נראה ששני הצוותים רואים במטמון העצום של וידאו מקוון דרך לאמן בינה מלאכותית ליצור סרטון משלו, כן, אבל גם להבין ולפעול בצורה יעילה יותר בעולם, מקוון או מחוצה לו.

האם זה נותן דיבידנדים, או בר קיימא לטווח ארוך, זו שאלה פתוחה. המוח האנושי פועל על כוח של נורה; AI גנרטיבי משתמש במרכזי נתונים שלמים. אבל עדיף לא לזלזל בכוחות הפועלים כרגע - במונחים של כישרון, טכנולוגיה, מוח ומזומנים - במטרה לא רק לשפר את הבינה המלאכותית אלא גם לייעל אותה.

ראינו התקדמות מרשימה בטקסט, בתמונות, באודיו ובשלושתם ביחד. סרטונים הם המרכיב הבא שנזרק לסיר, והם עשויים ליצור חליטה חזקה עוד יותר.

תמונת אשראי: גוגל DeepMind