DeepMind AI זה לומד במהירות מיומנויות חדשות רק על ידי צפייה בבני אדם

DeepMind AI זה לומד במהירות מיומנויות חדשות רק על ידי צפייה בבני אדם

DeepMind AI זה לומד במהירות מיומנויות חדשות רק על ידי צפייה באינטליגנציה של PlatoBlockchain נתונים של בני אדם. חיפוש אנכי. איי.

לימוד אלגוריתמים לחקות בני אדם דורש בדרך כלל מאות או אלפי דוגמאות. אבל AI חדש מ-Google DeepMind יכול לקלוט מיומנויות חדשות ממפגינים אנושיים תוך כדי תנועה.

אחד הטריקים הגדולים ביותר של האנושות הוא היכולת שלנו לרכוש ידע במהירות וביעילות אחד מהשני. סוג זה של למידה חברתית, המכונה לעתים קרובות העברה תרבותית, הוא מה שמאפשר לנו להראות לעמית כיצד להשתמש בכלי חדש או ללמד את ילדינו חרוזים.

אין זה מפתיע שחוקרים ניסו לשכפל את התהליך במכונות. למידת חיקוי, שבה AI צופה באדם משלים משימה ולאחר מכן מנסה לחקות את התנהגותו, היא כבר זמן רב גישה פופולרית לאימון רובוטים. אבל אפילו האלגוריתמים המתקדמים ביותר של למידה עמוקה של היום בדרך כלל צריכים לראות דוגמאות רבות לפני שהם יכולים להעתיק בהצלחה את המאמנים שלהם.

כאשר בני אדם לומדים באמצעות חיקוי, הם יכולים לעתים קרובות להרים משימות חדשות לאחר רק קומץ הדגמות. כעת, חוקרי Google DeepMind עשו צעד לקראת למידה חברתית מהירה ב-AI עם סוכנים שלומדים לנווט בעולם וירטואלי מבני אדם בזמן אמת.

"הסוכנים שלנו מצליחים לחקות בזמן אמת של אדם בהקשרים חדשים מבלי להשתמש בנתונים אנושיים שנאספו מראש", כותבים החוקרים ב- נייר פנימה תקשורת טבע. "אנו מזהים קבוצה פשוטה להפליא של מרכיבים המספיקים ליצירת העברה תרבותית".

החוקרים הכשירו את הסוכנים שלהם בסימולטור שעוצב במיוחד בשם GoalCycle3D. הסימולטור משתמש באלגוריתם כדי ליצור מספר כמעט אינסופי של סביבות שונות בהתבסס על כללים לגבי אופן הפעולה של הסימולציה ואילו היבטים שלה צריכים להשתנות.

בכל סביבה, דמוי כתם קטן סוכני AI חייב לנווט בשטח לא אחיד ומכשולים שונים כדי לעבור דרך סדרה של כדורים צבעוניים בסדר מסוים. גבשושיות השטח, צפיפות המכשולים ותצורת הכדורים משתנים בין הסביבה.

הסוכנים מאומנים לנווט באמצעות למידה חיזוק. הם זוכים בפרס על מעבר בספירות בסדר הנכון ומשתמשים באות זה כדי לשפר את הביצועים שלהם במהלך ניסויים רבים. אבל בנוסף, הסביבות כוללות גם סוכן מומחה - שהוא מקודד או נשלט על ידי אדם - שכבר יודע את המסלול הנכון בקורס.

במהלך ריצות הדרכה רבות, סוכני הבינה המלאכותית לומדים לא רק את היסודות של אופן הפעולה של הסביבות, אלא גם שהדרך המהירה ביותר לפתור כל בעיה היא לחקות את המומחה. כדי להבטיח שהסוכנים ילמדו לחקות במקום רק לשנן את הקורסים, הצוות אימן אותם על סט אחד של סביבות ואז בדק אותם באחר. באופן מכריע, לאחר האימון, הצוות הראה שהסוכנים שלהם יכולים לחקות מומחה ולהמשיך ללכת במסלול גם ללא המומחה.

זה דרש כמה שינויים בגישות לימוד חיזוק סטנדרטיות.

החוקרים גרמו לאלגוריתם להתמקד במומחה בכך שהוא חזה את מיקומו של הסוכן האחר. הם גם נתנו לו מודול זיכרון. במהלך האימון, המומחה היה נופל ויוצא מסביבות, ומאלץ את הסוכן לשנן את פעולותיו לזמן שבו הוא כבר לא היה נוכח. ה-AI גם התאמן על קבוצה רחבה של סביבות, מה שהבטיח שהוא רואה מגוון רחב של משימות אפשריות.

עם זאת, ייתכן שיהיה קשה לתרגם את הגישה לתחומים מעשיים יותר. מגבלה מרכזית היא שכאשר החוקרים בדקו אם ה-AI יכול ללמוד מהדגמות אנושיות, הסוכן המומחה נשלט על ידי אדם אחד במהלך כל ריצות האימון. זה מקשה לדעת אם הסוכנים יכולים ללמוד ממגוון אנשים.

באופן דחוף יותר, היכולת לשנות באופן אקראי את סביבת האימון תהיה קשה לשחזר בעולם האמיתי. והמשימה הבסיסית הייתה פשוטה, לא דרשה שליטה במוטוריקה עדינה והתרחשה בסביבות וירטואליות מבוקרות מאוד.

ובכל זאת, התקדמות למידה חברתית ב-AI מבורכת. אם אנחנו רוצים לחיות בעולם עם מכונות חכמות, מציאת דרכים יעילות ואינטואיטיביות לחלוק איתם את הניסיון והמומחיות שלנו תהיה חיונית.

תמונת אשראי: ג'וליאנה א מריאנה אמורים / Unsplash

בול זמן:

עוד מ רכזת הסינגולריות