המונה ליזה יכולה עכשיו לדבר, הודות ל-EMO

המונה ליזה יכולה עכשיו לדבר, הודות ל-EMO

חוקרים מהמכון למחשוב אינטליגנטי בקבוצת עליבאבא פיתחו כלי בינה מלאכותית המכונה EMO: Emote Portrait Alive, שמעורר חיים בפורטרטים.

הכלי מאפשר למשתמשים להוסיף אודיו ווידאו לתמונת סטילס. בעזרת הכלי אפשר לשחק עם דיוקן ישן כמו La Gioconda המפורסם של ליאונרדו דה וינצ'י, הידוע יותר בשם המונה ליזה, מה שגורם לה לדבר ולשיר עם תנוחות ראש, תנועה, הבעות פנים וסנכרון שפתיים מדויק.

כלי ליצירת דיוקן-ווידאו אקספרסיבי המונחה על ידי אודיו

בדו"ח שלהם, "EMO: Emote Portrait Alive: יצירת סרטוני פורטרט אקספרסיביים עם מודל פיזור Audio2Video בתנאים חלשים",  החוקרים לתת תובנות על הכלי החדש שלהם, הפונקציות שלו וכיצד להשתמש בו לתוצאות מושלמות.

בעזרת כלי הבינה המלאכותית ליצירת דיוקנאות המונעת על ידי אודיו, משתמשים יכולים ליצור סרטוני אווטאר ווקאלי עם הבעות פנים. לדברי החוקרים, הכלי מאפשר להם ליצור סרטונים בכל משך "תלוי באורך השמע הנכנס".

"הכנס תמונת דמות אחת ואודיו ווקאלי, כמו שירה, והשיטה שלנו יכולה ליצור סרטוני אווטאר ווקאלי עם הבעות פנים אקספרסיביות ותנוחות ראש שונות", אמרו החוקרים.

"השיטה שלנו תומכת בשירים בשפות שונות ומביאה לחיים סגנונות דיוקן מגוונים. הוא מזהה באופן אינטואיטיבי וריאציות טונאליות באודיו, ומאפשר ליצור אווטרים דינמיים ועתירי הבעה".

גם לקרוא: OpenAI טוען שהניו יורק טיימס "פרץ" את ChatGPT כדי לפתח מקרה של זכויות יוצרים

מדברים, שרים מתוך דיוקן

לדברי החוקרים, הכלי המופעל על ידי בינה מלאכותית לא רק מעבד מוזיקה אלא גם מתאים לשמע מדוברות בשפות שונות.

"בנוסף, לשיטה שלנו יש את היכולת להנפיש דיוקנאות מתקופות עברו, ציורים, וגם מודלים תלת מימדיים ותוכן שנוצר בינה מלאכותית, להחדיר בהם תנועה וריאליזם כמו חיים", אמרו החוקרים.

אבל זה לא נגמר שם. משתמשים יכולים גם לשחק עם דיוקנאות ותמונות של כוכבי קולנוע המציגים מונולוגים או הופעות בסגנונות ובשפות שונות.

כמה חובבי בינה מלאכותית שלקחו לפלטפורמת X תיארו זאת כ"מעוררת מחשבה".

גבול דליל בין אמיתי ל-AI

חדשות של הכלי EMO מאת Alibaba גרם למשתמשים אחרים לחשוב שהגבול בין AI למציאות עומד להיעלם כאשר חברות טכנולוגיה ממשיכות לשחרר מוצרים חדשים.

"הקצה בין בינה מלאכותית לאמיתי הוא דק מתמיד," פרסם רובן ב-X, בעוד שאחרים חושבים טיק טוק בקרוב יוצף ביצירות.

"זו הפעם הראשונה שאני רואה תוצאה כל כך מדויקת ומציאותית. וידאו AI השנה מבטיחה להיות אמינה", אמר פול קוברט.

בעוד שאחרים חושבים שזה יכול להיות מחליף משחק עבור קריאייטיבים, Min Choi גם זהיר לגבי זה.

"אני מקווה רק לדברים יצירתיים. זה עלול להיות מסוכן בידיים הלא נכונות".

המונה ליזה יכולה עכשיו לדבר, הודות ל-EMO

שימוש בכלי

בהסבר התהליך, החוקרים הדגישו כי למסגרת ה-EMO יש שני שלבים, כאשר הראשון ידוע בשם קידוד מסגרות, שבו ReferenceNet נפרס כדי לחלץ תכונות מתמונות ייחוס וממסגרות תנועה.

השלב הבא הוא שלב תהליך הדיפוזיה, שבו מקודד אודיו מאומן מראש "מעבד את הטבעת האודיו". כדי ליצור תמונות פנים מושלמות, משתמשים משלבים מסכות אזורי פנים ורעש רב-פריים.

"מנגנונים אלו חיוניים לשימור זהות הדמות ולוויסות תנועות הדמות, בהתאמה", נכתב בחלק מההסבר.

"בנוסף, מודולים זמניים משמשים כדי לתפעל את הממד הזמני ולהתאים את תנועת המהירות."

בול זמן:

עוד מ מטא ניוז