דיוויד הולץ, מייסד מחולל האמנות של AI Midjourney, על עתיד הדמיה של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

דיוויד הולץ, מייסד מחולל האמנות של AI Midjourney, על עתיד ההדמיה

ראיון אישי בשנת 2008, דייוויד הולץ הקים חברה לציוד היקפי בשם Leap Motion. הוא ניהל את זה עד שנה שעברה כשעזב כדי ליצור את מידג'ורי.

אמצע מסע במתכונתה הנוכחית היא רשת חברתית ליצירת אמנות שנוצרת בינה מלאכותית מהנחיית טקסט - הקלד מילה או ביטוי בהנחיית הקלט ותקבל תמונה מעניינת או אולי נפלאה על המסך לאחר כדקה של חישוב. זה דומה במובנים מסוימים לזה של OpenAI DALL-E2.

תמונת אמצע הדרך של השמיים והעננים, תוך שימוש בהודעת הטקסט "כל היופי חסר התועלת הזה". מקור: נוצר על ידי אמצע מסע

שניהם תוצאה של דגמי AI גדולים שהוכשרו על מספר עצום של תמונות. אבל ל-Midjourney יש סגנון ייחודי משלה, כפי שניתן לראות שרשור הטוויטר הזה. שניהם בימים האחרונים נכנסו לבדיקות בטא ציבוריות (אם כי הגישה ל-DALL-E 2 מתרחבת לאט).

היכולת ליצור תמונות באיכות גבוהה מדגמי בינה מלאכותית באמצעות קלט טקסט הפכה לפעילות פופולרית בשנה שעברה בעקבות שחרורו של OpenAI CLIP (הכשרה מקדימה של שפה נגדית-תמונה), שנועדה להעריך עד כמה תמונות שנוצרו מתיישרות היטב עם תיאורי טקסט. לאחר שחרורו, האמן ריאן מרדוק (@advadnoun בטוויטר) גילה שניתן להפוך את התהליך - על ידי מתן קלט טקסט, תוכל לקבל פלט תמונה בעזרת דגמי AI אחרים.

לאחר מכן, קהילת האמנות הגנרטיבית יצאה לתקופה של חקר קדחתני, ופרסמה קוד של Python ליצירת תמונות תוך שימוש במגוון מודלים וטכניקות.

"מתישהו בשנה שעברה ראינו שיש תחומים מסוימים של בינה מלאכותית שהתקדמו בדרכים ממש מעניינות", הסביר הולץ בראיון עם הקופה. "אחד מהם היה היכולת של AI להבין שפה."

הולץ הצביע על פיתוחים כמו שנאים, מודל למידה עמוקה המודיע ל-CLIP, ומודלי דיפוזיה, חלופה ל-GANs. "זה שבאמת היכה את העין שלי באופן אישי היה הדיפוזיה מונחית CLIP", הוא אמר, שפותחה על ידי קתרין קרוסון (הידועה בטוויטר בשם @RiversHaveWings).

לא האיש הסטריאוטיפי של פלורידה

הולץ גדל בפלורידה והיה לו עסק לעיצוב בתיכון בו למד מתמטיקה ופיזיקה. הוא עבד על דוקטורט במתמטיקה יישומית ולקח חופשה בשנת 2008 כדי להתחיל את Leap Motion. בשנה שלאחר מכן, הוא בילה שנה כחוקר סטודנט במכון מקס פלנק, ולאחר מכן שנתיים במרכז המחקר של נאס"א לנגלי כחוקר סטודנט לתואר שני שעבד על LiDAR, משימות מאדים ומדע האטמוספירה.

"חשבתי, למה אני עובד על כל הדברים האלה?" הוא הסביר. "אני רק רוצה לעבוד על דבר מגניב אחד שאכפת לי ממנו."

אז הוא התמקד ב-Leap Motion, שפיתחה מכשיר חומרה כדי לעקוב אחר תנועת היד ולהשתמש בו לקלט המכשיר. הוא ניהל את החברה במשך שתים עשרה שנים, וכשעזב אותה העסיק כ-100 עובדים.

Midjourney, הוא אמר, די קטן כרגע. "אנחנו בערך 10 אנשים," הוא הסביר. "אנחנו במימון עצמי. אין לנו משקיעים. אנחנו לא באמת בעלי מוטיבציה כלכלית. אנחנו פשוט כאן כדי לעבוד על דברים שאנחנו נלהבים מהם וליהנות. ועבדנו על הרבה פרויקטים שונים".

הולץ אמר שההיבט הטכנולוגי של בינה מלאכותית ואת המידה שבה היא תשתפר היא די קלה לחזות מראש. "אבל כל כך קשה לדמיין את ההשלכות האנושיות של זה", אמר. "יש כאן משהו שנמצא בצומת של אנושיות וטכנולוגיה. כדי להבין באמת מה זה ומה זה צריך להיות, אנחנו באמת צריכים לעשות הרבה ניסויים".

הדרך קדימה

האופי המעורער של טכנולוגיית תמונה בינה מלאכותית ניכר בהבדל בין כלים כמו Midjourney לבין יישום גרפי קוד פתוח להורדה כמו בלנדר, או אפליקציה מסחרית בהתקנה מקומית כמו Adobe Photoshop (לפני שהפכה לשירות ענן).

Midjourney קיים בהקשר חברתי. החזית שלו היא שירות הצ'אט Discord. משתמשים חדשים נכנסים לשרת Midjourney של Discord ואז יכולים לשלוח הודעות טקסט ליצירת תמונות לצד משתמשים רבים אחרים בכל אחד מערוצי החדשים השונים.

התמונות המתקבלות עבור כל המשתמשים בערוץ זה צפות תוך כדקה, מה שעוזר לחזק את הרעיון של קהילה. מי שמחליט לשדרג למנוי של $10 לחודש או $30 לחודש יכול לשלוח טקסט לבוט Midjourney באפליקציית Discord כהודעה ישירה פרטית ולקבל תמונות בתגובה ללא מפל גלילה של אינטראקציה ממשתמשים אחרים בציבור. עָרוּץ. עם זאת, תמונות שנוצרו נותרות ניתנות לצפייה ציבורית כברירת מחדל.

כאפליקציה חברתית, Midjourney כפופה לכללים לגבי תוכן מותר - משהו שמשתמשי Blender או אפליקציות אחרות בהתקנה מקומית לא צריכים לדאוג לגביו. בתנאים וההגבלות של Midjourney נאמר: "ללא תוכן למבוגרים או חומר למבוגרים. נא להימנע מיצירת תוכן מזעזע או מטריד חזותית. נחסום חלק מהקלטות טקסט באופן אוטומטי."

DALL-E 2 כפוף למגבלות דומות אם כי נרחבות יותר, כפי שמתואר בה מדיניות תוכן.

"אני חושב שאם היינו חיים בעולם שאין בו מדיה חברתית, אז לא היינו צריכים להיות מגבלות כלשהן", אמר הולץ. "...כאשר פוטושופ הומצאה, למעשה הייתה עיתונות על זה, שבה זה היה כמו, 'אה, אתה יכול לזייף כל דבר וזה קצת מפחיד'. [אבל עכשיו], הרבה יותר משתלם להיות סנסציוני ממה שהיה קודם".

"כיום, כל אחד יכול להיות סנסציוני, ובעצם להרוויח מזה, אתה יודע", אמר הולץ. "ואז מה שזה עושה זה יוצר שוק לדרמה וסנסציוניות. לכן אני חושב שאנחנו צריכים להיות קצת יותר זהירים, כי בשלב מסוים, מה שאנשים יעשו זה שהם יגידו, 'בסדר, אני יכול לצלם את זה, מה הדבר הכי דרמטי, פוגע ומזעזע שאני יכול להכין?'"

אין תשובות קלות

הולץ מאפשר שיש דברים שפלטפורמות חברתיות יכולות לעשות כדי למתן את הבעיות הללו, אבל אומר שאין תשובות פשוטות. "למרבה הצער, אין דרך ברורה לטפל בזה, מלבד כחברה, לתגמל פחות סנסציוניות", אמר. "עם זאת, הרושם שלי הוא שאף אחד לא באמת מנסה לשנות פלטפורמות חברתיות כדי להפחית את הסנסציוניות, כי זה עושה לו כסף כרגע".

יתרה מכך, לדבריו, מכיוון ש-Midjourney שואפת להיות מרחב חברתי לכל אדם מעל גיל 13, צריך שיהיו כללים נגד תוכן קיצוני או גרפי.

"אנחנו לא באמת רוצים שיהיו חללים מפולחים לאנשים שאוהבים לעשות גופות או אוהבים תמונות עירום", הסביר הולץ. "אנחנו פשוט לא רוצים להתמודד עם זה. אנחנו לא חושבים שיש לנו חובה מוסרית לעשות זאת בשלב זה. אנחנו רוצים מרחב חברתי אחד יפה שאנשים יעשו דברים ביחד ולא ייעלבו, בעצם, וירגישו בטוחים".

לשם כך, לחברה יש כ-40 מנחים השומרים עין על התמונות שמשתמשים יוצרים.

ההיבט החברתי של Midjourney החל לאחרונה לשפר את איכות התמונה. הולץ אמר כי מהנדסי החברה הציגו לאחרונה את גרסה השלישית של התוכנה שלה, אשר שילבה לראשונה לולאת משוב המבוססת על פעילות ותגובת המשתמש.

"אם אתה מסתכל על חומר ה-v3, יש שיפור עצום", הוא אמר. "זה טוב יותר באופן מדהים ולמעשה לא השקענו בו עוד אמנות. פשוט לקחנו את הנתונים לגבי התמונות שהמשתמשים אהבו, וכיצד הם השתמשו בהם. וזה בעצם עשה את זה טוב יותר".

כשנשאל על ערימת הטכנולוגיה של Midjourney, הולץ התייאש. "בשלב מסוים, אנחנו כנראה הולכים לעשות הודעה לעיתונות ספציפית סביב הספקים שבהם אנחנו משתמשים", אמר. "מה אני יכול לומר זה שיש לנו את דגמי הבינה המלאכותית הגדולים האלה עם מיליארדי פרמטרים. הם מאומנים על פני מיליארדי תמונות."

הולץ אומר שמשתמשים יוצרים מיליוני ומיליוני תמונות מדי יום, ועושים זאת באמצעות ספקי מחשוב אנרגיה ירוקה - מה שלא ממש מצמצם את התחום של ספקי מחשוב הענן הגדולים, שכן כולם טוענים שהם לפחות פחמן ניטרליים.

"כל תמונה לוקחת פטאופים," הוא אמר, מונח שמשמעותו 10^15 פעולות בשנייה. "אז 1000 טריליוני פעולות. אני לא יודע בדיוק אם זה חמש או 10 או 50. אבל זה 1000 אלפי טריליוני פעולות כדי ליצור תמונה. זה כנראה הכי יקר... אם אתה מתקשר ל-Midjourney, שירות - כמו שאתה קורא לזה שירות או מוצר - ללא ספק, מעולם לא היה שירות שבו אדם רגיל משתמש בהרבה מחשוב."

שומר אותנו באוכל ובבגדים

עם זאת, Midjourney לא נמצאת בדרך למכירה נוספת של לקוחות שהובאו על ידי שירות חינם לשכבות בתשלום ולאחר מכן למשוך לקוחות ארגוניים המשלמים היטב לפני שהם יוצאים לציבור או נרכשים.

"אנחנו לא כמו סטארט-אפ שמגייס הרבה כסף ואז לא בטוח מה העסק או המוצר שלו ומפסיד כסף במשך זמן רב", אמר הולץ. "אנחנו כמו מעבדת מחקר במימון עצמי. אנחנו יכולים להפסיד סכום כסף. אין לנו כמו 100 מיליון דולר מכספו של מישהו אחר להפסיד. למען האמת, אנחנו כבר רווחיים, ואנחנו בסדר”.

"זה מודל עסקי די פשוט, כלומר, האם אנשים נהנים להשתמש בו? ואז אם כן, הם צריכים לשלם את עלות השימוש בו מכיוון שהעלות הגולמית היא למעשה די יקרה. ואז אנחנו מוסיפים אחוז נוסף על זה, שמספיק בתקווה כדי להאכיל ולאכלס אותנו. אז זה מה שאנחנו עושים".

לגבי העתיד, קנה מידה יכול להיות בעיה. הולץ אמר של-Midjourney יש כיום מאות אלפי אנשים המשתמשים בשירות, שדורש משהו כמו 10,000 שרתים.

"אם היו 10 מיליון אנשים שמנסים להשתמש בטכנולוגיה כזו", אמר, "למעשה אין מספיק מחשבים. אין מיליון שרתים חינמיים לעשות AI בעולם. אני חושב שלעולם ייגמרו המחשבים לפני שהטכנולוגיה תגיע למעשה לכל מי שרוצה להשתמש בה".

בשביל מה אנשים משתמשים בזה? ובכן, אם אתה מחובר לחשבון Midjourney אתה יכול לראות מה אנשים יוצרים דרך עדכון קהילתי עמוד. זוהי זרימה מתמדת של תמונות מעניינות, לעתים קרובות מדהימות, טובות.

"רוב האנשים פשוט נהנים", אמר הולץ. "אני חושב שזה הדבר הכי גדול כי זה בעצם לא קשור לאמנות, זה קשור לדמיון."

להיות מקצועי

אבל עבור כ-30 אחוז מהמשתמשים, זה מקצועי. הולץ אמר שהרבה גרפיקאים משתמשים ב-Midjourney כחלק מתהליך העבודה שלהם לפיתוח הרעיון. הם יוצרים כמה וריאציות על רעיון ומציגים אותו ללקוחות כדי לראות לאיזה כיוון הם צריכים ללכת.

"אנשי המקצוע משתמשים בזה כדי להעצים את תהליך היצירה או התקשורת שלהם", הסביר הולץ. "ואז הרבה אנשים פשוט שיחקו עם זה."

אולי 20 אחוז מהאנשים משתמשים במידג'ורני למה שהולץ מתאר כטיפול באמנות. לדוגמה, יצירת תמונות של כלבים לאחר שהכלב שלהם מת. "הם משתמשים בזה ככלי רפלקטיבי רגשי ואינטלקטואלי", אמר. "וזה ממש מגניב."

הולץ לא אוהב את הרעיון להשתמש ב-Midjourney כדי ליצור תמונות מזויפות. "השימוש בו בעריכה כדי ליצור תמונות מזויפות הוא מסוכן ביותר", אמר. "אף אחד לא צריך לעשות את זה." אבל הוא פתוח יותר ל-Midjourney כמקור להמחשה מסחרית, ומציין זאת האקונומיסט הציג גרפיקה של Midjourney על הכריכה שלו ביוני.

"רק לאחרונה אפשרנו לאנשים להשתמש בו באופן מסחרי", אמר הולץ. "במשך זמן רב זה היה לא מסחרי בלבד. אז אחד הדברים שאנחנו עושים הוא שאנחנו רק צופים בזה, במה שאנשים עושים, ואולי נחליט שאנחנו לא מרגישים בנוח עם חלק מזה ואז נכניס כלל שאומר לך כבר לא יכול להשתמש בו רק בשביל הדברים האלה."

הולץ אמר שהוא רואה שכלי AI כמו Midjourney הופכים אמנים טובים יותר במה שהם עושים במקום להפוך את כולם לאמנים מקצועיים. "אמן שמשתמש בכלים האלה תמיד טוב יותר מאדם רגיל שמשתמש בכלים האלה. בשלב מסוים, אולי יהיה לחץ להשתמש בכלים האלה כי אתה יכול לעשות דברים כל כך נהדרים? אני חושב שכן. אבל כרגע, אני לא חושב שזה ממש שם עדיין. אבל זה ישתפר באופן מזעזע במהלך השנתיים הקרובות".

Midjourney ו-DALL-E 2 משכו תשומת לב רבה יותר לחששות ארוכי שנים לגבי האם ניתן ליישב דגמי AI גדולים, שנוצרו מהיצירה תחת זכויות יוצרים או רישיונות ספציפיים, עם חוק זכויות היוצרים ועם תחושתם של יוצרי התוכן כיצד יש להתייחס לעבודה שלהם.

אמריקה, ארץ התביעה

במונחים של פלט Midjourney, תורת המשפט הנוכחית בארה"ב שוללת את האפשרות להעניק זכויות יוצרים לתמונות שנוצרו בינה מלאכותית. בפברואר, מועצת הביקורת של משרד זכויות היוצרים האמריקאי נדחה [PDF] בקשה שנייה להעניק זכויות יוצרים לנוף שנוצר על ידי מחשב שכותרתו "כניסה אחרונה לגן עדן" מכיוון שהוא נוצר ללא מחבר אנושי.

בראיון טלפוני סיפר טיילר אוצ'ואה, פרופסור במחלקה למשפטים באוניברסיטת סנטה קלרה הקופה, "משרד זכויות היוצרים בארה"ב אמר שזה [מקובל] אם אמן משתמש בבינה מלאכותית כדי לסייע לו ביצירת יצירה כל עוד יש יצירתיות אנושית מעורבת. אם זה פשוט אתה שמקליד טקסט, וה-AI מייצר יצירה, זה די ברור שלא כפוף להגנה על זכויות יוצרים על פי החוק הנוכחי."

התנאים וההגבלות של Midjourney קובעים "אתה הבעלים של כל הנכסים שאתה יוצר עם השירותים", אך החברה דורשת רישיון זכויות יוצרים ממשתמשים כדי לשכפל תוכן שנוצר באמצעות השירות - אמצעי זהירות הכרחי לארח תמונות של משתמשים, גם אם נראה ספק אם אלה להכנת תמונות Midjourney פשוט באמצעות קלט טקסט יש זכויות יוצרים כלשהן להעביר או לאכוף.

זה אולי לא תמיד המצב. אוצ'ואה אמר כי הוא מאמין שסטיבן תאלר, שיצר את "הכניסה האחרונה לגן עדן", עשוי לרצות לערער על דחייתו של משרד זכויות היוצרים של מחברים מבוססי בינה מלאכותית בבית המשפט, למרות שזה עדיין לא קרה.

יש גם חששות פוטנציאליים לזכויות יוצרים הנובעים ממודלים של AI שהוכשרו על חומר המוגן בזכויות יוצרים. "השאלה היא אם זה יהיה שימוש הוגן להשתמש בתמונות האלה לאימון ובינה מלאכותית", אמר אוצ'ואה. "ואני חושב שהמקרה לשימוש הוגן בהקשר הזה הוא די חזק."

בנוסף, קיימת אחריות פוטנציאלית למי שיוצר תמונות הדומות באופן מהותי לחומר קיים המוגן בזכויות יוצרים. "אם מערך האימונים שלך אינו גדול מספיק, מה שה-AI פולט עשוי להיראות מאוד כמו מה שהוא בלע", הסביר אוצ'ואה, וציין שהבעיה היא אם זו הפרת זכויות יוצרים. "בעקיפין, אני חושב שזה יכול להיות מאוד."

באשר לסיכון משפטי פוטנציאלי ללקוחות המשתמשים בנכסים שנוצרו על ידי Midjourney, אוצ'ואה אמר שהוא חושב שהוא נמוך למדי. אם ההכשרה של מודל AI הפרה זכויות יוצרים, זה נעשה לפני שהלקוח היה מעורב, הוא הסביר. "אז אלא אם כן הלקוח נתן חסות ליצירת הבינה המלאכותית בדרך כלשהי, אני לא חושב שהלקוח יהיה אחראי לכל הפרה של מערך ההדרכה", אמר. "וזו הטענה הכי חזקה כאן. אז אני חושב שהלקוחות נמצאים על קרקע די מוצקה בשימוש בתמונות האלה, בהנחה שזה נעשה היטב."

הולץ מכיר בכך שהמצב המשפטי חסר בהירות.

"כרגע, אין בחוק שום דבר לגבי דברים מהסוג הזה", אמר. "למיטב ידיעתי, כל מודל בינה מלאכותית גדול מאומן בעצם על דברים שנמצאים באינטרנט. וזה בסדר, כרגע. אין חוקים ספציפיים על זה. אולי בעתיד, יהיה. אבל זה סוג של תחום חדשני, כאילו ה-GPL היה סוג של דבר משפטי חדשני סביב קוד תכנות. וזה לקח בערך 20 או 30 שנה עד שזה באמת הפך למשהו שהמערכת המשפטית מתחילה להבין".

הולץ אמר כי הוא מאמין שחשוב יותר כרגע להבין מה מרגישים הצדדים המודאגים לגבי הטכנולוגיה הזו. "יש לנו הרבה אמנים שמשתמשים בדברים שלנו, ואנחנו כל הזמן בודקים איתם, 'האם אתה מרגיש בסדר עם זה?'", אמר.

הולץ אמר שאם יש מספיק חוסר שביעות רצון מהסטטוס קוו, אולי כדאי לחשוב על איזשהו מבנה תשלום בעתיד עבור אמנים שעבודתם נכנסת להכשרת מודלים. אבל הוא הבחין שכרגע קשה להעריך את היקף התרומות. "האתגר לכל דבר כזה כרגע הוא שלא ממש ברור מה גורם למודלים של AI לעבוד היטב", אמר. "אם אני שם תמונה של כלב, עד כמה זה באמת עוזר [למודל הבינה המלאכותית] ליצור תמונות של כלבים. למעשה לא ברור אילו חלקים מהנתונים בעצם נותנים [למודל] אילו יכולות".

כשנשאל מה נותן ל-Midjourney את האסתטיקה הייחודית שלו, הולץ אמר שהוא לא באמת יכול להשוות את מה שמידג'ורני עושה ל-DALL-E 2, אבל באופן כללי חוקרי בינה מלאכותית נוטים להשיג את מה שהם מייעלים עבורו. אם הם הכניסו את המילה "כלב" אז הם כנראה רוצים תמונה של כלב.

"עבורנו, כשהיינו מייעלים את זה, רצינו שזה ייראה יפה, ויפה לא בהכרח אומר מציאותי. ... אם כבר, למעשה אנחנו מטים את זה קצת רחוק מתמונות. ... אני יודע שהטכנולוגיה הזו יכולה לשמש כמכונת סופר מזויפת עמוקה. ואני לא חושב שהעולם צריך עוד תמונות מזויפות. אני לא באמת רוצה להיות מקור לתמונות מזויפות בעולם”.

"אני באמת מרגיש לא בנוח אם הדברים שלנו יוצרים משהו שנראה כמו תמונה. וזה לא אומר שלעולם לא ניתן לאנשים לעשות דברים מציאותיים יותר. ישנם מקרי שימוש לגיטימיים לניסיון לגרום לדברים להיראות מציאותיים יותר. עם זאת, אני מרגיש מאוד שכברירת מחדל, כשמישהו משתמש במערכת שלנו, הוא לא צריך לצלם תמונה מזויפת."

"אבל אני כן חושב שהעולם זקוק ליותר יופי. בעצם, אם אני יוצר משהו שמאפשר לאנשים ליצור דברים יפים, ויש דברים יפים יותר בעולם, זה מה שאני רוצה כברירת מחדל”. ®

בול זמן:

עוד מ הקופה