ديفيد هولز ، مؤسس مولد الفن بالذكاء الاصطناعي Midjourney ، يتحدث عن مستقبل تصوير PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

ديفيد هولز ، مؤسس شركة ميدجورني لمولِّد الفن بالذكاء الاصطناعي ، يتحدث عن مستقبل التصوير

المقابلة الشخصية في عام 2008 ، شارك David Holz في تأسيس شركة أجهزة طرفية تسمى Leap Motion. لقد أدارها حتى العام الماضي عندما غادر لإنشاء Midjourey.

ميدجورني في شكلها الحالي عبارة عن شبكة اجتماعية لإنشاء فن تم إنشاؤه بواسطة AI من موجه نص - اكتب كلمة أو عبارة في موجه الإدخال وستتلقى صورة مثيرة للاهتمام أو ربما رائعة على الشاشة بعد حوالي دقيقة من الحساب. إنه مشابه في بعض النواحي لـ OpenAI DALL-E2.

صورة منتصف الرحلة للسماء والغيوم ، باستخدام النص المطالبة "كل هذا الجمال غير المجدي". المصدر: تم إنشاؤه بواسطة ميدجورني

كلاهما نتيجة لنماذج ذكاء اصطناعي كبيرة مدربة على أعداد كبيرة من الصور. لكن Midjourney لها أسلوبها المميز ، كما يتضح من ذلك هذا الموضوع Twitter. دخل كلاهما في الأيام الأخيرة في اختبار تجريبي عام (على الرغم من أن الوصول إلى DALL-E 2 يتم توسيعه ببطء).

أصبحت القدرة على إنشاء صور عالية الجودة من نماذج الذكاء الاصطناعي باستخدام إدخال النص نشاطًا شائعًا العام الماضي بعد إصدار OpenAI CLIP (اللغة التقابلية - التدريب المسبق على الصورة) ، والذي تم تصميمه لتقييم مدى توافق الصور التي تم إنشاؤها جيدًا مع أوصاف النص. بعد صدوره ، الفنان ريان موردوك وجد (advadnoun على Twitter) أنه يمكن عكس العملية - من خلال توفير إدخال نصي ، يمكنك الحصول على إخراج الصورة بمساعدة نماذج AI الأخرى.

بعد ذلك ، شرع مجتمع الفن التوليدي في فترة من الاستكشاف المحموم ، ونشر كود Python لإنشاء صور باستخدام مجموعة متنوعة من النماذج والتقنيات.

أوضح هولز في مقابلة مع السجل. "أحدها كان قدرة الذكاء الاصطناعي على فهم اللغة."

أشار هولز إلى تطورات مثل المحولات ، ونموذج التعلم العميق الذي يُعلم CLIP ، ونماذج الانتشار ، كبديل لشبكات GAN. قال ، الذي طورته كاثرين كراوسون (المعروف على تويتر باسمRiversHaveWings): "الشيء الذي أصاب عيني شخصيًا هو الانتشار الموجه بـ CLIP".

ليس رجل فلوريدا النمطي

نشأ هولز في فلوريدا وعمل في مجال التصميم في المدرسة الثانوية حيث درس الرياضيات والفيزياء. كان يعمل على درجة الدكتوراه في الرياضيات التطبيقية وأخذ إجازة في عام 2008 لبدء Leap Motion. في العام التالي ، أمضى عامًا كطالب باحث في معهد ماكس بلانك ، تلاه عامين في مركز أبحاث لانغلي التابع لناسا كباحث طالب دراسات عليا يعمل على LiDAR ، وبعثات المريخ ، وعلوم الغلاف الجوي.

"كنت مثل ، لماذا أعمل على كل هذه الأشياء؟" هو شرح. "أريد فقط أن أعمل على شيء واحد رائع يهمني."

لذلك ركز على Leap Motion ، التي طورت جهازًا لتتبع حركة اليد واستخدامها لإدخال الجهاز. أدار الشركة لمدة اثني عشر عامًا ، وعندما تركها كان يعمل بها حوالي 100 شخص.

قال إن Midjourney صغير جدًا الآن. "نحن مثل حوالي 10 أشخاص" ، أوضح. "نحن ممولون ذاتيًا. ليس لدينا مستثمرون. نحن لسنا حافزًا ماليًا حقًا. نحن هنا نوعًا ما للعمل على أشياء نحن متحمسون لها ونستمتع بها. وكنا نعمل على العديد من المشاريع المختلفة ".

قال هولز إن الجانب التكنولوجي للذكاء الاصطناعي ومدى تحسنه يسهل توقعه. قال: "لكن من الصعب جدًا تخيل التداعيات البشرية لذلك". "يوجد شيء هنا يقع عند تقاطع الإنسانية والتكنولوجيا. من أجل معرفة ماهية هذا وما يجب أن يكون عليه ، نحتاج حقًا إلى إجراء الكثير من التجارب ".

الطريق إلى الأمام

تتجلى الطبيعة غير المستقرة لتقنية صور AI في الاختلاف بين أدوات مثل Midjourney وتطبيق رسومات مفتوح المصدر قابل للتنزيل مثل Blender ، أو تطبيق تجاري مثبت محليًا مثل Adobe Photoshop (قبل أن يصبح خدمة سحابية).

يوجد Midjourney في سياق اجتماعي. الواجهة الأمامية هي خدمة الدردشة Discord. يقوم المستخدمون الجدد بتسجيل الدخول إلى خادم Midjourney الخاص بـ Discord ويمكنهم بعد ذلك إرسال مطالبات نصية لإنشاء الصور جنبًا إلى جنب مع العديد من المستخدمين الآخرين في أي من قنوات المبتدئين المتنوعة.

تظهر الصور الناتجة لجميع المستخدمين في تلك القناة في غضون دقيقة تقريبًا ، مما يساعد على تعزيز فكرة المجتمع. يمكن لأولئك الذين قرروا الترقية إلى اشتراك بقيمة 10 دولارات شهريًا أو 30 دولارًا في الشهر إرسال نص إلى Midjourney bot في تطبيق Discord كرسالة مباشرة خاصة واستقبال الصور ردًا على ذلك دون ظهور شلال تمرير الشاشة للتفاعل من مستخدمين آخرين في الأماكن العامة قناة. ومع ذلك ، تظل الصور التي تم إنشاؤها قابلة للعرض علنًا بشكل افتراضي.

كتطبيق اجتماعي ، يخضع Midjourney لقواعد بشأن المحتوى المسموح به - وهو أمر لا داعي للقلق بشأنه لمستخدمي Blender أو التطبيقات الأخرى المثبتة محليًا. تنص شروط خدمة Midjourney على ما يلي: "لا يوجد محتوى للبالغين أو دماء. يرجى تجنب إنشاء محتوى مروع أو مزعج. سنحظر بعض إدخالات النص تلقائيًا. "

يخضع DALL-E 2 لقيود مماثلة وإن كانت أكثر شمولاً ، كما هو موضح في سياسة المحتوى.

قال هولز: "أعتقد أننا إذا عشنا في عالم لا توجد به وسائل التواصل الاجتماعي ، فلن نحتاج إلى أي قيود". "... عندما تم اختراع برنامج فوتوشوب ، كان هناك بالفعل ضغط عليه ، حيث يبدو ،" أوه ، يمكنك تزوير أي شيء وهو أمر مخيف بعض الشيء. " [لكن الآن] ، من المربح أن تكون مثيرًا أكثر بكثير مما كان عليه من قبل ".

قال هولز: "في الوقت الحاضر ، يمكن لأي شخص أن يكون مثيرًا للإثارة ، ويستفيد بشكل أساسي من ذلك ، كما تعلم". "وما يفعله هو أنه يخلق سوقًا للدراما والإثارة. لهذا السبب أعتقد أنه يتعين علينا أن نكون أكثر حرصًا ، لأنه في مرحلة ما ، ما سيفعله الناس هو أنهم سيقولون ، "حسنًا ، يمكنني التقاط صور لهذا ، ما هي أكثر الأشياء دراماتيكية وإهانة ورعبًا" يستطيع جعل؟'"

لا توجد إجابات سهلة

يسمح هولز بوجود أشياء يمكن للمنصات الاجتماعية القيام بها للتخفيف من هذه المشكلات ، لكنه يقول إنه لا توجد إجابات بسيطة. قال: "لسوء الحظ ، لا توجد طريقة واضحة لمواجهتها ، باستثناء كمجتمع ، لمكافأة الإثارة بشكل أقل". "ومع ذلك ، فإن انطباعي هو أنه لا أحد يحاول حقًا تغيير المنصات الاجتماعية لتقليل الإثارة ، لأن هذا يجعلهم مالًا في الوقت الحالي."

ما هو أكثر من ذلك ، كما قال ، لأن Midjourney تهدف إلى أن تكون مساحة اجتماعية لأي شخص يزيد عمره عن 13 عامًا ، فمن الضروري أن يكون لديك قواعد ضد المحتوى المتطرف أو التصويري.

أوضح هولز: "لا نريد حقًا أن يكون لدينا مساحات مجزأة للأشخاص الذين يحبون صنع الجثث أو يحبون الصور العارية". "نحن فقط لا نريد أن نتعامل مع ذلك. لا نعتقد أن لدينا التزامًا أخلاقيًا للقيام بذلك في هذه المرحلة. نريد مساحة اجتماعية واحدة جميلة للناس ليصنعوا الأشياء معًا ولا يتعرضوا للإهانة ، أساسًا ، ويشعروا بالأمان ".

لتحقيق هذه الغاية ، تمتلك الشركة حوالي 40 مشرفًا يراقبون الصور التي ينشئها المستخدمون.

بدأ الجانب الاجتماعي لـ Midjourney مؤخرًا في تحسين جودة الصورة. قال هولز إن مهندسي الشركة قدموا مؤخرًا الإصدار الثالث من برمجياتها ، والتي تضمنت لأول مرة حلقة تغذية مرتدة بناءً على نشاط المستخدم واستجابته.

قال: "إذا نظرت إلى أشياء v3 ، فهناك هذا التحسن الهائل". "إنه أفضل بشكل محير للعقل ولم نضع المزيد من الفن فيه. لقد أخذنا فقط البيانات حول الصور التي أحبها المستخدمون ، وكيف كانوا يستخدمونها. وهذا في الواقع جعلها أفضل ".

عند سؤاله عن مجموعة Midjourney التقنية ، اعترض هولز. وقال: "في مرحلة ما ، من المحتمل أن نصدر بيانًا صحفيًا على وجه التحديد حول البائعين الذين نتعامل معهم". "ما يمكنني قوله هو أن لدينا نماذج كبيرة من الذكاء الاصطناعي بمليارات من المعلمات. لقد تم تدريبهم على أكثر من مليارات الصور ".

يقول هولز إن المستخدمين يصنعون الملايين والملايين من الصور كل يوم ، ويقومون بذلك باستخدام موفري حوسبة الطاقة الخضراء - وهو ما لا يضيق حقًا مجال مزودي الحوسبة السحابية الرئيسيين حيث يزعمون جميعًا أنهم محايدون من الكربون على الأقل.

قال: "كل صورة تأخذ بيتوبس" ، وهو مصطلح يعني 10 ^ 15 عملية في الثانية. "حتى آلاف التريليونات من العمليات. لا أعرف بالضبط ما إذا كانت خمسة أم عشرة أم خمسين. لكنها آلاف التريليونات من العمليات لعمل صورة. ربما تكون الأغلى ... إذا اتصلت بـ Midjourney ، خدمة - كما لو كنت تسميها خدمة أو منتجًا - دون أدنى شك ، لم تكن هناك خدمة من قبل حيث يستخدم الشخص العادي هذا القدر من الحوسبة. "

يبقينا في الطعام والملابس

ومع ذلك ، فإن Midjourney ليست في طريقها نحو زيادة مبيعات العملاء من خلال خدمة مجانية للطبقات المدفوعة ثم جذب عملاء المؤسسات ذوي الأجور الجيدة قبل طرحها للجمهور أو الحصول عليها.

قال هولز: "نحن لسنا مثل شركة ناشئة تجمع الكثير من المال ومن ثم لا نعرف ما هو نشاطها التجاري أو منتجها وتفقد المال لفترة طويلة". "نحن أشبه بمختبر أبحاث ممول ذاتيًا. يمكننا أن نخسر بعض المال. ليس لدينا مثل 100 مليون دولار من أموال شخص آخر لنخسرها. لأكون صادقًا ، نحن بالفعل مربحون ، ونحن بخير. "

"إنه نموذج عمل بسيط جدًا ، وهو ، هل يستمتع الناس باستخدامه؟ ثم إذا فعلوا ذلك ، فعليهم دفع تكلفة استخدامه لأن التكلفة الأولية باهظة الثمن بالفعل. ثم نضيف نسبة مئوية فوق ذلك ، والتي نأمل أن تكون كافية لإطعامنا وإيوائنا. وهذا ما نفعله ".

أما بالنسبة للمستقبل ، فقد يكون التوسع مشكلة. قال هولز إن Midjourney لديها حاليًا مئات الآلاف من الأشخاص الذين يستخدمون الخدمة ، والتي تتطلب ما يقرب من 10,000 خادم.

قال: "إذا كان هناك 10 ملايين شخص يحاولون استخدام تكنولوجيا مثل هذه ، فلا يوجد في الواقع ما يكفي من أجهزة الكمبيوتر. لا يوجد مليون خادم مجاني للقيام بالذكاء الاصطناعي في العالم. أعتقد أن العالم سينفد من أجهزة الكمبيوتر قبل أن تصل التكنولوجيا فعليًا إلى كل من يريد استخدامها ".

لماذا يستخدمه الناس؟ حسنًا ، إذا قمت بتسجيل الدخول إلى حساب Midjourney ، فيمكنك رؤية ما يقوم الأشخاص بإنشائه عبر تغذية المجتمع صفحة. إنه تدفق مستمر من الصور الممتعة والمذهلة في كثير من الأحيان.

قال هولز: "غالبية الناس يستمتعون فقط". "أعتقد أن هذا هو أهم شيء لأنه لا يتعلق بالفن في الواقع ، إنه يتعلق بالخيال."

أن تكون محترفًا

لكن بالنسبة لحوالي 30 بالمائة من المستخدمين ، فهو محترف. قال هولز إن الكثير من فناني الجرافيك يستخدمون Midjourney كجزء من سير عمل تطوير مفهومهم. يولدون بعض الاختلافات في الفكرة ويقدمونها للعملاء لمعرفة الاتجاه الذي ينبغي عليهم اتباعه.

أوضح هولز: "يستخدمه المحترفون لتعزيز عملية الإبداع أو الاتصال لديهم". "وبعد ذلك كان الكثير من الناس يلعبون بها."

ربما يستخدم 20 في المائة من الناس Midjourney لما يصفه هولز بالعلاج بالفن. على سبيل المثال ، إنشاء صور للكلاب بعد موت كلبهم. قال: "إنهم يستخدمونها كأداة عاطفية وفكرية". "وهذا رائع حقًا."

هولز يكره فكرة استخدام Midjourney لإنشاء صور مزيفة. قال: "إن استخدامها في التحرير لإنشاء صور مزيفة أمر خطير للغاية". "لا ينبغي لأحد أن يفعل ذلك." لكنه أكثر انفتاحًا على Midjourney كمصدر للتوضيح التجاري ، مشيرًا إلى ذلك قامت The Economist بتشغيل رسم ميدجورني على غلافه في يونيو.

قال هولز: "سمحنا للناس مؤخرًا باستخدامه تجاريًا". "لفترة طويلة ، كان غير تجاري فقط. ولذا فإن أحد الأشياء التي نقوم بها هو أننا نشاهده فقط ، وما يفعله الناس ، وقد نقرر أننا غير مرتاحين لبعض ذلك ومن ثم سنضع قاعدة تقول لك لم يعد بإمكانه استخدامه لهذه الأشياء فقط ".

قال هولز إنه يرى أن أدوات الذكاء الاصطناعي مثل Midjourney تجعل الفنانين أفضل فيما يفعلون بدلاً من جعل الجميع فنانًا محترفًا. "الفنان الذي يستخدم هذه الأدوات دائمًا أفضل من استخدام الشخص العادي لهذه الأدوات. في مرحلة ما ، قد يكون هناك ضغط لاستخدام هذه الأدوات لأنك تستطيع صنع أشياء رائعة جدًا؟ اعتقد نعم. لكن في الوقت الحالي ، لا أعتقد أنه هناك بعد. لكنها ستتحسن بشكل صادم خلال العامين المقبلين ".

لفتت Midjourney و DALL-E 2 مزيدًا من الاهتمام إلى المخاوف القائمة منذ فترة طويلة حول ما إذا كان يمكن التوفيق بين نماذج الذكاء الاصطناعي الكبيرة ، التي تم إنشاؤها من العمل بموجب حقوق الطبع والنشر أو تراخيص محددة ، مع قانون حقوق النشر ومع شعور منشئي المحتوى الخاص بكيفية التعامل مع عملهم.

أمريكا أرض الدعوى

فيما يتعلق بإخراج Midjourney ، ينكر القانون الأمريكي الحالي إمكانية منح حقوق التأليف والنشر للصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي. في فبراير ، مجلس مراجعة مكتب حقوق الطبع والنشر الأمريكي رفض [PDF] طلب ثان لمنح حقوق التأليف والنشر لمشهد تم إنشاؤه بواسطة الكمبيوتر بعنوان "مدخل حديث إلى الجنة" لأنه تم إنشاؤه بدون تأليف بشري.

في مقابلة عبر الهاتف ، قال تايلر أوتشوا ، الأستاذ في قسم القانون بجامعة سانتا كلارا السجل، "قال مكتب حقوق الطبع والنشر بالولايات المتحدة إنه من [المقبول] أن يستخدم الفنان الذكاء الاصطناعي لمساعدته في إنشاء عمل طالما أن هناك بعض الإبداع البشري. إذا كنت تقوم ببساطة بكتابة نص ، وأن الذكاء الاصطناعي يولد عملاً ، فمن الواضح أنه لا يخضع لحماية حقوق النشر بموجب القانون الحالي ".

تنص شروط خدمة Midjourney على "أنك تمتلك جميع الأصول التي تنشئها باستخدام الخدمات" ، لكن الشركة تطلب ترخيص حقوق الطبع والنشر من المستخدمين لإعادة إنتاج المحتوى الذي تم إنشاؤه بواسطة الخدمة - وهو إجراء احترازي ضروري لاستضافة صور المستخدمين ، حتى إذا بدا مشكوكًا في أن هذه جعل صور Midjourney ببساطة من خلال إدخال النص لها أي حقوق نشر للتعبير عنها أو فرضها.

قد لا يكون هذا هو الحال دائما. قال أوتشوا إنه يعتقد أن ستيفن ثالر ، الذي أنشأ "مدخل حديث إلى الجنة" ، قد يرغب في الطعن في رفض مكتب حقوق الطبع والنشر للتأليف المستند إلى الذكاء الاصطناعي في المحكمة ، على الرغم من أن ذلك لم يحدث بعد.

هناك أيضًا مخاوف محتملة بشأن حقوق النشر ناشئة عن نماذج الذكاء الاصطناعي المدربة على المواد المحمية بحقوق الطبع والنشر. قال أوتشوا: "السؤال هو ما إذا كان استخدام هذه الصور في التدريب والذكاء الاصطناعي يعد استخدامًا عادلاً أم لا". "وأعتقد أن حجة الاستخدام العادل في هذا السياق قوية إلى حد ما."

بالإضافة إلى ذلك ، هناك مسؤولية محتملة على أولئك الذين ينشئون صورًا تشبه إلى حد كبير المواد المحمية بحقوق الطبع والنشر الحالية. أوضح أوتشوا: "إذا لم تكن مجموعة التدريب الخاصة بك كبيرة بما يكفي ، فقد يبدو ما يبثه الذكاء الاصطناعي كثيرًا مثل ما استوعبه" ، مشيرًا إلى أن المشكلة إذن هي ما إذا كان هذا انتهاكًا لحقوق الطبع والنشر. "بشكل غير مباشر ، أعتقد أنه من المحتمل جدًا."

بالنسبة للمخاطر القانونية المحتملة على العملاء الذين يستخدمون الأصول التي أنشأتها Midjourney ، قال Ochoa إنه يعتقد أنها منخفضة إلى حد ما. وأوضح أنه إذا كان تدريب نموذج الذكاء الاصطناعي ينتهك حقوق الطبع والنشر ، فقد تم ذلك قبل مشاركة العميل. قال: "لذا ما لم يرعى العميل إنشاء الذكاء الاصطناعي بطريقة ما ، لا أعتقد أن [العميل] سيكون مسؤولاً عن أي انتهاك لمجموعة التدريب". "وهذا أقوى ادعاء هنا. لذلك أعتقد أن العملاء على أرضية صلبة جدًا في استخدام هذه الصور ، بافتراض أن ذلك تم بشكل جيد ".

يقر هولز بأن الوضع القانوني يفتقر إلى الوضوح.

قال: "في الوقت الحالي ، ليس للقانون حقًا أي شيء بخصوص هذا النوع من الأشياء". "على حد علمي ، يتم تدريب كل نموذج كبير للذكاء الاصطناعي بشكل أساسي على الأشياء الموجودة على الإنترنت. وهذا جيد الآن. لا توجد قوانين خاصة بهذا الشأن. ربما في المستقبل ، سيكون هناك. لكنها نوعًا ما مجال جديد ، مثل GPL كانت نوعًا ما شيء قانوني جديد حول كود البرمجة. واستغرق الأمر 20 أو 30 عامًا حتى أصبح حقًا شيئًا بدأ النظام القانوني في اكتشافه ".

قال هولز إنه يعتقد أنه من المهم في الوقت الحالي فهم شعور الأطراف المعنية تجاه هذه التكنولوجيا. قال: "لدينا الكثير من الفنانين الذين يستخدمون أغراضنا ، ونحن نتحقق منهم باستمرار مثل ،" هل تشعر بالرضا حيال هذا؟ "

قال هولز إنه إذا كان هناك ما يكفي من عدم الرضا عن الوضع الراهن ، فقد يكون من المفيد التفكير في نوع من هيكل الدفع في المستقبل للفنانين الذين يدخل عملهم في نماذج التدريب. لكنه لاحظ أن تقييم حجم المساهمات صعب في الوقت الحاضر. قال: "التحدي الذي يواجه أي شيء كهذا الآن هو أنه ليس من الواضح في الواقع ما الذي يجعل نماذج الذكاء الاصطناعي تعمل بشكل جيد". "إذا وضعت صورة لكلب هناك ، فكم ستساعد [نموذج الذكاء الاصطناعي] في صنع صور للكلاب. ليس من الواضح في الواقع ما هي أجزاء البيانات التي تعطي [النموذج] القدرات ".

عند سؤاله عما يمنح Midjourney جمالية مميزة ، قال هولز إنه لا يستطيع حقًا مقارنة ما يفعله Midjourney بـ DALL-E 2 ، ولكن بشكل عام يميل باحثو الذكاء الاصطناعي إلى الحصول على ما يقومون بتحسينه. إذا أدخلوا كلمة "كلب" ، فمن المحتمل أنهم يريدون صورة لكلب.

"بالنسبة لنا ، كنا عندما كنا نقوم بتحسينها ، أردنا أن تبدو جميلة نوعًا ما ، والجمال لا يعني بالضرورة الواقعية. ... إذا كان هناك أي شيء ، فإننا في الواقع نحيزه قليلاً عن الصور. ... أعلم أنه يمكن استخدام هذه التكنولوجيا كآلة خارقة عميقة. ولا أعتقد أن العالم يحتاج إلى المزيد من الصور المزيفة. لا أريد حقًا أن أكون مصدرًا للصور المزيفة في العالم ".

"في الواقع أشعر بعدم الارتياح نوعًا ما إذا كانت أغراضنا تصنع شيئًا يشبه الصورة. وهذا لا يعني أننا لن ندع الناس أبدًا يصنعون أشياء أكثر واقعية. هناك حالات استخدام مشروعة لمحاولة جعل الأشياء تبدو أكثر واقعية. ومع ذلك ، أشعر بقوة أنه ، بشكل افتراضي ، عندما يستخدم شخص ما نظامنا ، لا ينبغي أن يقوم بعمل صورة مزيفة ".

"لكني أعتقد أن العالم بحاجة إلى المزيد من الجمال. في الأساس ، إذا صنعت شيئًا يسمح للناس بصنع أشياء جميلة ، وكان هناك أشياء أكثر جمالًا في العالم ، فهذا ما أريده افتراضيًا ". ®

الطابع الزمني:

اكثر من السجل