هوش مصنوعی با تولیدکنندههای تصویر هوش مصنوعی در دسترس عموم مانند DALL-E 2 و Stable Diffusion، در تولید تصویر در پاسخ به تعداد انگشت شماری از کلمات بهتر و بهتر میشود. اکنون، محققان Meta در حال برداشتن هوش مصنوعی یک قدم فراتر هستند: آنها از آن برای ساختن ویدیوها از یک پیام متنی استفاده می کنند.
مارک زاکربرگ مدیر عامل متا روز پنجشنبه در مورد این تحقیق در فیس بوک منتشر شد، به نام یک ویدیو بسازید، با یک کلیپ 20 ثانیه ای که چندین پیام متنی را که محققان متا استفاده کردند و ویدیوهای حاصل (بسیار کوتاه) گردآوری کرد. این اعلانها عبارتند از: «خرس عروسکی در حال نقاشی یک پرتره از خود»، «سفینه فضایی در حال فرود روی مریخ»، «یک بچه تنبل با کلاه بافتنی در تلاش برای کشف یک لپتاپ» و «روباتی که در حال موجسواری در اقیانوس است».
ویدئوهای مربوط به هر فرمان فقط چند ثانیه طول میکشد و عموماً آنچه را که درخواست پیشنهاد میکند (به استثنای بچه تنبل که خیلی شبیه موجود واقعی نیست) را با وضوح نسبتاً کم و تا حدی تند و تیز نشان میدهند. سبک. با این حال، نشان می دهد که تحقیقات هوش مصنوعی مسیر جدیدی را نشان می دهد که سیستم ها در تولید تصاویر از کلمات به طور فزاینده ای خوب می شوند. با این حال، اگر این فناوری در نهایت به طور گسترده منتشر شود، بسیاری از نگرانیهای مشابه ناشی از سیستمهای متن به تصویر را ایجاد میکند، مانند اینکه میتوان از آن برای انتشار اطلاعات نادرست از طریق ویدیو استفاده کرد.
یک صفحه وب for Make-A-Video شامل این کلیپ های کوتاه و موارد دیگر است که برخی از آنها کاملاً واقعی به نظر می رسند، مانند ویدیویی که در پاسخ به درخواست ایجاد شده است. "دلقک ماهی در حال شنا در صخره های مرجانی" یا یکی برای نشان دادن «یک زوج جوان در حال راه رفتن زیر باران شدید"
زاکربرگ در پست فیسبوک خود اشاره کرد که تولید یک تصویر متحرک از چند کلمه چقدر دشوار است.
او مینویسد: «تولید ویدیو بسیار سختتر از عکسها است، زیرا فراتر از تولید صحیح هر پیکسل، سیستم همچنین باید پیشبینی کند که چگونه آنها در طول زمان تغییر میکنند.
یک مقاله تحقیقاتی توصیف کار توضیح میدهد که این پروژه از یک مدل هوش مصنوعی متن به تصویر استفاده میکند تا بفهمد چگونه کلمات با تصاویر مطابقت دارند و یک تکنیک هوش مصنوعی به نام یادگیری بدون نظارت - که در آن الگوریتمها روی دادههایی که برچسبگذاری نشدهاند منفذ میکنند تا الگوهای درون آن را تشخیص دهند - برای مشاهده ویدیوها و تعیین اینکه حرکت واقعی چگونه به نظر میرسد.
همانند سیستمهای عظیم و محبوب هوش مصنوعی که تصاویر را از متن تولید میکنند، محققان خاطرنشان کردند که مدل هوش مصنوعی متن به تصویر آنها بر روی دادههای اینترنتی آموزش داده شده است - به این معنی که این تحقیقات «سوگیریهای اجتماعی و احتمالاً اغراقآمیز، از جمله موارد مضر» را آموخته است. نوشت. آنها خاطرنشان کردند که دادهها را برای «محتوای NSFW و کلمات سمی» فیلتر کردهاند، اما از آنجایی که مجموعه دادهها میتوانند میلیونها تصویر و متن را شامل شوند، ممکن است حذف همه این محتواها ممکن نباشد.
زاکربرگ نوشت که متا قصد دارد در آینده پروژه Make-A-Video را به صورت دمو به اشتراک بگذارد.
The-CNN-Wire™ & © 2022 Cable News Network, Inc.، یک شرکت Discovery Bros. تمامی حقوق محفوظ است.