با هوش مصنوعی و چند کلمه ویدیو بسازید: ابزار جدید متا را به نام هوش داده پلاتوبلاک چین بررسی کنید. جستجوی عمودی Ai.

Make-A-Video با هوش مصنوعی و چند کلمه: ابزار جدید Meta را بررسی کنید

هوش مصنوعی با تولیدکننده‌های تصویر هوش مصنوعی در دسترس عموم مانند DALL-E 2 و Stable Diffusion، در تولید تصویر در پاسخ به تعداد انگشت شماری از کلمات بهتر و بهتر می‌شود. اکنون، محققان Meta در حال برداشتن هوش مصنوعی یک قدم فراتر هستند: آنها از آن برای ساختن ویدیوها از یک پیام متنی استفاده می کنند.

مارک زاکربرگ مدیر عامل متا روز پنجشنبه در مورد این تحقیق در فیس بوک منتشر شد، به نام یک ویدیو بسازید، با یک کلیپ 20 ثانیه ای که چندین پیام متنی را که محققان متا استفاده کردند و ویدیوهای حاصل (بسیار کوتاه) گردآوری کرد. این اعلان‌ها عبارتند از: «خرس عروسکی در حال نقاشی یک پرتره از خود»، «سفینه فضایی در حال فرود روی مریخ»، «یک بچه تنبل با کلاه بافتنی در تلاش برای کشف یک لپ‌تاپ» و «روباتی که در حال موج‌سواری در اقیانوس است».

ویدئوهای مربوط به هر فرمان فقط چند ثانیه طول می‌کشد و عموماً آنچه را که درخواست پیشنهاد می‌کند (به استثنای بچه تنبل که خیلی شبیه موجود واقعی نیست) را با وضوح نسبتاً کم و تا حدی تند و تیز نشان می‌دهند. سبک. با این حال، نشان می دهد که تحقیقات هوش مصنوعی مسیر جدیدی را نشان می دهد که سیستم ها در تولید تصاویر از کلمات به طور فزاینده ای خوب می شوند. با این حال، اگر این فناوری در نهایت به طور گسترده منتشر شود، بسیاری از نگرانی‌های مشابه ناشی از سیستم‌های متن به تصویر را ایجاد می‌کند، مانند اینکه می‌توان از آن برای انتشار اطلاعات نادرست از طریق ویدیو استفاده کرد.

یک صفحه وب for Make-A-Video شامل این کلیپ های کوتاه و موارد دیگر است که برخی از آنها کاملاً واقعی به نظر می رسند، مانند ویدیویی که در پاسخ به درخواست ایجاد شده است. "دلقک ماهی در حال شنا در صخره های مرجانی" یا یکی برای نشان دادن «یک زوج جوان در حال راه رفتن زیر باران شدید"

زاکربرگ در پست فیسبوک خود اشاره کرد که تولید یک تصویر متحرک از چند کلمه چقدر دشوار است.

او می‌نویسد: «تولید ویدیو بسیار سخت‌تر از عکس‌ها است، زیرا فراتر از تولید صحیح هر پیکسل، سیستم همچنین باید پیش‌بینی کند که چگونه آنها در طول زمان تغییر می‌کنند.

یک مقاله تحقیقاتی توصیف کار توضیح می‌دهد که این پروژه از یک مدل هوش مصنوعی متن به تصویر استفاده می‌کند تا بفهمد چگونه کلمات با تصاویر مطابقت دارند و یک تکنیک هوش مصنوعی به نام یادگیری بدون نظارت - که در آن الگوریتم‌ها روی داده‌هایی که برچسب‌گذاری نشده‌اند منفذ می‌کنند تا الگوهای درون آن را تشخیص دهند - برای مشاهده ویدیوها و تعیین اینکه حرکت واقعی چگونه به نظر می‌رسد.

همانند سیستم‌های عظیم و محبوب هوش مصنوعی که تصاویر را از متن تولید می‌کنند، محققان خاطرنشان کردند که مدل هوش مصنوعی متن به تصویر آن‌ها بر روی داده‌های اینترنتی آموزش داده شده است - به این معنی که این تحقیقات «سوگیری‌های اجتماعی و احتمالاً اغراق‌آمیز، از جمله موارد مضر» را آموخته است. نوشت. آنها خاطرنشان کردند که داده‌ها را برای «محتوای NSFW و کلمات سمی» فیلتر کرده‌اند، اما از آنجایی که مجموعه داده‌ها می‌توانند میلیون‌ها تصویر و متن را شامل شوند، ممکن است حذف همه این محتواها ممکن نباشد.

زاکربرگ نوشت که متا قصد دارد در آینده پروژه Make-A-Video را به صورت دمو به اشتراک بگذارد.

The-CNN-Wire™ & © 2022 Cable News Network, Inc.، یک شرکت Discovery Bros. تمامی حقوق محفوظ است.

تمبر زمان:

بیشتر از WRAL Techwire