ساختن ویدیو با هوش مصنوعی و چند کلمه: ابزار جدید متا را بررسی کنید

بازنشر افلاطون

دنبال: 0

توسط راشل متز، CNN Business

هوش مصنوعی با تولیدکننده‌های تصویر هوش مصنوعی در دسترس عموم مانند DALL-E 2 و Stable Diffusion، در تولید تصویر در پاسخ به تعداد انگشت شماری از کلمات بهتر و بهتر می‌شود. اکنون، محققان Meta در حال برداشتن هوش مصنوعی یک قدم فراتر هستند: آنها از آن برای ساختن ویدیوها از یک پیام متنی استفاده می کنند.

مارک زاکربرگ مدیر عامل متا روز پنجشنبه در مورد این تحقیق در فیس بوک منتشر شد، به نام یک ویدیو بسازید، با یک کلیپ 20 ثانیه ای که چندین پیام متنی را که محققان متا استفاده کردند و ویدیوهای حاصل (بسیار کوتاه) گردآوری کرد. این اعلان‌ها عبارتند از: «خرس عروسکی در حال نقاشی یک پرتره از خود»، «سفینه فضایی در حال فرود روی مریخ»، «یک بچه تنبل با کلاه بافتنی در تلاش برای کشف یک لپ‌تاپ» و «روباتی که در حال موج‌سواری در اقیانوس است».

ویدئوهای مربوط به هر فرمان فقط چند ثانیه طول می‌کشد و عموماً آنچه را که درخواست پیشنهاد می‌کند (به استثنای بچه تنبل که خیلی شبیه موجود واقعی نیست) را با وضوح نسبتاً کم و تا حدی تند و تیز نشان می‌دهند. سبک. با این حال، نشان می دهد که تحقیقات هوش مصنوعی مسیر جدیدی را نشان می دهد که سیستم ها در تولید تصاویر از کلمات به طور فزاینده ای خوب می شوند. با این حال، اگر این فناوری در نهایت به طور گسترده منتشر شود، بسیاری از نگرانی‌های مشابه ناشی از سیستم‌های متن به تصویر را ایجاد می‌کند، مانند اینکه می‌توان از آن برای انتشار اطلاعات نادرست از طریق ویدیو استفاده کرد.

یک صفحه وب for Make-A-Video شامل این کلیپ های کوتاه و موارد دیگر است که برخی از آنها کاملاً واقعی به نظر می رسند، مانند ویدیویی که در پاسخ به درخواست ایجاد شده است. "دلقک ماهی در حال شنا در صخره های مرجانی" یا یکی برای نشان دادن «یک زوج جوان در حال راه رفتن زیر باران شدید"

زاکربرگ در پست فیسبوک خود اشاره کرد که تولید یک تصویر متحرک از چند کلمه چقدر دشوار است.

او می‌نویسد: «تولید ویدیو بسیار سخت‌تر از عکس‌ها است، زیرا فراتر از تولید صحیح هر پیکسل، سیستم همچنین باید پیش‌بینی کند که چگونه آنها در طول زمان تغییر می‌کنند.

یک مقاله تحقیقاتی توصیف کار توضیح می‌دهد که این پروژه از یک مدل هوش مصنوعی متن به تصویر استفاده می‌کند تا بفهمد چگونه کلمات با تصاویر مطابقت دارند و یک تکنیک هوش مصنوعی به نام یادگیری بدون نظارت - که در آن الگوریتم‌ها روی داده‌هایی که برچسب‌گذاری نشده‌اند منفذ می‌کنند تا الگوهای درون آن را تشخیص دهند - برای مشاهده ویدیوها و تعیین اینکه حرکت واقعی چگونه به نظر می‌رسد.

همانند سیستم‌های عظیم و محبوب هوش مصنوعی که تصاویر را از متن تولید می‌کنند، محققان خاطرنشان کردند که مدل هوش مصنوعی متن به تصویر آن‌ها بر روی داده‌های اینترنتی آموزش داده شده است - به این معنی که این تحقیقات «سوگیری‌های اجتماعی و احتمالاً اغراق‌آمیز، از جمله موارد مضر» را آموخته است. نوشت. آنها خاطرنشان کردند که داده‌ها را برای «محتوای NSFW و کلمات سمی» فیلتر کرده‌اند، اما از آنجایی که مجموعه داده‌ها می‌توانند میلیون‌ها تصویر و متن را شامل شوند، ممکن است حذف همه این محتواها ممکن نباشد.

زاکربرگ نوشت که متا قصد دارد در آینده پروژه Make-A-Video را به صورت دمو به اشتراک بگذارد.

تمبر زمان: سپتامبر 30، 2022سپتامبر 30، 2022

تمبر زمان: اکتبر 31، 2022

بازنشر افلاطون

تورم در ماه جولای ثابت ماند - اما نگرانی ها در مورد افزایش قیمت ها همچنان پابرجاست

نظر مهمان: 3 روشی که کارفرمایان می توانند در بازار کار فشرده مقیاس کنند

تست کووید-19 مدیر عامل فایزر مثبت شد و علائم بسیار خفیفی داشت.

مترو رالی، ایالت NC هر دو در آخرین گزارش رتبه‌بندی تجاری امتیاز خوبی کسب کرده‌اند

شاخص نشان می دهد که اقتصاد NC با ورود به سال 2023 بهبود جزئی را نشان می دهد

اسنودن طی حکمی از پوتین تابعیت روسیه را دریافت کرد

مصرف کنندگان عامل "X" در اقتصاد هستند. در مثلث، بازار کار همچنان قوی است

بیش از یک کارخانه: شرکتی که به شهرستان چاتم می آید سابقه ساخت کل جوامع را دارد

ImagineSoftware مستقر در شارلوت، Exchange EDI را می خرد تا نرم افزار اتوماسیون صورتحساب پزشکی را گسترش دهد

والدن: یک «مکث» در اعلام رکود به دلیل رشد قوی مشاغل در نظر بگیرید

پیشرفت در ویرایش ژن: محققان ایالت NC از CRISPR برای تغییر جدول باکتری ها استفاده می کنند

در افق: نگاهی اولیه به 37 رویداد سراسری در ماه دسامبر

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب