Зробіть відео за допомогою ШІ та кілька слів: ознайомтеся з новим інструментом PlatoBlockchain Data Intelligence від Meta. Вертикальний пошук. Ai.

Зробіть відео за допомогою штучного інтелекту та кілька слів: перегляньте новий інструмент Meta

Штучний інтелект стає все кращим і кращим у створенні зображення у відповідь на кілька слів завдяки загальнодоступним генераторам зображень ШІ, таким як DALL-E 2 і Stable Diffusion. Тепер дослідники Meta роблять штучний інтелект ще далі: вони використовують його для створення відео з текстових підказок.

Генеральний директор Meta Марк Цукерберг опублікував у Facebook у четвер про дослідження, Називаний Зробіть відео, з 20-секундним кліпом, який зібрав кілька текстових підказок, використаних дослідниками Meta, і отримані (дуже короткі) відео. Серед підказок: «Плюшевий ведмедик малює автопортрет», «Космічний корабель приземляється на Марс», «Немовля-лінивець у в’язаній шапочці намагається зрозуміти ноутбук» і «Робот, який пливе по хвилі в океані».

Відео для кожної підказки триває всього кілька секунд, і вони зазвичай показують те, що пропонує підказка (за винятком дитинчати лінивця, яке не дуже схоже на справжню істоту), у досить низькій роздільній здатності та дещо уривчасто стиль. Незважаючи на це, це демонструє новий напрямок досліджень штучного інтелекту, оскільки системи стають все більш успішними у створенні зображень зі слів. Однак якщо ця технологія врешті-решт буде широко розповсюджена, це викличе багато тих самих проблем, які викликали системи перетворення тексту в зображення, наприклад, що її можна використовувати для поширення дезінформації через відео.

Веб -сторінка для Make-A-Video включає ці короткі кліпи та інші, деякі з яких виглядають досить реалістично, наприклад відео, створене у відповідь на підказку «Риба-клоун пливе крізь кораловий риф» або такий, що має на меті показати «Молода пара йде під сильним дощем».

У своєму дописі на Facebook Цукерберг зазначив, як складно створити рухоме зображення з кількох слів.

«Згенерувати відео набагато важче, ніж фотографії, тому що крім правильного генерування кожного пікселя, система також має передбачити, як вони будуть змінюватися з часом», — написав він.

Дослідницька робота в описі роботи пояснюється, що проект використовує модель штучного інтелекту перетворення тексту в зображення, щоб визначити, як слова співвідносяться з зображеннями, а також техніку штучного інтелекту, відому як непідконтрольне навчання — у якому алгоритми вивчають дані, які не позначені, щоб розрізняти в них закономірності — переглядають відео та визначають, як виглядає реалістичний рух.

Як і у випадку з масивними, популярними системами штучного інтелекту, які генерують зображення з тексту, дослідники відзначили, що їхня модель штучного інтелекту «текст-у-зображення» була навчена на даних Інтернету, що означає, що вона навчилася «і, ймовірно, перебільшила соціальні упередження, у тому числі шкідливі», дослідники написав. Вони зауважили, що відфільтрували дані за «вмістом NSFW і токсичними словами», але оскільки набори даних можуть включати багато мільйонів зображень і тексту, можливо, неможливо видалити весь такий вміст.

Цукерберг написав, що в майбутньому Meta планує поділитися проектом Make-A-Video як демо.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., компанія Warner Bros. Discovery. Всі права захищені.

Часова мітка:

Більше від WRAL Techwire