Faça um vídeo com IA e algumas palavras: Confira a nova ferramenta PlatoBlockchain Data Intelligence da Meta. Pesquisa vertical. Ai.

Faça um vídeo com IA e algumas palavras: confira a nova ferramenta do Meta

A inteligência artificial está cada vez melhor na geração de uma imagem em resposta a um punhado de palavras, com geradores de imagens de IA disponíveis publicamente, como DALL-E 2 e Stable Diffusion. Agora, os pesquisadores da Meta estão levando a IA um passo adiante: eles a estão usando para criar vídeos a partir de um prompt de texto.

Mark Zuckerberg, CEO da Meta postado no Facebook na quinta-feira sobre a pesquisa, сhamado Faz um video, com um clipe de 20 segundos que compilou vários prompts de texto que os pesquisadores do Meta usaram e os vídeos (muito curtos) resultantes. As instruções incluem “Um ursinho de pelúcia pintando um autorretrato”, “Uma nave espacial pousando em Marte”, “Um bebê preguiça com um chapéu de tricô tentando descobrir um laptop” e “Um robô surfando uma onda no oceano”.

Os vídeos para cada prompt têm apenas alguns segundos de duração e geralmente mostram o que o prompt sugere (com exceção do bebê preguiça, que não se parece muito com a criatura real), em uma resolução bastante baixa e um tanto irregular. estilo. Mesmo assim, demonstra uma nova direção que a investigação em IA está a tomar à medida que os sistemas se tornam cada vez mais bons na geração de imagens a partir de palavras. Porém, se a tecnologia for eventualmente divulgada amplamente, levantará muitas das mesmas preocupações suscitadas pelos sistemas de texto para imagem, como a possibilidade de ser usada para espalhar desinformação através de vídeo.

Uma página da web para Make-A-Video inclui esses clipes curtos e outros, alguns dos quais parecem bastante realistas, como um vídeo criado em resposta ao prompt “Peixe-palhaço nadando no recife de coral” ou alguém destinado a mostrar “Um jovem casal caminhando sob uma forte chuva. "

Em sua postagem no Facebook, Zuckerberg destacou como é complicado gerar uma imagem em movimento a partir de um punhado de palavras.

“É muito mais difícil gerar vídeos do que fotos porque, além de gerar corretamente cada pixel, o sistema também precisa prever como eles mudarão com o tempo”, escreveu ele.

Um artigo de pesquisa descrevendo o trabalho explica que o projeto usa um modelo de IA de texto para imagem para descobrir como as palavras correspondem às imagens, e uma técnica de IA conhecida como aprendizado não supervisionado – em que os algoritmos se debruçam sobre dados que não estão rotulados para discernir padrões dentro deles – para ver vídeos e determinar como é o movimento realista.

Tal como acontece com os enormes e populares sistemas de IA que geram imagens a partir de texto, os pesquisadores apontaram que seu modelo de IA de texto para imagem foi treinado em dados da Internet – o que significa que aprendeu “e provavelmente preconceitos sociais exagerados, incluindo os prejudiciais”, as pesquisas. escreveu. Eles observaram que filtraram os dados em busca de “conteúdo NSFW e palavras tóxicas”, mas como os conjuntos de dados podem incluir muitos milhões de imagens e texto, pode não ser possível remover todo esse conteúdo.

Zuckerberg escreveu que Meta planeja compartilhar o projeto Make-A-Video como uma demonstração no futuro.

The-CNN-Wire™ e © 2022 Cable News Network, Inc., uma empresa de descoberta da Warner Bros. Todos os direitos reservados.

Carimbo de hora:

Mais de WRAL Techwire