VideoPoet é o novo modelo da Google para gerar vídeo através de inteligência artifici

22/12/202330

É possível criar animações a partir de prompts no VideoPoet, o próximo modelo de IA generativa da Google. VideoPoet é o novo modelo da Google para gerar vídeo através de inteligência artificial

Até agora consegue-se obter facilmente imagens, textos, vídeo e áudio adicionando as palavras-chave certas nas prompts dos serviços de IA generativa. A 💥️Google pretende elevar a fasquia na qualidade dos vídeos gerados através de IA, com o seu modelo VideoPoet.

No blog de apresentação deste novo modelo, a Google diz que o principal desafio atual na produção de vídeo é capacidade de gerar animações maiores que sejam coerentes. 💥️Em muitos casos, mesmo os modelos atuais que lideram, ora geram pequenas animações ou quando tentam maiores notam-se artefactos na imagem.

O VideoPoet é um modelo de linguagem de grande capacidade (LLM) capaz de executar várias tarefas na criação de vídeos. A 💥️Google diz que suporta texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, completar imagens (inpainting) ou a capacidade de prever objetos em falta (outpainting) e também vídeo-para-áudio.

💥️Veja na vídeo um exemplo do VideoPoet a contar a história de um guaxinim:

Apesar dos modelos de vídeo serem praticamente exclusivos do sistema baseado em difusão, os LLMs têm maior capacidade de aprendizagem em diversas modalidades, incluindo linguagem, código, áudio, etc. A 💥️Google explica que a sua abordagem integrou muitas capacidades de geração de vídeo num único modelo LLM, em vez de estar dependente de componentes treinados de forma separada, especializados em cada tarefa.

💥️Dentro das capacidades do VideoPoet, as imagens podem ser animadas e opcionalmente cortadas ou mascaradas, podendo ser editadas tanto em formato inpainting como outpainting. Para a estilização, o modelo pega numa representação de vídeo a profundidade e a fluidez ótica, que representam a animação, e as pinturas por cima produzem o estilo guiado por texto.

A Google explica que a vantagem do uso de LLMs para o treino é que podem ser reutilizadas muitas das melhorias de eficiência escaláveis que foram introduzidos na infraestrutura de treino existente. A 💥️solução da Google consegue fazer o encoding de clips de vídeo e áudio como sequências.

Na página com os exemplos criados é possível ver algumas das animações geradas pelo VideoPoet. 💥️Um panda a comer ou um gato a saltar são os mais realísticos, mas a maioria são animações estilizadas, desde barcos voadores, um urso de peluche a lavar a loiça ou uma girafa com a cabeça fora de um micro-ondas. As animações funcionam, mas estão muito longe da qualidade da Pixar. Mas não deixa de ser impressionante o caminho feito pela IA na sua capacidade de criar imagens em movimento.

O que você está lendo é [VideoPoet &eacute; o novo modelo da Google para gerar v&iacute;deo atrav&eacute;s de intelig&ecirc;ncia artifici].Se você quiser saber mais detalhes, leia outros artigos deste site.

Related articles

Wonderful comments