Google lança Veo, nova IA que gera vídeos a partir de texto e imagens

Google apresenta Veo, IA que gera vídeos de até 6 segundos a partir de texto e imagens, disponível no Vertex AI.

Imagem: Antwon McMullen/Shutterstock

Última atualização: 03/12/2024 18:44

Na última terça-feira, 3 de outubro, o Google apresentou inovações em sua ferramenta de inteligência artificial chamada Veo. Este modelo é capaz de criar vídeos curtos com duração de até seis segundos a partir de imagens e descrições textuais. O Veo se junta à competição de outras IAs de geração de vídeo, como o Sora da OpenAI, e estará acessível para os usuários da plataforma Vertex AI, voltada para o desenvolvimento de IA na nuvem do Google Cloud.

Lançado em maio, o Veo é capaz de produzir clipes em resolução de até 1080p, incluindo representações de animais, objetos e pessoas, a 24 ou 30 quadros por segundo. O Google destaca que a ferramenta é versátil, permitindo a criação de vídeos com diferentes estilos visuais, como paisagens e timelapses, além de possibilitar a edição de vídeos existentes. O uso de comandos em texto para gerar o conteúdo é uma das principais funcionalidades do Veo, que possui noções de física, incluindo a dinâmica de fluidos.

Warren Barkley, diretor sênior de gerenciamento de produtos do Google Cloud, afirmou que a equipe melhorou o modelo, tornando-o mais robusto para clientes corporativos. Para criar um vídeo, o usuário só precisa fornecer uma imagem de referência e um texto descritivo.

O Veo promete reduzir custos e acelerar a produção de conteúdo em vídeo. O Google não revelou as fontes exatas de dados utilizados para treinar o modelo, mas menciona que foram usadas filmagens disponíveis publicamente, com um foco em segurança e proteção de conteúdo. Para mitigar riscos associados a deepfakes, a empresa implementou sua tecnologia de marca d’água, chamada SynthID. O Veo já está sendo integrado a mais serviços do Google, como o YouTube Shorts, onde criadores podem gerar clipes de seis segundos.