Nova IA do Alibaba transforma fotos em vídeos animados com áudio realista

Nova IA do Alibaba anima fotos com voz, criando vídeos realistas. Tecnologia avança sem modelos 3D.

IA

Imagine uma fotografia adquirindo vida própria, falando ou mesmo cantando, como se a pessoa capturada no momento tivesse sido magicamente animada. Esta é a promessa da mais recente inovação desenvolvida pelo Instituto para Computação Inteligente do Alibaba Group, que parece diretamente saída de um filme de ficção científica. O sistema de inteligência artificial (IA), denominado Emote Portrait Alive (EMO), é capaz de transformar simples fotos do rosto de uma pessoa em vídeos animados. Com uma demonstração impressionante, até a Mona Lisa, obra-prima de Leonardo da Vinci, foi exibida “falando”.

A tecnologia EMO funciona combinando uma imagem estática com gravações de áudio realistas, criando a ilusão de que a imagem está realmente falando ou cantando. Esse processo é realizado sem a necessidade de modelagem 3D ou referências faciais detalhadas. Em vez disso, os desenvolvedores empregaram uma abordagem chamada modelagem de difusão, treinando a IA com uma grande quantidade de dados de áudio e vídeo, totalizando aproximadamente 250 horas de conteúdo.

Este avanço representa uma evolução significativa em relação às técnicas anteriores, que já possibilitavam a animação semianimada de fotos. Contudo, o diferencial do EMO está na adição de som e na dispensa de modelos 3D complexos para a realização do efeito. Segundo os pesquisadores, a conversão de ondas de áudio em quadros de vídeo permite capturar nuances de gestos humanos e particularidades do discurso, conferindo um realismo surpreendente à animação. Os vídeos gerados replicam movimentos da boca e expressões faciais típicas dos sons proferidos, aumentando a autenticidade da experiência.

Além do realismo e expressividade superior, conforme afirmado pelos criadores no GitHub do projeto, a ferramenta EMO garante que a duração do vídeo animado seja condizente com a do arquivo de áudio original. Exemplos disponíveis na plataforma demonstram a eficácia da tecnologia em capturar a essência dos movimentos labiais e expressões associadas, lado a lado com a imagem original.

Contudo, apesar das possibilidades empolgantes, os desenvolvedores advertem sobre a necessidade de monitoramento e restrições no uso do EMO para prevenir aplicações antiéticas. O compromisso com a ética na aplicação dessa inovação é fundamental para garantir que sua utilização contribua positivamente para o desenvolvimento tecnológico e criativo.

Mais detalhes sobre a ferramenta EMO e o estudo por trás dessa inovação podem ser encontrados no servidor de pré-impressão arXiv, onde os resultados da pesquisa foram publicados, disponibilizando uma nova dimensão de interação com imagens estáticas, abrindo portas para inúmeras aplicações criativas e comunicativas no mundo digital.