Em um avanço impressionante no campo da animação, a Meta, em colaboração com pesquisadores da Universidade de Waterloo, criou MoCha, um sistema de inteligência artificial capaz de gerar animações completas de personagens que incluem movimentos naturais e diálogo sincronizado.
Diferente de modelos anteriores que se concentravam exclusivamente nos rostos, o MoCha oferece uma visão mais integral ao renderizar movimentos de corpo inteiro a partir de múltiplos ângulos de câmera. Isso inclui não apenas a sincronização labial, mas também gestos e a interação entre vários personagens, tornando a experiência de visualização algo mais dinâmico e realista.
Avanços na sincronização labial
Uma das características destacadas do MoCha é seu inovador mecanismo de “Atenção de Janela de Áudio em Vídeo”, projetado para abordar dois dos desafios mais persistentes na geração de vídeo por meio de IA: a compressão de vídeo durante o processamento e a desincronização dos movimentos labiais. Essa abordagem se inspira em como os humanos produzem a fala, onde os movimentos dos lábios dependem de sons imediatos, e a linguagem corporal segue padrões mais amplos do texto.
Ao limitar o acesso de cada quadro a uma janela específica de dados de áudio, o MoCha consegue uma sincronização labial mais precisa. Além disso, a inclusão de tokens antes e depois do áudio de cada quadro ajuda a criar transições mais suaves e eficazes.
Gerenciamento de múltiplos personagens
Em situações onde intervêm vários personagens, a equipe de pesquisa desenvolveu um sistema de prompts simplificado. Os usuários podem definir os personagens uma única vez e referir-se a eles com etiquetas simples como ‘Pessoa1’ ou ‘Pessoa2’, eliminando a necessidade de descrições repetidas em diferentes cenas.
Em testes realizados em 150 cenários distintos, o MoCha mostrou um desempenho superior em comparação com sistemas similares, tanto na qualidade da sincronização labial quanto no movimento natural. Avaliadores independentes classificaram os vídeos gerados como altamente realistas.
Aplicações potenciais do MoCha
Os pesquisadores veem um grande potencial no MoCha para diversas aplicações, que vão desde assistentes digitais e avatares virtuais até publicidade e conteúdo educacional. No entanto, a Meta não revelou se o sistema se tornará de código aberto ou se permanecerá como um protótipo de pesquisa.
O lançamento do MoCha ocorre em um momento chave, justo quando as principais empresas de redes sociais estão imersas em uma corrida para melhorar suas tecnologias de vídeo baseadas em inteligência artificial. A Meta, por exemplo, apresentou recentemente sua ferramenta MovieGen, enquanto a ByteDance, a empresa por trás do TikTok, desenvolve seu próprio conjunto de sistemas de animação com IA, entre os quais se destacam modelos como INFP e Goku.