En un avance impresionante en el campo de la animación, Meta, en colaboración con investigadores de la Universidad de Waterloo, ha creado MoCha, un sistema de inteligencia artificial capaz de generar animaciones de personajes completas que incluyen movimientos naturales y diálogo sincronizado.
A diferencia de modelos anteriores que se centraban exclusivamente en los rostros, MoCha ofrece una visión más integral al renderizar movimientos de cuerpo completo desde múltiples ángulos de cámara. Esto incluye no solo la sincronización labial, sino también gestos y la interacción entre varios personajes, convirtiendo la experiencia de visualización en algo más dinámico y realista.
Avances en sincronización labial
Una de las características destacadas de MoCha es su innovador mecanismo de “Atención de Ventana de Audio en Video”, diseñado para abordar dos de los desafíos más persistentes en la generación de video mediante IA: la compresión de video durante el procesamiento y la desincronización de los movimientos labiales. Este enfoque se inspira en cómo los humanos producen el habla, donde los movimientos de los labios dependen de sonidos inmediatos, y el lenguaje corporal sigue patrones más amplios del texto.
Al limitar el acceso de cada fotograma a una ventana específica de datos de audio, MoCha logra una sincronización labial más precisa. Además, la inclusión de tokens antes y después del audio de cada fotograma ayuda a crear transiciones más suaves y efectivas.
Manejo de múltiples personajes
En situaciones donde intervienen varios personajes, el equipo de investigación ha desarrollado un sistema de prompts simplificado. Los usuarios pueden definir los personajes una sola vez y referirse a ellos con etiquetas simples como ‘Persona1’ o ‘Persona2’, lo que elimina la necesidad de descripciones repetidas en diferentes escenas.
En pruebas realizadas en 150 escenarios distintos, MoCha mostró un desempeño superior en comparación con sistemas similares, tanto en la calidad de la sincronización labial como en el movimiento natural. Evaluadores independientes calificaron los videos generados como altamente realistas.
Aplicaciones potenciales de MoCha
Los investigadores ven un gran potencial en MoCha para diversas aplicaciones, que van desde asistentes digitales y avatares virtuales hasta publicidad y contenido educativo. Sin embargo, Meta no ha revelado si el sistema se convertirá en código abierto o si permanecerá como un prototipo de investigación.
El lanzamiento de MoCha se produce en un momento clave, justo cuando las principales compañías de redes sociales están inmersas en una carrera por mejorar sus tecnologías de video basadas en inteligencia artificial. Meta, por ejemplo, ha presentado hace poco su herramienta MovieGen, mientras que ByteDance, la empresa detrás de TikTok, desarrolla su propio conjunto de sistemas de animación con IA, entre los que destacan modelos como INFP y Goku.