En un avanç impressionant en el camp de l’animació, Meta, en col·laboració amb investigadors de la Universitat de Waterloo, ha creat MoCha, un sistema d’intel·ligència artificial capaç de generar animacions de personatges completes que inclouen moviments naturals i diàleg sincronitzat.
A diferència de models anteriors que es centraven exclusivament en els rostres, MoCha ofereix una visió més integral en renderitzar moviments de cos complet des de múltiples angles de càmera. Això inclou no només la sincronització labial, sinó també gestos i la interacció entre diversos personatges, convertint l’experiència de visualització en quelcom més dinàmic i realista.
Avanços en sincronització labial
Una de les característiques destacades de MoCha és el seu innovador mecanisme de “Atenció de Finestres d’Àudio en Vídeo”, dissenyat per abordar dos dels desafiaments més persistents en la generació de vídeo mitjançant IA: la compressió de vídeo durant el processament i la desincronització dels moviments labials. Aquest enfocament s’inspira en com els humans produeixen el parla, on els moviments dels llavis depenen de sons immediats, i el llenguatge corporal segueix patrons més amplis del text.
En limitar l’accés de cada fotograma a una finestra específica de dades d’àudio, MoCha aconsegueix una sincronització labial més precisa. A més, la inclusió de tokens abans i després de l’àudio de cada fotograma ajuda a crear transicions més suaus i efectives.
Maneig de múltiples personatges
En situacions on intervenen diversos personatges, l’equip d’investigació ha desenvolupat un sistema de prompts simplificat. Els usuaris poden definir els personatges una sola vegada i referir-se a ells amb etiquetes simples com ‘Persona1’ o ‘Persona2’, la qual cosa elimina la necessitat de descripcions repetides en diferents escenes.
En proves realitzades en 150 escenaris diferents, MoCha va mostrar un rendiment superior en comparació amb sistemes similars, tant en la qualitat de la sincronització labial com en el moviment natural. Avaluadors independents van qualificar els vídeos generats com altament realistes.
Aplicacions potencials de MoCha
Els investigadors veuen un gran potencial en MoCha per a diverses aplicacions, que van des de assistents digitals i avatars virtuals fins a publicitat i contingut educatiu. No obstant això, Meta no ha revelat si el sistema es convertirà en codi obert o si romandrà com un prototip d’investigació.
El llançament de MoCha es produeix en un moment clau, just quan les principals companyies de xarxes socials estan immerses en una cursa per millorar les seves tecnologies de vídeo basades en intel·ligència artificial. Meta, per exemple, ha presentat recentment la seva eina MovieGen, mentre que ByteDance, l’empresa darrere de TikTok, desenvolupa el seu propi conjunt de sistemes d’animació amb IA, entre els quals destaquen models com INFP i Goku.