La companyia darrere de TikTok, Bytedance, ha llançat DreamActor-M1, un revolucionari sistema d’intel·ligència artificial que transforma la manera en què interactuem amb els avatars digitals. Aquest innovador sistema ofereix als usuaris un control excepcional sobre les expressions facials i els moviments del cos en vídeos generats, portant l’animació a un nou nivell.
Una de les característiques més destacades de DreamActor-M1 és la seva capacitat de “guia híbrida”, que combina múltiples senyals de control per aconseguir resultats més precisos. L’arquitectura del sistema es compon de tres elements fonamentals. Al seu nucli, hi ha un codificador facial que pot ajustar les expressions de manera independent de la identitat o la posició del cap d’una persona. D’acord amb els experts de Bytedance, aquesta funcionalitat resol limitacions comunes que presentaven sistemes anteriors.
La demostració mostra com les expressions facials i l’àudio d’un vídeo s’apliquen tant a un personatge animat com a una persona real.
A més, el sistema gestiona els moviments del cap utilitzant un model 3D que empra esferes de colors per dirigir la mirada i l’orientació del cap. Per al moviment corporal, s’utilitza un sistema esquelètic en 3D amb una capa adaptativa que s’ajusta a diferents tipus de cos, aconseguint una representació més natural.
Durant el procés d’entrenament, el model s’alimenta d’imatges preses des de diversos angles. Els investigadors afirmen que això li permet generar nous punts de vista fins i tot a partir d’un sol retrat, completant intel·ligentment els detalls que falten, com la roba i la postura.
L’entrenament es duu a terme en tres etapes: primer, el model se centra en els moviments bàsics del cos i del cap; després, s’afegeixen expressions facials controlades amb precisió; i finalment, s’optimitza tot per aconseguir resultats més coordinats. Bytedance ha utilitzat un total de 500 hores de vídeo per entrenar aquest model, repartint equitativament imatges de cos sencer i de la part superior del cos.
Un pas endavant en l’animació d’avatars digitals
Segons els investigadors, DreamActor-M1 supera sistemes similars en termes de qualitat visual i precisió en el control del moviment, fins i tot en comparació amb productes comercials com Runway Act-One. No obstant això, com tot sistema, té les seves limitacions. Actualment, no pot gestionar moviments de càmera dinàmics, interaccions amb objectes, ni diferències extremes en les proporcions corporals entre la font i l’objectiu. Les transicions complexes de escena també presenten desafiaments.
Bytedance no s’atura aquí; l’empresa està treballant en diversos projectes d’animació d’avatars al mateix temps. A principis d’aquest any, es va llançar OmniHuman-1, que ja està disponible com a eina de sincronització de llavis a la plataforma Dreamina de CapCut, demostrant la velocitat amb què Bytedance està portant la seva recerca al públic. Altres projectes en marxa inclouen la sèrie de vídeos AI Goku i el generador de retrats InfiniteYou.
La capacitat de DreamActor-M1 per combinar animació realista amb un control precís promet obrir noves oportunitats en el camp de la creació de contingut digital. Amb cada avenç, Bytedance redefineix el que és possible en el món dels avatars i la IA.