VACE el nou model d’IA d’Alibaba per a la generació i edició de vídeos

23 abril, 2025

Alibaba ha llançat VACE, un innovador model d’IA que promet revolucionar la creació i edició de vídeos.

La companyia Alibaba ha presentat VACE, un model d’intel·ligència artificial dissenyat per abordar diverses tasques de generació i edició de vídeos en un sol sistema. Aquest revolucionari model es recolza en una arquitectura de transformadors de difusió millorada, destacant especialment el seu nou format d’entrada: la «Unitat de Condició de Vídeo» (VCU). Aquesta innovadora unitat busca simplificar l’ús d’entrades multimodals, integrant des d’indicacions textuals fins a seqüències d’imatges o vídeos de referència, a més de màscares espacials, tot en una representació unificada.

El procés de VACE comença amb màscares que divideixen la imatge en àrees «reactives», que són els objectius de modificació, i zones «inactives», que romanen intactes. Aquesta informació visual s’incrusta en un espai de característiques compartit i es combina amb l’entrada textual corresponent.

Per garantir la coherència en el vídeo generat d’un fotograma a un altre, VACE mapeja aquestes característiques a un espai latent que s’alinea amb l’estructura del transformador de difusió. Les capes d’incrustació temporal permeten que la comprensió de la seqüència del model es mantingui estable mentre avança a través de cada fotograma. Un mecanisme d’atenció connecta característiques de diferents modalitats i passos de temps, permetent que el sistema processi tot com un conjunt cohesiu, ja sigui al crear contingut nou o al editar material existent.

Funcions de VACE per a la generació i edició de vídeos

Les capacitats de VACE abasten quatre funcions principals: generar vídeos a partir d’indicacions textuals, sintetitzar nou material basat en imatges o clips de referència, realitzar edicions de vídeo a vídeo i aplicar màscares per a modificacions específiques. Aquest enfocament integral obre un ampli espectre de possibilitats.

Els exemples pràctics són sorprenents: VACE pot animar una persona sortint del marc, crear un personatge d’anime surfant, substituir pingüins per gats o estendre un fons per mantenir la continuïtat visual. Si desitges explorar més sobre les seves capacitats, hi ha nombrosos exemples disponibles al lloc oficial del projecte.

El entrenament del model va començar per la base: l’equip es va centrar inicialment en tasques d’inpainting i outpainting per enfortir el pipeline de text a vídeo, incorporant després imatges de referència i avançant cap a tasques d’edició més complexes. Per a això, van utilitzar dades extretes de vídeos en línia, aplicant filtres automàtics, segmentació i enriquiment amb anotacions de profunditat i postura.

Avaluació del rendiment de VACE

Per mesurar el rendiment de VACE, els investigadors van desenvolupar un benchmark específic que inclou 480 exemples abarcant dotze tasques d’edició de vídeo, com inpainting, outpainting, estilització, control de profunditat i generació guiada per referència. Segons els resultats, VACE supera a models especialitzats de codi obert en mètriques quantitatives i en estudis d’usuari. No obstant això, encara presenta un desfàs en la generació de vídeo a partir de referències, on models comercials com Vidu i Kling tenen avantatge.

El futur de VACE i la IA a Alibaba

Els investigadors d’Alibaba consideren que VACE representa un avanç crucial cap a models de vídeo multimodals universals, i els pròxims passos són evidents: escalar amb datasets més amplis i major capacitat de computació. Algunes parts del model es llançaran com a codi obert a GitHub.

VACE s’insereix en el panorama més ampli de les ambicions d’IA d’Alibaba, que inclou una sèrie de llançaments de models de llenguatge de gran mida, com la sèrie Qwen. Altres gegants tecnològics xinesos, com ByteDance, també estan impulsant fortament la IA aplicada al vídeo, de vegades igualant o superant les ofertes occidentals com Sora d’OpenAI o Veo 2 de Google.

Deixa el primer comentari