VACE el nuevo modelo de IA de Alibaba para la generación y edición de videos

23 abril, 2025

Alibaba ha lanzado VACE, un innovador modelo de IA que promete revolucionar la creación y edición de videos.

La compañía Alibaba ha presentado VACE, un modelo de inteligencia artificial diseñado para abordar diversas tareas de generación y edición de videos en un solo sistema. Este revolucionario modelo se apoya en una arquitectura de transformadores de difusión mejorada, destacando especialmente su nuevo formato de entrada: la «Unidad de Condición de Video» (VCU). Esta innovadora unidad busca simplificar el uso de entradas multimodales, integrando desde indicaciones textuales hasta secuencias de imágenes o videos de referencia, además de máscaras espaciales, todo en una representación unificada.

El proceso de VACE comienza con máscaras que dividen la imagen en áreas «reactivas», que son los objetivos de modificación, y zonas «inactivas», que permanecen intactas. Esta información visual se incrusta en un espacio de características compartido y se combina con la entrada textual correspondiente.

Para garantizar la coherencia en el video generado de un fotograma a otro, VACE mapea estas características a un espacio latente que se alinea con la estructura del transformador de difusión. Las capas de incrustación temporal permiten que la comprensión de la secuencia del modelo se mantenga estable mientras avanza a través de cada fotograma. Un mecanismo de atención conecta características de diferentes modalidades y pasos de tiempo, permitiendo que el sistema procese todo como un conjunto cohesivo, ya sea al crear contenido nuevo o al editar material existente.

Funciones de VACE para generación y edición de videos

Las capacidades de VACE abarcan cuatro funciones principales: generar videos a partir de indicaciones textuales, sintetizar nuevo material basado en imágenes o clips de referencia, realizar ediciones de video a video y aplicar máscaras para modificaciones específicas. Este enfoque integral abre un amplio espectro de posibilidades.

Los ejemplos prácticos son sorprendentes: VACE puede animar a una persona saliendo del encuadre, crear un personaje de anime surfeando, sustituir pingüinos por gatos o extender un fondo para mantener la continuidad visual. Si deseas explorar más sobre sus capacidades, hay numerosos ejemplos disponibles en el sitio oficial del proyecto.

El entrenamiento del modelo comenzó por lo básico: el equipo se enfocó inicialmente en tareas de inpainting y outpainting para fortalecer el pipeline de texto a video, incorporando luego imágenes de referencia y avanzando hacia tareas de edición más complejas. Para ello, utilizaron datos extraídos de videos en línea, aplicando filtros automáticos, segmentación y enriquecimiento con anotaciones de profundidad y postura.

Evaluación del rendimiento de VACE

Para medir el desempeño de VACE, los investigadores desarrollaron un benchmark específico que incluye 480 ejemplos abarcando doce tareas de edición de video, como inpainting, outpainting, estilización, control de profundidad y generación guiada por referencia. Según los resultados, VACE supera a modelos especializados de código abierto en métricas cuantitativas y en estudios de usuario. Sin embargo, aún presenta un desfase en la generación de video a partir de referencias, donde modelos comerciales como Vidu y Kling tienen ventaja.

El futuro de VACE y la IA en Alibaba

Los investigadores de Alibaba consideran que VACE representa un avance crucial hacia modelos de video multimodales universales, y los próximos pasos son evidentes: escalar con datasets más amplios y mayor capacidad de computación. Algunas partes del modelo se lanzarán como código abierto en GitHub.

VACE se inserta en el panorama más amplio de las ambiciones de IA de Alibaba, que incluye una serie de lanzamientos de modelos de lenguaje de gran tamaño, como la serie Qwen. Otros gigantes tecnológicos chinos, como ByteDance, también están impulsando fuertemente la IA aplicada al video, a veces igualando o superando las ofertas occidentales como Sora de OpenAI o Veo 2 de Google.

Deja el primer comentario