Open-Sora 2.0 revoluciona la generación de video AI con costos de entrenamiento reducidos

20 marzo, 2025

Un nuevo sistema de inteligencia artificial ofrece calidad comercial en video a una fracción del costo habitual, transformando el panorama de la generación de contenido audiovisual.

HPC-AI Tech ha presentado su innovador sistema de video AI, Open-Sora 2.0, que promete calidad comercial a un costo de entrenamiento sorprendentemente bajo. Este avance es posible gracias a métodos de compresión que permiten alcanzar resultados comparables a los de los modelos de video más competitivos del mercado, pero a solo una décima parte del costo habitual.

A diferencia de los modelos de lenguaje, que han logrado optimizar sus recursos, la generación de video aún depende de un uso intensivo de GPUs. Open-Sora 2.0 aborda este desafío de manera ingeniosa: sacrifica algo de resolución para reducir drásticamente las necesidades computacionales. ¿La clave? Un enfoque innovador en el proceso de entrenamiento.

El prompt para este video ha sido: «Un hombre con sudadera gris y una mujer con chaqueta gris claro trotan por una acera residencial, sonriendo y charlando. Pasan junto a una casa de color beige con un vibrante jardín y una farola en un día luminoso y soleado. El plano medio capta su movimiento en medio de una exuberante vegetación, creando una escena serena y cinematográfica.»

La investigación revela que los costos de entrenamiento se sitúan en torno a los $200.000, lo que representa una reducción significativa en comparación con sistemas como Movie Gen o Step-Video-T2V. Las pruebas realizadas demuestran que la calidad del video generado es comparable a la de sistemas comerciales reconocidos, como Runway Gen-3 Alpha y HunyuanVideo, utilizando 224 GPUs Nvidia H200 para su entrenamiento.

El proceso de entrenamiento se divide en 3 fases: comienza con videos de baja resolución, luego se especializa en la conversión de imagen a video, y finaliza con un ajuste para alcanzar resoluciones más altas. Para maximizar la eficiencia, los desarrolladores incorporaron modelos de imagen preentrenados, como Flux, en su metodología.

Open-Sora 2.0 desafía a los modelos comerciales de video AI

Una de las características distintivas de Open-Sora 2.0 es su capacidad para generar videos a partir de descripciones textuales y de imágenes individuales. Además, incluye una función de puntuación de movimiento que permite a los usuarios controlar la intensidad del movimiento en los clips generados, lo que añade un nivel de personalización muy interesante.

En este caso el prompt fue: «Un loro verde vibrante con toques amarillos y azules se posa en el regazo de una persona que lleva pantalones grises. El loro tiene el pico blanco, la cabeza gris y un ojo negro. Al fondo, un sofá rojo y un televisor que muestra un colorido vídeo con el texto «bilibili» completan la escena.»

Sin embargo, el sistema no está exento de limitaciones. Actualmente, los videos generados solo pueden alcanzar una resolución máxima de 768×768 píxeles y una duración de cinco segundos, lo que equivale a 128 fotogramas. Esto contrasta con OpenAI’s Sora, que genera videos de 1080p de hasta 20 segundos. A pesar de estas restricciones, las pruebas indican que Open-Sora 2.0 se desempeña a niveles casi comerciales en métricas clave como calidad visual y precisión en los prompts.

Curiosamente, el puntaje VBench de Open-Sora 2.0 está a solo un 0.69% detrás del de OpenAI’s Sora, lo que representa un cierre significativo respecto al 4.52% observado en la versión anterior. Esto sugiere un avance notable en su desarrollo.

Este sistema ya está disponible como código abierto en GitHub, y aunque ha logrado grandes progresos, todavía enfrenta desafíos comunes en la generación de video AI, como la aparición de artefactos visuales y movimientos poco realistas. Puedes encontrar muchos ejemplos en la página oficial del proyecto.

El campo de la generación de video AI se ha vuelto altamente competitivo, con empresas chinas liderando gran parte del desarrollo. Cada semana surgen nuevos sistemas, incluyendo proyectos de código abierto como Genmo Mochi 1 y MiniMax Video-01. Aunque estos modelos suelen mostrar mejoras modestas en los benchmarks, ninguno ha logrado un avance significativo en la calidad general del video.

Las estrategias de costo y eficiencia de Open-Sora 2.0 recuerdan a lo ocurrido durante el llamado «momento Deepseek» en los modelos de lenguaje, donde métodos de entrenamiento mejorados permitieron a los sistemas de código abierto alcanzar un rendimiento comercial a costos reducidos. Esto podría influir en la estructura de precios en el sector de video AI, donde servicios como el último modelo de Google requieren actualmente 0.50 céntimos por segundo debido a sus intensas necesidades computacionales.

A pesar de estos avances, la brecha de rendimiento entre los modelos de código abierto y los comerciales sigue siendo más pronunciada en el ámbito del video que en el de los modelos de lenguaje. Esto se debe a que incluso los líderes de la industria continúan enfrentando desafíos técnicos fundamentales.

Deja el primer comentario