HPC-AI Tech ha presentat el seu innovador sistema de vídeo AI, Open-Sora 2.0, que promet una qualitat comercial a un cost d’entrenament sorprenentment baix. Aquest avanç és possible gràcies a mètodes de compressió que permeten assolir resultats comparables als dels models de vídeo més competitius del mercat, però a només una dècima part del cost habitual.
A diferència dels models de llenguatge, que han aconseguit optimitzar els seus recursos, la generació de vídeo encara depèn d’un ús intensiu de GPUs. Open-Sora 2.0 aborda aquest repte de manera enginyosa: sacrifica una mica de resolució per reduir dràsticament les necessitats computacionals. Quina és la clau? Un enfocament innovador en el procés d’entrenament.
El prompt per a aquest vídeo ha estat: «Un home amb dessuadora gris i una dona amb jaqueta gris clar troten per una vorera residencial, somrient i parlant. Passant al costat d’una casa de color beix amb un jardí vibrant i una farola en un dia lluminós i assolellat. El pla mitjà captura el seu moviment enmig d’una vegetació exuberant, creant una escena serena i cinematogràfica.»
La investigació revela que els costos d’entrenament se situen al voltant dels $200.000, la qual cosa representa una reducció significativa en comparació amb sistemes com Movie Gen o Step-Video-T2V. Les proves realitzades demostren que la qualitat del vídeo generat és comparable a la de sistemes comercials reconeguts, com Runway Gen-3 Alpha i HunyuanVideo, utilitzant 224 GPUs Nvidia H200 per al seu entrenament.
El procés d’entrenament es divideix en 3 fases: comença amb vídeos de baixa resolució, després s’especialitza en la conversió d’imatge a vídeo, i finalitza amb un ajust per assolir resolucions més altes. Per maximitzar l’eficiència, els desenvolupadors van incorporar models d’imatge preentrenats, com Flux, en la seva metodologia.
Open-Sora 2.0 desafia els models comercials de vídeo AI
Una de les característiques distintives d’Open-Sora 2.0 és la seva capacitat per generar vídeos a partir de descripcions textuals i d’imatges individuals. A més, inclou una funció de puntuació de moviment que permet als usuaris controlar la intensitat del moviment en els clips generats, afegint un nivell de personalització molt interessant.
En aquest cas el prompt va ser: «Un lloro verd vibrant amb tocs grocs i blaus es posa a la falda d’una persona que porta pantalons grisos. El lloro té el bec blanc, el cap gris i un ull negre. Al fons, un sofà vermell i un televisor que mostra un vídeo colorit amb el text «bilibili» completen l’escena.»
Tanmateix, el sistema no està exempt de limitacions. Actualment, els vídeos generats només poden assolir una resolució màxima de 768×768 píxels i una durada de cinc segons, el que equival a 128 fotogrames. Això contrasta amb OpenAI’s Sora, que genera vídeos de 1080p de fins a 20 segons. Malgrat aquestes restriccions, les proves indiquen que Open-Sora 2.0 es comporta a nivells gairebé comercials en mètriques clau com qualitat visual i precisió en els prompts.
Curiosament, el puntatge VBench d’Open-Sora 2.0 està a només un 0.69% darrere del d’OpenAI’s Sora, la qual cosa representa un tancament significatiu respecte al 4.52% observat en la versió anterior. Això suggereix un avanç notable en el seu desenvolupament.
Aquest sistema ja està disponible com a codi obert a GitHub, i tot i que ha aconseguit grans progressos, encara s’enfronta a desafiaments comuns en la generació de vídeo AI, com l’aparició d’artefactes visuals i moviments poc realistes. Pots trobar molts exemples a la pàgina oficial del projecte.
El camp de la generació de vídeo AI s’ha tornat altament competitiu, amb empreses xineses liderant gran part del desenvolupament. Cada setmana sorgeixen nous sistemes, incloent projectes de codi obert com Genmo Mochi 1 i MiniMax Video-01. Encara que aquests models solen mostrar millores modestes en els benchmarks, cap ha aconseguit un avanç significatiu en la qualitat general del vídeo.
Les estratègies de cost i eficiència d’Open-Sora 2.0 recorden el que va passar durant el conegut «moment Deepseek» en els models de llenguatge, on mètodes d’entrenament millorats van permetre als sistemes de codi obert assolir un rendiment comercial a costos reduïts. Això podria influir en l’estructura de preus en el sector de vídeo AI, on serveis com l’últim model de Google requereixen actualment 0.50 cèntims per segon a causa de les seves intenses necessitats computacionals.
Malgrat aquests avenços, la bretxa de rendiment entre els models de codi obert i els comercials continua sent més pronunciada en l’àmbit del vídeo que en el dels models de llenguatge. Això es deu al fet que fins i tot els líders de la indústria continuen enfrontant desafiaments tècnics fonamentals.