Open-Sora 2.0 revoluciona a geração de vídeo AI com custos de treinamento reduzidos

20 março, 2025

Um novo sistema de inteligência artificial oferece qualidade comercial em vídeo a uma fração do custo habitual, transformando o panorama da geração de conteúdo audiovisual.

A HPC-AI Tech apresentou seu inovador sistema de vídeo AI, Open-Sora 2.0, que promete qualidade comercial a um custo de treinamento surpreendentemente baixo. Esse avanço é possível graças a métodos de compressão que permitem alcançar resultados comparáveis aos dos modelos de vídeo mais competitivos do mercado, mas a apenas uma décima parte do custo habitual.

Diferentemente dos modelos de linguagem, que conseguiram otimizar seus recursos, a geração de vídeo ainda depende de um uso intensivo de GPUs. O Open-Sora 2.0 aborda esse desafio de maneira engenhosa: sacrifica um pouco de resolução para reduzir drasticamente as necessidades computacionais. Qual é a chave? Uma abordagem inovadora no processo de treinamento.

O prompt para este vídeo foi: «Um homem com moletom cinza e uma mulher com jaqueta cinza claro trotam por uma calçada residencial, sorrindo e conversando. Eles passam por uma casa de cor bege com um vibrante jardim e um poste de luz em um dia luminoso e ensolarado. O plano médio capta seu movimento em meio a uma vegetação exuberante, criando uma cena serena e cinematográfica.»

A pesquisa revela que os custos de treinamento situam-se em torno de $200.000, o que representa uma redução significativa em comparação com sistemas como Movie Gen ou Step-Video-T2V. Os testes realizados demonstram que a qualidade do vídeo gerado é comparável à de sistemas comerciais reconhecidos, como Runway Gen-3 Alpha e HunyuanVideo, utilizando 224 GPUs Nvidia H200 para seu treinamento.

O processo de treinamento é dividido em 3 fases: começa com vídeos de baixa resolução, depois se especializa na conversão de imagem para vídeo, e finaliza com um ajuste para alcançar resoluções mais altas. Para maximizar a eficiência, os desenvolvedores incorporaram modelos de imagem pré-treinados, como Flux, em sua metodologia.

Open-Sora 2.0 desafia os modelos comerciais de vídeo AI

Uma das características distintivas do Open-Sora 2.0 é sua capacidade de gerar vídeos a partir de descrições textuais e de imagens individuais. Além disso, inclui uma função de pontuação de movimento que permite aos usuários controlar a intensidade do movimento nos clipes gerados, o que adiciona um nível de personalização muito interessante.

Neste caso, o prompt foi: «Um papagaio verde vibrante com toques amarelos e azuis pousa no colo de uma pessoa que usa calças cinzas. O papagaio tem o bico branco, a cabeça cinza e um olho negro. Ao fundo, um sofá vermelho e uma televisão que exibe um vídeo colorido com o texto «bilibili» completam a cena.»

No entanto, o sistema não está isento de limitações. Atualmente, os vídeos gerados só podem alcançar uma resolução máxima de 768×768 pixels e uma duração de cinco segundos, o que equivale a 128 quadros. Isso contrasta com o Sora da OpenAI, que gera vídeos em 1080p de até 20 segundos. Apesar dessas restrições, os testes indicam que o Open-Sora 2.0 se desempenha em níveis quase comerciais em métricas-chave como qualidade visual e precisão nos prompts.

Curiosamente, a pontuação VBench do Open-Sora 2.0 está apenas 0,69% atrás da do Sora da OpenAI, o que representa um fechamento significativo em relação aos 4,52% observados na versão anterior. Isso sugere um avanço notável em seu desenvolvimento.

Este sistema já está disponível como código aberto no GitHub, e embora tenha alcançado grandes progressos, ainda enfrenta desafios comuns na geração de vídeo AI, como a aparição de artefatos visuais e movimentos pouco realistas. Você pode encontrar muitos exemplos na página oficial do projeto.

O campo da geração de vídeo AI se tornou altamente competitivo, com empresas chinesas liderando grande parte do desenvolvimento. A cada semana surgem novos sistemas, incluindo projetos de código aberto como Genmo Mochi 1 e MiniMax Video-01. Embora esses modelos geralmente mostrem melhorias modestas nos benchmarks, nenhum conseguiu um avanço significativo na qualidade geral do vídeo.

As estratégias de custo e eficiência do Open-Sora 2.0 lembram o que ocorreu durante o chamado «momento Deepseek» nos modelos de linguagem, onde métodos de treinamento aprimorados permitiram que sistemas de código aberto alcançassem um desempenho comercial a custos reduzidos. Isso poderia influenciar a estrutura de preços no setor de vídeo AI, onde serviços como o último modelo do Google requerem atualmente 0,50 centavos por segundo devido às suas intensas necessidades computacionais.

Apesar desses avanços, a lacuna de desempenho entre os modelos de código aberto e os comerciais continua sendo mais pronunciada no campo do vídeo do que no dos modelos de linguagem. Isso se deve ao fato de que até mesmo os líderes da indústria continuam enfrentando desafios técnicos fundamentais.

Deixe o primeiro comentário