Hunyuan-T1 da Tencent desafia a OpenAI com capacidades de raciocínio destacadas

24 março, 2025

A Tencent apresentou seu modelo Hunyuan-T1, que promete rivalizar com os sistemas de raciocínio mais avançados da OpenAI em diversos testes.

O novo modelo Hunyuan-T1 da Tencent está gerando alvoroço. Com a ambição de rivalizar com os sistemas de raciocínio mais sofisticados da OpenAI, este modelo demonstrou sua capacidade em diversas avaliações que medem o conhecimento em múltiplas disciplinas.

Seguindo uma abordagem comum na criação de modelos de raciocínio, a Tencent implementou um intenso processo de aprendizado por reforço. De fato, 96,7% da potência de cálculo pós-treinamento foi destinada a melhorar a lógica e o alinhamento com as preferências humanas. Quais são os resultados?

Resultados impressionantes em testes de desempenho

O Hunyuan-T1 alcançou uma pontuação notável de 87,2 no MMLU-PRO, que avalia conhecimentos em 14 áreas acadêmicas, posicionando-se em segundo lugar, logo atrás do modelo o1 da OpenAI. No campo do raciocínio científico, obteve 69,3 pontos no teste GPQA-diamond, o que ressalta sua crescente relevância neste setor.

Um dos pontos fortes do modelo reside em seu desempenho em matemática, onde conseguiu 96,2 pontos no benchmark MATH-500, posicionando-se apenas atrás do Deepseek-R1. Além disso, seu desempenho em outras avaliações como LiveCodeBench e ArenaHard foi igualmente notável, com pontuações de 64,9 e 91,9, respectivamente.

Para seu treinamento, a Tencent adotou uma abordagem de aprendizado por currículos, aumentando progressivamente a dificuldade das tarefas. Este método, juntamente com um sistema de auto-recompensa onde versões anteriores do modelo avaliavam as saídas de versões mais novas, foi fundamental para seu desenvolvimento.

O Hunyuan-T1 utiliza a inovadora arquitetura Transformer Mamba, que permite processar textos longos a uma velocidade duas vezes mais rápida do que modelos convencionais em condições semelhantes. Este modelo já está disponível através da Tencent Cloud, e os usuários podem testá-lo em uma demonstração no Hugging Face.

O lançamento do Hunyuan-T1 segue a recente apresentação de um modelo de nível o1 por parte da Baidu e outras iniciativas semelhantes da Alibaba e Deepseek. Esses movimentos foram qualificados pelo investidor de IA e ex-chefe da Google China, Kai-Fu Lee, como uma ameaça existencial para a OpenAI, em um contexto onde as estratégias de código aberto estão ganhando força.

Os desafios dos benchmarks em IA

À medida que os modelos de IA alcançam taxas de precisão superiores a 90% em testes padrão, o Google Deepmind introduziu um novo e desafiador benchmark conhecido como BIG-Bench Extra Hard (BBEH). Este novo desafio testou até mesmo os melhores modelos, como o o3-mini da OpenAI, que conseguiu apenas uma precisão de 44,8%.

O que é surpreendente é que, apesar de seu desempenho em outros benchmarks, o Deepseek-R1 mal alcançou 7%. Isso evidencia que os resultados dos benchmarks nem sempre refletem o desempenho em situações do mundo real, já que algumas equipes de modelos otimizam seus sistemas especificamente para esses testes. Além disso, alguns modelos desenvolvidos na China enfrentam problemas específicos, como a inclusão de caracteres chineses em respostas em inglês.

Deixe o primeiro comentário