O novo modelo Hunyuan-T1 da Tencent está gerando alvoroço. Com a ambição de rivalizar com os sistemas de raciocínio mais sofisticados da OpenAI, este modelo demonstrou sua capacidade em diversas avaliações que medem o conhecimento em múltiplas disciplinas.
Seguindo uma abordagem comum na criação de modelos de raciocínio, a Tencent implementou um intenso processo de aprendizado por reforço. De fato, 96,7% da potência de cálculo pós-treinamento foi destinada a melhorar a lógica e o alinhamento com as preferências humanas. Quais são os resultados?
Resultados impressionantes em testes de desempenho
O Hunyuan-T1 alcançou uma pontuação notável de 87,2 no MMLU-PRO, que avalia conhecimentos em 14 áreas acadêmicas, posicionando-se em segundo lugar, logo atrás do modelo o1 da OpenAI. No campo do raciocínio científico, obteve 69,3 pontos no teste GPQA-diamond, o que ressalta sua crescente relevância neste setor.
Um dos pontos fortes do modelo reside em seu desempenho em matemática, onde conseguiu 96,2 pontos no benchmark MATH-500, posicionando-se apenas atrás do Deepseek-R1. Além disso, seu desempenho em outras avaliações como LiveCodeBench e ArenaHard foi igualmente notável, com pontuações de 64,9 e 91,9, respectivamente.
Para seu treinamento, a Tencent adotou uma abordagem de aprendizado por currículos, aumentando progressivamente a dificuldade das tarefas. Este método, juntamente com um sistema de auto-recompensa onde versões anteriores do modelo avaliavam as saídas de versões mais novas, foi fundamental para seu desenvolvimento.
O Hunyuan-T1 utiliza a inovadora arquitetura Transformer Mamba, que permite processar textos longos a uma velocidade duas vezes mais rápida do que modelos convencionais em condições semelhantes. Este modelo já está disponível através da Tencent Cloud, e os usuários podem testá-lo em uma demonstração no Hugging Face.
O lançamento do Hunyuan-T1 segue a recente apresentação de um modelo de nível o1 por parte da Baidu e outras iniciativas semelhantes da Alibaba e Deepseek. Esses movimentos foram qualificados pelo investidor de IA e ex-chefe da Google China, Kai-Fu Lee, como uma ameaça existencial para a OpenAI, em um contexto onde as estratégias de código aberto estão ganhando força.
Os desafios dos benchmarks em IA
À medida que os modelos de IA alcançam taxas de precisão superiores a 90% em testes padrão, o Google Deepmind introduziu um novo e desafiador benchmark conhecido como BIG-Bench Extra Hard (BBEH). Este novo desafio testou até mesmo os melhores modelos, como o o3-mini da OpenAI, que conseguiu apenas uma precisão de 44,8%.
O que é surpreendente é que, apesar de seu desempenho em outros benchmarks, o Deepseek-R1 mal alcançou 7%. Isso evidencia que os resultados dos benchmarks nem sempre refletem o desempenho em situações do mundo real, já que algumas equipes de modelos otimizam seus sistemas especificamente para esses testes. Além disso, alguns modelos desenvolvidos na China enfrentam problemas específicos, como a inclusão de caracteres chineses em respostas em inglês.