A Xiaomi apresentou seu inovador modelo MiMo-7B, projetado especificamente para abordar de maneira eficiente tarefas matemáticas e de programação. Com essa iniciativa, a empresa busca demonstrar que mesmo os modelos de linguagem mais compactos podem competir com os gigantes do setor.
Enquanto muitos modelos de raciocínio de código aberto atuais contam com 32 bilhões de parâmetros, o MiMo-7B se baseia em uma arquitetura de apenas 7 bilhões. Essa abordagem busca maximizar a eficiência por meio de estratégias de pré-treinamento e pós-treinamento adaptadas.
A equipe de pesquisa da Xiaomi revela que o MiMo-7B foi pré-treinado com aproximadamente 25 trilhões de tokens, com o objetivo de familiarizar o modelo com padrões de raciocínio desde as etapas iniciais. Para isso, foram desenvolvidas novas ferramentas de extração de fórmulas matemáticas e código que abrangem formatos como HTML e PDF. Além disso, foi implementado um processo de mistura de dados em três etapas, enfatizando tarefas geradas sinteticamente.
Durante a fase final do pré-treinamento, aumentou-se a proporção de dados relacionados a matemática e código até atingir 70 por cento. Ademais, ampliou-se o comprimento do contexto para 32.768 tokens, permitindo que o modelo processe raciocínios mais complexos e extensos.
Outro aspecto destacado no processo de treinamento é a previsão de múltiplos tokens (MTP), onde o modelo tenta antecipar vários tokens posteriores de maneira simultânea. Essa técnica é projetada para melhorar a precisão e acelerar a inferência.
Aprendizagem por reforço com recompensas baseadas em casos de teste
Uma vez concluído o pré-treinamento, foram aperfeiçoadas duas versões do modelo por meio da aprendizagem por reforço (RL). O MiMo-7B-RL-Zero foi treinado diretamente a partir do modelo base, enquanto o MiMo-7B-RL foi desenvolvido a partir de uma versão SFT previamente ajustada. O conjunto de dados de treinamento inclui 130.000 tarefas verificáveis de matemática e programação.
O sistema de recompensas para tarefas de programação recebeu atenção especial, utilizando uma “Recompensa impulsionada pela dificuldade dos testes” que pondera os casos individuais de acordo com sua dificuldade. Essa abordagem busca abordar o problema comum das recompensas escassas, onde os modelos recebem pouco feedback diante de problemas particularmente desafiadores.
Para melhorar a estabilidade do treinamento, foi aplicado um método de “Reamostragem de dados fáceis”. As tarefas que o modelo já lida bem são amostradas com menor frequência, aumentando assim a eficiência da amostragem sem distorcer o processo de treinamento.
Resultados de referência e desempenho competitivo
Segundo o relatório, o MiMo-7B-RL alcançou uma pontuação de 55,4 no padrão matemático AIME 2025, superando em 4,7 pontos o modelo o1-mini da OpenAI. No LiveCodeBench v5, o modelo obteve 57,8 por cento, superando claramente os 41,9 por cento do QwQ-Preview da Alibaba, que conta com 32 bilhões de parâmetros. No entanto, o recém-lançado Qwen3-30B-A3B da Alibaba alcança 62,6 por cento no mesmo benchmark, enquanto o modelo Qwen3-4B também supera seu predecessor maior com 54,2 por cento. Esses resultados posicionam o MiMo-7B-RL como um competidor sólido na tendência em direção a modelos de raciocínio menores e de alto desempenho.
Desafios e contribuições do projeto
Apesar desses feitos, os autores do estudo destacam que ainda persistem desafios. Manter um equilíbrio estável entre as capacidades matemáticas e de programação durante o treinamento por reforço é complicado, e persistem problemas como a mistura involuntária de idiomas, onde saídas em chinês são geradas em tarefas em inglês.
A Xiaomi tornou acessíveis os modelos MiMo-7B-Base, MiMo-7B-RL-Zero e MiMo-7B-RL sob uma licença aberta através de GitHub. A empresa considera que este projeto não é apenas uma contribuição metodológica, mas demonstra que modelos menores podem avançar em áreas que tradicionalmente têm sido dominadas por sistemas maiores graças a estratégias de treinamento específicas.