Xiaomi llança MiMo-7B un model compacte per resoldre problemes matemàtics i de programació

1 maig, 2025

La nova proposta de Xiaomi demostra que els models de llenguatge petits poden ser efectius en tasques complexes de raonament i codificació.

Xiaomi ha presentat el seu innovador model MiMo-7B, dissenyat específicament per abordar de manera eficient tasques matemàtiques i de programació. Amb aquesta iniciativa, l’empresa busca demostrar que fins i tot els models de llenguatge més compactes poden competir amb els gegants del sector.

Mentre que molts models de raonament de codi obert actuals compten amb 32 mil milions de paràmetres, MiMo-7B es basa en una arquitectura de només 7 mil milions. Aquest enfocament busca maximitzar l’eficiència mitjançant estratègies de preentrenament i postentrenament adaptades.

El equip de recerca de Xiaomi revela que MiMo-7B va ser preentrenat amb aproximadament 25 bilions de tokens, amb l’objectiu de familiaritzar el model amb patrons de raonament des de les etapes primerenques. Per a això, s’han desenvolupat noves eines d’extracció de fórmules matemàtiques i codi que abasten formats com HTML i PDF. A més, s’ha implementat un procés de mescla de dades en tres etapes, emfatitzant tasques generades sintèticament.

Durant la fase final del preentrenament, es va augmentar la proporció de dades relacionades amb matemàtiques i codi fins a arribar al 70 per cent. Així mateix, es va ampliar la longitud del context a 32,768 tokens, la qual cosa permet al model processar raonaments més complexos i extensos.

Un altre aspecte destacat en el procés d’entrenament és la predicció de múltiples tokens (MTP), on el model intenta anticipar diversos tokens posteriors de manera simultània. Aquesta tècnica està dissenyada per millorar la precisió i accelerar la inferència.

Aprenentatge per reforç amb recompenses basades en casos de prova

Un cop conclòs el preentrenament, es van perfeccionar dues versions del model mitjançant l’aprenentatge per reforç (RL). MiMo-7B-RL-Zero es va entrenar directament des del model base, mentre que MiMo-7B-RL es va desenvolupar a partir d’una versió SFT prèviament ajustada. El conjunt de dades d’entrenament inclou 130,000 tasques verificables de matemàtiques i programació.

El sistema de recompenses per a tasques de programació ha rebut una atenció especial, utilitzant una “Recompensa impulsada per la dificultat de les proves” que pondera els casos individuals d’acord amb la seva dificultat. Aquest enfocament busca abordar el problema comú de les recompenses escasses, on els models reben poc feedback davant problemes particularment desafiants.

Per millorar l’estabilitat de l’entrenament, s’ha aplicat un mètode de “Re-mostrant dades fàcils”. Les tasques que el model ja maneja bé es mostren amb menor freqüència, augmentant així l’eficiència del mostreig sense distorsionar el procés d’entrenament.

Resultats de referència i rendiment competitiu

Segons l’informe, MiMo-7B-RL ha aconseguit una puntuació de 55.4 en l’estàndard matemàtic AIME 2025, superant en 4.7 punts el model o1-mini d’OpenAI. En LiveCodeBench v5, el model va obtenir un 57.8 per cent, superant clarament el 41.9 per cent del QwQ-Preview d’Alibaba, que compta amb 32 mil milions de paràmetres. No obstant això, el recentment llançat Qwen3-30B-A3B d’Alibaba arriba a un 62.6 per cent en el mateix benchmark, mentre que el model Qwen3-4B també supera el seu predecessor més gran amb un 54.2 per cent. Aquests resultats posicionen MiMo-7B-RL com un competidor sòlid en la tendència cap a models de raonament més petits i d’alt rendiment.

Desafiaments i contribucions del projecte

Malgrat aquests èxits, els autors de l’estudi destaquen que encara persisteixen desafiaments. Mantenir un equilibri estable entre les capacitats matemàtiques i de programació durant l’entrenament per reforç resulta complicat, i persisteixen problemes com la mescla involuntària d’idiomes, on es generen sortides en xinès en tasques en anglès.

Xiaomi ha fet accessibles els models MiMo-7B-Base, MiMo-7B-RL-Zero i MiMo-7B-RL sota una llicència oberta a través de GitHub. L’empresa considera que aquest projecte no només és una contribució metodològica, sinó que demostra que els models més petits poden avançar en àrees que tradicionalment han estat dominades per sistemes més grans gràcies a estratègies d’entrenament específiques.

Deixa el primer comentari