El món de la intel·ligència artificial fa un pas endavant amb el llançament de DeepCoder-14B, un model innovador creat per Agentica i Together AI. Aquest model de codi obert està dissenyat específicament per a la generació de codi, aspirant a igualar el rendiment de plataformes tancades com l’o3-mini d’OpenAI, però amb un menor consum de recursos.
Les proves de referència realitzades a LiveCodeBench revelen que DeepCoder-14B aconsegueix resultats comparables als de l’o3-mini, la qual cosa suggereix que podria ser més accessible en termes de requisits computacionals. Però, com ho aconsegueixen?
Together AI ha implementat una tècnica revolucionària coneguda com a «pipelining d’un sol pas», que redueix a la meitat el temps d’entrenament. Aquest mètode permet que l’entrenament, l’avaluació de recompenses i el mostreig es realitzin de manera simultània. Cada cicle d’entrenament implica més de 1.000 proves individuals, i es va dur a terme durant dues setmanes i mitja utilitzant 32 GPUs Nvidia H100.
Una base de dades robusta i un sistema de recompenses eficient
El conjunt de dades utilitzat per entrenar DeepCoder-14B és impressionant: inclou 24.000 problemes de programació provinents de tres fonts principals: TACO Verified, PrimeIntellects SYNTHETIC-1 i LiveCodeBench. Cada problema va ser acuradament seleccionat, requerint almenys cinc casos de prova i una solució verificada. Sorprenentment, conjunts de dades populars com KodCode i LeetCode van ser excloïts per ser massa simples o mancar d’una cobertura de proves adequada.
A més, el model es beneficia d’un sistema de recompenses denominat «recompensa de resultat escàs«. Això significa que el model només rep retroalimentació positiva quan el seu codi supera totes les proves, centrant-se en els 15 casos més desafiants quan hi ha múltiples proves implicades. Aquesta estratègia reforça l’aprenentatge eficient i la millora contínua.
A mesura que el desenvolupament avançava, l’equip va augmentar gradualment la finestra de context del model de 16.000 a 32.000 tokens. Aquest ajust va portar millores significatives en la precisió: va començar amb un 54 per cent d’encerts a 16.000 tokens, va pujar a un 58 per cent amb 32.000, i finalment va assolir un notable 60.6 per cent en arribar a 64.000 tokens. Aquesta capacitat d’escalat distingeix DeepCoder del seu model base, DeepSeek-R1-Distill-Qwen-14B, que no va mostrar millores similars amb finestres de context més grans.
Un futur obert i prometedor
El que és encara més atractiu és que, a més de les seves capacitats de codificació, DeepCoder-14B demostra notables habilitats en raonament matemàtic, aconseguint un 73.8 per cent de precisió en problemes de l’AIME2024. Aquest resultat representa una millora del 4.1 per cent sobre el seu model base.
A diferència d’altres iniciatives que han optat per restringir l’accés als seus models, Together AI planeja alliberar tots els aspectes de DeepCoder-14B a la comunitat de codi obert, incloent codi, dades d’entrenament i registres, així com optimitzacions del sistema. Aquesta decisió no només fomenta la innovació col·laborativa, sinó que també estableix un nou estàndard en la transparència de la intel·ligència artificial.