El mundo de la inteligencia artificial da un paso adelante con el lanzamiento de DeepCoder-14B, un modelo innovador creado por Agentica y Together AI. Este modelo de código abierto está diseñado específicamente para la generación de código, aspirando a igualar el rendimiento de plataformas cerradas como el o3-mini de OpenAI, pero con un menor consumo de recursos.
Las pruebas de referencia realizadas en LiveCodeBench revelan que DeepCoder-14B alcanza resultados comparables a los de o3-mini, lo que sugiere que podría ser más accesible en términos de requisitos computacionales. Pero, ¿cómo lo logran?
Together AI ha implementado una técnica revolucionaria conocida como «pipelining de un solo paso», que reduce a la mitad el tiempo de entrenamiento. Este método permite que el entrenamiento, la evaluación de recompensas y el muestreo se realicen de manera simultánea. Cada ciclo de entrenamiento involucra más de 1.000 pruebas individuales, y se llevó a cabo durante dos semanas y media utilizando 32 GPUs Nvidia H100.
Una base de datos robusta y un sistema de recompensas eficiente
El conjunto de datos utilizado para entrenar a DeepCoder-14B es impresionante: incluye 24.000 problemas de programación provenientes de tres fuentes principales: TACO Verified, PrimeIntellects SYNTHETIC-1 y LiveCodeBench. Cada problema fue cuidadosamente seleccionado, requiriendo al menos cinco casos de prueba y una solución verificada. Sorprendentemente, conjuntos de datos populares como KodCode y LeetCode fueron excluidos por ser demasiado simples o carecer de una cobertura de pruebas adecuada.
Además, el modelo se beneficia de un sistema de recompensas denominado «recompensa de resultado escaso«. Esto significa que el modelo solo recibe retroalimentación positiva cuando su código supera todas las pruebas, centrándose en los 15 casos más desafiantes cuando hay múltiples pruebas involucradas. Esta estrategia refuerza el aprendizaje eficiente y la mejora continua.
A medida que el desarrollo avanzaba, el equipo aumentó gradualmente la ventana de contexto del modelo de 16.000 a 32.000 tokens. Este ajuste trajo consigo mejoras significativas en la precisión: comenzó con un 54 por ciento de aciertos a 16.000 tokens, subió a un 58 por ciento con 32.000, y finalmente alcanzó un notable 60.6 por ciento al llegar a 64.000 tokens. Esta capacidad de escalado distingue a DeepCoder de su modelo base, DeepSeek-R1-Distill-Qwen-14B, que no mostró mejoras similares con ventanas de contexto más grandes.
Un futuro abierto y prometedor
Lo que es aún más atractivo es que, además de sus capacidades de codificación, DeepCoder-14B demuestra notables habilidades en razonamiento matemático, logrando un 73.8 por ciento de precisión en problemas del AIME2024. Este resultado representa una mejora del 4.1 por ciento sobre su modelo base.
A diferencia de otras iniciativas que han optado por restringir el acceso a sus modelos, Together AI planea liberar todos los aspectos de DeepCoder-14B a la comunidad de código abierto, incluyendo código, datos de entrenamiento y registros, así como optimizaciones del sistema. Esta decisión no solo fomenta la innovación colaborativa, sino que también establece un nuevo estándar en la transparencia de la inteligencia artificial.