DeepSeek continua sorprenent el món de la intel·ligència artificial amb el seu últim llançament, el model V3-0324, que ha demostrat ser un competidor formidable davant dels líders nord-americans del sector. Aquesta nova iteració, tot i estar menys publicitada que el seu predecessor R1, destaca per les seves notables capacitats en àrees com el codificat i les matemàtiques.
L’evolució de V3-0324 es basa en l’innovadora arquitectura MoE (Mixture of Experts), un enfocament que permet activar només un subconjunt dels seus 685 mil milions de paràmetres per a cada tasca, optimitzant així el seu rendiment i eficiència. Què significa això per a l’usuari? Que el model és capaç d’oferir resultats impressionants sense la necessitat d’utilitzar tots els seus recursos simultàniament, la qual cosa marca una diferència en el seu funcionament respecte a models més tradicionals.
Millores significatives en rendiment
Les dades presentades per DeepSeek revelen una notable millora en diverses avaluacions. Per exemple, el model V3-0324 ha augmentat la seva puntuació en l’examen de matemàtiques AIME en gairebé 20 punts, assolint una nova mitjana de 59.4. A més, el seu rendiment en el test de codificació LiveCodeBench ha millorat en 10 punts. Aquests èxits no són només números; reflecteixen un avanç que podria canviar les expectatives sobre el que pot aconseguir el model d’intel·ligència artificial.
Entre les innovacions més destacades de V3-0324 es troben el Multi-Head Latent Attention, que optimitza la gestió del context en textos extensos, i el Multi-Token Prediction, que permet generar múltiples tokens al mateix temps. Aquestes característiques no només augmenten la velocitat de resposta del model en prop d’un 80%, sinó que també el col·loquen en una posició competitiva davant d’altres models, tot mantenint el seu estatus de codi obert.
Un enfocament accessible i eficient
En un entorn on molts dels models més potents solen ser inaccessibles o requereixen pagaments costosos, DeepSeek ha pres una direcció diferent. El V3-0324 està disponible de forma gratuïta a la plataforma Hugging Face sota la llicència MIT, la qual cosa permet el seu ús comercial sense restriccions. Aquesta estratègia reflecteix la filosofia de la start-up, que busca democratitzar l’accés a la tecnologia d’IA, especialment en un context on les empreses xineses s’enfronten a limitacions a causa de les restriccions nord-americanes sobre GPUs.
L’eficiència del model també es tradueix en menors costos operatius. Mentre que models com GPT-4.5 o Claude requereixen pressupostos significatius per al seu funcionament al núvol, V3-0324 promet oferir un rendiment comparable a una fracció del cost. A més, la seva versió optimitzada en 2.71 bits redueix la mida del model a 231 GB, fent-lo accessible fins i tot en equips de gamma alta com el Mac Studio amb xip M3 Ultra. Aquesta combinació de potència i accessibilitat podria canviar les regles del joc en el món de la IA.