OpenAI ha fet un gran pas endavant amb el llançament de tres nous models de la sèrie GPT-4.1, que prometen superar l’anterior GPT-4o en múltiples aspectes, incloent un notable estalvi de costos i una major velocitat. Aquests models, disponibles exclusivament a través de la seva API, estan dirigits a desenvolupadors professionals i tenen com a objectiu oferir un rendiment superior en comparació amb els seus predecessors, com l’ara obsolet GPT-4.5 Preview.
Aquest GPT-4.1 encara no està integrat a ChatGPT, OpenAI assegura que moltes de les seves innovacions ja s’han implementat en GPT-4o, amb més millores previstes per al futur.
Adaptació a les necessitats dels desenvolupadors
La sèrie GPT-4.1 neix de la retroalimentació directa de la comunitat de desenvolupadors. OpenAI ha prioritzat característiques com un format fiable, sortides estructurades i una generació de codi més estable, especialment per a aplicacions frontend. A més, s’ha millorat la memòria a llarg termini per a casos d’ús basats en agents.
Una de les característiques més destacades és la capacitat dels models per generar “canvis de codi”, la qual cosa permet realitzar modificacions específiques en bases de codi existents sense necessitat de reescriure fitxers sencers.
Segons OpenAI, el rendiment de GPT-4.1 supera el de GPT-4o en diversos indicadors. Per exemple, en la prova SWE-Bench Verified, que avalua tasques de desenvolupament de programari en el món real, GPT-4.1 va obtenir un 54.6%, superant per més de 21 punts percentuals al seu predecessor. No obstant això, no es proporciona una comparació directa amb el model Claude 3.7 Sonnet d’Anthropic, que segons es informa, arriba al 70% en la mateixa prova.
Models mini i nano per a una major eficiència
OpenAI també ha llançat dues variants més petites: GPT-4.1 mini i GPT-4.1 nano, enfocades en aplicacions on la velocitat i l’eficiència són fonamentals. Segons l’empresa, GPT-4.1 mini és un 83% més econòmic i el doble de ràpid que GPT-4o, mantenint un rendiment igual o millor en proves com MMMU (Multimodal Understanding) i MathVista.
Per la seva banda, GPT-4.1 nano es presenta com el model més compacte de la sèrie, optimitzat per a tasques sensibles a la latència o limitades en costos, com classificació, autocompletat i extracció d’informació.
Context ampliat per a anàlisis més profundes
Un aspecte innovador dels nous models és l’ampliació del context, que ara admet fins a un milió de tokens, la qual cosa representa un augment significatiu respecte al límit anterior de 128.000. Aquesta millora teòricament permet analitzar fins a vuit bases de codi completes de React en un sol avís.
No obstant això, una major amplada de context no garanteix un rendiment uniforme. OpenAI ha reconegut les limitacions del conegut test Needle-in-a-Haystack, que tots els models han superat. Per avaluar la capacitat dels models de diferenciar entre sol·licituds similars en contextos extensos, s’ha introduït un nou benchmark: MRCR (Multi-Round Coreference Resolution).
En aquest test, s’insereixen múltiples sol·licituds, com “Escriu un poema sobre elefants”, en diferents punts d’una entrada llarga. El repte rau en què el model ha de respondre a una instància específica sense caure en cerques de paraules clau simples. Encara que GPT-4.1 lidera en aquest benchmark, els resultats mostren una caiguda considerable en precisió en utilitzar el context complet, passant del 80% al 50% quan s’utilitza el màxim de tokens.
Casos d’ús i adopció primerenca
Diverses empreses han reportat millores notables després de l’adopció de GPT-4.1. Per exemple, la firma legal Blue J ha vist un augment del 53% en la precisió d’escenaris fiscals complexos. La plataforma d’anàlisi Hex ha duplicat amb èxit les seves taxes de consultes SQL, mentre que Thomson Reuters va reportar un 17% més de precisió en anàlisis de documents legals. Carlyle, per la seva banda, ha aconseguit un 50% de millora en l’extracció d’informació de textos financers extensos.
La startup Windsurf, que va tenir accés anticipat a GPT-4.1, també ha notat avenços significatius. Durant els pròxims set dies, els usuaris poden provar el model de forma gratuïta a través de la seva plataforma de desenvolupador, després del qual estarà disponible a un preu reduït, la qual cosa podria representar una estratègia competitiva en l’espai saturat de “vibe-coding”.
Estratègia de preus i descontinuació de GPT-4.5
OpenAI ha fixat preus molt competitius per a la sèrie GPT-4.1, sent un 26% més barat que GPT-4o per a consultes de mida mitjana, amb un cost de $2 per entrada i $8 per sortida per milió de tokens. El model GPT-4.1 nano es posiciona com el més assequible, amb un preu de $0.10 per milió de tokens d’entrada. A més, les capacitats de context llarg s’ofereixen sense cost addicional, i els descomptes per emmagatzematge d’avisos poden arribar fins al 75%.
El GPT-4.5 Preview serà retirat el 14 de juliol de 2025. OpenAI ha animat els desenvolupadors a migrar a GPT-4.1 i ha publicat una guia d’avís actualitzada per facilitar aquesta transició.