OpenAI ha fet un pas endavant en el desenvolupament d’intel·ligència artificial amb el llançament dels seus nous models o3 i o4-mini. Aquestes innovacions no són només una addició a la seva sèrie de models, sinó que prometen potenciar la manera com s’aborden els problemes complexos mitjançant un raonament més avançat i l’ús eficaç d’eines.
Segons l’empresa, la clau d’aquests models rau en la seva capacitat per actuar com a agents autònoms que utilitzen i combinen diverses eines disponibles a ChatGPT. Això inclou des de cerques a la web fins a anàlisis de dades en Python, passant per la manipulació i generació d’imatges. T’imagines una IA que no només comprèn la informació, sinó que també decideix com utilitzar-la per resoldre problemes?
Raonament visual i ús d’imatges
Una de les característiques més destacades d’o3 i o4-mini és la seva habilitat per integrar imatges en el seu procés de raonament. A diferència de models anteriors que només “veien” imatges, aquests nous models poden “pensar” amb elles. OpenAI explica que aquesta capacitat es veu potenciades per eines natives de manipulació d’imatges, com el zoom o el retall, que s’utilitzen directament en el procés de raonament.
En un exemple il·lustratiu, es mostra com un model pot enfocar un text escrit a mà que inicialment és il·legible, rotar la imatge i transcriure correctament el contingut. Aquesta habilitat no només millora el rendiment en tasques acadèmiques, sinó que també permet als models abordar problemes de la vida real amb més precisió.
Establint nous estàndards
El model o3, llançat al desembre de 2024, ha estat refinat per ser el més potent fins ara pel que fa a raonament. OpenAI destaca millores significatives en àrees com programació, matemàtiques i percepció visual, aconseguint resultats d’avantguarda en benchmarks reconeguts. De fet, s’ha reportat que o3 comet un 20% menys d’errors greus en comparació amb el seu predecessor, la qual cosa representa un avanç considerable en l’execució de tasques complexes.
Per la seva banda, el model o4-mini està optimitzat per velocitat i eficiència de costos. Malgrat la seva menor mida, ofereix un rendiment notable en matemàtiques, programació i tasques visuals. En l’avaluació AIME 2025, va aconseguir un impressionant 99.5%, acostant-se als límits d’aquest benchmark.
El poder de la computació en la millora del rendiment
OpenAI ha augmentat la potència de càlcul utilitzada en l’aprenentatge per reforç i en les inferències durant el procés de raonament. Aquesta estratègia no només ha fet que els models siguin més intel·ligents, sinó també més econòmics en comparació amb els seus predecessors. Aquesta combinació d’aprenentatge per reforç i una major capacitat d’anàlisi ha permès als models desenvolupar-se millor en situacions obertes, especialment en raonament visual i processos que requereixen múltiples passos.
Accessibilitat i noves eines per a desenvolupadors
Els usuaris de ChatGPT que paguin pels plans Plus, Pro i Team ja poden explorar les capacitats d’o3 i o4-mini, mentre que els comptes empresarials i educatius tindran accés aviat. A més, OpenAI ha presentat Codex CLI, un agent lleuger de codificació que funciona localment i aprofita la capacitat de raonament d’o3 i o4-mini. Aquesta eina permet realitzar treballs multimodals a través de la línia de comandes, integrant funcions com captures de pantalla i esbossos, i està disponible com a codi obert a GitHub.
Limitacions i desafiaments futurs
Malgrat les millores en l’ús d’eines i en el raonament, els nous models s’enfronten a limitacions. Per exemple, en l’avaluació PersonQA, que mesura el coneixement sobre personalitats conegudes, o4-mini va mostrar un rendiment inferior al de models anteriors. OpenAI atribueix això a la seva mida més reduïda, la qual cosa implica un menor coneixement del món i una major propensió a generar informació errònia.
Les diferències en el comportament entre o1 i o3 també són notables, ja que o3 genera més afirmacions, tant correctes com incorrectes, possiblement a causa de les seves capacitats de raonament més robustes. OpenAI planeja investigar aquests aspectes més a fons en futures investigacions.