OpenAI llança els models o3 i o4-mini que pensen amb imatges i utilitzen eines avançades

17 abril, 2025

OpenAI presenta els seus models o3 i o4-mini, que milloren la capacitat de raonament i l’ús d’eines en tasques complexes.

OpenAI ha fet un pas endavant en el desenvolupament d’intel·ligència artificial amb el llançament dels seus nous models o3 i o4-mini. Aquestes innovacions no són només una addició a la seva sèrie de models, sinó que prometen potenciar la manera com s’aborden els problemes complexos mitjançant un raonament més avançat i l’ús eficaç d’eines.

Segons l’empresa, la clau d’aquests models rau en la seva capacitat per actuar com a agents autònoms que utilitzen i combinen diverses eines disponibles a ChatGPT. Això inclou des de cerques a la web fins a anàlisis de dades en Python, passant per la manipulació i generació d’imatges. T’imagines una IA que no només comprèn la informació, sinó que també decideix com utilitzar-la per resoldre problemes?

Raonament visual i ús d’imatges

Una de les característiques més destacades d’o3 i o4-mini és la seva habilitat per integrar imatges en el seu procés de raonament. A diferència de models anteriors que només “veien” imatges, aquests nous models poden “pensar” amb elles. OpenAI explica que aquesta capacitat es veu potenciades per eines natives de manipulació d’imatges, com el zoom o el retall, que s’utilitzen directament en el procés de raonament.

En un exemple il·lustratiu, es mostra com un model pot enfocar un text escrit a mà que inicialment és il·legible, rotar la imatge i transcriure correctament el contingut. Aquesta habilitat no només millora el rendiment en tasques acadèmiques, sinó que també permet als models abordar problemes de la vida real amb més precisió.

Establint nous estàndards

El model o3, llançat al desembre de 2024, ha estat refinat per ser el més potent fins ara pel que fa a raonament. OpenAI destaca millores significatives en àrees com programació, matemàtiques i percepció visual, aconseguint resultats d’avantguarda en benchmarks reconeguts. De fet, s’ha reportat que o3 comet un 20% menys d’errors greus en comparació amb el seu predecessor, la qual cosa representa un avanç considerable en l’execució de tasques complexes.

Amplía el contexto:  OpenAI implementarà verificació d'identitat per accedir a la seva API d'intel·ligència artificial

Per la seva banda, el model o4-mini està optimitzat per velocitat i eficiència de costos. Malgrat la seva menor mida, ofereix un rendiment notable en matemàtiques, programació i tasques visuals. En l’avaluació AIME 2025, va aconseguir un impressionant 99.5%, acostant-se als límits d’aquest benchmark.

El poder de la computació en la millora del rendiment

OpenAI ha augmentat la potència de càlcul utilitzada en l’aprenentatge per reforç i en les inferències durant el procés de raonament. Aquesta estratègia no només ha fet que els models siguin més intel·ligents, sinó també més econòmics en comparació amb els seus predecessors. Aquesta combinació d’aprenentatge per reforç i una major capacitat d’anàlisi ha permès als models desenvolupar-se millor en situacions obertes, especialment en raonament visual i processos que requereixen múltiples passos.

Accessibilitat i noves eines per a desenvolupadors

Els usuaris de ChatGPT que paguin pels plans Plus, Pro i Team ja poden explorar les capacitats d’o3 i o4-mini, mentre que els comptes empresarials i educatius tindran accés aviat. A més, OpenAI ha presentat Codex CLI, un agent lleuger de codificació que funciona localment i aprofita la capacitat de raonament d’o3 i o4-mini. Aquesta eina permet realitzar treballs multimodals a través de la línia de comandes, integrant funcions com captures de pantalla i esbossos, i està disponible com a codi obert a GitHub.

Limitacions i desafiaments futurs

Malgrat les millores en l’ús d’eines i en el raonament, els nous models s’enfronten a limitacions. Per exemple, en l’avaluació PersonQA, que mesura el coneixement sobre personalitats conegudes, o4-mini va mostrar un rendiment inferior al de models anteriors. OpenAI atribueix això a la seva mida més reduïda, la qual cosa implica un menor coneixement del món i una major propensió a generar informació errònia.

Amplía el contexto:  Google defensa la gestió exclusiva de Chrome davant possibles compradors

Les diferències en el comportament entre o1 i o3 també són notables, ja que o3 genera més afirmacions, tant correctes com incorrectes, possiblement a causa de les seves capacitats de raonament més robustes. OpenAI planeja investigar aquests aspectes més a fons en futures investigacions.

Deixa el primer comentari