Els agents d’IA encara no arriben a la precisió dels analistes financers humans.

1 maig, 2025

Un estudi recent revela que, malgrat els avenços, els models d’IA no aconsegueixen igualar la capacitat analítica dels experts en finances.

A pesar de comptar amb eines avançades i un alt cost de processament, els models d’IA líders no van aconseguir complir amb les exigències d’anàlisi financer complex. Un nou benchmark de Vals.ai, desenvolupat en col·laboració amb un laboratori de Stanford i un banc d’importància sistèmica, revela que fins i tot les intel·ligències artificials més sofisticades són encara poc fiables per a l’avaluació financera. El model més destacat, o3 d’OpenAI, va aconseguir només un 48.3% de precisió, amb un cost mitjà de $3.69 per consulta.

Aquest anàlisi va abarcar un total de 537 tasques que simulen les responsabilitats dels analistes financers en el món real, com la revisió de documents de la SEC, la investigació de mercat i la previsió. Es van avaluar 22 models fonamentals en aquest context.

Tasques bàsiques amb resultats mixtos en raonament financer

Els models d’IA van mostrar un rendiment limitat en tasques simples, com l’extracció de dades numèriques o la síntesi de textos, on la precisió va oscil·lar entre el 30% i el 38%. No obstant això, es va evidenciar una notable falta d’èxit en tasques més complexes. En la categoria de «Tendències», deu models van obtenir un 0% d’encerts, sent Claude 3.7 Sonnet el que millor rendiment va tenir, amb un 28.6%.

Els agents van tenir accés a eines com la cerca a EDGAR, Google i un analitzador HTML per completar les tasques. Models com l’o3 d’OpenAI i Claude 3.7 Sonnet (Thinking), que van utilitzar aquestes eines amb més freqüència, van mostrar un rendiment relativament millor. En contrast, altres com Llama 4 Maverick, que van prescindir de l’ús d’eines, van produir respostes sense realitzar investigacions, resultant en resultats notablement pobres.

No obstant això, l’ús intensiu d’eines no sempre es va traduir en millors resultats. Per exemple, GPT-4o Mini, que va fer el major nombre de trucades a eines, encara va entregar resultats insatisfactoris a causa d’errors recurrents en el format i la seqüenciació de tasques. Llama 4 Maverick, per la seva banda, sovint responia sense realitzar cerques.

En certs casos, processar una sola consulta va superar els $5.

El model o1 d’OpenAI es va destacar per ser especialment ineficient: presentava baixa precisió i alts costos. En aplicacions pràctiques, aquestes xifres haurien de ser comparades amb el cost de la mà d’obra humana.

La variabilitat en el rendiment dels models va ser notable. En una tasca relacionada amb les recompres d’accions de Netflix en el quart trimestre de 2024, Claude 3.7 Sonnet (Thinking) i Gemini 2.5 Pro van oferir respostes precises i recolzades per fonts. En contrast, GPT-4o i Llama 3.3 no van aconseguir captar la informació rellevant o van proporcionar respostes incorrectes. Aquestes inconsistències subratllen la necessitat de supervisió humana en aspectes com l’enginyeria de prompts, la configuració del sistema i l’avaluació interna.

Desfase entre inversió i preparació per al món real

Vals.ai va concloure que els agents d’IA actuals són capaços de manejar tasques simples que consumeixen temps, però són poc fiables per al seu ús en sectors sensibles i altament regulats com el financer. Encara s’enfronten a desafiaments en tasques complexes i contextualitzades, la qual cosa els impedeix ser la base única per a la presa de decisions.

Encara que els models poden extreure dades bàsiques de documents, la seva capacitat per raonar financerament és insuficient, la qual cosa els fa inadequats per substituir els analistes humans. «Les dades mostren un desfase notable entre la inversió i la preparació. Els agents actuals poden obtenir xifres, però fallen en el raonament financer crucial que es necessita per realment complementar la feina dels analistes i desbloquejar valor en aquest àmbit,» comenta l’empresa.

El marc de benchmark està disponible com a codi obert a GitHub, tot i que el conjunt de dades de prova roman privat per evitar un entrenament dirigit. Un desglaç complet dels resultats del benchmark es pot trobar al lloc web de Vals.ai.

Deixa el primer comentari