A pesar de contar con herramientas avanzadas y un alto costo de procesamiento, los modelos de IA líderes no lograron cumplir con las exigencias de análisis financiero complejo. Un nuevo benchmark de Vals.ai, desarrollado en colaboración con un laboratorio de Stanford y un banco de importancia sistémica, revela que incluso las inteligencias artificiales más sofisticadas son aún poco confiables para la evaluación financiera. El modelo más destacado, o3 de OpenAI, alcanzó apenas un 48.3% de precisión, incurriendo en un costo promedio de $3.69 por consulta.
Este análisis abarcó un total de 537 tareas que simulan las responsabilidades de los analistas financieros en el mundo real, como la revisión de documentos de la SEC, la investigación de mercado y la previsión. Se evaluaron 22 modelos fundamentales en este contexto.
Tareas básicas con resultados mixtos en razonamiento financiero
Los modelos de IA mostraron un desempeño limitado en tareas simples, como la extracción de datos numéricos o la síntesis de textos, donde la precisión osciló entre el 30% y el 38%. Sin embargo, se evidenció una notable falta de éxito en tareas más complejas. En la categoría de «Tendencias», diez modelos obtuvieron un 0% de aciertos, siendo Claude 3.7 Sonnet el que mejor desempeño tuvo, con un 28.6%.
Los agentes tuvieron acceso a herramientas como la búsqueda en EDGAR, Google y un analizador HTML para completar las tareas. Modelos como el o3 de OpenAI y Claude 3.7 Sonnet (Thinking), que utilizaron estas herramientas con mayor frecuencia, mostraron un rendimiento relativamente mejor. En contraste, otros como Llama 4 Maverick, que prescindieron del uso de herramientas, produjeron respuestas sin realizar investigaciones, resultando en resultados notablemente pobres.
Sin embargo, el uso intensivo de herramientas no siempre se tradujo en mejores resultados. Por ejemplo, GPT-4o Mini, que hizo el mayor número de llamadas a herramientas, todavía entregó resultados insatisfactorios debido a errores recurrentes en el formato y la secuenciación de tareas. Llama 4 Maverick, por su parte, a menudo respondía sin realizar búsquedas.
En ciertos casos, procesar una sola consulta superó los $5.
El modelo o1 de OpenAI se destacó por ser especialmente ineficiente: presentaba baja precisión y altos costos. En aplicaciones prácticas, estas cifras tendrían que ser comparadas con el costo de la mano de obra humana.
La variabilidad en el rendimiento de los modelos fue notable. En una tarea relacionada con las recompras de acciones de Netflix en el cuarto trimestre de 2024, Claude 3.7 Sonnet (Thinking) y Gemini 2.5 Pro ofrecieron respuestas precisas y respaldadas por fuentes. En contraste, GPT-4o y Llama 3.3 o no lograron captar la información relevante o proporcionaron respuestas incorrectas. Estas inconsistencias subrayan la necesidad de supervisión humana en aspectos como la ingeniería de prompts, la configuración del sistema y la evaluación interna.
Desfase entre inversión y preparación para el mundo real
Vals.ai concluyó que los agentes de IA actuales son capaces de manejar tareas simples que consumen tiempo, pero son poco confiables para su uso en sectores sensibles y altamente regulados como el financiero. Aún enfrentan desafíos en tareas complejas y contextualizadas, lo que les impide ser la base única para la toma de decisiones.
Aunque los modelos pueden extraer datos básicos de documentos, su capacidad para razonar financieramente es insuficiente, lo que les hace inadecuados para reemplazar a los analistas humanos. «Los datos muestran un desfase notable entre la inversión y la preparación. Los agentes actuales pueden obtener cifras, pero fallan en el razonamiento financiero crucial que se necesita para realmente complementar el trabajo de los analistas y desbloquear valor en este ámbito,» comenta la empresa.
El marco de benchmark está disponible como código abierto en GitHub, aunque el conjunto de datos de prueba permanece privado para evitar un entrenamiento dirigido. Un desglose completo de los resultados del benchmark se puede encontrar en el sitio web de Vals.ai.

