Os agentes de IA ainda não alcançam a precisão dos analistas financeiros humanos.

1 maio, 2025

Um estudo recente revela que, apesar dos avanços, os modelos de IA não conseguem igualar a capacidade analítica dos especialistas em finanças.

Ao contrário de contar com ferramentas avançadas e um alto custo de processamento, os modelos de IA líderes não conseguiram atender às exigências de análise financeira complexa. Um novo benchmark da Vals.ai, desenvolvido em colaboração com um laboratório de Stanford e um banco de importância sistêmica, revela que mesmo as inteligências artificiais mais sofisticadas ainda são pouco confiáveis para a avaliação financeira. O modelo mais destacado, o o3 da OpenAI, alcançou apenas 48,3% de precisão, incorrendo em um custo médio de $3,69 por consulta.

Esta análise abrangeu um total de 537 tarefas que simulam as responsabilidades dos analistas financeiros no mundo real, como a revisão de documentos da SEC, a pesquisa de mercado e a previsão. Foram avaliados 22 modelos fundamentais neste contexto.

Tarefas básicas com resultados mistos em raciocínio financeiro

Os modelos de IA mostraram um desempenho limitado em tarefas simples, como a extração de dados numéricos ou a síntese de textos, onde a precisão variou entre 30% e 38%. No entanto, evidenciou-se uma notável falta de sucesso em tarefas mais complexas. Na categoria de “Tendências”, dez modelos obtiveram 0% de acertos, sendo o Claude 3.7 Sonnet o que teve melhor desempenho, com 28,6%.

Os agentes tiveram acesso a ferramentas como a busca no EDGAR, Google e um analisador HTML para completar as tarefas. Modelos como o o3 da OpenAI e Claude 3.7 Sonnet (Thinking), que utilizaram essas ferramentas com maior frequência, mostraram um desempenho relativamente melhor. Em contraste, outros como Llama 4 Maverick, que prescindiram do uso de ferramentas, produziram respostas sem realizar pesquisas, resultando em resultados notavelmente pobres.

No entanto, o uso intensivo de ferramentas nem sempre se traduziu em melhores resultados. Por exemplo, o GPT-4o Mini, que fez o maior número de chamadas a ferramentas, ainda entregou resultados insatisfatórios devido a erros recorrentes no formato e na sequenciação de tarefas. Llama 4 Maverick, por sua vez, frequentemente respondia sem realizar buscas.

Em certos casos, processar uma única consulta superou os $5.

O modelo o1 da OpenAI destacou-se por ser especialmente ineficiente: apresentava baixa precisão e altos custos. Em aplicações práticas, esses números teriam que ser comparados com o custo da mão de obra humana.

A variabilidade no desempenho dos modelos foi notável. Em uma tarefa relacionada às recompras de ações da Netflix no quarto trimestre de 2024, Claude 3.7 Sonnet (Thinking) e Gemini 2.5 Pro ofereceram respostas precisas e respaldadas por fontes. Em contraste, GPT-4o e Llama 3.3 não conseguiram captar a informação relevante ou forneceram respostas incorretas. Essas inconsistências ressaltam a necessidade de supervisão humana em aspectos como a engenharia de prompts, a configuração do sistema e a avaliação interna.

Descompasso entre investimento e preparação para o mundo real

A Vals.ai concluiu que os agentes de IA atuais são capazes de lidar com tarefas simples que consomem tempo, mas são pouco confiáveis para seu uso em setores sensíveis e altamente regulados como o financeiro. Ainda enfrentam desafios em tarefas complexas e contextualizadas, o que os impede de serem a base única para a tomada de decisões.

Embora os modelos possam extrair dados básicos de documentos, sua capacidade de raciocinar financeiramente é insuficiente, o que os torna inadequados para substituir os analistas humanos. “Os dados mostram um descompasso notável entre o investimento e a preparação. Os agentes atuais podem obter números, mas falham no raciocínio financeiro crucial que é necessário para realmente complementar o trabalho dos analistas e desbloquear valor neste âmbito,” comenta a empresa.

O framework de benchmark está disponível como código aberto no GitHub, embora o conjunto de dados de teste permaneça privado para evitar um treinamento direcionado. Uma análise completa dos resultados do benchmark pode ser encontrada no site da Vals.ai.

Deixe o primeiro comentário