Estudo revela que modelos de raciocínio são eficientes, mas carecem de novas capacidades

23 abril, 2025

Pesquisadores da Tsinghua e da Shanghai Jiao Tong descobriram que a eficiência dos modelos de raciocínio não implica uma melhoria em suas capacidades.

Um recente estudo realizado por universidades renomadas na China colocou sob análise a efetividade dos modelos de linguagem grandes (LLMs) treinados com aprendizado por reforço e recompensas verificáveis (RLVR). A pesquisa busca averiguar se essa técnica realmente melhora a habilidade dos modelos para raciocinar, ou se simplesmente os torna mais eficientes em reproduzir soluções conhecidas.

Os achados indicam que, embora o RLVR aumente as probabilidades de obter uma resposta correta na primeira tentativa, não confere novas capacidades aos modelos. Como aponta Yang Yue, líder do estudo, «o RLVR não é tão potente quanto se pensava, já que não permite aos modelos resolver problemas que não poderiam abordar com sua configuração básica».

Eficiência e limitações na diversidade de respostas

A aplicação do RLVR se concentra no treinamento de modelos para tarefas com resultados verificáveis, como matemática e programação. Ao contrário dos métodos tradicionais que dependem do feedback humano, essa técnica utiliza sinais automáticos para avaliar o desempenho. Isso foi implementado em modelos como a série O da OpenAI e o modelo Deepseek-R1.

O estudo revela uma paradoxa: embora os modelos treinados com RLVR consigam um melhor desempenho na primeira tentativa, isso se traduz em uma diminuição da diversidade das respostas geradas.

Ou seja, ao concentrar as respostas em poucas estratégias de alta probabilidade, os modelos não apenas limitam sua capacidade de exploração, mas também restringem sua criatividade em múltiplas tentativas.

Os pesquisadores compararam modelos base e variantes treinadas com RLVR utilizando a métrica pass@k, que mede se pelo menos uma resposta correta aparece entre várias tentativas. Surpreendentemente, os modelos baseados em RLVR se destacaram quando eram geradas poucas respostas, mas à medida que o número de tentativas aumentava, os modelos base superaram suas contrapartes, mostrando uma maior variedade de respostas.

Repetição em vez de generalização

Nathan Lambert, um pesquisador em inteligência artificial, comentou que os resultados são consistentes com as expectativas anteriores. Segundo ele, a redução da entropia das amostras por meio do RLVR melhora a efetividade na primeira tentativa, embora à custa da generalização.

Lambert também destaca a limitação do conjunto de dados utilizado para o treinamento, que se concentrou em MATH e GSM8K, o que pode não refletir os limites fundamentais do treinamento por reforço. Para obter conclusões mais amplas, seria essencial escalar essa abordagem, dado que outros como a OpenAI demonstraram que a escala é um aspecto crucial para o sucesso do RL.

Mais do que criticar o aprendizado por reforço, Lambert enfatiza a necessidade de continuar avançando nesse campo. Ele explicou que «estamos chegando a um ponto onde precisamos abordar tarefas mais complexas, que são interessantes, mas difíceis».

O estudo se concentrou em modelos treinados do zero sem ajustes adicionais, como o fine-tuning de cadeia de pensamento. Yue também reconhece que incorporar mais métodos, como o início em quente com fine-tuning supervisionado, poderia potencializar os resultados em modelos de raciocínio.

Deixe o primeiro comentário