Un estudi recent realitzat per universitats de renom a la Xina ha posat sota la lupa l’efectivitat dels models de llenguatge grans (LLMs) entrenats amb aprenentatge per reforç i recompenses verificables (RLVR). La investigació busca averiguar si aquesta tècnica realment millora l’habilitat dels models per raonar, o si simplement els fa més eficients en reproduir solucions conegudes.
Els descobriments indiquen que, encara que el RLVR augmenta les probabilitats d’obtenir una resposta correcta en el primer intent, no atorga noves capacitats als models. Com assenyala Yang Yue, líder de l’estudi, «el RLVR no és tan potent com es pensava, ja que no permet als models resoldre problemes que no podrien abordar amb la seva configuració bàsica».
Eficàcia i limitacions en la diversitat de respostes
L’aplicació del RLVR se centra en l’entrenament de models per a tasques amb resultats verificables, com matemàtiques i programació. A diferència dels mètodes tradicionals que depenen de la retroalimentació humana, aquesta tècnica utilitza senyals automàtiques per avaluar el rendiment. Això s’ha implementat en models com la sèrie O d’OpenAI i el model Deepseek-R1.
L’estudi revela una paradoxa: encara que els models entrenats amb RLVR aconsegueixen un millor rendiment en el primer intent, això es tradueix en un decrement de la diversitat de les respostes generades.
Així doncs, en concentrar les respostes en poques estratègies d’alta probabilitat, els models no només limiten la seva capacitat d’exploració, sinó que també restringeixen la seva creativitat en múltiples intents.
Els investigadors van comparar models base i variants entrenades amb RLVR utilitzant la mètrica pass@k, que mesura si almenys una resposta correcta apareix entre diversos intents. Sorprenentment, els models basats en RLVR van sobresortir quan es generaven poques respostes, però a mesura que s’incrementava el nombre d’intents, els models base van superar les seves contrapartides, mostrant una major varietat de respostes.
Repetició en lloc de generalització
Nathan Lambert, un investigador en intel·ligència artificial, ha comentat que els resultats són consistents amb les expectatives prèvies. Segons ell, la reducció de l’entropia de les mostres a través del RLVR millora l’efectivitat en el primer intent, encara que a costa de la generalització.
Lambert també destaca la limitació del conjunt de dades utilitzat per a l’entrenament, que es va centrar en MATH i GSM8K, cosa que pot no reflectir els límits fonamentals de l’entrenament per reforç. Per obtenir conclusions més àmplies, seria essencial escalar aquest enfocament, donat que altres com OpenAI han demostrat que l’escala és un aspecte crucial per a l’èxit del RL.
Més que criticar l’aprenentatge per reforç, Lambert enfatitza la necessitat de seguir avançant en aquest camp. Va explicar que «estem arribant a un punt on necessitem abordar tasques més complexes, que són interessants però difícils».
L’estudi es va centrar en models entrenats des de zero sense ajustaments addicionals, com el fine-tuning de cadena de pensament. Yue també reconeix que incorporar més mètodes, com l’inici en calent amb fine-tuning supervisat, podria potenciar els resultats en models de raonament.