Menys documents milloren el rendiment en sistemes de RAG segons estudi de la Universitat Hebrea

31 març, 2025

Un nou estudi revela que la quantitat de documents utilitzats en els sistemes de generació augmentada per recuperació impacta notablement en el rendiment dels models de llenguatge.

Investigadors de la Universitat Hebrea de Jerusalem han trobat que la quantitat de documents processats en els sistemes de Recuperació Augmentada per Generació (RAG) influeix significativament en el rendiment dels models de llenguatge. Aquest descobriment és particularment interessant, ja que es produeix fins i tot quan la longitud total del text continua sent constant.

Utilitzant el conjunt de dades de validació de MuSiQue, que inclou 2.417 preguntes que poden ser respostes, l’equip d’investigació va configurar un escenari de prova on cada pregunta es relaciona amb 20 paràgrafs de Wikipedia. D’aquests, entre dos i quatre paràgrafs contenen la informació rellevant, mentre que la resta actua com a distractors.

Reducció de documents i millora en el rendiment

Per explorar com la quantitat de documents afecta l’efectivitat del model, els investigadors van crear diverses particions de dades, disminuint gradualment el nombre de documents des de 20 fins a només 2 o 4 que contenien la informació necessària. Aquest procés es va dur a terme mantenint constant el nombre de tokens i la disposició de la informació mitjançant l’expansió dels documents seleccionats amb text dels articles originals de Wikipedia.

Les proves realitzades amb models de codi obert com Llama-3.1, Qwen2 i Gemma 2 van evidenciar que en reduir el nombre de documents, el rendiment es va incrementar fins a un 10 per cent en la majoria dels casos. Qwen2, tanmateix, es va destacar com una excepció, mostrant una capacitat superior per gestionar col·leccions de documents múltiples. Encara que aquests models són relativament recents, ja han estat superats per versions més noves com Llama-3.3, Qwen2.5 i Gemma 3.

Els resultats de l’estudi indiquen que limitar la quantitat de documents als que realment donen suport a la resposta millora el rendiment en reduir el context a només el essencial i eliminar contingut distractor.

Això suggereix que la presència de documents similars però no relacionats, que sovint es recuperen en sistemes RAG, pot confondre el model i, per tant, disminuir la seva eficàcia.

Els investigadors també assenyalen que el processament de múltiples documents pot complicar les tasques dins d’un entorn de recuperació. Ressalten la necessitat que els sistemes de recuperació trobin un equilibri entre rellevància i diversitat per minimitzar possibles conflictes. Models futurs podrien beneficiar-se de mecanismes dissenyats per identificar i descartar informació contradictòria, mentre s’aprofita la diversitat de documents disponibles.

Amplía el contexto:  OpenAI llança el seu nou model de llenguatge open weight i busca l'opinió dels desenvolupadors

Malgrat els descobriments, els investigadors reconeixen certes limitacions en el seu estudi, com la manca d’investigació sobre les variacions en les sol·licituds i els efectes de l’ordre de les dades. Per fomentar investigacions addicionals sobre el processament de múltiples documents, han fet els seus conjunts de dades disponibles públicament.

Amb la creixent mida de les finestres de context, persisteix la discussió sobre la necessitat dels sistemes RAG. Encara que els models de llenguatge estan millorant en el maneig de grans volums de text simultàniament, les arquitectures RAG demostren avantatges particulars quan s’utilitzen models de codi obert més petits.

Deixa el primer comentari