OLMoTrace l’eina que permet rastrejar la informació dels models de llenguatge

14 abril, 2025

La transparència en la intel·ligència artificial fa un pas endavant amb OLMoTrace, una innovadora eina de l’Allen Institute que permet rastrejar els orígens de les respostes generades per models de llenguatge.

L’Allen Institute for AI (Ai2) ha presentat OLMoTrace, una eina revolucionària dissenyada per desentranyar el funcionament dels models de llenguatge. A través d’aquesta innovadora funcionalitat, els investigadors tenen la possibilitat de rastrejar les respostes generades per aquests models fins als seus dades d’entrenament originals. Actualment, OLMoTrace està disponible a l’Ai2 Playground i és compatible amb diversos models OLMo.

L’essència d’OLMoTrace rau en la seva capacitat per oferir una major transparència en el funcionament dels models de llenguatge. Alguna vegada t’has preguntat si una resposta prové d’un coneixement memoritzat, de combinacions creatives o si simplement és una al·lucinació? Aquesta eina permet als usuaris fer precisament això: identificar l’origen de les respostes i, amb això, avançar en la recerca en intel·ligència artificial i fomentar la confiança pública en la IA generativa. Tot això, recolzat pel compromís de l’equip de mantenir models, conjunts de dades i codi font completament oberts.

Funcionament d’OLMoTrace en temps real

OLMoTrace empra un mètode enginyós per analitzar les dades d’entrenament en temps real. El procés es basa en la cerca de seqüències llargues i úniques de paraules que apareixen de forma literal en les dades d’entrenament. Aquestes es ressalten amb colors diferents i es vinculen a extractes de documents corresponents en un panell lateral. Els usuaris poden seleccionar qualsevol fragment o document per enfocar la seva atenció, amb variacions de color que indiquen la rellevància de cada coincidència.

La selecció de dades segueix diversos passos meticulosos. En primer lloc, OLMoTrace només considera aquelles seqüències de paraules que apareixen en la seva totalitat en les dades d’entrenament, sense interrupcions de línia o oració. A continuació, evalua la rarea dels tokens per ressaltar fragments especialment específics. Per a cada seqüència de paraules, es mostren fins a deu documents, fusionant seqüències superposades per mantenir la interfície ordenada.

Els exemples proporcionats per l’equip il·lustren aplicacions pràctiques significatives. En una ocasió, OLMoTrace va revelar que informació incorrecta sobre el límit de coneixement d’un model provenia d’exemples en les dades d’ajustament fi. En un altre cas, va demostrar que una solució matemàtica havia estat memoritzada pel model. Els usuaris poden a més verificar si les respostes són resultat de combinacions creatives o d’un coneixement general. L’eina utilitza un vast conjunt de dades que abasta aproximadament 4.6 bilions de tokens distribuïts en cinc conjunts de dades.

Si t’interessa explorar OLMoTrace, pots provar-ho a l’Ai2 Playground.

DESCOBREIX MÉS SOBRE EL TEMA

Deixa el primer comentari