Microsoft Research ha revelado un enfoque innovador para incorporar información externa en los modelos de lenguaje. Este sistema, denominado Knowledge Base-Augmented Language Models (KBLaM), se caracteriza por su método de plug-and-play, lo que significa que no requiere modificaciones en los modelos existentes.
¿Qué diferencia a KBLaM de otras estrategias actuales como RAG o el Aprendizaje en Contexto? Principalmente, su capacidad para integrar conocimiento sin necesidad de sistemas de recuperación por separado. KBLaM convierte la información en pares de vectores y la entrelaza directamente en la arquitectura del modelo mediante un mecanismo que Microsoft denomina «atención rectangular«.
Los sistemas RAG tradicionales enfrentan un problema de escalabilidad cuadrática debido a su mecanismo de autoatención: cada token necesita interactuar con todos los demás. Por ejemplo, si se introducen 1.000 tokens de una base de conocimiento, el modelo tiene que procesar un millón de pares de tokens. Si la cifra sube a 10.000 tokens, las interacciones se disparan a 100 millones.
KBLaM evita este obstáculo. Aunque la entrada del usuario puede acceder a todos los tokens de conocimiento, estos no interactúan entre sí ni con la entrada. Esto significa que a medida que la base de conocimiento se expande, el poder computacional necesario aumenta de manera lineal. De acuerdo con los investigadores, una única GPU puede manejar más de 10.000 triples de conocimiento, lo que equivale a unos 200.000 tokens.
Facilitando el acceso para desarrolladores
Las pruebas realizadas han mostrado resultados prometedores. Cuando trabaja con aproximadamente 200 elementos de conocimiento, KBLaM supera a los modelos tradicionales en la reducción de alucinaciones y en la negativa a responder preguntas para las cuales no tiene información. Además, ofrece una mayor transparencia en comparación con el aprendizaje en contexto, ya que puede vincular el conocimiento a tokens específicos.
El código y los conjuntos de datos de KBLaM están disponibles en GitHub. Este sistema es compatible con varios modelos populares, incluyendo Llama 3 de Meta y Phi-3 de Microsoft, y se planea añadir soporte para Transformers de Hugging Face. Sin embargo, los investigadores advierten que KBLaM aún no está listo para su uso generalizado. Aunque maneja bien escenarios de preguntas y respuestas simples, requiere mejoras para tareas de razonamiento más complejas.
Los grandes modelos de lenguaje (LLMs) enfrentan una paradoja interesante: sus ventanas de contexto siguen ampliándose, permitiéndoles manejar más información de manera simultánea, pero la fiabilidad en el procesamiento de todos esos datos sigue siendo un desafío. En este contexto, el sistema RAG se ha convertido en la solución preferida para alimentar información específica a los modelos con relativa fiabilidad, pero la propuesta de KBLaM sugiere que podría haber un camino más eficiente por explorar.