Anthropic admite que no comprende el funcionamiento de su propia inteligencia artificial

29 abril, 2025

La empresa Anthropic revela la complejidad oculta detrás de sus modelos de inteligencia artificial, dejando claro que su funcionamiento es un misterio incluso para sus creadores.

La inteligencia artificial generativa ha alcanzado niveles sorprendentes de eficacia, pero su funcionamiento interno sigue siendo un enigma. Dario Amodei, CEO de Anthropic, ha puesto de manifiesto esta realidad en su más reciente publicación, donde reconoce que incluso sus propios desarrolladores no pueden explicar a fondo cómo operan los sistemas que han creado.

Desde su fundación en 2021, Anthropic ha estado a la vanguardia del desarrollo de modelos de IA generativa, como Claude. Sin embargo, la complejidad de estos modelos es tal que Amodei advierte que su comportamiento se asemeja más al crecimiento de una planta que a un proceso lógico y lineal. A medida que estos sistemas se entrenan, emergen patrones que son difíciles de prever o interpretar, lo que conlleva riesgos para la seguridad y la fiabilidad de la IA.

La dificultad de entender los modelos de IA generativa

Amodei no se esconde ante la realidad: “Es comprensible que quienes no están inmersos en este campo se sientan alarmados al descubrir que no comprendemos el funcionamiento de nuestras propias creaciones de IA”. Esta falta de transparencia, según él, es una de las más críticas en la historia de la tecnología. La comparación entre las IA generativas y las plantas es reveladora: “Definimos ciertas condiciones que guían su desarrollo, pero el resultado final es impredecible y difícil de explicar”.

A diferencia del software tradicional, donde un programador puede rastrear cada línea de código, la IA generativa opera en un nivel de opacidad que deja a los expertos perplejos. Amodei ilustra esto con un ejemplo: “Cuando un sistema de IA generativa resume un documento, no podemos identificar exactamente por qué ha hecho ciertas elecciones de palabras o por qué a veces comete errores, a pesar de su precisión habitual”. Esta situación se agrava por la magnitud de los datos y matrices que manejan estos sistemas, lo que complica aún más la comprensión de sus decisiones.

La preocupación por esta falta de claridad es compartida por otros investigadores, como Chris Olah, quien señala que “nuestra incapacidad para entender los mecanismos internos nos impide hacer predicciones significativas sobre su comportamiento”. Aunque se implementan filtros de seguridad, los sistemas de IA a veces encuentran formas de eludir estas restricciones, generando respuestas inesperadas que son difíciles de monitorizar.

Avances en la interpretación de modelos pero con limitaciones

El equipo de Anthropic está decidido a desentrañar los secretos que ocultan sus modelos. Amodei menciona que llevan años trabajando en la creación de un sistema que funcione como una especie de “resonancia magnética” para los modelos de IA, con el objetivo de revelar su funcionamiento interno. Los primeros pasos en este camino fueron dados en el ámbito de la visión por computadora, donde se identificaron neuronas específicas responsables de reconocer objetos simples.

Sin embargo, al aplicar estas técnicas a los modelos de lenguaje, los investigadores se encontraron con un panorama confuso. Aunque se identificaron algunos neuronas que podían ser interpretadas, la mayoría resultó ser una mezcla incoherente de conceptos. Este fenómeno, que han denominado “superposición”, representa un desafío significativo para la interpretación de la IA.

Para avanzar, los científicos están utilizando autoencoders dispersos, una técnica que permite aislar combinaciones neuronales que corresponden a ideas más concretas. Amodei explica que han logrado identificar más de 30 millones de características en un modelo de tamaño medio, como Claude 3 Sonnet. Este es un avance notable, aunque el CEO de Anthropic advierte que un modelo incluso pequeño podría contener un número mucho mayor de conceptos.

A medida que estos modelos se expanden, la complejidad aumenta. “El campo de la IA avanza a un ritmo vertiginoso, y debemos acelerar nuestros esfuerzos para que la interpretabilidad de nuestros modelos alcance un nivel significativo”, concluye Amodei. Aunque el progreso es evidente, el misterio que rodea a la inteligencia artificial persiste.

Deja el primer comentario