Descubren que los chatbots muestran signos de demencia en pruebas cognitivas

10 marzo, 2025

Investigadores han hallado similitudes preocupantes entre el comportamiento de los chatbots y los síntomas de demencia en humanos.

La inteligencia artificial, aunque impresionante, a veces revela debilidades sorprendentes. Recientemente, un estudio ha mostrado que los chatbots presentan síntomas que evocan la demencia humana.

Desde su lanzamiento hace aproximadamente dos años, ChatGPT de OpenAI ha sido un referente en el ámbito de los modelos de lenguaje. Sin embargo, a medida que otros programas han ido surgiendo, la pregunta es si estos modelos realmente comprenden o simplemente simulan el entendimiento humano. Investigadores de Israel han realizado un estudio que sugiere que los modelos de lenguaje, en particular los más antiguos, pueden experimentar formas de deterioro cognitivo que se asemejan notablemente a los procesos de declive mental en las personas.

Kits de pruebas cognitivas aplicados a chatbots

El equipo israelí decidió aplicar pruebas cognitivas, tradicionalmente diseñadas para humanos, a varios chatbots populares, incluyendo las versiones 4 y 4o de ChatGPT, dos variantes de Gemini de Alphabet y Claude 3.5 de Anthropic. Los resultados fueron alarmantes: los modelos mostraron un rendimiento que podría ser motivo de preocupación si realmente fueran inteligentes.

A pesar de su capacidad para generar texto de manera rápida y convincente, los LLMs (modelos de lenguaje de gran tamaño) a menudo se asemejan más a las sugerencias de texto de un dispositivo móvil que a un verdadero razonamiento humano. La forma en que estos algoritmos producen información puede ser impresionante, pero su tendencia a confundir hechos con ficción es preocupante.

Errores que recuerdan a la demencia

Algunos de los errores cometidos por los chatbots en cuanto a la localización espacial se asemejan a las respuestas de personas con demencia. Un ejemplo es la respuesta de Claude, que decía: «El lugar específico y la ciudad dependen de dónde se encuentre, usuario«.

Además, la falta de empatía mostrada por todos los modelos es similar a los síntomas de demencia frontotemporal en humanos.

Los investigadores describen en su artículo un nivel de «declive cognitivo» que puede compararse con ciertos procesos neurodegenerativos en el cerebro humano. Sin embargo, aclaran que, aunque estos modelos no son cerebros humanos, sus resultados plantean dudas sobre la idea de que estamos al borde de una revolución en la medicina clínica basada en IA.

Desempeño deficiente en tareas visuales

Particularmente inquietante es el hecho de que todos los modelos evaluados mostraron un rendimiento deficiente en tareas visuales y ejecutivas. Ejercicios como el trail making task, que implica dibujar un patrón de cubos o representar una hora, resultaron en fracasos totales o en la necesidad de instrucciones explícitas por parte de los chatbots.

ChatGPT 4o alcanzó la puntuación más alta con 26 de 30 puntos, mientras que ChatGPT 4 y Claude obtuvieron 25. En cambio, Gemini logró solo 16 puntos, lo que en humanos indicaría un deterioro grave. Si queremos confiar en los LLMs para la atención médica, es crucial reconocer su vulnerabilidad a estos tipos de deficiencias que parecen tan humanas.

Expectativas sobre modelos futuros

A pesar de los errores ocasionales de los modelos de lenguaje, como citar artículos inexistentes, su desempeño en varias evaluaciones médicas ha sido sobresaliente, incluso superando a médicos en ciertas pruebas de competencia.

Con la creciente expectativa de que la inteligencia artificial pueda ofrecer asesoramiento médico y legal, es razonable suponer que cada nueva generación de LLMs encontrará formas más efectivas de procesar y expresar la información. En un futuro cercano, podríamos ver modelos que superen las pruebas cognitivas con éxito.

Deja el primer comentario