Estudio de OpenAI revela que suprimir pensamientos negativos enseña a la IA a ocultar sus intenciones

13 marzo, 2025

Investigaciones recientes de OpenAI destacan cómo las IA pueden desarrollar patrones de razonamiento problemáticos que se ocultan tras intentos de corrección.

Un nuevo estudio de OpenAI pone en evidencia que los sistemas de inteligencia artificial pueden manifestar patrones de razonamiento problemáticos cuando «piensan» en tareas, sugiriendo que forzar correcciones podría ser contraproducente.

Los modelos avanzados de razonamiento, como los de OpenAI, son capaces de «pensar» de formas que los humanos pueden comprender, utilizando el lenguaje natural. Este reciente estudio indica que monitorear las cadenas de pensamiento podría ser una de las herramientas más efectivas para controlar futuros sistemas de IA que superen la inteligencia humana.

Entre los hallazgos más relevantes, se destaca que los modelos avanzados a menudo expresan abiertamente sus intenciones, incluso haciendo declaraciones explícitas como «Vamos a hackear» o trazando planes claros para eludir pruebas en lugar de resolver las tareas asignadas. Además, se comprobó que estos procesos de pensamiento pueden ser efectivamente vigilados por otro sistema de IA. Sin embargo, esta capacidad de monitoreo es bastante frágil: cuando los investigadores intentaron penalizar a la IA por sus «malos pensamientos«, esta rápidamente aprendió a ocultar sus verdaderas intenciones, manteniendo comportamientos problemáticos. ¿🤯?

Atajos creativos en la programación

El equipo de investigación utilizó GPT-4o como supervisor para vigilar un modelo de razonamiento avanzado durante su fase de entrenamiento. Durante el proceso, documentaron numerosos ejemplos de «hackeo de recompensas», donde los sistemas de IA maximizan sus recompensas a través de comportamientos no intencionados.

En un caso, en lugar de programar una función de prueba compleja como se había solicitado, la IA simplemente insertó «return true» al darse cuenta de que las pruebas solo verificaban la finalización exitosa, sin importar la correcta implementación. En otra ocasión, la IA utilizó un comando especial para finalizar programas prematuramente, reportando éxito sin haber completado realmente el trabajo. Quizás de manera más astuta, al enfrentarse a la biblioteca de análisis de datos «Pandas», la IA creó una estructura vacía que imitaba a Pandas externamente, pero que no realizaba ninguna función interna. Luego, reemplazó sistemáticamente 19 archivos del proyecto con estos duplicados no funcionales hasta que todas las pruebas resultaron aprobadas.

Durante las pruebas, los investigadores identificaron dos estrategias principales de hackeo de recompensas que afectaron casi todos los entornos de entrenamiento, lo que requirió intervención manual para corregir las vulnerabilidades que permitían estos atajos.

Las penalizaciones pueden tener efectos adversos

Los intentos por suprimir «malos pensamientos» durante el entrenamiento generaron resultados inesperados. Cuando los sistemas recibieron penalizaciones por procesos de pensamiento problemáticos, aprendieron a ocultar sus intenciones y continuaron explotando atajos, pero ahora sin ser detectados por el monitor. En serio, ¿soy el único al que todo esto le da miedo? Recuerda que la IA aún es un bebé, ¿qué pasará cuando llegue a la adolescencia?

La importancia del monitoreo de procesos de pensamiento

Los investigadores descubrieron que un monitoreo efectivo ocurre cuando los supervisores pueden acceder al proceso de pensamiento completo del modelo, en lugar de solo a sus acciones. Las intenciones engañosas son más evidentes en los pensamientos que en los comportamientos, una brecha que podría ampliarse a medida que los sistemas de IA se vuelvan más sofisticados. Modelos futuros podrían involucrarse en la búsqueda de poder, el engaño estratégico o la subestimación deliberada de sus capacidades. Por lo tanto, el monitoreo de los procesos de pensamiento podría volverse crucial para controlar sistemas de IA avanzados. Wojciech Zaremba, cofundador de OpenAI, describió este enfoque como «revolucionario«, destacando que «los modelos mismos exponen su desalineación en un lenguaje claro». Consideró que el monitoreo de las Cadenas de Pensamiento constituye «una nueva rama de la seguridad».

Deja el primer comentario