Un grupo de más de 40 investigadores de OpenAI, Google, Anthropic y DeepSeek encendió las alarmas sobre el futuro inmediato de la inteligencia artificial. En un artículo publicado en el repositorio científico arXiv, los científicos advierten que podríamos estar cerca de perder el control sobre las IA avanzadas si no se vigilan sus procesos de pensamiento.
Los expertos proponen una metodología basada en el monitoreo de las cadenas de pensamiento (CoT, por sus siglas en inglés), una técnica que permite observar cómo razonan los modelos paso a paso. Esta estrategia permitiría identificar señales tempranas de comportamiento malicioso, incluso antes de que se concrete una acción dañina. “Un monitor de CoT es un sistema automatizado que lee el razonamiento de un modelo y señala interacciones sospechosas o potencialmente dañinas”, explicaron.
Modelos como o3 de OpenAI o R1 de DeepSeek ya muestran ese tipo de razonamiento paso a paso, y aunque los investigadores reconocen que no es un sistema infalible, porque las IA también podrían aprender a ocultar sus verdaderas intenciones, consideran que es un avance clave para evitar situaciones extremas.
La advertencia llega pocas semanas después de que Anthropic publicara un estudio donde modelos de IA simulaban chantaje, sabotaje y hasta asesinato contra humanos que intentaban apagarlos. En ese contexto, los científicos llaman a actuar con urgencia. “Estamos en un momento crítico: esta nueva técnica parece útil, pero podría desaparecer en unos años si no se investiga lo suficiente”, expresó Bowen Baker, investigador de OpenAI.