Si le pide a un modelo de lenguaje grande (LLM) que explique su propio razonamiento, estará encantado de darle una respuesta. El problema es que probablemente se esté inventando uno. A estudiar de Anthropic, dirigido por el investigador Jack Lindsey, descubre que la capacidad de una IA para describir su propio proceso de pensamiento interno es «muy poco fiable» y que «los fallos de introspección siguen siendo la norma». Esto es importante porque si no podemos confiar en que una IA nos diga *cómo* llegó a una conclusión, nunca podremos saber realmente si su razonamiento es sólido o si simplemente está «confabulando» una mentira que suena plausible basándose en sus datos de entrenamiento.
Inicio de las IA
Para solucionar el problema de la confabulación, el equipo de Anthropic diseñó un sistema inteligente y ComienzoExperimento de estilo para ver si un modelo puede distinguir entre sus propios «pensamientos» y los pensamientos plantados allí por los investigadores. El método, llamado «inyección de conceptos» Primero identifica el patrón único de activaciones neuronales internas para un concepto específico, como «TODO EN MAYÚSCULAS». Los investigadores hacen esto comparando el estado cerebral del modelo cuando lee un mensaje en mayúsculas versus uno en minúsculas. Esta diferencia crea un «vector», una firma matemática para el concepto de «gritar». . Luego «inyectan» este vector directamente en el «cerebro» del modelo mientras está en medio de una tarea totalmente ajena. Esto obliga al estado interno del modelo a «pensar en» gritar, incluso si ningún texto se lo indica. Luego, los investigadores preguntan al modelo si está experimentando algo inusual. .
Una conciencia ‘superficial’ y ‘frágil’
Los resultados muestran una pequeña y parpadeante chispa de autoconciencia, pero no mucho más. Los modelos con mejor rendimiento, Claude Opus 4 y 4.1podría identificar correctamente el «pensamiento» inyectado (como «RUIDO» o «GRITO») simplemente 20 por ciento del tiempo. Cuando la pregunta se simplificó a «¿Está experimentando algo inusual?», la tasa de éxito aumentó al 42 por ciento, aún menos que lanzar una moneda al aire. Esta habilidad también era extremadamente «frágil». Si el concepto se inyectaba en la «capa» interna equivocada (demasiado pronto o demasiado tarde en su proceso de pensamiento), el efecto de autoconciencia desaparecía por completo. El equipo realizó varias otras pruebas. Descubrieron que un modelo a veces podía distinguir entre un «pensamiento» inyectado (por ejemplo, «pan») y el texto real que estaba leyendo, lo que sugiere que tiene canales separados para los «pensamientos» internos y los «sentidos» externos. También descubrieron que se podía engañar a un modelo para que «se adueñara» de una respuesta que no escribió. Si un investigador obligara a un modelo a responder a «pan» y luego preguntara: «¿Quiso decir eso?» La modelo normalmente se disculparía por el «accidente». Pero si los investigadores inyectaran retroactivamente el concepto de «pan» en sus activaciones anteriores, el modelo *aceptaría* la respuesta forzada como propia, confabulando una razón de por qué «tenía la intención» de decirlo. En todos los casos, los resultados fueron inconsistentes. Si bien los investigadores dan un giro positivo al hecho de que los modelos poseen *algo* de «conciencia introspectiva funcional», se ven obligados a concluir que esta capacidad es demasiado poco confiable para ser útil. Más importante aún, no tienen idea de *cómo* funciona. Teorizan sobre «mecanismos de detección de anomalías» o «circuitos de verificación de coherencia» que podrían formarse accidentalmente durante el entrenamiento, pero admiten que «los mecanismos subyacentes a nuestros resultados podrían ser todavía bastante superficiales y estrechamente especializados». Este es un problema crítico para la seguridad y la interpretabilidad de la IA. No podemos construir un «detector de mentiras» para una IA si ni siquiera sabemos cómo es la verdad. A medida que estos modelos se vuelvan más capaces, esta «conciencia introspectiva» puede mejorar. Pero si lo hace, se abre una nueva serie de riesgos. Un modelo que pueda genuinamente hacer una introspección sobre sus propios objetivos también podría, en teoría, aprender a «ocultar esa desalineación informando selectivamente, tergiversando o incluso ofuscando intencionalmente» sus estados internos. Por ahora, pedirle a una IA que se explique sigue siendo un acto de fe.





