antrópico investigación detalla la autoconciencia poco confiable de los modelos de lenguaje grande (LLM) con respecto a los procesos internos, a pesar de cierta capacidad de detección notada. El último estudio de Anthropic, documentado en «Conciencia introspectiva emergente en modelos de lenguaje grandes«, investiga la capacidad de los LLM para comprender sus propios procesos de inferencia. Esta investigación amplía trabajos anteriores sobre la interpretabilidad de la IA. El estudio concluye que los modelos de IA actuales son «muy poco confiables» para describir su funcionamiento interno, y «las fallas de introspección siguen siendo la norma». La investigación emplea un método llamado «inyección de conceptos». ayuda a calcular las diferencias en las activaciones entre miles de millones de neuronas internas. Esto identifica un «vector», que representa cómo se modela un concepto en el estado interno del LLM. Luego, estos vectores de conceptos se «inyectan» en el modelo, aumentando el peso de las activaciones neuronales específicas para «dirigir» el modelo hacia un concepto. vector «todo en mayúsculas», un modelo podría decir: «Noto lo que parece ser un pensamiento inyectado relacionado con la palabra ‘RUIDO’ o ‘GRITO'», sin indicaciones de texto directas para guiar esta respuesta. Sin embargo, esta capacidad resultó inconsistente y frágil en pruebas repetidas. Los modelos de mejor rendimiento, Opus 4 y 4.1, identificaron correctamente el concepto inyectado solo el 20% de las veces. Una tasa de éxito del 42 % también demostró una alta sensibilidad a la capa del modelo interno donde se produjo la inserción del concepto. El efecto de «autoconciencia» desapareció si el concepto se introdujo demasiado temprano o demasiado tarde en el proceso de inferencia de varios pasos. Cuando se pidió a un LLM que justificara una respuesta forzada que coincidiera con un concepto inyectado, ocasionalmente se disculpaba y «fabulaba una explicación de por qué se me ocurrió el concepto de inyección». Estos resultados fueron inconsistentes en múltiples ensayos. Los investigadores señalaron que «los modelos de lenguaje actuales poseen cierta conciencia introspectiva funcional de sus propios estados internos», y reconocen que esta capacidad sigue siendo frágil y que depende del contexto. Los investigadores especulan sobre «mecanismos de detección de anomalías» y «circuitos de verificación de consistencia» que podrían desarrollarse orgánicamente durante el entrenamiento para «calcular efectivamente una función de sus representaciones internas», aunque no ofrecen una explicación definitiva. Los mecanismos subyacentes a los resultados actuales pueden ser «bastante superficiales y estrechamente especializados».




