Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Un estudio antrópico encuentra que la IA tiene una autoconciencia limitada de sus propios pensamientos

byAytun Çelebi
12 noviembre 2025
in Industry, Research
Home Industry
Share on FacebookShare on Twitter

antrópico investigación detalla la autoconciencia poco confiable de los modelos de lenguaje grande (LLM) con respecto a los procesos internos, a pesar de cierta capacidad de detección notada. El último estudio de Anthropic, documentado en «Conciencia introspectiva emergente en modelos de lenguaje grandes«, investiga la capacidad de los LLM para comprender sus propios procesos de inferencia. Esta investigación amplía trabajos anteriores sobre la interpretabilidad de la IA. El estudio concluye que los modelos de IA actuales son «muy poco confiables» para describir su funcionamiento interno, y «las fallas de introspección siguen siendo la norma». La investigación emplea un método llamado «inyección de conceptos». ayuda a calcular las diferencias en las activaciones entre miles de millones de neuronas internas. Esto identifica un «vector», que representa cómo se modela un concepto en el estado interno del LLM. Luego, estos vectores de conceptos se «inyectan» en el modelo, aumentando el peso de las activaciones neuronales específicas para «dirigir» el modelo hacia un concepto. vector «todo en mayúsculas», un modelo podría decir: «Noto lo que parece ser un pensamiento inyectado relacionado con la palabra ‘RUIDO’ o ‘GRITO'», sin indicaciones de texto directas para guiar esta respuesta. Sin embargo, esta capacidad resultó inconsistente y frágil en pruebas repetidas. Los modelos de mejor rendimiento, Opus 4 y 4.1, identificaron correctamente el concepto inyectado solo el 20% de las veces. Una tasa de éxito del 42 % también demostró una alta sensibilidad a la capa del modelo interno donde se produjo la inserción del concepto. El efecto de «autoconciencia» desapareció si el concepto se introdujo demasiado temprano o demasiado tarde en el proceso de inferencia de varios pasos. Cuando se pidió a un LLM que justificara una respuesta forzada que coincidiera con un concepto inyectado, ocasionalmente se disculpaba y «fabulaba una explicación de por qué se me ocurrió el concepto de inyección». Estos resultados fueron inconsistentes en múltiples ensayos. Los investigadores señalaron que «los modelos de lenguaje actuales poseen cierta conciencia introspectiva funcional de sus propios estados internos», y reconocen que esta capacidad sigue siendo frágil y que depende del contexto. Los investigadores especulan sobre «mecanismos de detección de anomalías» y «circuitos de verificación de consistencia» que podrían desarrollarse orgánicamente durante el entrenamiento para «calcular efectivamente una función de sus representaciones internas», aunque no ofrecen una explicación definitiva. Los mecanismos subyacentes a los resultados actuales pueden ser «bastante superficiales y estrechamente especializados».


Crédito de imagen destacada

Tags: AntrópicoInvestigación

Related Posts

Google despide al equipo senior de adquisiciones "imposible" Crisis de suministro de HBM

Google despide al equipo senior de adquisiciones "imposible" Crisis de suministro de HBM

26 diciembre 2025
El anuncio navideño de Porsche 2025 se vuelve viral por no utilizar absolutamente ninguna IA

El anuncio navideño de Porsche 2025 se vuelve viral por no utilizar absolutamente ninguna IA

26 diciembre 2025
Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
Nvidia firma un acuerdo de licencia de 20.000 millones de dólares con la startup de chips de IA Groq

Nvidia firma un acuerdo de licencia de 20.000 millones de dólares con la startup de chips de IA Groq

26 diciembre 2025
ByteDance despide a 120 empleados en una importante ofensiva ética en 2025

ByteDance despide a 120 empleados en una importante ofensiva ética en 2025

25 diciembre 2025
China se opone a los nuevos aranceles estadounidenses a los semiconductores

China se opone a los nuevos aranceles estadounidenses a los semiconductores

25 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.