CEO antrópico Dario Amodei publicado Un ensayo el jueves que destaca la comprensión limitada del funcionamiento interno de los principales modelos de IA y estableció un objetivo para que antrópico detecte de manera confiable la mayoría de los problemas de modelos de IA para 2027.
AModei reconoce el desafío por delante, afirmando que si bien Anthrope ha realizado avances tempranos en el rastreo de cómo los modelos llegan a sus respuestas, se necesita más investigación para decodificar estos sistemas a medida que se vuelven más potentes. «Estoy muy preocupado por la implementación de tales sistemas sin un mejor manejo de la interpretabilidad», escribió Amodei, enfatizando su papel central en la economía, la tecnología y la seguridad nacional.
Anthrope es un pionero en la interpretabilidad mecanicista, con el objetivo de comprender por qué los modelos de IA toman ciertas decisiones. A pesar de las rápidas mejoras en el rendimiento, la industria aún tiene una visión limitada de cómo llegan estos sistemas a las decisiones. Por ejemplo, los nuevos modelos de AI de razonamiento de Openai, O3 y O4-Minidesempeñe mejor en algunas tareas, pero alucine más que otros modelos, con la compañía insegura de por qué.
AmoDei señala que los investigadores de IA han mejorado la inteligencia modelo, pero no entienden completamente por qué funcionan estas mejoras. El cofundador de Anthrope, Chris Olah, dice que los modelos de IA «se cultivan más de lo que están construidos». AmoDei advierte que llegar a AGI sin comprender cómo funcionan los modelos podría ser peligroso y cree que estamos más lejos de comprender completamente los modelos de IA que lograr AGI, potencialmente para 2026 o 2027.
Anthrope tiene como objetivo realizar «escaneos cerebrales» o «resonancias magnéticas» de modelos de IA de última generación para identificar problemas, incluidas las tendencias de mentir o buscar poder. Esto podría llevar de cinco a 10 años, pero será necesario para probar e implementar modelos futuros. La compañía ha realizado avances en el rastreo de vías de pensamiento del modelo AI a través de «circuitos» e identificó un circuito que ayuda a los modelos a comprender las ubicaciones de la ciudad de los Estados Unidos dentro de los estados.
Antrópico ha invertido en investigación de interpretabilidad y recientemente realizó su primera inversión en una startup trabajando en el campo. AmoDei cree que explicar cómo los modelos AI llegan a las respuestas podrían presentar una ventaja comercial. Pidió a Openai y Google Deepmind para aumentar sus esfuerzos de investigación y pidió a los gobiernos que impongan regulaciones de «toque de luz» para fomentar la investigación de la interpretabilidad.
AModei también sugirió que Estados Unidos debería imponer controles de exportación a chips a China para limitar la probabilidad de una carrera global de IA fuera de control. Anthrope se ha centrado en la seguridad, emitiendo un soporte modesto para la factura de seguridad de IA de California, SB 1047, que habría establecido estándares de informes de seguridad para los desarrolladores de modelos de IA fronteriza.
Anthrope está presionando por un esfuerzo de toda la industria para comprender mejor los modelos de IA, no solo aumentar sus capacidades. Los esfuerzos y recomendaciones de la compañía destacan la necesidad de un enfoque colaborativo para la seguridad e interpretabilidad de la IA.