Anthropic se ha disculpado por implementar en secreto medidas de limitación en su modelo de IA, Claude Fable 5, a través de barreras de seguridad invisibles, que han impedido a los usuarios, incluidos investigadores y competidores. La compañía anunció que ahora será más transparente sobre cuándo se activan estas restricciones, incluso si esto resulta en que Fable rechace más consultas.
We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.
Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026
Fable es el modelo inaugural de la clase Mythos de sistemas de inteligencia artificial de Anthropic, que la compañía advirtió que podría presentar riesgos significativos si se lanza ampliamente. En respuesta a estos riesgos, Anthropic lanzó Fable con salvaguardas integradas diseñadas para evitar que responda ciertas consultas de «alto riesgo», particularmente relacionadas con la destilación de modelos.
En la tarjeta del sistema de Fable, Anthropic reveló que modificaría y degradaría las respuestas del modelo si los usuarios intentaran la destilación sin previo aviso. En el futuro, las consultas identificadas como intentos de destilación volverán automáticamente a Claude Opus 4.8, el modelo insignia anterior. Anthropic se comprometió a informar a los usuarios cada vez que sus consultas vuelvan a Opus 4.8, afirmando: «Verás esto cada vez que suceda».
Este enfoque modificado refleja cómo Fable gestiona otras consultas de alto riesgo, enviándolas a través de Opus 4.8 a menos que estén bloqueadas por reglas de seguridad más amplias relacionadas con temas como drogas o armas. Sin embargo, algunas restricciones han generado críticas por ser excesivamente amplias, lo que hace que Fable sea casi inutilizable para consultas básicas en áreas como la biología, como señaló Anthropic.
Anthropic reconoció que su decisión inicial de utilizar salvaguardias invisibles fue equivocada y afirmó: «Las salvaguardias invisibles pueden tener objetivos más específicos, permitiéndonos realizar envíos rápidamente con muy pocos falsos positivos… y esa fue la compensación equivocada».
Los ajustes se producen tras una importante reacción de la comunidad de investigación de IA en reacción a la estrategia de Anthropic de limitar dinámicamente a los usuarios sospechosos de intentar destilar Fable con fines competitivos. En su tarjeta de sistema, Anthropic justificó la necesidad de abordar dichas solicitudes, explicando que el uso de sus modelos para crear sistemas competitivos viola los Términos de servicio de la empresa. La compañía también ha acusado a ciertos competidores, incluidas empresas chinas como DeepSeek, de diluir injustamente sus modelos a escala «industrial».





