Anthropic lanza Opus 4.5 para competir con GPT-5.1 y Gemini 3

antrópico liberado Opus 4.5 el lunes, el modelo final de su serie 4.5, que presenta integraciones de Chrome y Excel. Opus 4.5 demuestra un rendimiento de última generación en varios puntos de referencia. Estos incluyen puntos de referencia de codificación como SWE-Bench y Terminal-bench, puntos de referencia de uso de herramientas como tau2-bench y MCP Atlas, y evaluaciones generales de resolución de problemas que incluyen ARC-AGI 2 y GPQA Diamond. En particular, el modelo logró más del 80% en la verificación SWE-Bench, un resultado significativo para un punto de referencia de codificación. Anthropic destacó las capacidades de Opus en el uso de computadoras y hojas de cálculo. Junto con Opus 4.5, Anthropic hizo que sus productos Claude para Chrome y Claude para Excel, anteriormente en fases piloto, fueran más accesibles. La extensión de Chrome está disponible para todos los usuarios de Max, mientras que el modelo centrado en Excel es accesible para los usuarios de Max, Team y Enterprise.

Imagen: Antrópico

Opus 4.5 incorpora mejoras de memoria para operaciones de contexto largo. Dianne Na Penn, jefa de gestión de productos para investigación de Anthropic, afirmó TechCrunch«Hemos realizado mejoras en la calidad general del contexto largo en el entrenamiento con Opus 4.5, pero las ventanas de contexto no serán suficientes por sí solas. Conocer los detalles correctos para recordar es realmente importante además de tener una ventana de contexto más larga». Estas mejoras de memoria habilitaron una función de «chat sin fin» para los usuarios pagos de Claude. Esta característica permite un chat continuo sin interrupción cuando el modelo alcanza el límite de su ventana de contexto. El modelo comprime su memoria contextual sin notificación al usuario. Muchas actualizaciones apuntan a casos de uso de agentes, particularmente escenarios en los que Opus funciona como agente principal que supervisa a los subagentes impulsados por Haiku. La gestión de este tipo de tareas requiere una memoria de trabajo competente. Penn señaló: «Aquí es donde aspectos fundamentales como la memoria se vuelven realmente importantes, porque Claude necesita poder explorar bases de código y documentos grandes, y también saber cuándo retroceder y volver a verificar algo». Opus 4.5 ingresa a un mercado competitivo. OpenAI lanzó GPT 5.1 el 12 de noviembre y Google lanzó Gemini 3 el 18 de noviembre, ambos nuevos modelos de frontera.

Crédito de imagen destacada