GPT-4.1 tiene oficialmente aterrizado en la API de OpenAI, introduciendo un trío de modelos (GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano) que superan a sus predecesores en casi todas las dimensiones. Estos modelos están diseñados para desarrolladores que necesitan mejores habilidades de codificación, seguimiento de instrucción más fuerte y comprensión masiva de contexto largo, todo al tiempo que reducen la latencia y el costo. El modelo insignia ahora admite hasta 1 millón de tokens de contexto y presenta un nuevo límite de conocimiento de junio de 2024.
¿Qué hay de nuevo con GPT-4.1?
La familia GPT-4.1 es una actualización directa sobre GPT-4O y GPT-4.5, que ofrece un rendimiento mejorado en los puntos de referencia al tiempo que optimiza para el uso del desarrollador del mundo real. GPT-4.1 puntajes 54.6% en SWe Bench Verifiedconvirtiéndolo en uno de los mejores modelos para la codificación de tareas. En escala Punto de referencia multichallengeve una mejora absoluta del 10.5% sobre GPT-4O en la instrucción siguiente. Para tareas de contexto largas, establece un nuevo puntaje de última generación del 72% en el Video-Mme Benchmark.
Los modelos también están optimizados en la curva de latencia. GPT-4.1 Mini ofrece casi el mismo rendimiento que GPT-4O mientras reduce la latencia a la mitad y reduce el costo en un 83%. GPT-4.1 Nano es el modelo más rápido y asequible de OpenAI, creado para la clasificación y las tareas de autocompletación, al tiempo que admite 1 millón de ventanas de contexto de tokens.
Capacidades de codificación Da un salto
Desde la generación de interfaces frontend más limpias hasta seguir formatos de diferencia de manera más confiable, GPT-4.1 se demuestra como un asistente de codificación altamente capaz. En el punto de referencia verificado SWE-Bench, completa más de la mitad de las tareas correctamente, hasta el 33.2% con GPT-4O. También supera a GPT-4O e incluso GPT-4.5 en el punto de referencia Polyglot Diff de Aider, ofreciendo a los desarrolladores ediciones precisas en múltiples lenguajes de programación sin reescribir archivos completos. Para las reescrituras a nivel de archivo, los límites de token de salida se han ampliado a 32,768 tokens.
En las comparaciones internas, los sitios web GPT-4.1 se prefirieron el 80% del tiempo sobre las salidas de GPT-4O. Las ediciones extrañas en código cayeron del 9% al 2%, lo que refleja una mejor comprensión del contexto y el uso de la herramienta.
Los primeros usuarios destacan las ganancias del mundo real
Windsurf informó una mejora del 60% en los puntos de referencia internos, mientras que Qodo encontró que GPT-4.1 proporcionó mejores sugerencias en el 55% de las solicitudes de extracción de GitHub. Estas mejoras se traducen directamente en una mejor precisión de revisión de código, menos sugerencias innecesarias y ciclos de iteración más rápidos para los equipos.
Instrucción más nítida que sigue en los escenarios
GPT-4.1 funciona significativamente mejor en la confiabilidad de la instrucción. Observa el 87.4% en Ifeval y el 38% en el punto de referencia de Multichallenge, mostrando ganancias en el manejo de formatos complejos, rechazar instrucciones prohibidas y clasificar o clasificar salidas. La propia evaluación de OpenAI mostró que GPT-4.1 es más preciso en las indicaciones difíciles y mejor en el seguimiento de instrucciones múltiples, una característica esencial para construir sistemas de conversación confiables.
Blue J y Hex probaron GPT-4.1 contra tareas específicas del dominio. Blue J vio una mejora de precisión del 53% en escenarios fiscales complejos, mientras que HEX informó casi el doble del rendimiento en las tareas de SQL, reduciendo los gastos generales de depuración y mejorando la preparación de la producción.
1 millón de la ventana de contexto de token establece una nueva barra
Los tres modelos en la familia GPT-4.1 ahora apoyan hasta 1 millón de tokens de contexto, más de 8 veces la base de código React. Esto permite nuevos casos de uso poderosos en análisis de documentos legales, investigación financiera y flujos de trabajo de software de forma larga. En la prueba de «aguja en un pajar» de OpenAi, GPT-4.1 recuperó de manera confiable el contenido relevante independientemente de dónde apareció en la entrada.
El punto de referencia de OpenAI-MRCR confirmó esto al probar la capacidad del modelo para distinguir entre indicaciones casi idénticas dispersas por una ventana de contexto masiva. En el punto de referencia GraphWalks, que implica un razonamiento entre los nodos en un gráfico sintético, GPT-4.1 obtuvo un 62%, significativamente antes del 42%de GPT-4O.
Thomson Reuters informó un aumento del 17% en la precisión de la revisión de documentos legales utilizando GPT-4.1 en su sistema Cocounsel, mientras que Carlyle vio una mejora del 50% en la extracción de datos financieros granulares de archivos complejos.
GPT-4.5 Humanos Out-Humans en una nueva prueba
Inferencia más rápida y mejor comprensión de la imagen
Operai ha reducido el tiempo a la primera token utilizando mejoras en su pila de inferencias. GPT-4.1 Nano responde en menos de cinco segundos en las indicaciones de 128k-token. Para tareas multimodales, GPT-4.1 Mini muestra una comprensión de imagen más fuerte que GPT-4O en puntos de referencia como MMMU y MathVista.
En puntos de referencia visuales como Charxiv-Rasoning y Video-Mme, GPT-4.1 lidera constantemente, anotando un 72% en este último sin subtítulos. Esto lo convierte en una mejor opción para la comprensión de video y la interpretación de la tabla científica.
Recortes de precios y planes de transición
Los tres modelos GPT-4.1 ahora están disponibles en la API, con una caída de precios significativa. GPT-4.1 es un 26% más barato para las consultas medianas en comparación con GPT-4O. Los descuentos de almacenamiento en caché rápido han aumentado al 75%, y no hay cargos adicionales por entradas de contexto largo. La vista previa GPT-4.5 se desaprobará antes del 14 de julio de 2025, a favor de la familia GPT-4.1 más eficiente.
El precio por 1 m tokens para GPT-4.1 se establece en $ 2 por entrada, $ 0.50 por entrada en caché y $ 8 para la salida. GPT-4.1 Nano los deja caer a $ 0.10, $ 0.025 y $ 0.40 respectivamente, lo que lo convierte en la opción más asequible hasta la fecha.