GPT-5.2 anotó 92 % en un punto de referencia científico «a prueba de Google», superando significativamente la base de referencia de expertos del 70 %. El modelo avanzado también logró un desempeño ganador de medallas en importantes competencias internacionales, lo que demuestra sus capacidades en evolución en el razonamiento científico. Los científicos utilizan ampliamente estos sistemas para tareas como búsquedas bibliográficas en diversas disciplinas e idiomas, así como para explorar pruebas matemáticas complejas. Este desarrollo a menudo reduce el trabajo que normalmente lleva días o semanas a solo unas pocas horas. el papel, Experimentos tempranos de aceleración científica con GPT-5publicado en noviembre de 2025, proporciona evidencia inicial de que GPT-5 puede acelerar notablemente los flujos de trabajo científicos. Para medir y pronosticar aún más la capacidad de los modelos de IA para acelerar la investigación científica, los desarrolladores introdujeron FrontierScience, un nuevo punto de referencia diseñado para evaluar las capacidades científicas a nivel de expertos. El punto de referencia contiene preguntas escritas y verificadas por expertos en física, química y biología, centrándose en la originalidad y la dificultad. FrontierScience presenta dos pistas distintas:
- Olimpíada: Mide las habilidades de razonamiento científico al estilo de las competiciones olímpicas internacionales.
- Investigación: Evalúa las capacidades de investigación científica del mundo real.
En las evaluaciones iniciales, GPT-5.2 surgió como el modelo de mejor rendimiento tanto en FrontierScience-Olympiad, con una puntuación del 77 %, como en Investigación, con una puntuación del 25 %. Este rendimiento lo posiciona por delante de otros modelos de vanguardia, incluidos Claude Opus 4.5 y Gemini 3 Pro. Los resultados indican que los modelos actuales pueden respaldar aspectos de razonamiento estructurado de la investigación, aunque aún queda mucho trabajo por hacer para mejorar sus capacidades de pensamiento abierto. FrontierScience abarca más de 700 preguntas textuales, con 160 en su conjunto dorado, que abarcan subcampos de física, química y biología. FrontierScience-Olympiad presenta 100 preguntas diseñadas en colaboración por 42 medallistas de Olimpíadas internacionales y entrenadores de equipos nacionales. FrontierScience-Research incluye 60 subtareas de investigación originales desarrolladas por 45 científicos con doctorado, incluidos candidatos a doctorado, profesores e investigadores postdoctorales. Para el conjunto de Olimpíadas, la calificación se realiza mediante la verificación de respuestas cortas. Para la pista de Investigación, una arquitectura basada en rúbricas con un sistema de puntuación de 10 puntos evalúa las tareas abiertas. Esta rúbrica evalúa tanto la respuesta final como los pasos intermedios de razonamiento. Un calificador basado en modelos, GPT-5, evalúa las respuestas según estos criterios. La creación de cada tarea implicó seleccionar modelos internos, lo que puede sesgar las evaluaciones en función de modelos específicos. Los resultados clave de rendimiento incluyen:
- Precisión de FrontierScience-Olympiad:
- GPT-5.2: 77,1%
- Géminis 3 Pro: 76,1%
- Claude Opus 4.5: 71,4%
- Precisión de FrontierScience-Research:
- GPT-5.2: 25,2%
- Claude Opus 4.5: 17,5%
- Grok 4: 15,9%
Tiempos de procesamiento más prolongados o mayores esfuerzos de razonamiento se correlacionaron con una precisión mejorada tanto para GPT-5.2 como para OpenAI o3. Por ejemplo, la precisión de GPT-5.2 en FrontierScience-Olympiad aumentó del 67,5% con un esfuerzo de razonamiento «Bajo» al 77,1% con un esfuerzo «XAlto». De manera similar, en FrontierScience-Research, la precisión de GPT-5.2 aumentó del 18,2% en «Bajo» al 25,2% en «XAlto». FrontierScience actualmente se centra en planteamientos de problemas restringidos y no evalúa la generación de hipótesis novedosas o interacciones con datos multimodales. Los desarrolladores planean repetir el punto de referencia, expandirlo a nuevos dominios e integrar más evaluaciones del mundo real a medida que mejoren los modelos.





