GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 anotó 92 % en un punto de referencia científico «a prueba de Google», superando significativamente la base de referencia de expertos del 70 %. El modelo avanzado también logró un desempeño ganador de medallas en importantes competencias internacionales, lo que demuestra sus capacidades en evolución en el razonamiento científico. Los científicos utilizan ampliamente estos sistemas para tareas como búsquedas bibliográficas en diversas disciplinas e idiomas, así como para explorar pruebas matemáticas complejas. Este desarrollo a menudo reduce el trabajo que normalmente lleva días o semanas a solo unas pocas horas. el papel, Experimentos tempranos de aceleración científica con GPT-5publicado en noviembre de 2025, proporciona evidencia inicial de que GPT-5 puede acelerar notablemente los flujos de trabajo científicos. Para medir y pronosticar aún más la capacidad de los modelos de IA para acelerar la investigación científica, los desarrolladores introdujeron FrontierScience, un nuevo punto de referencia diseñado para evaluar las capacidades científicas a nivel de expertos. El punto de referencia contiene preguntas escritas y verificadas por expertos en física, química y biología, centrándose en la originalidad y la dificultad. FrontierScience presenta dos pistas distintas:

Olimpíada: Mide las habilidades de razonamiento científico al estilo de las competiciones olímpicas internacionales.
Investigación: Evalúa las capacidades de investigación científica del mundo real.

En las evaluaciones iniciales, GPT-5.2 surgió como el modelo de mejor rendimiento tanto en FrontierScience-Olympiad, con una puntuación del 77 %, como en Investigación, con una puntuación del 25 %. Este rendimiento lo posiciona por delante de otros modelos de vanguardia, incluidos Claude Opus 4.5 y Gemini 3 Pro. Los resultados indican que los modelos actuales pueden respaldar aspectos de razonamiento estructurado de la investigación, aunque aún queda mucho trabajo por hacer para mejorar sus capacidades de pensamiento abierto. FrontierScience abarca más de 700 preguntas textuales, con 160 en su conjunto dorado, que abarcan subcampos de física, química y biología. FrontierScience-Olympiad presenta 100 preguntas diseñadas en colaboración por 42 medallistas de Olimpíadas internacionales y entrenadores de equipos nacionales. FrontierScience-Research incluye 60 subtareas de investigación originales desarrolladas por 45 científicos con doctorado, incluidos candidatos a doctorado, profesores e investigadores postdoctorales. Para el conjunto de Olimpíadas, la calificación se realiza mediante la verificación de respuestas cortas. Para la pista de Investigación, una arquitectura basada en rúbricas con un sistema de puntuación de 10 puntos evalúa las tareas abiertas. Esta rúbrica evalúa tanto la respuesta final como los pasos intermedios de razonamiento. Un calificador basado en modelos, GPT-5, evalúa las respuestas según estos criterios. La creación de cada tarea implicó seleccionar modelos internos, lo que puede sesgar las evaluaciones en función de modelos específicos. Los resultados clave de rendimiento incluyen:

Precisión de FrontierScience-Olympiad:
- GPT-5.2: 77,1%
- Géminis 3 Pro: 76,1%
- Claude Opus 4.5: 71,4%
Precisión de FrontierScience-Research:
- GPT-5.2: 25,2%
- Claude Opus 4.5: 17,5%
- Grok 4: 15,9%

Tiempos de procesamiento más prolongados o mayores esfuerzos de razonamiento se correlacionaron con una precisión mejorada tanto para GPT-5.2 como para OpenAI o3. Por ejemplo, la precisión de GPT-5.2 en FrontierScience-Olympiad aumentó del 67,5% con un esfuerzo de razonamiento «Bajo» al 77,1% con un esfuerzo «XAlto». De manera similar, en FrontierScience-Research, la precisión de GPT-5.2 aumentó del 18,2% en «Bajo» al 25,2% en «XAlto». FrontierScience actualmente se centra en planteamientos de problemas restringidos y no evalúa la generación de hipótesis novedosas o interacciones con datos multimodales. Los desarrolladores planean repetir el punto de referencia, expandirlo a nuevos dominios e integrar más evaluaciones del mundo real a medida que mejoren los modelos.

Crédito de imagen destacada

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

Related Posts

Una startup presenta un modelo de inteligencia artificial basado en osciladores que podría reducir el uso de energía 1.000 veces

Transformación digital de los procesos de adquisiciones: construcción de un sistema de adquisiciones corporativas basado en el ejemplo de un proyecto de holding industrial internacional

Nueva teoría de la materia oscura propone dos tipos de partículas

Investigadores de Penn State construyen un chip informático solar sin batería

La falla de Google Dialogflow CX permitió a los investigadores crear agentes deshonestos

La investigación antrópica presenta GRAM para aislar conocimientos peligrosos de la IA

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

Related Posts

Una startup presenta un modelo de inteligencia artificial basado en osciladores que podría reducir el uso de energía 1.000 veces

Transformación digital de los procesos de adquisiciones: construcción de un sistema de adquisiciones corporativas basado en el ejemplo de un proyecto de holding industrial internacional

Nueva teoría de la materia oscura propone dos tipos de partículas

Investigadores de Penn State construyen un chip informático solar sin batería

La falla de Google Dialogflow CX permitió a los investigadores crear agentes deshonestos

La investigación antrópica presenta GRAM para aislar conocimientos peligrosos de la IA

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us