Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

byKerem Gülen
24 diciembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

GPT-5.2 anotó 92 % en un punto de referencia científico «a prueba de Google», superando significativamente la base de referencia de expertos del 70 %. El modelo avanzado también logró un desempeño ganador de medallas en importantes competencias internacionales, lo que demuestra sus capacidades en evolución en el razonamiento científico. Los científicos utilizan ampliamente estos sistemas para tareas como búsquedas bibliográficas en diversas disciplinas e idiomas, así como para explorar pruebas matemáticas complejas. Este desarrollo a menudo reduce el trabajo que normalmente lleva días o semanas a solo unas pocas horas. el papel, Experimentos tempranos de aceleración científica con GPT-5publicado en noviembre de 2025, proporciona evidencia inicial de que GPT-5 puede acelerar notablemente los flujos de trabajo científicos. Para medir y pronosticar aún más la capacidad de los modelos de IA para acelerar la investigación científica, los desarrolladores introdujeron FrontierScience, un nuevo punto de referencia diseñado para evaluar las capacidades científicas a nivel de expertos. El punto de referencia contiene preguntas escritas y verificadas por expertos en física, química y biología, centrándose en la originalidad y la dificultad. FrontierScience presenta dos pistas distintas:

  • Olimpíada: Mide las habilidades de razonamiento científico al estilo de las competiciones olímpicas internacionales.
  • Investigación: Evalúa las capacidades de investigación científica del mundo real.

En las evaluaciones iniciales, GPT-5.2 surgió como el modelo de mejor rendimiento tanto en FrontierScience-Olympiad, con una puntuación del 77 %, como en Investigación, con una puntuación del 25 %. Este rendimiento lo posiciona por delante de otros modelos de vanguardia, incluidos Claude Opus 4.5 y Gemini 3 Pro. Los resultados indican que los modelos actuales pueden respaldar aspectos de razonamiento estructurado de la investigación, aunque aún queda mucho trabajo por hacer para mejorar sus capacidades de pensamiento abierto. FrontierScience abarca más de 700 preguntas textuales, con 160 en su conjunto dorado, que abarcan subcampos de física, química y biología. FrontierScience-Olympiad presenta 100 preguntas diseñadas en colaboración por 42 medallistas de Olimpíadas internacionales y entrenadores de equipos nacionales. FrontierScience-Research incluye 60 subtareas de investigación originales desarrolladas por 45 científicos con doctorado, incluidos candidatos a doctorado, profesores e investigadores postdoctorales. Para el conjunto de Olimpíadas, la calificación se realiza mediante la verificación de respuestas cortas. Para la pista de Investigación, una arquitectura basada en rúbricas con un sistema de puntuación de 10 puntos evalúa las tareas abiertas. Esta rúbrica evalúa tanto la respuesta final como los pasos intermedios de razonamiento. Un calificador basado en modelos, GPT-5, evalúa las respuestas según estos criterios. La creación de cada tarea implicó seleccionar modelos internos, lo que puede sesgar las evaluaciones en función de modelos específicos. Los resultados clave de rendimiento incluyen:

  • Precisión de FrontierScience-Olympiad:
    • GPT-5.2: 77,1%
    • Géminis 3 Pro: 76,1%
    • Claude Opus 4.5: 71,4%
  • Precisión de FrontierScience-Research:
    • GPT-5.2: 25,2%
    • Claude Opus 4.5: 17,5%
    • Grok 4: 15,9%

Tiempos de procesamiento más prolongados o mayores esfuerzos de razonamiento se correlacionaron con una precisión mejorada tanto para GPT-5.2 como para OpenAI o3. Por ejemplo, la precisión de GPT-5.2 en FrontierScience-Olympiad aumentó del 67,5% con un esfuerzo de razonamiento «Bajo» al 77,1% con un esfuerzo «XAlto». De manera similar, en FrontierScience-Research, la precisión de GPT-5.2 aumentó del 18,2% en «Bajo» al 25,2% en «XAlto». FrontierScience actualmente se centra en planteamientos de problemas restringidos y no evalúa la generación de hipótesis novedosas o interacciones con datos multimodales. Los desarrolladores planean repetir el punto de referencia, expandirlo a nuevos dominios e integrar más evaluaciones del mundo real a medida que mejoren los modelos.


Crédito de imagen destacada

Tags: abiertaAIFronteraCienciagpt-5.2

Related Posts

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025
Un estudio de USENIX encuentra que las extensiones de IA recopilan datos médicos y bancarios

Un estudio de USENIX encuentra que las extensiones de IA recopilan datos médicos y bancarios

15 diciembre 2025
La IA refleja el procesamiento del cerebro y está cambiando silenciosamente el vocabulario humano

La IA refleja el procesamiento del cerebro y está cambiando silenciosamente el vocabulario humano

11 diciembre 2025

Recent Posts

  • Nvidia firma un acuerdo de licencia de 20.000 millones de dólares con la startup de chips de IA Groq
  • Los robotaxis Waymo pueden tener el asistente de automóvil Gemini AI
  • Por qué NVIDIA se salta Intel 18A para sus chips AI de próxima generación
  • ChatGPT para ganar como Claude "Habilidades" característica
  • La filtración revela que Realme Neo8 contará con una batería de 8.000 mAh

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.