Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El nuevo marco de prueba de estrés revela defectos en el razonamiento avanzado de IA

byKerem Gülen
29 julio 2025
in Research
Home Research
Share on FacebookShare on Twitter

Mientras que los sistemas de IA avanzados conocidos como Grandes modelos de razonamiento (LRMS) han demostrado un rendimiento impresionante en los complejos puntos de referencia de resolución de problemas, sus verdaderas capacidades de razonamiento pueden sobreestimarse mediante los métodos de evaluación actuales. Según un artículo reciente de Sajjad Ansari, un nuevo marco de pruebas de estrés de problemas múltiples revela que incluso los modelos de vanguardia luchan en condiciones más realistas.

El marco, detallado en el artículo REST: un marco de prueba de estrés para evaluar el razonamiento de problemas múltiples en modelos de razonamiento grandesfue desarrollado por investigadores de la Universidad de Tsinghua, Opendatalab, el Laboratorio de AI de Shanghai y la Universidad Renmin para abordar las brechas críticas en la forma en que se prueban estos modelos avanzados.

Por qué las pruebas de una sola pregunta se están volviendo obsoletas

La mayoría de los puntos de referencia actuales utilizados para evaluar los LRM, como GSM8K y Math, evalúan los modelos haciendo una pregunta a la vez. Este enfoque tiene dos inconvenientes significativos que limitan su efectividad para medir la verdadera capacidad de razonamiento. Primero, el poder discriminativo de estos puntos de referencia está disminuyendo a medida que los modelos superiores logran puntajes casi perfectos, lo que dificulta la distinción de mejoras significativas entre ellos. Por ejemplo, algunos modelos ahora alcanzan 97% Precisión en puntos de referencia como Math500, un nivel de saturación que obliga a la costosa creación de conjuntos de datos cada vez más duros.

En segundo lugar, las pruebas de una sola pregunta no reflejan escenarios del mundo real en los que los sistemas de IA deben razonar en múltiples problemas que potencialmente interferen al mismo tiempo. Las aplicaciones como el soporte técnico, la tutoría educativa o los asistentes de IA multitarea requieren un manejo dinámico de la carga cognitiva, una habilidad que las pruebas aisladas no pueden medir. Para abordar esto, los investigadores desarrollaron REST (evaluación de razonamiento a través de pruebas simultáneas), un método que envuelve múltiples preguntas de los puntos de referencia existentes en un solo mensaje para simular mejor las demandas del mundo real.


La gran paradoja de Ai Trust está cayendo a medida que su valor se dispara


Hallazgos clave de pruebas de estrés múltiples de problemas

Aplicando el marco de descanso a 34 LRMS avanzados, los investigadores descubrieron varias ideas innovadoras sobre sus verdaderas capacidades. La evaluación, realizada en 7 Diversos puntos de referencia revelaron que el rendimiento se degrada significativamente cuando los modelos se ven obligados a manejar múltiples problemas simultáneamente.

  • Degradación significativa del rendimiento: Incluso los modelos de alto rendimiento como Deepseek-R1 mostraron una caída notable en la precisión cuando se probaron con REST. En puntos de referencia desafiantes como AIME24, la precisión del modelo cayó casi 30% en comparación con su rendimiento en las pruebas de preguntas aisladas.
  • Potencia discriminativa mejorada: REST amplificó drásticamente las diferencias de rendimiento entre los modelos que parecían similares en las pruebas de una sola pregunta. En el punto de referencia de Math500, dos modelos con puntajes iniciales cercanos de 93% y 94.6% mostró un enorme 22% brecha de rendimiento en reposo, con sus precisiones cayendo a 66.75% y 88.97%respectivamente.
  • Insights del método de entrenamiento: El estudio encontró que los modelos ajustados con métodos comunes como el aprendizaje de refuerzo en las tareas de un solo problema a menudo no logran mantener su ventaja en un entorno de problemas múltiples. Sin embargo, los modelos entrenados con técnicas de «Long2Short», que fomentan un razonamiento más conciso y eficiente, mantuvieron una mayor precisión bajo estrés, lo que sugiere una dirección prometedora para el desarrollo futuro.

El marco de descanso simula un alto carga cognitivaobligar a los modelos a asignar recursos dinámicamente, resistir la interferencia de las tareas concurrentes y evitar demasiado pensando en un solo problema. Este método también permite un análisis más matizado de errores que son invisibles en las pruebas de preguntas individuales, como la omisión de preguntas, donde un modelo ignora las preguntas posteriores en un aviso y errores sumarios, donde sintetiza incorrectamente las respuestas de múltiples problemas. Al revitalizar los conjuntos de datos existentes y reflejar las demandas del mundo real, el marco proporciona un paradigma más confiable y a prueba de futuro para evaluar los sistemas de IA de razonamiento de próxima generación.

Tags: LLMLRM

Related Posts

Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025

Recent Posts

  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"
  • ChatGPT evoluciona hacia una suite ofimática con nuevos bloques de formato
  • Google NotebookLM presenta "Modo conferencia" para aprendizaje de IA de 30 minutos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.