Mientras que los sistemas de IA avanzados conocidos como Grandes modelos de razonamiento (LRMS) han demostrado un rendimiento impresionante en los complejos puntos de referencia de resolución de problemas, sus verdaderas capacidades de razonamiento pueden sobreestimarse mediante los métodos de evaluación actuales. Según un artículo reciente de Sajjad Ansari, un nuevo marco de pruebas de estrés de problemas múltiples revela que incluso los modelos de vanguardia luchan en condiciones más realistas.
El marco, detallado en el artículo REST: un marco de prueba de estrés para evaluar el razonamiento de problemas múltiples en modelos de razonamiento grandesfue desarrollado por investigadores de la Universidad de Tsinghua, Opendatalab, el Laboratorio de AI de Shanghai y la Universidad Renmin para abordar las brechas críticas en la forma en que se prueban estos modelos avanzados.
Por qué las pruebas de una sola pregunta se están volviendo obsoletas
La mayoría de los puntos de referencia actuales utilizados para evaluar los LRM, como GSM8K y Math, evalúan los modelos haciendo una pregunta a la vez. Este enfoque tiene dos inconvenientes significativos que limitan su efectividad para medir la verdadera capacidad de razonamiento. Primero, el poder discriminativo de estos puntos de referencia está disminuyendo a medida que los modelos superiores logran puntajes casi perfectos, lo que dificulta la distinción de mejoras significativas entre ellos. Por ejemplo, algunos modelos ahora alcanzan 97% Precisión en puntos de referencia como Math500, un nivel de saturación que obliga a la costosa creación de conjuntos de datos cada vez más duros.
En segundo lugar, las pruebas de una sola pregunta no reflejan escenarios del mundo real en los que los sistemas de IA deben razonar en múltiples problemas que potencialmente interferen al mismo tiempo. Las aplicaciones como el soporte técnico, la tutoría educativa o los asistentes de IA multitarea requieren un manejo dinámico de la carga cognitiva, una habilidad que las pruebas aisladas no pueden medir. Para abordar esto, los investigadores desarrollaron REST (evaluación de razonamiento a través de pruebas simultáneas), un método que envuelve múltiples preguntas de los puntos de referencia existentes en un solo mensaje para simular mejor las demandas del mundo real.
La gran paradoja de Ai Trust está cayendo a medida que su valor se dispara
Hallazgos clave de pruebas de estrés múltiples de problemas
Aplicando el marco de descanso a 34 LRMS avanzados, los investigadores descubrieron varias ideas innovadoras sobre sus verdaderas capacidades. La evaluación, realizada en 7 Diversos puntos de referencia revelaron que el rendimiento se degrada significativamente cuando los modelos se ven obligados a manejar múltiples problemas simultáneamente.
- Degradación significativa del rendimiento: Incluso los modelos de alto rendimiento como Deepseek-R1 mostraron una caída notable en la precisión cuando se probaron con REST. En puntos de referencia desafiantes como AIME24, la precisión del modelo cayó casi 30% en comparación con su rendimiento en las pruebas de preguntas aisladas.
- Potencia discriminativa mejorada: REST amplificó drásticamente las diferencias de rendimiento entre los modelos que parecían similares en las pruebas de una sola pregunta. En el punto de referencia de Math500, dos modelos con puntajes iniciales cercanos de 93% y 94.6% mostró un enorme 22% brecha de rendimiento en reposo, con sus precisiones cayendo a 66.75% y 88.97%respectivamente.
- Insights del método de entrenamiento: El estudio encontró que los modelos ajustados con métodos comunes como el aprendizaje de refuerzo en las tareas de un solo problema a menudo no logran mantener su ventaja en un entorno de problemas múltiples. Sin embargo, los modelos entrenados con técnicas de «Long2Short», que fomentan un razonamiento más conciso y eficiente, mantuvieron una mayor precisión bajo estrés, lo que sugiere una dirección prometedora para el desarrollo futuro.
El marco de descanso simula un alto carga cognitivaobligar a los modelos a asignar recursos dinámicamente, resistir la interferencia de las tareas concurrentes y evitar demasiado pensando en un solo problema. Este método también permite un análisis más matizado de errores que son invisibles en las pruebas de preguntas individuales, como la omisión de preguntas, donde un modelo ignora las preguntas posteriores en un aviso y errores sumarios, donde sintetiza incorrectamente las respuestas de múltiples problemas. Al revitalizar los conjuntos de datos existentes y reflejar las demandas del mundo real, el marco proporciona un paradigma más confiable y a prueba de futuro para evaluar los sistemas de IA de razonamiento de próxima generación.





