Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El nuevo marco de prueba de estrés revela defectos en el razonamiento avanzado de IA

byKerem Gülen
29 julio 2025
in Investigación
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Mientras que los sistemas de IA avanzados conocidos como Grandes modelos de razonamiento (LRMS) han demostrado un rendimiento impresionante en los complejos puntos de referencia de resolución de problemas, sus verdaderas capacidades de razonamiento pueden sobreestimarse mediante los métodos de evaluación actuales. Según un artículo reciente de Sajjad Ansari, un nuevo marco de pruebas de estrés de problemas múltiples revela que incluso los modelos de vanguardia luchan en condiciones más realistas.

El marco, detallado en el artículo REST: un marco de prueba de estrés para evaluar el razonamiento de problemas múltiples en modelos de razonamiento grandesfue desarrollado por investigadores de la Universidad de Tsinghua, Opendatalab, el Laboratorio de AI de Shanghai y la Universidad Renmin para abordar las brechas críticas en la forma en que se prueban estos modelos avanzados.

Por qué las pruebas de una sola pregunta se están volviendo obsoletas

La mayoría de los puntos de referencia actuales utilizados para evaluar los LRM, como GSM8K y Math, evalúan los modelos haciendo una pregunta a la vez. Este enfoque tiene dos inconvenientes significativos que limitan su efectividad para medir la verdadera capacidad de razonamiento. Primero, el poder discriminativo de estos puntos de referencia está disminuyendo a medida que los modelos superiores logran puntajes casi perfectos, lo que dificulta la distinción de mejoras significativas entre ellos. Por ejemplo, algunos modelos ahora alcanzan 97% Precisión en puntos de referencia como Math500, un nivel de saturación que obliga a la costosa creación de conjuntos de datos cada vez más duros.

En segundo lugar, las pruebas de una sola pregunta no reflejan escenarios del mundo real en los que los sistemas de IA deben razonar en múltiples problemas que potencialmente interferen al mismo tiempo. Las aplicaciones como el soporte técnico, la tutoría educativa o los asistentes de IA multitarea requieren un manejo dinámico de la carga cognitiva, una habilidad que las pruebas aisladas no pueden medir. Para abordar esto, los investigadores desarrollaron REST (evaluación de razonamiento a través de pruebas simultáneas), un método que envuelve múltiples preguntas de los puntos de referencia existentes en un solo mensaje para simular mejor las demandas del mundo real.


La gran paradoja de Ai Trust está cayendo a medida que su valor se dispara


Hallazgos clave de pruebas de estrés múltiples de problemas

Aplicando el marco de descanso a 34 LRMS avanzados, los investigadores descubrieron varias ideas innovadoras sobre sus verdaderas capacidades. La evaluación, realizada en 7 Diversos puntos de referencia revelaron que el rendimiento se degrada significativamente cuando los modelos se ven obligados a manejar múltiples problemas simultáneamente.

  • Degradación significativa del rendimiento: Incluso los modelos de alto rendimiento como Deepseek-R1 mostraron una caída notable en la precisión cuando se probaron con REST. En puntos de referencia desafiantes como AIME24, la precisión del modelo cayó casi 30% en comparación con su rendimiento en las pruebas de preguntas aisladas.
  • Potencia discriminativa mejorada: REST amplificó drásticamente las diferencias de rendimiento entre los modelos que parecían similares en las pruebas de una sola pregunta. En el punto de referencia de Math500, dos modelos con puntajes iniciales cercanos de 93% y 94.6% mostró un enorme 22% brecha de rendimiento en reposo, con sus precisiones cayendo a 66.75% y 88.97%respectivamente.
  • Insights del método de entrenamiento: El estudio encontró que los modelos ajustados con métodos comunes como el aprendizaje de refuerzo en las tareas de un solo problema a menudo no logran mantener su ventaja en un entorno de problemas múltiples. Sin embargo, los modelos entrenados con técnicas de «Long2Short», que fomentan un razonamiento más conciso y eficiente, mantuvieron una mayor precisión bajo estrés, lo que sugiere una dirección prometedora para el desarrollo futuro.

El marco de descanso simula un alto carga cognitivaobligar a los modelos a asignar recursos dinámicamente, resistir la interferencia de las tareas concurrentes y evitar demasiado pensando en un solo problema. Este método también permite un análisis más matizado de errores que son invisibles en las pruebas de preguntas individuales, como la omisión de preguntas, donde un modelo ignora las preguntas posteriores en un aviso y errores sumarios, donde sintetiza incorrectamente las respuestas de múltiples problemas. Al revitalizar los conjuntos de datos existentes y reflejar las demandas del mundo real, el marco proporciona un paradigma más confiable y a prueba de futuro para evaluar los sistemas de IA de razonamiento de próxima generación.

Tags: LLMLRM

Related Posts

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

3 junio 2026
Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

20 mayo 2026
Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

20 mayo 2026
Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

20 mayo 2026
Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

20 mayo 2026
El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

19 mayo 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.