Obtener modelos de idiomas grandes (LLM) para razonar mejor es una cosa. Hacer que lo hagan sin quemar en cantidades absurdas de cómputo es otra. Un nuevo trabajo de investigación de TU Darmstadt, UCLA, Google Deepmind y Mila profundiza en esta compensación, y podría cambiar la forma en que los desarrolladores de IA piensan sobre el razonamiento de escala en el momento de la prueba.
La tensión del núcleo? Ya sea que LLMS debe gastar su cómputo generando más respuestas (lo que se conoce como autoconsistencia o SC), o verificando algunas respuestas prometedoras utilizando modelos de recompensa generativos (GENRMS). Resulta que elegir mal puede hacer que su modelo se desperdicie hasta 128 veces más calculador, para un aumento de rendimiento apenas notable.
Las nuevas matemáticas del razonamiento a escala
Los LLM como GPT-4, Llama o Qwen se han vuelto sorprendentemente buenos para resolver problemas de matemáticas y ciencias generando múltiples cadenas de pensamiento (COTS) y eligiendo el resultado más común. Esa es la idea detrás de SC – Sabiduría de la Fuerza Bruta de la multitud. Pero los investigadores también han sido entusiasmados con GenRMS, un enfoque más nuevo que permite a los LLM actuar como su propio juez al verificar las respuestas a través de un mayor razonamiento de la cadena de pensamiento.
Las comparaciones anteriores hicieron que GenRM se viera tremendamente eficiente: coincidir con la precisión de SC con 4 × menos soluciones. Pero este documento llama a eso enmarcado, duro. ¿Por qué? Porque nadie contaba el verdadero costo de cómputo de todos esos pasos de verificación.
Los presupuestos de calcular cambian todo
Este estudio introduce un marco limpio para medir el costo real de los enfoques SC y GenRM bajo un presupuesto de cómputo fijo. Funciona así: puede gastar calculando la generación de más respuestas (SC) o dividir ese presupuesto entre algunas respuestas y muchas verificaciones (GENRM). Su modelo para calcular el cálculo de inferencia total es refrescantemente sencillo: c (s, v) = s (1 + λv), donde s es el número de soluciones, v el número de verificaciones y λ refleja la longitud de verificación en relación con las soluciones.
El resultado brutal: SC sigue siendo el rey (a menos que seas rico)
Los experimentos dejaron poca duda. En modelos LLAMA y QWEN, de 7B a 70B de parámetros, y a través de tareas de razonamiento de matemáticas y ciencias, la historia repetida: SC superó a GenRM con presupuestos de cómputo más bajos. Solo cuando el cómputo escaló más allá de 8 × Genrm se puso al día. Y obtener un modesto impulso de rendimiento del 3.8% sobre SC requirió un llamado de 128 × más cómputo.
Ese resultado se mantuvo incluso para «modelos de pensamiento» avanzados como QWQ-32B, y en conjuntos de datos de matemáticas duras como AIME24. SC gana cuando el cálculo es apretado. GenRM solo tiene sentido cuando el cálculo es prácticamente libre, o cuando los problemas son tan difíciles que la verificación vale la pena drásticamente.
IEA advierte: la IA podría duplicar el uso de energía del centro de datos global para 2030
La forma inteligente de usar GenRM (si es necesario)
Aún así, el estudio no descarta por completo a GenRM. De hecho, se deriva Leyes de escala de inferencia Para GenRM: un plan para la resolución de problemas de cómputo. El hallazgo de llave? Al escalar GenRM, asigne el calculador hacia la generación de soluciones más rápido que las verificaciones, aproximadamente 1.5 a 2 veces más rápido. En los números, sus leyes de escala encontraron escalas óptimas de conteo de soluciones con presupuesto de cálculo como S ∝ C^0.57, mientras que las verificaciones óptimas escalan como V ∝ C^0.39.
Esta investigación deja a los profesionales con una guía muy práctica: si el cálculo es limitado, confíe en SC y gastarlo en generar más soluciones. Si el cálculo es abundante, y especialmente si se trata de tareas de razonamiento más difíciles, usar GenRM con el equilibrio de escala correcto podría valer la pena, pero solo con una seria optimización.
Para los desarrolladores de IA que enfrentan limitaciones del mundo real, la comida para llevar es casi cómicamente simple: más pensamiento supera más verificar, a menos que tenga recursos casi infinitos. E incluso entonces, verificar debe ser inteligente, eficiente y mínimo.
El papel completo, «Cuándo resolver, cuándo verificar: calcular la resolución de problemas óptimas y la verificación generativa para el razonamiento de LLM«Está disponible en arxiv. Su base de código está abierta en Github.