Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Por qué arrojar más cálculo de IA en la verificación podría ser un error

byKerem Gülen
11 abril 2025
in Investigación
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Obtener modelos de idiomas grandes (LLM) para razonar mejor es una cosa. Hacer que lo hagan sin quemar en cantidades absurdas de cómputo es otra. Un nuevo trabajo de investigación de TU Darmstadt, UCLA, Google Deepmind y Mila profundiza en esta compensación, y podría cambiar la forma en que los desarrolladores de IA piensan sobre el razonamiento de escala en el momento de la prueba.

La tensión del núcleo? Ya sea que LLMS debe gastar su cómputo generando más respuestas (lo que se conoce como autoconsistencia o SC), o verificando algunas respuestas prometedoras utilizando modelos de recompensa generativos (GENRMS). Resulta que elegir mal puede hacer que su modelo se desperdicie hasta 128 veces más calculador, para un aumento de rendimiento apenas notable.

Las nuevas matemáticas del razonamiento a escala

Los LLM como GPT-4, Llama o Qwen se han vuelto sorprendentemente buenos para resolver problemas de matemáticas y ciencias generando múltiples cadenas de pensamiento (COTS) y eligiendo el resultado más común. Esa es la idea detrás de SC – Sabiduría de la Fuerza Bruta de la multitud. Pero los investigadores también han sido entusiasmados con GenRMS, un enfoque más nuevo que permite a los LLM actuar como su propio juez al verificar las respuestas a través de un mayor razonamiento de la cadena de pensamiento.

Las comparaciones anteriores hicieron que GenRM se viera tremendamente eficiente: coincidir con la precisión de SC con 4 × menos soluciones. Pero este documento llama a eso enmarcado, duro. ¿Por qué? Porque nadie contaba el verdadero costo de cómputo de todos esos pasos de verificación.

Los presupuestos de calcular cambian todo

Este estudio introduce un marco limpio para medir el costo real de los enfoques SC y GenRM bajo un presupuesto de cómputo fijo. Funciona así: puede gastar calculando la generación de más respuestas (SC) o dividir ese presupuesto entre algunas respuestas y muchas verificaciones (GENRM). Su modelo para calcular el cálculo de inferencia total es refrescantemente sencillo: c (s, v) = s (1 + λv), donde s es el número de soluciones, v el número de verificaciones y λ refleja la longitud de verificación en relación con las soluciones.

El resultado brutal: SC sigue siendo el rey (a menos que seas rico)

Los experimentos dejaron poca duda. En modelos LLAMA y QWEN, de 7B a 70B de parámetros, y a través de tareas de razonamiento de matemáticas y ciencias, la historia repetida: SC superó a GenRM con presupuestos de cómputo más bajos. Solo cuando el cómputo escaló más allá de 8 × Genrm se puso al día. Y obtener un modesto impulso de rendimiento del 3.8% sobre SC requirió un llamado de 128 × más cómputo.

Ese resultado se mantuvo incluso para «modelos de pensamiento» avanzados como QWQ-32B, y en conjuntos de datos de matemáticas duras como AIME24. SC gana cuando el cálculo es apretado. GenRM solo tiene sentido cuando el cálculo es prácticamente libre, o cuando los problemas son tan difíciles que la verificación vale la pena drásticamente.


IEA advierte: la IA podría duplicar el uso de energía del centro de datos global para 2030


La forma inteligente de usar GenRM (si es necesario)

Aún así, el estudio no descarta por completo a GenRM. De hecho, se deriva Leyes de escala de inferencia Para GenRM: un plan para la resolución de problemas de cómputo. El hallazgo de llave? Al escalar GenRM, asigne el calculador hacia la generación de soluciones más rápido que las verificaciones, aproximadamente 1.5 a 2 veces más rápido. En los números, sus leyes de escala encontraron escalas óptimas de conteo de soluciones con presupuesto de cálculo como S ∝ C^0.57, mientras que las verificaciones óptimas escalan como V ∝ C^0.39.

Esta investigación deja a los profesionales con una guía muy práctica: si el cálculo es limitado, confíe en SC y gastarlo en generar más soluciones. Si el cálculo es abundante, y especialmente si se trata de tareas de razonamiento más difíciles, usar GenRM con el equilibrio de escala correcto podría valer la pena, pero solo con una seria optimización.

Para los desarrolladores de IA que enfrentan limitaciones del mundo real, la comida para llevar es casi cómicamente simple: más pensamiento supera más verificar, a menos que tenga recursos casi infinitos. E incluso entonces, verificar debe ser inteligente, eficiente y mínimo.

El papel completo, «Cuándo resolver, cuándo verificar: calcular la resolución de problemas óptimas y la verificación generativa para el razonamiento de LLM«Está disponible en arxiv. Su base de código está abierta en Github.


Crédito de imagen destacado

Tags: AILLMS

Related Posts

Los investigadores crean un gusano de IA que adapta los ataques sin intervención humana

Los investigadores crean un gusano de IA que adapta los ataques sin intervención humana

4 junio 2026
Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

3 junio 2026
Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

20 mayo 2026
Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

20 mayo 2026
Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

20 mayo 2026
Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

20 mayo 2026

Recent Posts

  • Berriez casino online – mitä sinun tulee tietää
  • Cleobetra tragamonedas: métodos de pago y velocidad de retiros
  • AlterSpin Suomi – täydellinen opas suomalaiselle pelaajalle
  • Pistolo Österreich Casino – umfassende Review und Übersicht
  • AlterSpin pelaa verkossa – tilin vahvistus ja KYC‑opas suomalaisille pelaajille

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.