Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Computación de tiempo de sueño: conoce el LLM que piensa mientras duermes

byKerem Gülen
18 abril 2025
in Investigación
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Toque «Run» en un asistente de motor GPT y luego mira la ruleta. Los segundos se extienden en minutos, los medidores de token suben, y el medidor de su factura de OpenAI se arrastra más alto. La latencia y el costo se han convertido en el impuesto invisible en el auge del modelo de lenguaje grande, especialmente cuando una sola consulta difícil puede desencadenar miles de nuevas fichas de inferencia. Una nueva propuesta de investigación llamada Computación de tiempo para dormir argumenta que esos tokens a menudo se gastan en la fase equivocada del flujo de trabajo. En lugar de meter todo el razonamiento en el momento en que ingresan el usuario, ¿por qué no dejar que el modelo «piense» durante sus horas inactivas, transforme el contexto sin procesar en una visión reutilizable y recorte la factura cuando finalmente llega la verdadera pregunta?

La idea se siente familiar para cualquiera que haya programado un índice de base de datos o código compilado antes de enviar: preprocesamiento mientras nadie mira, responda instantáneamente cuando lo están. Sin embargo, aplicar esa mentalidad a los modelos de idiomas requiere nuevos puntos de referencia, contabilidad cuidadosa y prueba de que el esfuerzo fuera de línea se transfiere a la precisión en línea. Kevin Lin y sus colegas de Letta y UC Berkeley suministran exactamente esa evidencia en «Computación de tiempo de sueño: más allá de la escala de inferencia en Test -Time«, Y sus números sugieren un replanteamiento de cómo los productos de la GPU de los productos AI empresariales.

La escala tradicional de Test -Time le dice a un LLM que trabaje más duro cuando la pregunta es difícil: muestree múltiples cadenas de pensamiento, extienda el rastro de razonamiento, las respuestas de vuelos o las docenas de respuestas candidatas en paralelo. Esos trucos aumentan la precisión para las tareas de matemáticas, codificación y conocimiento, pero también inflan la latencia y el drenaje de la billetera. Los usuarios esperan; Los proveedores pagan. Peor aún, el paradigma supone que cada consulta es una única oportunidad que llega con su contexto completo en la misma solicitud.

En el mundo real, los contextos persisten. Los bots de los clientes releen la misma base de conocimiento, los agentes de codificación navegan el mismo repositorio e investigan los copilotos revisitan un corpus de documentos compartidos. Los autores argumentan que en estos entornos con estado, enormes trozos de razonamiento se realizan de manera redundante. Explatos de cómputo de tiempo de sueño que redundancia al permitir que el modelo prepárense el contexto durante las ventanas inactivas, cree una representación destilada y lista para la inferencia y la almacene para una reutilización posterior. Cuando el usuario finalmente pregunta, el LLM responde en una fracción de los tokens porque gran parte del trabajo pesado ya está horneado en el aviso.

¿Por qué el tiempo de sueño de sueño reescribe la curva de costos?

Los investigadores formalizan el flujo de trabajo en dos fases. Durante tiempo de sueño El modelo solo ve el contexto dopredice probables ángulos de interés y produce un contexto reescrito do’ Eso contiene deducciones intermedias, resúmenes estructurados o fragmentos de pensamiento en caché. Durante Test -tiempo la consulta del usuario Q llega. El modelo ahora recibe do’ En lugar del contexto bruto y puede alcanzar la respuesta correcta con un presupuesto de cómputo mucho más pequeño b. Debido a que las horas inactivas son baratas y paralelizables, la organización paga tasas de baja prioridad por el preprocesamiento y preserva la capacidad de inferencia de primas para la capacidad de respuesta de la orientación del usuario.

Para cuantificar el beneficio, el equipo dividió dos suites clásicas de condición matemática: GSM -Symbolic y Aime) De estado Variantes donde cada problema se descompone en un párrafo de contexto y una pregunta separada. También construyeron GSM -Symbolicen el que cada contexto genera varias preguntas relacionadas, imitando a un usuario que sigue hurgando en el mismo documento. La matriz de evaluación comparó la línea de base GPT – 4O, GPT – 4O -Mini, O1, O3 -Mini, Claude sonnet y Deepseek -R1 en tres condiciones: escalado estándar de la prueba de prueba, cómputo de tiempo de sueño con diferentes presupuestos fuera de línea y pasar@@@k Muestreo paralelo.

Lo que muestran los experimentos

En cada modelo, excepto el O1 más pequeño, la estrategia de tiempo de sueño Empujó la frontera de precisión por delantera hacia afuera. En GSM -Symbólico con estado y AIME con estado El informe de los autores:

  • 5 × inferior Los tokens de tiempo de prueba alcanzarán la misma precisión que las ejecuciones de pensamiento secuenciales de línea de base.
  • 13 por ciento Ganancia de precisión en GSM cuando el presupuesto fuera de línea aumentó hasta cinco generaciones paralelas de tiempo de sueño.
  • 18 por ciento Ganancia de precisión en AIME con rastros de razonamiento fuera de línea de mayor esfuerzo.
  • 2.5 × Reducción en costo promedio por consulta cuando diez preguntas relacionadas compartieron el mismo contexto preprocesado.

Quizás más llamativo, cómputo de tiempo de sueño vencer el pase canónicok Truco en los presupuestos de igualdad de pruebas. Aprobar-@k Asume que un verificador de Oracle puede elegir instantáneamente lo mejor de k Respuestas muestreadas, una muleta poco realista en producción. El cálculo de tiempo de sueño alcanza una mayor precisión sin ese lujo porque el gran razonamiento ya vive en do’.

La recompensa es sensible a cuán predecible es la pregunta eventual. Cuando los investigadores agruparon los elementos GSM por la probabilidad de registro de que LLAMA – 2 asignó a la pregunta dada el contexto, el delta de precisión entre el tiempo de sueño y la línea de base se amplió para el quintil más predecible. En inglés sencillo: cuanto más obvia es la pregunta de seguimiento, mayor es la victoria al preparar su tarea con anticipación.

Los números son una cosa; Las implicaciones del producto son otra. Los autores ejecutan una prueba de repositorio real llamada Swe -Features en el que un agente debe modificar tres o más archivos para implementar una función. Con solo bajos presupuestos de prueba de prueba, el uso de token de corte de tiempo de tiempo de sueño en aproximadamente un 50 por ciento mientras coincide con F1, lo que significa fusiones más rápidas y facturas de GPU más bajas en bots de integración continua. Con presupuestos muy altos, el razonamiento clásico de Test -time recuperó una ligera ventaja en precisión, lo que sugiere una política híbrida: asignar el cómputo sin conexión agresivamente cuando es importante que la latencia o cuando se reutilicen contextos, recurra a las cadenas ricas en línea solo para consultas altamente impredecibles o altamente impredecibles.

El marco también abre puertas para la generación de datos sintéticos. Si el razonamiento de Sleep -time produce ricas representaciones de lenguaje natural de una base o documento de código, esos artefactos en sí se convierten en datos de capacitación para futuras historias finas, un bucle virtuoso donde el pensamiento fuera de línea semilla la próxima generación de mejoras de modelos sin raspar más texto en Internet.

Operacionalmente, la técnica invita a preguntas de ingeniería. ¿Con qué frecuencia debe actualizarse el caché del contexto? Que tan grande puede do’ ¿Crecer antes de que cancele los ahorros de tokens? ¿Qué ciclos inactivos son realmente gratuitos en un clúster compartido? Sin embargo, ninguno de estos obstáculos se ve tan formidable como la realidad actual de pagar los precios en tiempo real por el razonamiento redundante. Las empresas que ya programan construcciones nocturnas, rastreos de índice de búsqueda o vistas materializadas tienen modelos mentales para esta optimización.


Cómo los LLM se están convirtiendo en silencio en los mejores historiadores de la ciudad


Donde el pensamiento fuera de línea se ajusta a continuación

El cálculo de tiempo de sueño no es una bala de plata. Las consultas que ciegan el sistema o los contextos que mutan demasiado rápido aún exigirán nuevas cadenas de pensamiento. El documento en sí señala la investigación abierta sobre las políticas adaptativas que predicen cuándo valdrá la pena la inversión fuera de línea, tal vez estimando la entropía del contexto o la distribución de la intención del usuario. Aun así, la conclusión central se mantiene: los modelos de idiomas grandes no necesitan pensar solo cuando el usuario está mirando. Al tomar prestado un truco informático de edad, hacer el trabajo de mañana esta noche, los desarrolladores pueden reducir la latencia, reducir las facturas y aún subir la escalera de precisión.

El resultado: Su próxima función LLM podría no requerir un modelo más grande o un presupuesto de razonamiento más profundo. Simplemente puede requerir que el modelo duerma primero en el problema.


Crédito de imagen destacado

Tags: AILLM

Related Posts

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

3 junio 2026
Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

20 mayo 2026
Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

20 mayo 2026
Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

20 mayo 2026
Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

20 mayo 2026
El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

19 mayo 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.