Toque «Run» en un asistente de motor GPT y luego mira la ruleta. Los segundos se extienden en minutos, los medidores de token suben, y el medidor de su factura de OpenAI se arrastra más alto. La latencia y el costo se han convertido en el impuesto invisible en el auge del modelo de lenguaje grande, especialmente cuando una sola consulta difícil puede desencadenar miles de nuevas fichas de inferencia. Una nueva propuesta de investigación llamada Computación de tiempo para dormir argumenta que esos tokens a menudo se gastan en la fase equivocada del flujo de trabajo. En lugar de meter todo el razonamiento en el momento en que ingresan el usuario, ¿por qué no dejar que el modelo «piense» durante sus horas inactivas, transforme el contexto sin procesar en una visión reutilizable y recorte la factura cuando finalmente llega la verdadera pregunta?
La idea se siente familiar para cualquiera que haya programado un índice de base de datos o código compilado antes de enviar: preprocesamiento mientras nadie mira, responda instantáneamente cuando lo están. Sin embargo, aplicar esa mentalidad a los modelos de idiomas requiere nuevos puntos de referencia, contabilidad cuidadosa y prueba de que el esfuerzo fuera de línea se transfiere a la precisión en línea. Kevin Lin y sus colegas de Letta y UC Berkeley suministran exactamente esa evidencia en «Computación de tiempo de sueño: más allá de la escala de inferencia en Test -Time«, Y sus números sugieren un replanteamiento de cómo los productos de la GPU de los productos AI empresariales.
La escala tradicional de Test -Time le dice a un LLM que trabaje más duro cuando la pregunta es difícil: muestree múltiples cadenas de pensamiento, extienda el rastro de razonamiento, las respuestas de vuelos o las docenas de respuestas candidatas en paralelo. Esos trucos aumentan la precisión para las tareas de matemáticas, codificación y conocimiento, pero también inflan la latencia y el drenaje de la billetera. Los usuarios esperan; Los proveedores pagan. Peor aún, el paradigma supone que cada consulta es una única oportunidad que llega con su contexto completo en la misma solicitud.
En el mundo real, los contextos persisten. Los bots de los clientes releen la misma base de conocimiento, los agentes de codificación navegan el mismo repositorio e investigan los copilotos revisitan un corpus de documentos compartidos. Los autores argumentan que en estos entornos con estado, enormes trozos de razonamiento se realizan de manera redundante. Explatos de cómputo de tiempo de sueño que redundancia al permitir que el modelo prepárense el contexto durante las ventanas inactivas, cree una representación destilada y lista para la inferencia y la almacene para una reutilización posterior. Cuando el usuario finalmente pregunta, el LLM responde en una fracción de los tokens porque gran parte del trabajo pesado ya está horneado en el aviso.
¿Por qué el tiempo de sueño de sueño reescribe la curva de costos?
Los investigadores formalizan el flujo de trabajo en dos fases. Durante tiempo de sueño El modelo solo ve el contexto dopredice probables ángulos de interés y produce un contexto reescrito do’ Eso contiene deducciones intermedias, resúmenes estructurados o fragmentos de pensamiento en caché. Durante Test -tiempo la consulta del usuario Q llega. El modelo ahora recibe do’ En lugar del contexto bruto y puede alcanzar la respuesta correcta con un presupuesto de cómputo mucho más pequeño b. Debido a que las horas inactivas son baratas y paralelizables, la organización paga tasas de baja prioridad por el preprocesamiento y preserva la capacidad de inferencia de primas para la capacidad de respuesta de la orientación del usuario.
Para cuantificar el beneficio, el equipo dividió dos suites clásicas de condición matemática: GSM -Symbolic y Aime) De estado Variantes donde cada problema se descompone en un párrafo de contexto y una pregunta separada. También construyeron GSM -Symbolicen el que cada contexto genera varias preguntas relacionadas, imitando a un usuario que sigue hurgando en el mismo documento. La matriz de evaluación comparó la línea de base GPT – 4O, GPT – 4O -Mini, O1, O3 -Mini, Claude sonnet y Deepseek -R1 en tres condiciones: escalado estándar de la prueba de prueba, cómputo de tiempo de sueño con diferentes presupuestos fuera de línea y pasar@@@k Muestreo paralelo.
Lo que muestran los experimentos
En cada modelo, excepto el O1 más pequeño, la estrategia de tiempo de sueño Empujó la frontera de precisión por delantera hacia afuera. En GSM -Symbólico con estado y AIME con estado El informe de los autores:
- 5 × inferior Los tokens de tiempo de prueba alcanzarán la misma precisión que las ejecuciones de pensamiento secuenciales de línea de base.
- 13 por ciento Ganancia de precisión en GSM cuando el presupuesto fuera de línea aumentó hasta cinco generaciones paralelas de tiempo de sueño.
- 18 por ciento Ganancia de precisión en AIME con rastros de razonamiento fuera de línea de mayor esfuerzo.
- 2.5 × Reducción en costo promedio por consulta cuando diez preguntas relacionadas compartieron el mismo contexto preprocesado.
Quizás más llamativo, cómputo de tiempo de sueño vencer el pase canónicok Truco en los presupuestos de igualdad de pruebas. Aprobar-@k Asume que un verificador de Oracle puede elegir instantáneamente lo mejor de k Respuestas muestreadas, una muleta poco realista en producción. El cálculo de tiempo de sueño alcanza una mayor precisión sin ese lujo porque el gran razonamiento ya vive en do’.
La recompensa es sensible a cuán predecible es la pregunta eventual. Cuando los investigadores agruparon los elementos GSM por la probabilidad de registro de que LLAMA – 2 asignó a la pregunta dada el contexto, el delta de precisión entre el tiempo de sueño y la línea de base se amplió para el quintil más predecible. En inglés sencillo: cuanto más obvia es la pregunta de seguimiento, mayor es la victoria al preparar su tarea con anticipación.
Los números son una cosa; Las implicaciones del producto son otra. Los autores ejecutan una prueba de repositorio real llamada Swe -Features en el que un agente debe modificar tres o más archivos para implementar una función. Con solo bajos presupuestos de prueba de prueba, el uso de token de corte de tiempo de tiempo de sueño en aproximadamente un 50 por ciento mientras coincide con F1, lo que significa fusiones más rápidas y facturas de GPU más bajas en bots de integración continua. Con presupuestos muy altos, el razonamiento clásico de Test -time recuperó una ligera ventaja en precisión, lo que sugiere una política híbrida: asignar el cómputo sin conexión agresivamente cuando es importante que la latencia o cuando se reutilicen contextos, recurra a las cadenas ricas en línea solo para consultas altamente impredecibles o altamente impredecibles.
El marco también abre puertas para la generación de datos sintéticos. Si el razonamiento de Sleep -time produce ricas representaciones de lenguaje natural de una base o documento de código, esos artefactos en sí se convierten en datos de capacitación para futuras historias finas, un bucle virtuoso donde el pensamiento fuera de línea semilla la próxima generación de mejoras de modelos sin raspar más texto en Internet.
Operacionalmente, la técnica invita a preguntas de ingeniería. ¿Con qué frecuencia debe actualizarse el caché del contexto? Que tan grande puede do’ ¿Crecer antes de que cancele los ahorros de tokens? ¿Qué ciclos inactivos son realmente gratuitos en un clúster compartido? Sin embargo, ninguno de estos obstáculos se ve tan formidable como la realidad actual de pagar los precios en tiempo real por el razonamiento redundante. Las empresas que ya programan construcciones nocturnas, rastreos de índice de búsqueda o vistas materializadas tienen modelos mentales para esta optimización.
Cómo los LLM se están convirtiendo en silencio en los mejores historiadores de la ciudad
Donde el pensamiento fuera de línea se ajusta a continuación
El cálculo de tiempo de sueño no es una bala de plata. Las consultas que ciegan el sistema o los contextos que mutan demasiado rápido aún exigirán nuevas cadenas de pensamiento. El documento en sí señala la investigación abierta sobre las políticas adaptativas que predicen cuándo valdrá la pena la inversión fuera de línea, tal vez estimando la entropía del contexto o la distribución de la intención del usuario. Aun así, la conclusión central se mantiene: los modelos de idiomas grandes no necesitan pensar solo cuando el usuario está mirando. Al tomar prestado un truco informático de edad, hacer el trabajo de mañana esta noche, los desarrolladores pueden reducir la latencia, reducir las facturas y aún subir la escalera de precisión.
El resultado: Su próxima función LLM podría no requerir un modelo más grande o un presupuesto de razonamiento más profundo. Simplemente puede requerir que el modelo duerma primero en el problema.





