El aumento de los modelos de idiomas grandes (LLM) ha sido nada menos que transformador. Estos sistemas de IA se destacan en un razonamiento complejo, descomponen los problemas en pasos estructurados y lógicos conocidos como razonamiento de la cadena de pensamiento (cot). Sin embargo, a medida que la investigación de IA presiona para la eficiencia, surge una pregunta clave: ¿Pueden los modelos más pequeños heredar estas capacidades de razonamiento avanzado a través de la destilación de modelos más grandes?
Un nuevo estudiar Por Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian y Radha Poovendran de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Western Washington sugieren que la respuesta es más complicada de lo que se pensaba anteriormente. En el estudio llamado «Pequeños modelos luchan por aprender de razones fuertes«, Los investigadores han identificado lo que llaman el Brecha de capacidad de aprendizaje del modelo pequeño—Un fenómeno donde los modelos pequeños (≤3b parámetros) luchan por beneficiarse del intrincado razonamiento de sus contrapartes más grandes. En cambio, estos modelos funcionan mejor cuando se entrenan en Pasos de razonamiento más cortos y simples o destilado de otros modelos pequeños.
Este hallazgo desafía la creencia convencional de que más grande siempre es mejor Cuando se trata de transferencia de conocimiento de IA. El estudio también propone un nuevo enfoque para la destilación de IA—No que combina la complejidad del razonamiento para ayudar a los modelos más pequeños a aprender de manera más efectiva.
Por qué los pequeños modelos de IA luchan con un razonamiento complejo
LLMS como GPT-4O, Claude 3 Opus y Géminis están capacitados en conjuntos de datos masivos y optimizados para procesar cadenas de razonamiento intrincadas. Sus explicaciones paso a paso mejoran la precisión de resolución de problemas en campos como Matemáticas, inferencia lógica y toma de decisiones estructuradas.
Naturalmente, los investigadores de IA han intentado «encoger» Esta inteligencia en modelos más pequeños, ajustándolos finales utilizando salidas de modelos más grandes. La idea es sencilla: entrenar un modelo más pequeño en Traces de razonamiento largos y detallados Generado por una IA más grande, con la esperanza de que absorba la misma lógica estructurada.
Pero el estudio encuentra este enfoque a menudo fracasos.
- Los modelos pequeños no pueden internalizar los largos pasos de razonamiento: Cuando se entrenan Explicaciones largas e intrincadaslos modelos más pequeños luchan para generalizar, lo que lleva a caídas de rendimiento.
- Aprenden mejor de las cadenas de razonamiento más simples: Entrenando modelos pequeños en secuencias de razonamiento más cortas y concisas Mejora su capacidad para procesar pasos lógicos.
- Más grande no siempre es mejor para enseñar IA: Las grandes cadenas de razonamiento generadas por modelo no siempre mejoran el razonamiento de los modelos más pequeños, a veces lo obstaculizan.
Este efecto es particularmente evidente en Tareas relacionadas con las matemáticasdonde la resolución estructurada de problemas juega un papel crucial. El equipo de investigación evaluó modelos pequeños en varios puntos de referencia, incluido Matemáticas, GSM8K, AIME, AMC y Olimpiadbenchdescubrir que la destilación de razonamiento compleja a menudo condujo a un rendimiento disminuido.
La solución: la destilación de mezcla
Para abordar esto aprendizaje de cuello de botellalos investigadores proponen un Destilación de mezcla acercarse. En lugar de entrenar exclusivamente pequeños modelos en secuencias de cuna largas o destilarse de modelos grandes, este método Balances la complejidad del razonamiento combinando múltiples estilos de razonamiento.
Su estrategia consta de dos configuraciones:
- Mezcla: Una combinación de cadenas de razonamiento cortas y largasasegurando que los modelos pequeños estén expuestos a la lógica detallada y simplificada.
- Lástima de mezcla: Una mezcla de pasos de razonamiento desde modelos grandes y pequeñosoptimización de la transferencia de conocimiento sin abrumar los modelos más pequeños.
Los experimentos muestran que La destilación de mezcla mejora significativamente el razonamiento del modelo pequeño en comparación con la capacitación en datos de fuente única.
Por ejemplo:
- Qwen2.5-3b-instructo mejorado por 8+ puntos en matemáticas y puntos de referencia de AMC usando Mezclaen comparación con el entrenamiento en solo datos de cuna largos.
- El mismo modelo ganado Más de 7 puntos usando Lástima de mezclaen comparación con la destilación directa de un modelo de maestro grande.
La conclusión? Los modelos pequeños no necesitan imitar modelos grandes textualmente: necesitan una combinación cuidadosamente seleccionada de complejidad de razonamiento.
Crédito de imagen destacado: Kerem Gülen/Midjourney