Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Por qué los modelos de IA pequeños no pueden mantenerse al día con los grandes

byKerem Gülen
18 febrero 2025
in Research
Home Research

El aumento de los modelos de idiomas grandes (LLM) ha sido nada menos que transformador. Estos sistemas de IA se destacan en un razonamiento complejo, descomponen los problemas en pasos estructurados y lógicos conocidos como razonamiento de la cadena de pensamiento (cot). Sin embargo, a medida que la investigación de IA presiona para la eficiencia, surge una pregunta clave: ¿Pueden los modelos más pequeños heredar estas capacidades de razonamiento avanzado a través de la destilación de modelos más grandes?

Un nuevo estudiar Por Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian y Radha Poovendran de la Universidad de Washington, la Universidad Carnegie Mellon y la Universidad Western Washington sugieren que la respuesta es más complicada de lo que se pensaba anteriormente. En el estudio llamado «Pequeños modelos luchan por aprender de razones fuertes«, Los investigadores han identificado lo que llaman el Brecha de capacidad de aprendizaje del modelo pequeño—Un fenómeno donde los modelos pequeños (≤3b parámetros) luchan por beneficiarse del intrincado razonamiento de sus contrapartes más grandes. En cambio, estos modelos funcionan mejor cuando se entrenan en Pasos de razonamiento más cortos y simples o destilado de otros modelos pequeños.

Este hallazgo desafía la creencia convencional de que más grande siempre es mejor Cuando se trata de transferencia de conocimiento de IA. El estudio también propone un nuevo enfoque para la destilación de IA—No que combina la complejidad del razonamiento para ayudar a los modelos más pequeños a aprender de manera más efectiva.

Por qué los pequeños modelos de IA luchan con un razonamiento complejo

LLMS como GPT-4O, Claude 3 Opus y Géminis están capacitados en conjuntos de datos masivos y optimizados para procesar cadenas de razonamiento intrincadas. Sus explicaciones paso a paso mejoran la precisión de resolución de problemas en campos como Matemáticas, inferencia lógica y toma de decisiones estructuradas.

Naturalmente, los investigadores de IA han intentado «encoger» Esta inteligencia en modelos más pequeños, ajustándolos finales utilizando salidas de modelos más grandes. La idea es sencilla: entrenar un modelo más pequeño en Traces de razonamiento largos y detallados Generado por una IA más grande, con la esperanza de que absorba la misma lógica estructurada.

Pero el estudio encuentra este enfoque a menudo fracasos.

  • Los modelos pequeños no pueden internalizar los largos pasos de razonamiento: Cuando se entrenan Explicaciones largas e intrincadaslos modelos más pequeños luchan para generalizar, lo que lleva a caídas de rendimiento.
  • Aprenden mejor de las cadenas de razonamiento más simples: Entrenando modelos pequeños en secuencias de razonamiento más cortas y concisas Mejora su capacidad para procesar pasos lógicos.
  • Más grande no siempre es mejor para enseñar IA: Las grandes cadenas de razonamiento generadas por modelo no siempre mejoran el razonamiento de los modelos más pequeños, a veces lo obstaculizan.

Este efecto es particularmente evidente en Tareas relacionadas con las matemáticasdonde la resolución estructurada de problemas juega un papel crucial. El equipo de investigación evaluó modelos pequeños en varios puntos de referencia, incluido Matemáticas, GSM8K, AIME, AMC y Olimpiadbenchdescubrir que la destilación de razonamiento compleja a menudo condujo a un rendimiento disminuido.

La solución: la destilación de mezcla

Para abordar esto aprendizaje de cuello de botellalos investigadores proponen un Destilación de mezcla acercarse. En lugar de entrenar exclusivamente pequeños modelos en secuencias de cuna largas o destilarse de modelos grandes, este método Balances la complejidad del razonamiento combinando múltiples estilos de razonamiento.

Su estrategia consta de dos configuraciones:

  1. Mezcla: Una combinación de cadenas de razonamiento cortas y largasasegurando que los modelos pequeños estén expuestos a la lógica detallada y simplificada.
  2. Lástima de mezcla: Una mezcla de pasos de razonamiento desde modelos grandes y pequeñosoptimización de la transferencia de conocimiento sin abrumar los modelos más pequeños.

Los experimentos muestran que La destilación de mezcla mejora significativamente el razonamiento del modelo pequeño en comparación con la capacitación en datos de fuente única.

Por ejemplo:

  • Qwen2.5-3b-instructo mejorado por 8+ puntos en matemáticas y puntos de referencia de AMC usando Mezclaen comparación con el entrenamiento en solo datos de cuna largos.
  • El mismo modelo ganado Más de 7 puntos usando Lástima de mezclaen comparación con la destilación directa de un modelo de maestro grande.

La conclusión? Los modelos pequeños no necesitan imitar modelos grandes textualmente: necesitan una combinación cuidadosamente seleccionada de complejidad de razonamiento.


Crédito de imagen destacado: Kerem Gülen/Midjourney

Tags: AI

Related Posts

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

14 mayo 2025
¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

14 mayo 2025
Adele de Microsoft quiere darle a su IA un perfil cognitivo

Adele de Microsoft quiere darle a su IA un perfil cognitivo

14 mayo 2025
El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

14 mayo 2025
Investigación: El estándar de oro para la evaluación de Genai

Investigación: El estándar de oro para la evaluación de Genai

12 mayo 2025
AI finalmente resuelve el rompecabezas más duro de la biología

AI finalmente resuelve el rompecabezas más duro de la biología

6 mayo 2025

Recent Posts

  • El impacto de las telas inteligentes en el rendimiento de la ropa táctica
  • Databricks apuesta grande en Postgres sin servidor con su adquisición de neón de $ 1 mil millones
  • Alphaevolve: Cómo la nueva IA de Google apunta a la verdad con la autocorrección
  • Tiktok está implementando textos alternativos generados por AI para una mejor acesibilidad
  • Trump obliga a Apple a repensar su estrategia de iPhone de la India

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.