Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

byKerem Gülen
30 diciembre 2025
in Research
Home Research
Share on FacebookShare on Twitter

Según un estudio reciente, los modelos de lenguajes grandes han tenido problemas con la multiplicación de varios dígitos sin métodos de entrenamiento especializados, a pesar de su capacidad para manejar tareas complejas de codificación y razonamiento. Investigación publicada sobre el arXiv Servidor de preimpresión de Xiaoyan Bai y Chenhao Tan de la Universidad de Chicago, junto con colaboradores del MIT, la Universidad de Harvard, la Universidad de Waterloo y Google DeepMind, identificaron las razones de esta limitación y encontraron soluciones. Los modelos estándar de lenguaje grande lograron menos del 1% de precisión al multiplicar dos números de cuatro dígitos, incluso con capas aumentadas hasta 12. Estos modelos convergieron en un «óptimo local», sin poder almacenar ni recuperar cálculos intermedios necesarios para la multiplicación de varios dígitos, que se clasifican como dependencias de largo alcance. Por el contrario, un modelo entrenado con el método de Cadena de Pensamiento Implícita (ICoT) logró una precisión del 100%. El modelo ICoT demostró la capacidad de rastrear dependencias de largo alcance e internalizar procesos de razonamiento eliminando gradualmente pasos de razonamiento intermedios durante el entrenamiento. El equipo de investigación decodificó valores intermedios, como sumas acumuladas, de los estados internos del modelo ICoT, lo que no era posible con el modelo de ajuste fino estándar. El modelo ICoT organizó su atención en distintas vías, computando productos de pares de dígitos en las primeras capas y almacenándolos en ubicaciones específicas para su recuperación en capas posteriores. Esto creó una estructura interna eficiente para la multiplicación. El estudio también encontró que el modelo ICoT representaba operaciones utilizando estructuras elegantes, codificando dígitos como patrones ondulantes (bases de Fourier) y organizando la aritmética espacialmente. Durante la multiplicación de pares de dígitos, el modelo utilizó naturalmente una operación geométrica llamada suma de Minkowski, que no fue programada explícitamente por los investigadores. Los investigadores lograron una precisión del 99 % en un modelo de dos capas al introducir un objetivo de entrenamiento modificado que enseñó al modelo a realizar un seguimiento de las sumas acumuladas en cada paso, llevando así valores intermedios y productos parciales. Esta adición permitió que el modelo desarrollara mecanismos similares a los de ICoT, incluido el almacenamiento y la recuperación de productos parciales y el seguimiento de múltiples pares de dígitos simultáneamente. Chenhao Tan dijo: «Nuestra investigación está tratando de trazar ese terreno». El estudio destaca que los conocimientos arquitectónicos y las técnicas de capacitación pueden superar obstáculos que el escalamiento por sí solo no puede abordar, enfatizando la importancia de la orientación integrada para mejorar las capacidades de IA. Los hallazgos iluminan aspectos fundamentales de cómo aprenden y «piensan» los modelos de lenguaje grandes, y el problema de dependencia de largo alcance se extiende más allá de la aritmética a otras tareas secuenciales en el modelado del lenguaje.


Crédito de imagen destacada

Tags: AImatemáticas

Related Posts

La IA corrompe la investigación académica con citas de estudios inexistentes

La IA corrompe la investigación académica con citas de estudios inexistentes

30 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

30 diciembre 2025
La IA corrompe la investigación académica con citas de estudios inexistentes

La IA corrompe la investigación académica con citas de estudios inexistentes

30 diciembre 2025
Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025

Recent Posts

  • CachyOS desafía a Ubuntu en nuevos benchmarks de servidores
  • Stoxx 600 bate récord: los mercados europeos alcanzan niveles récord a medida que los mineros se recuperan
  • Un analista predice la estabilidad de Bitcoin sobre el crecimiento para el primer trimestre de 2026
  • La IA corrompe la investigación académica con citas de estudios inexistentes
  • Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.