Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

byKerem Gülen
30 diciembre 2025
in Investigación
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Según un estudio reciente, los modelos de lenguajes grandes han tenido problemas con la multiplicación de varios dígitos sin métodos de entrenamiento especializados, a pesar de su capacidad para manejar tareas complejas de codificación y razonamiento. Investigación publicada sobre el arXiv Servidor de preimpresión de Xiaoyan Bai y Chenhao Tan de la Universidad de Chicago, junto con colaboradores del MIT, la Universidad de Harvard, la Universidad de Waterloo y Google DeepMind, identificaron las razones de esta limitación y encontraron soluciones. Los modelos estándar de lenguaje grande lograron menos del 1% de precisión al multiplicar dos números de cuatro dígitos, incluso con capas aumentadas hasta 12. Estos modelos convergieron en un «óptimo local», sin poder almacenar ni recuperar cálculos intermedios necesarios para la multiplicación de varios dígitos, que se clasifican como dependencias de largo alcance. Por el contrario, un modelo entrenado con el método de Cadena de Pensamiento Implícita (ICoT) logró una precisión del 100%. El modelo ICoT demostró la capacidad de rastrear dependencias de largo alcance e internalizar procesos de razonamiento eliminando gradualmente pasos de razonamiento intermedios durante el entrenamiento. El equipo de investigación decodificó valores intermedios, como sumas acumuladas, de los estados internos del modelo ICoT, lo que no era posible con el modelo de ajuste fino estándar. El modelo ICoT organizó su atención en distintas vías, computando productos de pares de dígitos en las primeras capas y almacenándolos en ubicaciones específicas para su recuperación en capas posteriores. Esto creó una estructura interna eficiente para la multiplicación. El estudio también encontró que el modelo ICoT representaba operaciones utilizando estructuras elegantes, codificando dígitos como patrones ondulantes (bases de Fourier) y organizando la aritmética espacialmente. Durante la multiplicación de pares de dígitos, el modelo utilizó naturalmente una operación geométrica llamada suma de Minkowski, que no fue programada explícitamente por los investigadores. Los investigadores lograron una precisión del 99 % en un modelo de dos capas al introducir un objetivo de entrenamiento modificado que enseñó al modelo a realizar un seguimiento de las sumas acumuladas en cada paso, llevando así valores intermedios y productos parciales. Esta adición permitió que el modelo desarrollara mecanismos similares a los de ICoT, incluido el almacenamiento y la recuperación de productos parciales y el seguimiento de múltiples pares de dígitos simultáneamente. Chenhao Tan dijo: «Nuestra investigación está tratando de trazar ese terreno». El estudio destaca que los conocimientos arquitectónicos y las técnicas de capacitación pueden superar obstáculos que el escalamiento por sí solo no puede abordar, enfatizando la importancia de la orientación integrada para mejorar las capacidades de IA. Los hallazgos iluminan aspectos fundamentales de cómo aprenden y «piensan» los modelos de lenguaje grandes, y el problema de dependencia de largo alcance se extiende más allá de la aritmética a otras tareas secuenciales en el modelado del lenguaje.


Crédito de imagen destacada

Tags: AImatemáticas

Related Posts

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

3 junio 2026
Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

20 mayo 2026
Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

20 mayo 2026
Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

20 mayo 2026
Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

20 mayo 2026
El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

19 mayo 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.