Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

Según un estudio reciente, los modelos de lenguajes grandes han tenido problemas con la multiplicación de varios dígitos sin métodos de entrenamiento especializados, a pesar de su capacidad para manejar tareas complejas de codificación y razonamiento. Investigación publicada sobre el arXiv Servidor de preimpresión de Xiaoyan Bai y Chenhao Tan de la Universidad de Chicago, junto con colaboradores del MIT, la Universidad de Harvard, la Universidad de Waterloo y Google DeepMind, identificaron las razones de esta limitación y encontraron soluciones. Los modelos estándar de lenguaje grande lograron menos del 1% de precisión al multiplicar dos números de cuatro dígitos, incluso con capas aumentadas hasta 12. Estos modelos convergieron en un «óptimo local», sin poder almacenar ni recuperar cálculos intermedios necesarios para la multiplicación de varios dígitos, que se clasifican como dependencias de largo alcance. Por el contrario, un modelo entrenado con el método de Cadena de Pensamiento Implícita (ICoT) logró una precisión del 100%. El modelo ICoT demostró la capacidad de rastrear dependencias de largo alcance e internalizar procesos de razonamiento eliminando gradualmente pasos de razonamiento intermedios durante el entrenamiento. El equipo de investigación decodificó valores intermedios, como sumas acumuladas, de los estados internos del modelo ICoT, lo que no era posible con el modelo de ajuste fino estándar. El modelo ICoT organizó su atención en distintas vías, computando productos de pares de dígitos en las primeras capas y almacenándolos en ubicaciones específicas para su recuperación en capas posteriores. Esto creó una estructura interna eficiente para la multiplicación. El estudio también encontró que el modelo ICoT representaba operaciones utilizando estructuras elegantes, codificando dígitos como patrones ondulantes (bases de Fourier) y organizando la aritmética espacialmente. Durante la multiplicación de pares de dígitos, el modelo utilizó naturalmente una operación geométrica llamada suma de Minkowski, que no fue programada explícitamente por los investigadores. Los investigadores lograron una precisión del 99 % en un modelo de dos capas al introducir un objetivo de entrenamiento modificado que enseñó al modelo a realizar un seguimiento de las sumas acumuladas en cada paso, llevando así valores intermedios y productos parciales. Esta adición permitió que el modelo desarrollara mecanismos similares a los de ICoT, incluido el almacenamiento y la recuperación de productos parciales y el seguimiento de múltiples pares de dígitos simultáneamente. Chenhao Tan dijo: «Nuestra investigación está tratando de trazar ese terreno». El estudio destaca que los conocimientos arquitectónicos y las técnicas de capacitación pueden superar obstáculos que el escalamiento por sí solo no puede abordar, enfatizando la importancia de la orientación integrada para mejorar las capacidades de IA. Los hallazgos iluminan aspectos fundamentales de cómo aprenden y «piensan» los modelos de lenguaje grandes, y el problema de dependencia de largo alcance se extiende más allá de la aritmética a otras tareas secuenciales en el modelado del lenguaje.

Crédito de imagen destacada

Tags: AI matemáticas

Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

Related Posts

Nueva teoría de la materia oscura propone dos tipos de partículas

Investigadores de Penn State construyen un chip informático solar sin batería

La falla de Google Dialogflow CX permitió a los investigadores crear agentes deshonestos

La investigación antrópica presenta GRAM para aislar conocimientos peligrosos de la IA

Los envíos mundiales de PC caen un 5 % a medida que la crisis de la memoria impulsada por la IA golpea las cadenas de suministro

Sólo el 6% de los trabajadores de escritorio de Singapur utilizan IA a diario, dice Salesforce

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Los modelos estándar de IA fallan en matemáticas simples sin capacitación especializada

Related Posts

Nueva teoría de la materia oscura propone dos tipos de partículas

Investigadores de Penn State construyen un chip informático solar sin batería

La falla de Google Dialogflow CX permitió a los investigadores crear agentes deshonestos

La investigación antrópica presenta GRAM para aislar conocimientos peligrosos de la IA

Los envíos mundiales de PC caen un 5 % a medida que la crisis de la memoria impulsada por la IA golpea las cadenas de suministro

Sólo el 6% de los trabajadores de escritorio de Singapur utilizan IA a diario, dice Salesforce

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us