Los investigadores de Goodfire.ai aislaron vías de memorización y razonamiento en redes neuronales de IA, detalladas en una preimpresión de finales de octubre papel. La investigación demuestra una clara separación de estas funciones dentro de grandes modelos de lenguaje. Cuando se eliminaron las vías de memorización, los modelos perdieron el 97 por ciento de su capacidad para recitar datos de entrenamiento palabra por palabra. Sin embargo, su capacidad de «razonamiento lógico» permaneció prácticamente intacta. Los investigadores clasificaron los componentes del peso de mayor a menor según la «curvatura». En el modelo de lenguaje OLMo-7B del Instituto Allen de IA, la capa 22 mostró que el 50 por ciento inferior de los componentes de peso tenía una activación un 23 por ciento mayor en los datos memorizados. Por el contrario, el 10 por ciento superior exhibió una activación un 26 por ciento mayor en textos generales no memorizados. Esta división mecanicista permitió la eliminación quirúrgica de la memorización preservando al mismo tiempo otras capacidades. La eliminación de los componentes peor clasificados eliminó la memorización; retener a los mejor clasificados se encargó de la resolución de problemas. Las operaciones aritméticas parecen compartir vías neuronales con la memorización más que con el razonamiento lógico. La eliminación de los circuitos de memorización provocó que el rendimiento matemático cayera en picado al 66 por ciento, mientras que las tareas lógicas permanecieron casi intactas. Esto puede explicar por qué los modelos de IA tienen dificultades con las matemáticas sin herramientas externas, basándose en datos memorizados como «2+2=4» en lugar de cálculos. El «razonamiento» de la IA abarca habilidades como evaluar declaraciones verdaderas/falsas y seguir reglas si-entonces, que sobrevivieron a la eliminación de la memoria. Esto difiere del «razonamiento matemático» más profundo necesario para pruebas o resolución de problemas novedosos, con el que los modelos actuales de IA luchan incluso con capacidades intactas de coincidencia de patrones. El desarrollo futuro de estas técnicas de eliminación de información podría permitir a las empresas de inteligencia artificial eliminar contenido protegido por derechos de autor, información privada o texto memorizado dañino de las redes neuronales sin destruir el desempeño de las tareas transformadoras. Sin embargo, los investigadores afirman que su método «no puede garantizar la eliminación completa de la información confidencial» debido a la naturaleza distribuida del almacenamiento de información en las redes neuronales. Comprender esta distinción implica el «panorama de pérdidas», una visualización de la precisión de la predicción de un modelo de IA basada en configuraciones internas o «ponderaciones». La «pérdida» mide los errores; una pérdida baja indica pocos errores. El «paisaje» asigna tasas de error para todas las combinaciones de configuración posibles. Durante el entrenamiento, los modelos de IA ajustan los pesos para minimizar los errores, «rodando cuesta abajo» en este paisaje. Los investigadores analizaron la «curvatura» de los paisajes de pérdidas, midiendo la sensibilidad del rendimiento del modelo a pequeños cambios en los pesos de las redes neuronales. Una curvatura alta indica picos y valles pronunciados, lo que significa que pequeños cambios tienen efectos significativos. La baja curvatura significa llanuras planas donde los cambios tienen un impacto mínimo. Estos valores de curvatura se utilizaron para clasificar los componentes de peso. Utilizando K-FAC (curvatura aproximada factorizada por Kronecker), los científicos descubrieron que los datos memorizados individuales crean picos agudos e idiosincrásicos en el paisaje que se aplanan cuando se promedian. Por el contrario, las capacidades de razonamiento, en las que se basan muchos aportes diferentes, mantienen curvas consistentes y moderadas. Los investigadores indican que «las direcciones que implementan mecanismos compartidos utilizados por muchas entradas se suman coherentemente y permanecen en promedio con una alta curvatura», describiendo vías de razonamiento. La memorización, por el contrario, utiliza «direcciones idiosincrásicas y precisas asociadas con ejemplos específicos» que parecen planas cuando se promedian. La técnica se probó en múltiples sistemas de IA, incluida la familia OLMo-2 del Instituto Allen (versiones de 7 mil millones y mil millones de parámetros) y transformadores de visión personalizados de 86 millones de parámetros (modelos ViT-Base) en ImageNet. También validaron los hallazgos con métodos existentes como BalancedSubnet. La eliminación selectiva de componentes de bajo peso de curvatura dio como resultado que la recuperación del contenido memorizado cayera del 3,4 por ciento desde casi el 100 por ciento. Las tareas de razonamiento lógico mantuvieron entre el 95 y el 106 por ciento del rendimiento inicial. Las tareas lógicas incluían evaluación de expresiones booleanas, acertijos de deducción lógica, seguimiento de objetos, BoolQ para razonamiento de sí/no, Winogrande para inferencias de sentido común y OpenBookQA para preguntas científicas. Las operaciones matemáticas y la recuperación de datos a libro cerrado, compartiendo caminos con la memorización, cayeron entre un 66 y un 86 por ciento de rendimiento después de la edición. La aritmética resultó particularmente frágil, y los cálculos fallaban incluso con cadenas de razonamiento idénticas después de que se eliminaran los componentes de baja curvatura. El equipo explicó: «Los problemas aritméticos en sí se memorizan en la escala 7B, o porque requieren instrucciones de uso limitado para realizar cálculos precisos». La respuesta a preguntas a libro abierto, basándose en el contexto proporcionado, mantuvo un rendimiento casi completo. La separación de mecanismos varió según el tipo de información; Los hechos comunes, como las capitales de los países, mostraron cambios mínimos después de la edición, mientras que los hechos raros, como los directores ejecutivos de las empresas, cayeron un 78 por ciento, lo que sugiere una asignación diferencial de recursos neuronales basada en la frecuencia de la información en la capacitación. La técnica K-FAC superó a los métodos de eliminación de memorización existentes, logrando un 16,1 por ciento de memorización de citas históricas invisibles frente al 60 por ciento de BalancedSubnet. Los transformadores de visión mostraron patrones similares, al eliminar las vías de memorización se restauró una precisión del 66,5 por ciento en imágenes previamente mal etiquetadas. Los investigadores reconocen limitaciones; Los recuerdos eliminados pueden regresar con más entrenamiento, ya que los métodos actuales de desaprendizaje suprimen principalmente la información. La razón de la fragilidad de las matemáticas al eliminar la memorización no está clara, como tampoco lo está si ciertas capacidades complejas se identifican erróneamente como memorización. Además, las herramientas matemáticas para medir el «paisaje» del modelo pueden resultar poco fiables en los extremos.





