Deepseek AI presenta NSA: un enfoque más rápido para el modelado de contexto largo

Los modelos de idiomas grandes (LLM) se están volviendo más inteligentes, pero también están golpeando una pared: el manejo de piezas largas de texto es lento y computacionalmente costoso. Los mecanismos de atención tradicionales, el núcleo de cómo la IA procesa y recuerda la información, se esfuerza por escalar de manera eficiente, lo que hace que los modelos sean costosos para entrenar y correr.

Ahora, investigadores de Deepseek-AI y University de Pekín tener introducido Un enfoque que cambia el juego Atención nativamente escasa (NSA). Este nuevo método promete hacer modelos de IA significativamente más rápido, más barato y más eficientetodo mientras mantiene el mismo nivel de capacidad de razonamiento que los enfoques tradicionales.

Por qué el problema de atención de la IA necesita una solución

Imagina leer un libro donde tienes que tener en cuenta cada oración en todo momento, así es como Atención completa Los mecanismos funcionan en IA. Escanean y almacenan información en secuencias largas, pero a medida que crece la longitud de contexto (piense en miles de palabras), este enfoque se vuelve increíblemente lento y computacionalmente pesado.

Para abordar esto, los investigadores han explorado Atención escasa—Conamente procesa selectivamente la información más importante en lugar de todo. Sin embargo, los métodos escasos existentes tienen debilidades importantes:

Son difíciles de entrenar desde ceroa menudo requiere que los modelos aprendan primero con plena atención antes de cambiar a un enfoque escaso.
No optimizan completamente para el hardware modernolo que significa que las mejoras teóricas de velocidad no siempre se traducen en eficiencia del mundo real.

Deepseek-ai-Introduces-nsa-a más rápido — (Crédito de la imagen)

Cómo la NSA cambia el juego

El equipo detrás de la NSA, incluidos Jingyang Yuan, Huazuo Gao, Damai Dai y sus colegas, adoptó un nuevo enfoque. Su método integra de forma nativa desde el principioen lugar de aplicarlo como una ocurrencia tardía.

NSA logra esto con Dos innovaciones clave:

Eficiencia alineada por hardware: La NSA está construida para maximizar el rendimiento de la GPU, evitando los cuellos de botella de la memoria y garantizar las aceleraciones del mundo real.
Trainabilidad de extremo a extremo: A diferencia de los métodos dispersos anteriores, la NSA es totalmente entrenable desde cero, reduciendo los costos de entrenamiento sin perder precisión.

Velocidad y precisión: la ventaja de la NSA

Entonces, ¿cómo se compara la NSA con los modelos tradicionales de atención plena? Según el estudio, NSA logra hasta 11 × mejoras de velocidad Mientras aún coincide, o incluso un rendimiento superior, la atención llena en los puntos de referencia clave.

Algunas de las mayores victorias incluyen:

Procesamiento más rápido: NSA acelera la capacidad de AI para manejar documentos largos, bases de código y conversaciones de múltiples vueltas.
Mejor razonamiento: A pesar de ser «escaso», los modelos de la NSA coincidir o superar Modelos de atención completa en tareas de razonamiento de la cadena de pensamiento.
Costos más bajos: Al reducir el cálculo sin sacrificar el rendimiento, la NSA podría hacer que la IA avanzada sea más asequible para entrenar y desplegar.

Métodos de atención escasa existentes

Muchos mecanismos de atención escasa existentes intentan reducir la sobrecarga computacional mediante Tokens de poda selectivamente o Optimización del acceso a la memoria. Sin embargo, a menudo se quedan cortos en la implementación práctica, ya sea porque introducen componentes no entrenables o no se alinean con las arquitecturas modernas de GPU.

Por ejemplo:

Clusterkv y MagicPig Confíe en técnicas discretas de agrupación o hashing, que interrumpen el flujo de gradiente y obstaculizan el entrenamiento modelo.
H2O y minferencia Aplicar la escasez solo durante etapas específicas de inferencia, lo que limita las mejoras de velocidad en la tubería completa.
Quest e infllm Use métodos de selección de bloque, pero su puntuación basada en heurística a menudo resulta en tasas de retiro más bajas.

NSA Aborda estas limitaciones integrando la escasez de forma nativa—Encenerse la eficiencia tanto en el entrenamiento como en la inferencia al tiempo que preserva la precisión del modelo. Esto significa No hay aproximaciones post-hoc o compensaciones entre la velocidad y la capacidad de razonamiento.

El rendimiento de la NSA en las tareas del mundo real

Para validar la efectividad de la NSA, los investigadores lo probaron en una variedad de tareas de IA, comparando su rendimiento con modelos tradicionales de atención plena y métodos de atención escasa de última generación. Los resultados destacan la capacidad de la NSA para coincidir o superar los modelos de atención completa mientras reduce significativamente los costos computacionales.

Rendimiento de referencia general

NSA demostró Fuerte precisión entre el conocimiento, el razonamiento y la codificación de puntos de referenciaincluido:

MMLU y CMMLU: Hacer coincidir toda la atención en las tareas basadas en el conocimiento
GSM8K y Matemáticas: Superar la atención completa en un razonamiento complejo
Humaneval y MBPP: Entrega de un rendimiento de codificación sólida

Comprensión de contexto largo

NSA sobresale en el manejo de secuencias de contexto largo en puntos de referencia como Bancada larga. En las tareas que requieren memoria contextual profunda, NSA mantuvo:

Alto retiro en tareas de recuperación (Aguja-in a-haystack, documento QA)
Precisión estable en razonamiento multi-salto (HPQ, 2Wiki, Govrpt)

Ganancias de velocidad del mundo real

Las optimizaciones alineadas en hardware en NSA conducen a:

9 × velocidades de inferencia más rápidas para secuencias de 64k-longitud
6 × eficiencia de entrenamiento más rápida En comparación con los modelos de atención completa
Consumo de ancho de banda de memoria reducidohacer que las aplicaciones de IA a gran escala sean más factibles

Tags: AI Presentado veterano

Deepseek AI presenta NSA: un enfoque más rápido para el modelado de contexto largo

Related Posts

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

Adele de Microsoft quiere darle a su IA un perfil cognitivo

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

Investigación: El estándar de oro para la evaluación de Genai

AI finalmente resuelve el rompecabezas más duro de la biología

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Deepseek AI presenta NSA: un enfoque más rápido para el modelado de contexto largo

Por qué el problema de atención de la IA necesita una solución

Cómo la NSA cambia el juego

Velocidad y precisión: la ventaja de la NSA

Métodos de atención escasa existentes

El rendimiento de la NSA en las tareas del mundo real

Rendimiento de referencia general

Comprensión de contexto largo

Ganancias de velocidad del mundo real

Related Posts

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

Adele de Microsoft quiere darle a su IA un perfil cognitivo

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

Investigación: El estándar de oro para la evaluación de Genai

AI finalmente resuelve el rompecabezas más duro de la biología

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us