DeepSeek revela la arquitectura MODEL1 en la actualización de GitHub antes de la V4

DeepSeek reveló detalles de un nuevo modelo denominado «MODEL1» a través de actualizaciones recientes de su código base FlashMLA en GitHub. El identificador «MODEL1» aparece 28 veces en 114 archivos dentro del repositorio, lo que marca la divulgación en el primer aniversario del lanzamiento de R1 de la compañía. Este desarrollo sigue a los informes de que DeepSeek planea lanzar su modelo V4 de próxima generación a mediados de febrero de 2026, coincidiendo con el Año Nuevo Lunar. El análisis de la base de código actualizada por parte de los desarrolladores indica que MODEL1 presenta una arquitectura distinta de DeepSeek-V3.2, cuyo nombre en código es «V32» en el repositorio. Las discrepancias en la lógica del código sugieren cambios en el diseño de la caché de valores clave, el manejo de la escasez y la decodificación del formato de datos del FP8, lo que apunta a una reestructuración para la optimización de la memoria y la eficiencia computacional. Investigadores en la comunidad LocalLLaMA de Reddit anotado La actualización del código fuente FlashMLA agregó soporte extenso para MODEL1, incluida la compatibilidad con la próxima arquitectura Blackwell (SM100) de Nvidia y los chips Hopper actuales. Según se informa, los cambios muestran que el MODEL1 vuelve a una dimensión estándar 512 unificada e introduce características de «Conciencia de posición del vector de valor», junto con posibles implementaciones del sistema de memoria condicional «Engram» recientemente publicado de DeepSeek. El repositorio FlashMLA, que alberga el núcleo de decodificación Multi-Head Latent Attention de DeepSeek optimizado para las GPU Nvidia Hopper, fue la fuente de las pistas técnicas. Se espera que el modelo V4 de DeepSeek integre la arquitectura Engram, que facilita la recuperación eficiente de contextos que superan el millón de tokens mediante la utilización de un sistema de búsqueda de hechos fundamentales en lugar de recalcularlos mediante cálculo. Según se informa, las pruebas internas realizadas por empleados de DeepSeek sugieren que V4 podría superar a los modelos rivales de Anthropic y OpenAI en pruebas de codificación, particularmente con indicaciones de código largas. La revelación de MODEL1 se produce cuando DeepSeek se acerca a un año desde su debut R1 en enero de 2025. El lanzamiento de R1 resultó en una reducción de 593 mil millones de dólares en el valor de mercado de Nvidia en un solo día, según ITPro. Según se informa, entrenar el modelo R1 de DeepSeek costó menos de 6 millones de dólares y logró un rendimiento igual o superior al modelo o1 de OpenAI en pruebas comparativas de matemáticas y codificación. Posteriormente, la compañía lanzó la V3.1 en agosto y la V3.2 en diciembre, y se describe que la V3.2 ofrece un rendimiento equivalente al GPT-5 de OpenAI. DeepSeek no ha comentado oficialmente sobre MODEL1 ni ha confirmado el momento de lanzamiento específico para V4.

Crédito de imagen destacada

No Result