Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

DeepSeek revela la arquitectura MODEL1 en la actualización de GitHub antes de la V4

byKerem Gülen
21 enero 2026
in Inteligencia Artificial, Noticias
Home Noticias Inteligencia Artificial
Share on FacebookShare on Twitter
Google Preferred Source

DeepSeek reveló detalles de un nuevo modelo denominado «MODEL1» a través de actualizaciones recientes de su código base FlashMLA en GitHub. El identificador «MODEL1» aparece 28 veces en 114 archivos dentro del repositorio, lo que marca la divulgación en el primer aniversario del lanzamiento de R1 de la compañía. Este desarrollo sigue a los informes de que DeepSeek planea lanzar su modelo V4 de próxima generación a mediados de febrero de 2026, coincidiendo con el Año Nuevo Lunar. El análisis de la base de código actualizada por parte de los desarrolladores indica que MODEL1 presenta una arquitectura distinta de DeepSeek-V3.2, cuyo nombre en código es «V32» en el repositorio. Las discrepancias en la lógica del código sugieren cambios en el diseño de la caché de valores clave, el manejo de la escasez y la decodificación del formato de datos del FP8, lo que apunta a una reestructuración para la optimización de la memoria y la eficiencia computacional. Investigadores en la comunidad LocalLLaMA de Reddit anotado La actualización del código fuente FlashMLA agregó soporte extenso para MODEL1, incluida la compatibilidad con la próxima arquitectura Blackwell (SM100) de Nvidia y los chips Hopper actuales. Según se informa, los cambios muestran que el MODEL1 vuelve a una dimensión estándar 512 unificada e introduce características de «Conciencia de posición del vector de valor», junto con posibles implementaciones del sistema de memoria condicional «Engram» recientemente publicado de DeepSeek. El repositorio FlashMLA, que alberga el núcleo de decodificación Multi-Head Latent Attention de DeepSeek optimizado para las GPU Nvidia Hopper, fue la fuente de las pistas técnicas. Se espera que el modelo V4 de DeepSeek integre la arquitectura Engram, que facilita la recuperación eficiente de contextos que superan el millón de tokens mediante la utilización de un sistema de búsqueda de hechos fundamentales en lugar de recalcularlos mediante cálculo. Según se informa, las pruebas internas realizadas por empleados de DeepSeek sugieren que V4 podría superar a los modelos rivales de Anthropic y OpenAI en pruebas de codificación, particularmente con indicaciones de código largas. La revelación de MODEL1 se produce cuando DeepSeek se acerca a un año desde su debut R1 en enero de 2025. El lanzamiento de R1 resultó en una reducción de 593 mil millones de dólares en el valor de mercado de Nvidia en un solo día, según ITPro. Según se informa, entrenar el modelo R1 de DeepSeek costó menos de 6 millones de dólares y logró un rendimiento igual o superior al modelo o1 de OpenAI en pruebas comparativas de matemáticas y codificación. Posteriormente, la compañía lanzó la V3.1 en agosto y la V3.2 en diciembre, y se describe que la V3.2 ofrece un rendimiento equivalente al GPT-5 de OpenAI. DeepSeek no ha comentado oficialmente sobre MODEL1 ni ha confirmado el momento de lanzamiento específico para V4.


Crédito de imagen destacada

Tags: búsqueda profundamodelo1

Related Posts

Sony revela God of War: Laufey para PS5

Sony revela God of War: Laufey para PS5

3 junio 2026
Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA

Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA

3 junio 2026
Anthropic invita a 150 organizaciones más al Proyecto Glasswing

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

3 junio 2026
June Android Drop trae herramientas de seguridad y funciones de búsqueda más inteligentes

June Android Drop trae herramientas de seguridad y funciones de búsqueda más inteligentes

3 junio 2026
Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

3 junio 2026
X lanza respuestas en video estilo TikTok para publicaciones

X lanza respuestas en video estilo TikTok para publicaciones

3 junio 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.