Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

DeepSeek revela la arquitectura MODEL1 en la actualización de GitHub antes de la V4

byKerem Gülen
21 enero 2026
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

DeepSeek reveló detalles de un nuevo modelo denominado «MODEL1» a través de actualizaciones recientes de su código base FlashMLA en GitHub. El identificador «MODEL1» aparece 28 veces en 114 archivos dentro del repositorio, lo que marca la divulgación en el primer aniversario del lanzamiento de R1 de la compañía. Este desarrollo sigue a los informes de que DeepSeek planea lanzar su modelo V4 de próxima generación a mediados de febrero de 2026, coincidiendo con el Año Nuevo Lunar. El análisis de la base de código actualizada por parte de los desarrolladores indica que MODEL1 presenta una arquitectura distinta de DeepSeek-V3.2, cuyo nombre en código es «V32» en el repositorio. Las discrepancias en la lógica del código sugieren cambios en el diseño de la caché de valores clave, el manejo de la escasez y la decodificación del formato de datos del FP8, lo que apunta a una reestructuración para la optimización de la memoria y la eficiencia computacional. Investigadores en la comunidad LocalLLaMA de Reddit anotado La actualización del código fuente FlashMLA agregó soporte extenso para MODEL1, incluida la compatibilidad con la próxima arquitectura Blackwell (SM100) de Nvidia y los chips Hopper actuales. Según se informa, los cambios muestran que el MODEL1 vuelve a una dimensión estándar 512 unificada e introduce características de «Conciencia de posición del vector de valor», junto con posibles implementaciones del sistema de memoria condicional «Engram» recientemente publicado de DeepSeek. El repositorio FlashMLA, que alberga el núcleo de decodificación Multi-Head Latent Attention de DeepSeek optimizado para las GPU Nvidia Hopper, fue la fuente de las pistas técnicas. Se espera que el modelo V4 de DeepSeek integre la arquitectura Engram, que facilita la recuperación eficiente de contextos que superan el millón de tokens mediante la utilización de un sistema de búsqueda de hechos fundamentales en lugar de recalcularlos mediante cálculo. Según se informa, las pruebas internas realizadas por empleados de DeepSeek sugieren que V4 podría superar a los modelos rivales de Anthropic y OpenAI en pruebas de codificación, particularmente con indicaciones de código largas. La revelación de MODEL1 se produce cuando DeepSeek se acerca a un año desde su debut R1 en enero de 2025. El lanzamiento de R1 resultó en una reducción de 593 mil millones de dólares en el valor de mercado de Nvidia en un solo día, según ITPro. Según se informa, entrenar el modelo R1 de DeepSeek costó menos de 6 millones de dólares y logró un rendimiento igual o superior al modelo o1 de OpenAI en pruebas comparativas de matemáticas y codificación. Posteriormente, la compañía lanzó la V3.1 en agosto y la V3.2 en diciembre, y se describe que la V3.2 ofrece un rendimiento equivalente al GPT-5 de OpenAI. DeepSeek no ha comentado oficialmente sobre MODEL1 ni ha confirmado el momento de lanzamiento específico para V4.


Crédito de imagen destacada

Tags: búsqueda profundamodelo1

Related Posts

Substack llega a la sala de estar con el lanzamiento de la aplicación beta TV

Substack llega a la sala de estar con el lanzamiento de la aplicación beta TV

23 enero 2026
JBL lanza amplificadores BandBox impulsados ​​por IA

JBL lanza amplificadores BandBox impulsados ​​por IA

23 enero 2026
Google lanza la opción de suscripción "Inteligencia personal" para usuarios de AI Pro y Ultra

Google lanza la opción de suscripción "Inteligencia personal" para usuarios de AI Pro y Ultra

23 enero 2026
Spotify lanza listas de reproducción solicitadas impulsadas por IA

Spotify lanza listas de reproducción solicitadas impulsadas por IA

22 enero 2026
Snap implementa seguimiento granular del tiempo de pantalla en la actualización del Family Center

Snap implementa seguimiento granular del tiempo de pantalla en la actualización del Family Center

22 enero 2026
Google Photos rediseña el uso compartido con un carrusel inmersivo de pantalla completa

Google Photos rediseña el uso compartido con un carrusel inmersivo de pantalla completa

22 enero 2026

Recent Posts

  • AWS y Prime Video se ven afectados mientras Amazon prepara una nueva ola de despidos
  • Barret Zoph liderará el agresivo giro comercial de OpenAI
  • Substack llega a la sala de estar con el lanzamiento de la aplicación beta TV
  • LiveKit obtiene una valoración de mil millones de dólares como motor detrás del modo de voz de ChatGPT
  • Vimeo comienza a despidos de personal tras la adquisición de Bending Spoons

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.