Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

DeepSeek presenta hiperconexiones restringidas por colector para R2

byKerem Gülen
6 enero 2026
in News, Research
Home News
Share on FacebookShare on Twitter

Justo antes del comienzo del nuevo año, la comunidad de inteligencia artificial conoció un posible avance en el entrenamiento de modelos. Un equipo de investigadores de la empresa china de inteligencia artificial DeepSeek publicó un papel que describe un enfoque arquitectónico novedoso llamado Hiperconexiones restringidas por múltiples, o mHC para abreviar. Esta nueva metodología puede proporcionar un camino para que los ingenieros construyan y escalen modelos de lenguaje grandes sin los costos computacionales prohibitivos y el capital que normalmente se requieren.

DeepSeek capturó por primera vez la atención cultural hace un año con el lanzamiento de R1. Ese modelo rivalizaba con las capacidades de o1 de OpenAI, pero supuestamente fue entrenado a una fracción del costo. El lanzamiento sorprendió a los desarrolladores estadounidenses porque desafió la suposición de que sólo reservas masivas de capital y hardware podrían producir IA de vanguardia. El artículo mHC recientemente publicado, alojado en el servidor de preimpresión arXiv, podría servir como marco tecnológico para el próximo modelo de DeepSeek, R2. El modelo R2 se esperaba originalmente para mediados de 2025, pero se pospuso, supuestamente debido a las preocupaciones del director ejecutivo, Liang Wenfeng, con respecto al rendimiento y el acceso limitado de China a chips de IA avanzados.

El nuevo documento intenta cerrar una brecha técnica compleja que actualmente obstaculiza la escalabilidad de la IA. Los grandes modelos de lenguaje se basan en redes neuronales diseñadas para conservar señales en muchas capas. Sin embargo, a medida que el modelo crece y se añaden más capas, la señal puede atenuarse o degradarse, aumentando el riesgo de que se convierta en ruido. Los investigadores comparan esto con un juego de «teléfono»: cuantas más personas participan en la cadena, mayores son las posibilidades de que el mensaje original se confunda o se altere. El principal desafío de la ingeniería es optimizar el equilibrio entre plasticidad y estabilidad, garantizando que las señales se conserven en tantas capas como sea posible sin degradación.

Los autores del artículo, incluido el director ejecutivo Liang Wenfeng, basaron su investigación en hiperconexiones (HC), un marco introducido en 2024 por investigadores de ByteDance. Los HC estándar diversifican los canales a través de los cuales las capas de la red neuronal comparten información, pero introducen el riesgo de pérdida de señal y conllevan altos costos de memoria que dificultan su implementación a escala. La arquitectura mHC de DeepSeek tiene como objetivo resolver esto restringiendo la hiperconectividad dentro de un modelo. Este enfoque preserva la complejidad de la información habilitada por los HC y al mismo tiempo evita los problemas de memoria, lo que permite el entrenamiento de modelos altamente complejos de una manera práctica incluso para desarrolladores con recursos limitados.

El debut del marco mHC sugiere un giro en la evolución del desarrollo de la IA. Hasta hace poco, la sabiduría predominante en la industria sostenía que sólo las empresas más ricas podían permitirse el lujo de construir modelos de vanguardia. DeepSeek continúa demostrando que se pueden lograr avances mediante ingeniería inteligente en lugar de fuerza financiera bruta. Al publicar esta investigación, DeepSeek ha puesto el método mHC a disposición de desarrolladores más pequeños, democratizando potencialmente el acceso a capacidades avanzadas de IA si esta arquitectura tiene éxito en el modelo R2 anticipado.


Crédito de imagen destacada

Tags: AIbúsqueda profunda

Related Posts

XBrew Lab presenta una máquina de café nitro sin cartucho en CES 2026

XBrew Lab presenta una máquina de café nitro sin cartucho en CES 2026

9 enero 2026
Google transforma Gmail con AI Inbox y búsqueda en lenguaje natural

Google transforma Gmail con AI Inbox y búsqueda en lenguaje natural

9 enero 2026
TikTok logra asociación con la FIFA para lo más destacado de la Copa Mundial

TikTok logra asociación con la FIFA para lo más destacado de la Copa Mundial

9 enero 2026
Dell estrena infraestructura desagregada para centros de datos modernos

Dell estrena infraestructura desagregada para centros de datos modernos

9 enero 2026
Xbox Developer Direct regresa el 22 de enero con Fable y Forza Horizon 6

Xbox Developer Direct regresa el 22 de enero con Fable y Forza Horizon 6

9 enero 2026
YouTube ahora te permite ocultar Shorts en los resultados de búsqueda

YouTube ahora te permite ocultar Shorts en los resultados de búsqueda

9 enero 2026

Recent Posts

  • XBrew Lab presenta una máquina de café nitro sin cartucho en CES 2026
  • OpenAI adquiere el equipo de Convogo para impulsar los esfuerzos de IA en la nube
  • Snowflake adquirirá la plataforma de observabilidad Observe
  • Google transforma Gmail con AI Inbox y búsqueda en lenguaje natural
  • La UE y el Reino Unido investigan a X por la falta de salvaguardias de Grok

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.