Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

DeepSeek presenta hiperconexiones restringidas por colector para R2

byKerem Gülen
6 enero 2026
in Investigación, Noticias
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Justo antes del comienzo del nuevo año, la comunidad de inteligencia artificial conoció un posible avance en el entrenamiento de modelos. Un equipo de investigadores de la empresa china de inteligencia artificial DeepSeek publicó un papel que describe un enfoque arquitectónico novedoso llamado Hiperconexiones restringidas por múltiples, o mHC para abreviar. Esta nueva metodología puede proporcionar un camino para que los ingenieros construyan y escalen modelos de lenguaje grandes sin los costos computacionales prohibitivos y el capital que normalmente se requieren.

DeepSeek capturó por primera vez la atención cultural hace un año con el lanzamiento de R1. Ese modelo rivalizaba con las capacidades de o1 de OpenAI, pero supuestamente fue entrenado a una fracción del costo. El lanzamiento sorprendió a los desarrolladores estadounidenses porque desafió la suposición de que sólo reservas masivas de capital y hardware podrían producir IA de vanguardia. El artículo mHC recientemente publicado, alojado en el servidor de preimpresión arXiv, podría servir como marco tecnológico para el próximo modelo de DeepSeek, R2. El modelo R2 se esperaba originalmente para mediados de 2025, pero se pospuso, supuestamente debido a las preocupaciones del director ejecutivo, Liang Wenfeng, con respecto al rendimiento y el acceso limitado de China a chips de IA avanzados.

El nuevo documento intenta cerrar una brecha técnica compleja que actualmente obstaculiza la escalabilidad de la IA. Los grandes modelos de lenguaje se basan en redes neuronales diseñadas para conservar señales en muchas capas. Sin embargo, a medida que el modelo crece y se añaden más capas, la señal puede atenuarse o degradarse, aumentando el riesgo de que se convierta en ruido. Los investigadores comparan esto con un juego de «teléfono»: cuantas más personas participan en la cadena, mayores son las posibilidades de que el mensaje original se confunda o se altere. El principal desafío de la ingeniería es optimizar el equilibrio entre plasticidad y estabilidad, garantizando que las señales se conserven en tantas capas como sea posible sin degradación.

Los autores del artículo, incluido el director ejecutivo Liang Wenfeng, basaron su investigación en hiperconexiones (HC), un marco introducido en 2024 por investigadores de ByteDance. Los HC estándar diversifican los canales a través de los cuales las capas de la red neuronal comparten información, pero introducen el riesgo de pérdida de señal y conllevan altos costos de memoria que dificultan su implementación a escala. La arquitectura mHC de DeepSeek tiene como objetivo resolver esto restringiendo la hiperconectividad dentro de un modelo. Este enfoque preserva la complejidad de la información habilitada por los HC y al mismo tiempo evita los problemas de memoria, lo que permite el entrenamiento de modelos altamente complejos de una manera práctica incluso para desarrolladores con recursos limitados.

El debut del marco mHC sugiere un giro en la evolución del desarrollo de la IA. Hasta hace poco, la sabiduría predominante en la industria sostenía que sólo las empresas más ricas podían permitirse el lujo de construir modelos de vanguardia. DeepSeek continúa demostrando que se pueden lograr avances mediante ingeniería inteligente en lugar de fuerza financiera bruta. Al publicar esta investigación, DeepSeek ha puesto el método mHC a disposición de desarrolladores más pequeños, democratizando potencialmente el acceso a capacidades avanzadas de IA si esta arquitectura tiene éxito en el modelo R2 anticipado.


Crédito de imagen destacada

Tags: AIbúsqueda profunda

Related Posts

Amazon agrega vistas previas de productos generadas por IA a los resultados de búsqueda

Amazon agrega vistas previas de productos generadas por IA a los resultados de búsqueda

4 junio 2026
Los investigadores crean un gusano de IA que adapta los ataques sin intervención humana

Los investigadores crean un gusano de IA que adapta los ataques sin intervención humana

4 junio 2026
Google Wallet agregará identificaciones digitales de países seleccionados de la UE este verano

Google Wallet agregará identificaciones digitales de países seleccionados de la UE este verano

4 junio 2026
Google lanza Ask Gemini en Drive para usuarios elegibles de Workspace

Google lanza Ask Gemini en Drive para usuarios elegibles de Workspace

4 junio 2026
Nintendo lanzará un Switch 2 fácil de reparar en Europa

Nintendo lanzará un Switch 2 fácil de reparar en Europa

4 junio 2026
Meta lanza agentes comerciales de IA en WhatsApp, Instagram y Messenger

Meta lanza agentes comerciales de IA en WhatsApp, Instagram y Messenger

4 junio 2026

Recent Posts

  • Amazon agrega vistas previas de productos generadas por IA a los resultados de búsqueda
  • Suno recauda 400 millones de dólares con una valoración de 5.400 millones de dólares a pesar de las crecientes demandas por derechos de autor
  • Lovable y Google amplían la colaboración plurianual en IA y nube
  • Los investigadores crean un gusano de IA que adapta los ataques sin intervención humana
  • Google Wallet agregará identificaciones digitales de países seleccionados de la UE este verano

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.