DeepSeek presenta hiperconexiones restringidas por colector para R2

Justo antes del comienzo del nuevo año, la comunidad de inteligencia artificial conoció un posible avance en el entrenamiento de modelos. Un equipo de investigadores de la empresa china de inteligencia artificial DeepSeek publicó un papel que describe un enfoque arquitectónico novedoso llamado Hiperconexiones restringidas por múltiples, o mHC para abreviar. Esta nueva metodología puede proporcionar un camino para que los ingenieros construyan y escalen modelos de lenguaje grandes sin los costos computacionales prohibitivos y el capital que normalmente se requieren.

DeepSeek capturó por primera vez la atención cultural hace un año con el lanzamiento de R1. Ese modelo rivalizaba con las capacidades de o1 de OpenAI, pero supuestamente fue entrenado a una fracción del costo. El lanzamiento sorprendió a los desarrolladores estadounidenses porque desafió la suposición de que sólo reservas masivas de capital y hardware podrían producir IA de vanguardia. El artículo mHC recientemente publicado, alojado en el servidor de preimpresión arXiv, podría servir como marco tecnológico para el próximo modelo de DeepSeek, R2. El modelo R2 se esperaba originalmente para mediados de 2025, pero se pospuso, supuestamente debido a las preocupaciones del director ejecutivo, Liang Wenfeng, con respecto al rendimiento y el acceso limitado de China a chips de IA avanzados.

El nuevo documento intenta cerrar una brecha técnica compleja que actualmente obstaculiza la escalabilidad de la IA. Los grandes modelos de lenguaje se basan en redes neuronales diseñadas para conservar señales en muchas capas. Sin embargo, a medida que el modelo crece y se añaden más capas, la señal puede atenuarse o degradarse, aumentando el riesgo de que se convierta en ruido. Los investigadores comparan esto con un juego de «teléfono»: cuantas más personas participan en la cadena, mayores son las posibilidades de que el mensaje original se confunda o se altere. El principal desafío de la ingeniería es optimizar el equilibrio entre plasticidad y estabilidad, garantizando que las señales se conserven en tantas capas como sea posible sin degradación.

Los autores del artículo, incluido el director ejecutivo Liang Wenfeng, basaron su investigación en hiperconexiones (HC), un marco introducido en 2024 por investigadores de ByteDance. Los HC estándar diversifican los canales a través de los cuales las capas de la red neuronal comparten información, pero introducen el riesgo de pérdida de señal y conllevan altos costos de memoria que dificultan su implementación a escala. La arquitectura mHC de DeepSeek tiene como objetivo resolver esto restringiendo la hiperconectividad dentro de un modelo. Este enfoque preserva la complejidad de la información habilitada por los HC y al mismo tiempo evita los problemas de memoria, lo que permite el entrenamiento de modelos altamente complejos de una manera práctica incluso para desarrolladores con recursos limitados.

El debut del marco mHC sugiere un giro en la evolución del desarrollo de la IA. Hasta hace poco, la sabiduría predominante en la industria sostenía que sólo las empresas más ricas podían permitirse el lujo de construir modelos de vanguardia. DeepSeek continúa demostrando que se pueden lograr avances mediante ingeniería inteligente en lugar de fuerza financiera bruta. Al publicar esta investigación, DeepSeek ha puesto el método mHC a disposición de desarrolladores más pequeños, democratizando potencialmente el acceso a capacidades avanzadas de IA si esta arquitectura tiene éxito en el modelo R2 anticipado.

Crédito de imagen destacada