Deepseek v3.1 Rivals GPT-5 con modelo de parámetros 685B

En enero de 2025, Deepseek, una startup china de IA, lanzó R1, un modelo de IA que rivalizó con LLM de primer nivel de OpenAi y Anthrope. Construido a una fracción del costo con menos chips Nvidia, Deepseek ahora ha lanzado V3.1, una actualización de su modelo insignia V3, con un precio de socavación y optimizado para chips de fabricación china.

V3.1 de Deepseek se lanzó en silencio a través de un mensaje sobre WeChat, una prominente aplicación social y mensajes sociales, y sobre la plataforma de abrazadera. Este desarrollo subraya varias narraciones clave en el panorama actual de la IA. Los esfuerzos de Deepseek son fundamentales para la ambición de China de desarrollar y controlar los sistemas de IA avanzados independientemente de la tecnología extranjera.

El nuevo modelo Deepseek V3 está optimizado específicamente para funcionar de manera efectiva en los chips de fabricación china, lo que refleja el movimiento estratégico de China hacia la autosuficiencia tecnológica. Si bien las empresas estadounidenses han mostrado renuencia a la adopción de modelos de Deepseek, han ganado una tracción considerable dentro de China y se utilizan cada vez más en otras regiones a nivel mundial. Algunas compañías estadounidenses incluso han integrado el modelo de razonamiento R1 de Deepseek en sus aplicaciones. Sin embargo, los investigadores advierten que los resultados de estos modelos a menudo se alinean estrechamente con las narrativas aprobadas por el Partido Comunista Chino, lo que plantea preocupaciones con respecto a su neutralidad y confiabilidad.

Las ambiciones de IA de China se extienden más allá de Deepseek, con otros modelos notables que incluyen Qwen de Alibaba, Kimi de Moonshot Ai y Ernie de Baidu. El lanzamiento reciente de Deepseek, siguiendo de cerca Lanzamiento de GPT-5 de Openaienfatiza el compromiso de China para mantener el ritmo o superar, liderar los laboratorios de IA de los Estados Unidos. El despliegue de GPT-5 no alcanzó las expectativas de la industria, destacando aún más la importancia de los avances de Deepseek.

El CEO de Openai, Sam Altman, reconoció que la competencia de los modelos chinos de código abierto, incluido Deepseek, influyó en la decisión de Operai de lanzar sus propios modelos de peso abierto. Durante una discusión reciente con los periodistas, Altman declaró que si OpenAi no hubiera dado este paso, el paisaje de IA probablemente estaría dominado por modelos chinos de código abierto. Hizo hincapié en que esta consideración fue un factor significativo en su proceso de toma de decisiones.

El gobierno de los Estados Unidos otorgó licencias NVIDIA y AMD para exportar chips de IA específicos a China, incluido el H20 de NVIDIA. Estas licencias están condicionadas a las empresas que aceptan remitir el 15% de los ingresos de estas ventas al gobierno de los Estados Unidos. En respuesta, Beijing se ha movido para restringir las compras de chips Nvidia. Esto siguió a la declaración del secretario de comercio Howard Lutnick sobre CNBC que Estados Unidos no vende a China su mejor, la segunda mejor tecnología o incluso la tercera mejor tecnología.

La optimización de Deepseek para los chips de fabricación china indica un movimiento estratégico para contrarrestar los controles de exportación de los Estados Unidos y disminuir la dependencia de NVIDIA. La compañía declaró en su anuncio de WeChat que el nuevo formato de modelo está optimizado para «chips domésticos de próxima generación que se lanzarán».

Altman ha expresado su preocupación de que Estados Unidos pueda subestimar la complejidad y la importancia de los avances de China en la IA. Advirtió que los controles de exportación por sí solos podrían no ser suficientes para abordar los desafíos planteados por el rápido progreso de China. Expresó sus preocupaciones sobre las crecientes capacidades de China en el campo de la inteligencia artificial.

El modelo Deepseek V3.1 incorpora avances técnicos que son principalmente beneficiosos para los desarrolladores. Estas innovaciones tienen como objetivo reducir los costos operativos y mejorar la versatilidad en comparación con muchos modelos competidores cerrados y más caros. V3.1 tiene 685 mil millones de parámetros, colocándolo entre los principales modelos de «frontera». Su diseño de «mezcla de expertos» activa solo una fracción del modelo para cada consulta, reduciendo los costos informáticos para los desarrolladores. A diferencia de los modelos profundos anteriores que separaban las tareas que requieren respuestas instantáneas de aquellos que necesitan razonamiento paso a paso, V3.1 integra ambas capacidades en un solo sistema.

GPT-5, junto con modelos recientes de Anthrope y Google, también cuentan con esta capacidad integrada. Sin embargo, pocos modelos de peso abierto han alcanzado este nivel de integración. Ben Dickson, fundador del blog de TechTalks, describe la arquitectura híbrida de V3.1 como «la característica más importante con diferencia».

William Falcon, fundador y CEO de Lightning Ai, señaló que las mejoras continuas de Deepseek son notables, incluso si V3.1 no es un salto tan significativo como el modelo R1 anterior. Dijo que la compañía continúa haciendo «mejoras no marginales», lo cual es impresionante. Falcon anticipa que Operai responderá si su modelo de código abierto comienza a rezagarse significativamente. También señaló que el modelo Deepseek es más desafiante para que los desarrolladores se despliegan en producción en comparación con la versión de Openi, que es relativamente fácil de implementar.

El lanzamiento de Deepseek destaca la creciente percepción de la IA como un componente clave de una competencia tecnológica entre Estados Unidos y China. El hecho de que las empresas chinas afirmen construir modelos de IA superiores a un costo reducido brindan a los competidores de nosotros razones para evaluar cuidadosamente su estrategia para mantener el liderazgo en el campo.

Crédito de imagen destacado