Hace solo dos días, la startup de IA china Deepseek dejó caer silenciosamente una bomba en la cara abrazada: un modelo de lenguaje grande de 685 mil millones de parámetros llamado Deepseek-v3-0324. Si bien algunas innovaciones llegan con fanfarria, este lanzamiento fue diferente. No hay informes de prensa de Splashy. No hay publicaciones de blog pulidas. Solo un conjunto masivo de pesos de modelos, una licencia del MIT y algunos susurros técnicos que fueron suficientes para incendiar a la comunidad de IA.
Ahora, a medida que los desarrolladores se apresuran a probarlo, el modelo ya ha elevado las alarmas para las principales compañías de IA occidentales como OpenAi, no solo por su potencia y eficiencia en bruto, sino por dónde puede funcionar: un Mac Studio M3 Ultra. Nunca se suponía que fuera tan simple alojar un modelo de esta escala. Sin embargo, los primeros informes sugieren que Deepseek-V3-0324 está operativo, generando más de 20 tokens por segundo en una sola máquina. Para muchos expertos en IA, eso es un avance tentador y una llamada de atención seria.
La mayoría de los lanzamientos de IA a gran escala siguen un guión familiar: un anuncio teaser, un artículo oficial y un impulso de relaciones públicas. Deepseek, sin embargo, optó por su enfoque característico de «debajo del radar», subiendo silenciosamente 641 GB de datos bajo una licencia MIT. El modelo Readme vacío podría sugerir una ocurrencia tardía. En realidad, señala una postura deliberada y segura de sí misma: «Aquí está nuestro modelo: haz lo que quieras y buena suerte al superarlo».
Este modus operandi está en marcado contraste con el producto meticulosamente orquestado revela en Silicon Valley. Los investigadores de IA generalmente esperan documentación detallada, puntos de referencia de rendimiento y demostraciones brillantes. Deepseek’s Gambit, por otro lado, depende de la disponibilidad cruda y abierta. ¿Quieres saber cómo funciona? Descárguelo y ve por usted mismo.
¿Ejecutando en una máquina de «consumidor»?
El Mac Studio M3 Ultra puede no sentarse en la oficina en casa de todos: es un dispositivo de $ 9,499 y definitivamente de alta gama. Aun así, el hecho de que Deepseek-V3-0324 puede ejecutarse localmente en este hardware es notable. Los modelos contemporáneos de tamaño comparable generalmente exigen grupos de GPU mucho más grandes que mastican la potencia en centros de datos dedicados. Este cambio en los requisitos informáticos podría anunciar una nueva era en la que la IA avanzada no está estrictamente atada a grandes servidores corporativos.
Las primeras pruebas del investigador de IA Awni Hannun confirman que un De 4 bits cuantificado La versión de Deepseek-V3 puede exceder los 20 tokens por segundo en este sistema. Eso es una velocidad vertiginosa para un modelo multimenecientos billones de parámetros. Parte del secreto se encuentra en Arquitectura de «mezcla de expertos (moe)» de Deepseekque activa de manera inteligente solo una fracción de sus parámetros totales para cualquier tarea dada. Los críticos una vez descartaron a Moe como demasiado especializado; El éxito de Deepseek sugiere que podría ser el camino más eficiente para la IA a gran escala.
¿Derribar un estándar de la industria?
Más grande no siempre es mejor, pero Deepseek-V3-0324 es ambos: enorme alcance y sorprendentemente ágil. Un conocido investigador, Xeophon, publicó sus pruebas iniciales que indican «un gran salto en todas las métricas» en comparación con la versión anterior de Deepseek. La afirmación de que ha destronado Claude soneto 3.5 Por Anthrope, hasta hace poco considerado un sistema comercial de élite, está volviendo cabezas. Si se verifica, Deepseek podría estar cerca de la cumbre del modelado de idiomas de IA.
La diferencia en los modelos de distribución es igual de notable. Claude Sonnet, como muchos sistemas occidentales, generalmente requiere una suscripción pagada para sus mejores ofertas. Por el contrario, el nuevo lanzamiento 0324 de Deepseek es gratis para descargar en términos del MIT. Los desarrolladores de todas partes pueden experimentar sin entregar tarjetas de crédito o llegar a los límites de uso, un enfoque muy diferente que resalta el centro de gravedad cambiante en la IA.
La magia detrás del avance de Deepseek
Más allá de su arquitectura MOE, Deepseek-V3-0324 incorpora dos saltos técnicos principales:
- Atención latente de múltiples cabezas (MLA): Esta tecnología refuerza la capacidad del modelo para seguir un contexto largo, por lo que es mucho menos propenso a dejar caer partes anteriores de una conversación o texto.
- Predicción múltiple (MTP): Si bien la mayoría de los modelos de IA generan texto un token a la vez, el MTP de Deepseek le permite producir múltiples tokens en cada iteración, acelerando la producción en cerca del 80%.
En términos prácticos, estas optimizaciones reducen el tiempo que lleva procesar o generar texto. Debido a que Deepseek no participa en los 685 mil millones de parámetros para cada solicitud, puede ser más eficiente que los modelos más pequeños pero completamente activados. Simon Willison, una figura respetada en herramientas de desarrollador, informó que un Versión de 4 bits de Deepseek-V3-0324 se sumerge a su alrededor 352 GB. Este tamaño más pequeño lo hace relativamente factible para estaciones de trabajo especializadas y algunos sistemas personales de alta gama.
Open Source: el gran diferenciador
El éxito de Deepseek no se puede divorciar de la conversación más grande sobre Empresas de IA china Abrazando licencias de código abierto. Mientras que los pilares de la industria como OpenAi y Antropic mantienen riendas propietarias en sus modelos, empresas como Baidu, Alibaba y Tencent se han unido a Deepseek para liberar modelos avanzados en términos permisivos. El resultado es un ecosistema AI definido por el progreso compartido en lugar de la tecnología protegida y amurallada.
Esta estrategia encaja con la búsqueda de China de liderazgo de IA. Las restricciones de hardware y el acceso limitado a los últimos chips Nvidia obligaron a estas compañías a innovar. El resultado? Modelos como Deepseek-V3-0324 están diseñados para sobresalir incluso sin grupos de GPU de primer nivel. Ahora que estos modelos eficientes circulan libremente, los desarrolladores de todo el mundo están aprovechando la oportunidad de construir a una fracción del costo habitual.
Deepseek-r2
Deepseek parece estar funcionando en fases: presenta un modelo fundamental, luego sigue con una versión de «razonamiento». El rumoreado Deepseek-r2 Podría debutar en el próximo mes o dos, haciéndose eco del patrón establecido por el lanzamiento de V3 en diciembre, seguido de un modelo R1 especializado en la resolución de problemas más avanzada.
Si R2 supera al tan esperado GPT-5 de OpenAI, inclinará aún más las escamas hacia el dominio futuro de la IA de código abierto. Muchos veteranos de la industria asumieron que solo los grandes jugadores ricos en recursos podrían manejar la complejidad de globos de los modelos de primer nivel. El tranquilo éxito de Deepseek desafía esa suposición. Y a medida que los modelos de razonamiento generalmente consumen significativamente más cómputo que los estándar, las mejoras en R2 destacarían el enfoque de eficiencia radical de Deepseek.
Cómo probar la conducción Deepseek-V3-0324
Descargando todo 641 GB El conjunto de datos de Hugging Face no es una hazaña trivial. Pero para muchos desarrolladores, el camino más fácil es a través de proveedores de inferencia de terceros, como laboratorios hiperbólicos o OpenRouter. Estas plataformas le permiten aprovechar Deepseek-V3-0324 sin necesidad de su propio centro de datos. Ambos han prometido actualizaciones casi instantáneas cada vez que Deepseek empuja cambia.
Mientras tanto, chat.deepseek.com Probablemente ya se ejecuta en la nueva versión, aunque la inicio no lo ha confirmado explícitamente. Los primeros usuarios informan respuestas más rápidas y una mayor precisión, aunque a costa de alguna calidez de conversación. Si eres un desarrollador que necesita resultados técnicos más formales, este cambio de estilo es probablemente una bendición. Pero los usuarios casuales que desean un bot más amigable y más «humano» podrían notar un tono más frío.
Una persona en evolución
Curiosamente, muchos evaluadores han comentado sobre la nueva voz del modelo. Los lanzamientos anteriores de Deepseek eran conocidos por su estilo sorprendentemente accesible. La iteración 0324 actualizada tiende hacia una manera seria y precisa. Las quejas sobre las respuestas «robóticas» o «excesivamente intelectuales» están apareciendo en foros en línea, lo que sugiere que elseek profundo giró a un entorno más profesional en lugar de una pequeña charla.
Si este estilo hace que el modelo sea más o menos atractivo depende en gran medida del uso. Para la codificación o la investigación científica, la claridad de sus respuestas podría ser una bendición. Mientras tanto, el público general puede encontrar las interacciones más rígidas de lo esperado. De todos modos, este cambio de personalidad intencional señala cómo los mejores jugadores de IA están ajustando cuidadosamente sus modelos para segmentos específicos del mercado.
La liberación de Deepseek obliga a una pregunta más importante sobre cómo se debe compartir la IA avanzada. Código abierto Inherentemente invita a una amplia colaboración e iteración rápida. Al entregar el modelo completo, Deepseek cede cierto control, pero gana un ejército de investigadores, aficionados y nuevas empresas que contribuyen a su ecosistema.
Para los rivales, que mantienen su tecnología con una correa corta, el enfoque de Deepseek plantea un dilema estratégico. Refleja cómo el modelo abierto de Android finalmente superó otros sistemas operativos que intentaron mantener todo bloqueado. Si Deepseek u otras empresas chinas de IA logran replicar ese fenómeno en el espacio de IA, podríamos ver la misma ola imparable de adopción global.
Lo más importante es que el modelo abierto asegura que la IA avanzada no sea solo el dominio de los titanes de la industria. Con el hardware correcto, una amplia gama de organizaciones ahora puede implementar capacidades de vanguardia. Eso, más que nada, es lo que mantiene a los CEO de las empresas de IA occidentales por la noche.
El hecho de que Deepseek-v3-0324 Puede ejecutarse de manera confiable en una sola estación de trabajo bien equipada. Reduce el pensamiento estándar sobre las necesidades de infraestructura. Según las propias declaraciones de Nvidia, los modelos de razonamiento avanzado exigen un poder inmenso y, a menudo, se limitan a centros de datos especializados. El contraejemplo de Deepseek sugiere que, una vez comprimido y optimizado, la IA de próxima generación podría pasar a entornos sorprendentemente modestos.
Y si el rumoreado Deepseek-r2 coincide o supera los equivalentes occidentales, es posible que presencie una revolución de razonamiento de código abierto. Lo que alguna vez fue el dominio exclusivo de las compañías de gran presupuesto podría convertirse en un recurso estándar disponible para nuevas empresas, investigadores independientes y desarrolladores cotidianos.
Crédito de imagen destacado: Solen Feyissa/Unsplash