Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU

byAytun Çelebi
19 septiembre 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

La compañía china Deepseek AI ha lanzado su modelo de lenguaje grande, R1, que fue capacitado por solo $ 294,000 utilizando 512 GPU NVIDIA H800. En un artículo publicado en la revista NaturalezaLa compañía detalló cómo logró este bajo costo mediante el uso de un método de aprendizaje de refuerzo de prueba y error, lo que permite que el modelo lograra un rendimiento competitivo contra rivales con presupuestos mucho más grandes, como OpenAI.

Cómo funciona el método de aprendizaje de refuerzo de Deepseek

La innovación clave de Deepseek era alejarse del costoso proceso intensivo en humanos de crear conjuntos de datos anotados. Los modelos de IA tradicionales para tareas de razonamiento a menudo se capacitan en vastas conjuntos de datos donde los expertos humanos proporcionan soluciones paso a paso a problemas complejos. En cambio, Deepseek desarrolló un sistema de aprendizaje autónomo que utiliza el aprendizaje de refuerzo para refinar las habilidades de razonamiento del modelo a través de un sistema de recompensas y sanciones. Investigadores de la Universidad Carnegie Mellon, en un artículo que acompaña al documento de la naturaleza, compararon el proceso con un niño que aprendía a jugar un videojuego.

«A medida que el niño navega por su avatar a través del mundo del juego, aprenden a través de la prueba y el error que algunas acciones (como la recolección de monedas de oro) ganan puntos, mientras que otros (como toparse con enemigos) retrasaron su puntaje a cero. En una vena similar, Deepseek-R1 recibió una puntuación alta cuando respondió preguntas correctamente y una puntuación baja cuando dio respuestas erróneas».

Este método fue particularmente efectivo para las tareas en matemáticas y programación, donde las respuestas pueden verificarse definitivamente como correctas o incorrectas. El modelo generaría soluciones potenciales, que luego fueron evaluadas por un sistema de puntuación automatizado. Luego iteraría en su enfoque hasta que lograra la puntuación más alta, todo sin intervención humana. Este proceso eficiente y autodirigido permitió a la compañía construir un poderoso sistema de IA con una fracción de la inversión requerida por sus competidores.

Limitaciones y preocupaciones sobre el modelo

Si bien el enfoque de aprendizaje de refuerzo resultó rentable, también tiene algunas limitaciones. Las salidas del modelo a menudo ocultan los pasos de razonamiento subyacentes, lo que dificulta que un humano entienda cómo llegó a una conclusión. Cuando se le pidió que proporcionara su razonamiento, R1 generó explicaciones extremadamente largas y difíciles de leer, a veces más de 10,000 palabras, que cambian entre inglés y chino. La técnica también luchó con las tareas que requieren matices o subjetividad, donde no hay una sola respuesta «correcta». Más allá de sus limitaciones técnicas, el desarrollo del modelo en China ha generado preocupaciones sobre la influencia potencial del gobierno. Un informe reciente del Washington Post encontró que R1 exhibía prejuicios en sus resultados. Los investigadores descubrieron que el modelo se negaría a generar código con fallas de seguridad importantes cuando las indicaciones involucradas se consideren sensibles por las autoridades chinas. Sin embargo, cuando se le pide que cree código para entidades como Tíbet, Taiwán o el movimiento religioso Falun Gong, el modelo produjo versiones menos seguras con vulnerabilidades incorporadas. Esto sugiere que el comportamiento del modelo puede estar moldeado por las prioridades políticas del gobierno chino.


Crédito de imagen destacado

Tags: Presentadoveterano

Related Posts

Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo

Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo

26 diciembre 2025
ChatGPT evoluciona hacia una suite ofimática con nuevos bloques de formato

ChatGPT evoluciona hacia una suite ofimática con nuevos bloques de formato

26 diciembre 2025
Google NotebookLM presenta "Modo conferencia" para aprendizaje de IA de 30 minutos

Google NotebookLM presenta "Modo conferencia" para aprendizaje de IA de 30 minutos

26 diciembre 2025
Amazon agrega Angi, Expedia, Square y Yelp a Alexa+

Amazon agrega Angi, Expedia, Square y Yelp a Alexa+

26 diciembre 2025
Los robotaxis Waymo pueden tener el asistente de automóvil Gemini AI

Los robotaxis Waymo pueden tener el asistente de automóvil Gemini AI

26 diciembre 2025
Por qué NVIDIA se salta Intel 18A para sus chips AI de próxima generación

Por qué NVIDIA se salta Intel 18A para sus chips AI de próxima generación

26 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.