Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU

byAytun Çelebi
19 septiembre 2025
in Artificial Intelligence
Home Artificial Intelligence

La compañía china Deepseek AI ha lanzado su modelo de lenguaje grande, R1, que fue capacitado por solo $ 294,000 utilizando 512 GPU NVIDIA H800. En un artículo publicado en la revista NaturalezaLa compañía detalló cómo logró este bajo costo mediante el uso de un método de aprendizaje de refuerzo de prueba y error, lo que permite que el modelo lograra un rendimiento competitivo contra rivales con presupuestos mucho más grandes, como OpenAI.

Cómo funciona el método de aprendizaje de refuerzo de Deepseek

La innovación clave de Deepseek era alejarse del costoso proceso intensivo en humanos de crear conjuntos de datos anotados. Los modelos de IA tradicionales para tareas de razonamiento a menudo se capacitan en vastas conjuntos de datos donde los expertos humanos proporcionan soluciones paso a paso a problemas complejos. En cambio, Deepseek desarrolló un sistema de aprendizaje autónomo que utiliza el aprendizaje de refuerzo para refinar las habilidades de razonamiento del modelo a través de un sistema de recompensas y sanciones. Investigadores de la Universidad Carnegie Mellon, en un artículo que acompaña al documento de la naturaleza, compararon el proceso con un niño que aprendía a jugar un videojuego.

«A medida que el niño navega por su avatar a través del mundo del juego, aprenden a través de la prueba y el error que algunas acciones (como la recolección de monedas de oro) ganan puntos, mientras que otros (como toparse con enemigos) retrasaron su puntaje a cero. En una vena similar, Deepseek-R1 recibió una puntuación alta cuando respondió preguntas correctamente y una puntuación baja cuando dio respuestas erróneas».

Este método fue particularmente efectivo para las tareas en matemáticas y programación, donde las respuestas pueden verificarse definitivamente como correctas o incorrectas. El modelo generaría soluciones potenciales, que luego fueron evaluadas por un sistema de puntuación automatizado. Luego iteraría en su enfoque hasta que lograra la puntuación más alta, todo sin intervención humana. Este proceso eficiente y autodirigido permitió a la compañía construir un poderoso sistema de IA con una fracción de la inversión requerida por sus competidores.

Limitaciones y preocupaciones sobre el modelo

Si bien el enfoque de aprendizaje de refuerzo resultó rentable, también tiene algunas limitaciones. Las salidas del modelo a menudo ocultan los pasos de razonamiento subyacentes, lo que dificulta que un humano entienda cómo llegó a una conclusión. Cuando se le pidió que proporcionara su razonamiento, R1 generó explicaciones extremadamente largas y difíciles de leer, a veces más de 10,000 palabras, que cambian entre inglés y chino. La técnica también luchó con las tareas que requieren matices o subjetividad, donde no hay una sola respuesta «correcta». Más allá de sus limitaciones técnicas, el desarrollo del modelo en China ha generado preocupaciones sobre la influencia potencial del gobierno. Un informe reciente del Washington Post encontró que R1 exhibía prejuicios en sus resultados. Los investigadores descubrieron que el modelo se negaría a generar código con fallas de seguridad importantes cuando las indicaciones involucradas se consideren sensibles por las autoridades chinas. Sin embargo, cuando se le pide que cree código para entidades como Tíbet, Taiwán o el movimiento religioso Falun Gong, el modelo produjo versiones menos seguras con vulnerabilidades incorporadas. Esto sugiere que el comportamiento del modelo puede estar moldeado por las prioridades políticas del gobierno chino.


Crédito de imagen destacado

Tags: Presentadoveterano

Related Posts

XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados

XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados

19 septiembre 2025
Google Cloud agrega adorable y windsurf como clientes de codificación de IA

Google Cloud agrega adorable y windsurf como clientes de codificación de IA

19 septiembre 2025
Zoom anuncia AI Companion 3.0 en Zoomtopia

Zoom anuncia AI Companion 3.0 en Zoomtopia

19 septiembre 2025
Géminis AI de Google logra la medalla de oro en la prestigiosa competencia de codificación de ICPC, superando a la mayoría de los equipos humanos

Géminis AI de Google logra la medalla de oro en la prestigiosa competencia de codificación de ICPC, superando a la mayoría de los equipos humanos

18 septiembre 2025
AI Labs invierte en entornos RL para agentes autónomos

AI Labs invierte en entornos RL para agentes autónomos

17 septiembre 2025
Scale AI asegura un contrato de Pentágono de $ 100 millones para la implementación de la plataforma de IA

Scale AI asegura un contrato de Pentágono de $ 100 millones para la implementación de la plataforma de IA

17 septiembre 2025

Recent Posts

  • Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU
  • NVIDIA gasta más de $ 900 millones para contratar tecnología de hardware de CEO y AI de ENFABRICA
  • El juego de Roblox roba un brainrot elimina el personaje generado por la IA, provocando una reacción de los fanáticos y un debate sobre los derechos de autor
  • XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados
  • Google Cloud agrega adorable y windsurf como clientes de codificación de IA

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.