La compañía china Deepseek AI ha lanzado su modelo de lenguaje grande, R1, que fue capacitado por solo $ 294,000 utilizando 512 GPU NVIDIA H800. En un artículo publicado en la revista NaturalezaLa compañía detalló cómo logró este bajo costo mediante el uso de un método de aprendizaje de refuerzo de prueba y error, lo que permite que el modelo lograra un rendimiento competitivo contra rivales con presupuestos mucho más grandes, como OpenAI.
Cómo funciona el método de aprendizaje de refuerzo de Deepseek
La innovación clave de Deepseek era alejarse del costoso proceso intensivo en humanos de crear conjuntos de datos anotados. Los modelos de IA tradicionales para tareas de razonamiento a menudo se capacitan en vastas conjuntos de datos donde los expertos humanos proporcionan soluciones paso a paso a problemas complejos. En cambio, Deepseek desarrolló un sistema de aprendizaje autónomo que utiliza el aprendizaje de refuerzo para refinar las habilidades de razonamiento del modelo a través de un sistema de recompensas y sanciones. Investigadores de la Universidad Carnegie Mellon, en un artículo que acompaña al documento de la naturaleza, compararon el proceso con un niño que aprendía a jugar un videojuego.
«A medida que el niño navega por su avatar a través del mundo del juego, aprenden a través de la prueba y el error que algunas acciones (como la recolección de monedas de oro) ganan puntos, mientras que otros (como toparse con enemigos) retrasaron su puntaje a cero. En una vena similar, Deepseek-R1 recibió una puntuación alta cuando respondió preguntas correctamente y una puntuación baja cuando dio respuestas erróneas».
Este método fue particularmente efectivo para las tareas en matemáticas y programación, donde las respuestas pueden verificarse definitivamente como correctas o incorrectas. El modelo generaría soluciones potenciales, que luego fueron evaluadas por un sistema de puntuación automatizado. Luego iteraría en su enfoque hasta que lograra la puntuación más alta, todo sin intervención humana. Este proceso eficiente y autodirigido permitió a la compañía construir un poderoso sistema de IA con una fracción de la inversión requerida por sus competidores.
Limitaciones y preocupaciones sobre el modelo
Si bien el enfoque de aprendizaje de refuerzo resultó rentable, también tiene algunas limitaciones. Las salidas del modelo a menudo ocultan los pasos de razonamiento subyacentes, lo que dificulta que un humano entienda cómo llegó a una conclusión. Cuando se le pidió que proporcionara su razonamiento, R1 generó explicaciones extremadamente largas y difíciles de leer, a veces más de 10,000 palabras, que cambian entre inglés y chino. La técnica también luchó con las tareas que requieren matices o subjetividad, donde no hay una sola respuesta «correcta». Más allá de sus limitaciones técnicas, el desarrollo del modelo en China ha generado preocupaciones sobre la influencia potencial del gobierno. Un informe reciente del Washington Post encontró que R1 exhibía prejuicios en sus resultados. Los investigadores descubrieron que el modelo se negaría a generar código con fallas de seguridad importantes cuando las indicaciones involucradas se consideren sensibles por las autoridades chinas. Sin embargo, cuando se le pide que cree código para entidades como Tíbet, Taiwán o el movimiento religioso Falun Gong, el modelo produjo versiones menos seguras con vulnerabilidades incorporadas. Esto sugiere que el comportamiento del modelo puede estar moldeado por las prioridades políticas del gobierno chino.