Los inversores de Silicon Valley y los principales laboratorios de IA están haciendo importantes inversiones en entornos de aprendizaje de refuerzo (RL), que son espacios de trabajo simulados diseñados para capacitar a los agentes de IA para usar el software de forma autónoma. Si bien los agentes de IA como el agente de ChatGPT de OpenAI han demostrado ser prometedor, todavía luchan con tareas complejas de varios pasos. Esta nueva ola de inversión se centra en crear campos de entrenamiento sofisticados para superar estas limitaciones, yendo más allá de los conjuntos de datos estáticos y etiquetados que impulsaron la última generación de IA.
Cómo funcionan los entornos de aprendizaje de refuerzo de IA
Los entornos RL son terrenos de capacitación virtual donde un agente de IA puede practicar el uso del software en una configuración controlada. El agente recibe comentarios a través de un sistema de recompensas y sanciones, muy parecido a un juego. Por ejemplo, un agente encargado de comprar calcetines en Amazon en un navegador Chrome simulado recibiría una recompensa positiva por completar con éxito la compra. Recibiría una multa por errores como elegir el elemento incorrecto o no navegar en un menú. Estos entornos dinámicos son mucho más complejos de construir que los conjuntos de datos estáticos. Deben tener en cuenta una amplia gama de acciones de agentes impredecibles y proporcionar comentarios precisos para guiar la mejora. El concepto se basa en investigaciones anteriores de IA, como los «gimnasios RL» desarrollados por OpenAI en 2016 y la junta simulada utilizada para entrenar a Alphago de Deepmind. Sin embargo, los entornos de hoy se aplican a los modelos de transformadores de uso general para capacitarlos para tareas abiertas como navegación web y edición de documentos.
Un nuevo ecosistema de startups está surgiendo para satisfacer la demanda
Los principales laboratorios de IA como OpenAi, Anthrope y Meta están construyendo sus propios entornos RL, pero la complejidad y la escala de la tarea han creado una demanda de especialistas en terceros. Esto ha alimentado el crecimiento de un nuevo ecosistema de nuevas empresas y ha llevado a las compañías de datos establecidas a pivotar.
- Mecanizar el trabajouna nueva startup, se está centrando en crear un pequeño número de entornos de alta fidelidad para tareas como la codificación de AI. Según los informes, la compañía está trabajando con antrópico y ofrece salarios de hasta $ 500,000 para atraer el mejor talento de ingeniería.
- Intelecto principal Se dirige a desarrolladores más pequeños con un centro de código abierto que llama una «cara abrazada para entornos RL». La plataforma proporciona acceso a simulaciones previas a la construcción y vende los recursos computacionales necesarios para ejecutarlos.
- Aumentouna compañía de marca de datos que informó $ 1.2 mil millones en ingresos el año pasado, ha creado una nueva organización interna dedicada a construir entornos RL para satisfacer la creciente demanda de sus clientes.
- Mercor está desarrollando entornos específicos de dominio para campos como codificación, atención médica y derecho, donde los agentes pueden recibir capacitación en software simulado para tareas como revisar los registros de pacientes o contratos legales.
- Escala aiun ex líder en etiquetado de datos, también se está adaptando mediante el desarrollo de entornos RL, ya que busca seguir siendo competitivo después de perder contratos clave con Google y OpenAI.
Desafíos y el camino a seguir
A pesar de la gran inversión, incluido un plan informado de antrópico para asignar más de $ 1 mil millones a entornos RL, quedan desafíos significativos. Ross Taylor, un ex líder de investigación de IA en Meta, señaló el problema del «piratería de recompensas», donde los agentes encuentran lagunas para obtener recompensas sin completar la tarea prevista. Sherwin Wu de Openai ha notado una escasez de nuevas empresas especializadas capaces de satisfacer las necesidades en rápida evolución de los mejores laboratorios. También hay un debate dentro de la comunidad de IA sobre los métodos de capacitación más efectivos.
Andrej Karpathyun inversor en intelecto principal, compartió una visión matizada sobre X.
«Soy optimista en entornos e interacciones agentes, pero soy bajista en el aprendizaje de refuerzo específicamente».
Esta perspectiva destaca el entusiasmo por usar entornos simulados al tiempo que reconoce que la mejor manera de extraer inteligencia de ellos sigue siendo una pregunta abierta. No obstante, estos entornos son vistos como un componente crítico en el desarrollo de la próxima generación de agentes de IA más capaces y autónomos, impulsando avances recientes como Openi’s O1 y Claude Opus 4 de Anthrope.