Se supone que los autos autónomos son el futuro. Se supone que AI tomará la rueda, navega sin problemas y elimina el error humano. Sin embargo, aquí estamos, aún agarrando nuestras ruedas de dirección mientras AI tropieza con simulaciones, cometiendo errores que van desde hilarantemente malos hasta francamente peligrosos.
¿Por qué? Porque la IA aprende a través de prueba y error—El equivalente digital de lanzar dardos en la oscuridad hasta que finalmente golpea la diana. Eso está bien cuando las apuestas son bajas, como jugar al ajedrez u optimizar anuncios. Pero cuando se trata de aplicaciones del mundo real, donde un error significa arar en un peatón, este enfoque se desmorona.
Según un estudio realizado por Zhenghao Peng, Wenjie Mo, Chenda Duan y Bolei Zhou desde Universidad de California, Los Ángeles (UCLA)junto con Quanyi li desde Universidad de EdimburgoEl entrenamiento de IA se puede mejorar dramáticamente usando Propagación del valor proxy (PVP). Su investigación, titulada Aprender de la participación humana activa a través de la propagación del valor de poderdesafía el aprendizaje de refuerzo tradicional al demostrar que La intervención humana activa conduce a un entrenamiento de IA más rápido, seguro y más eficiente.
Tradicional Aprendizaje de refuerzo (RL)la forma en que la IA aprende a tomar decisiones es dolorosamente lenta. Requiere millones de intentos Antes de que una IA descubra lo que funciona. Peor aún, supone que la IA puede entender la intención humana solo siguiendo un sistema de recompensas; cuando en la realidad, los sistemas de recompensa a menudo conducen a comportamientos extraños e involuntarios. Piense en una IA entrenada para ganar una carrera que se resuelva que puede conducir en círculos en la línea de inicio para acumular puntos de «distancia recorrida» sin terminar el curso.
Claramente, la IA necesita un mejor maestro. ¿Y ese maestro? Tú.
Deje que los humanos intervengan en tiempo real
Propagación del valor proxy (PVP) es un nuevo método que convierte el entrenamiento de IA en algo mucho más humano. En lugar de dejar que Ai se mueva en sus errores durante meses, PvP deja que los humanos intervengan, intervengan y muestren a la IA qué hacer en tiempo real.
- Imagine que la IA está aprendiendo a conducir en una simulación, por ejemplo, Grand Theft Auto V (GTA V).
- La IA toma una decisión terrible, dice, ejecuta una luz roja directamente en el tráfico.
- En lugar de ver cómo se desarrolla el caos, un humano toma el control en ese momento y Corrige la acción de la IA.
- El sistema luego etiqueta la decisión del humano como un Movimiento «bueno» y el error anterior de la IA como un Movimiento «malo».
- Usando una técnica llamada propagación de valorAI propaga esta corrección en situaciones similares, aprendiendo a evitar malas decisiones sin necesidad de millones de intentos.
El resultado es sorprendente. Ai aprende mucho más rápidocon menos erroresy, lo más importante, en realidad se alinea con las expectativas humanas en lugar de perseguir a ciegas puntos de recompensa.
Los números no mienten: PVP funciona
El equipo detrás de PVP lo puso a prueba en GTA V, Carla (un simulador de conducción) y Minigrid (una tarea de navegación de laberinto virtual). Los resultados fueron impresionantes:
- AI entrenada con PvP aprendida 10 veces más rápido que los métodos tradicionales.
- Solo se requiere 1.200 intervenciones humanas—Comparado al 300,000 Los intentos de IA generalmente necesitan en RL.
- La tasa de éxito de la IA entrenada por PVP para alcanzar destinos de forma segura fue 85%en comparación con solo 20-50% para métodos anteriores.
- Ai hecho 75% menos errores críticos cuando se entrenan con PVP versus aprendizaje de refuerzo tradicional.
En otras palabras, la IA realmente comenzó a conducir como un humano—No solo un robot programado para maximizar las recompensas abstractas.
Una victoria para la IA y para los humanos
PVP no es solo mejor para la IA. También facilita la vida para las personas que la entrenan. El entrenamiento tradicional de IA requiere supervisión humana constante, horas de retroalimentación y mucha paciencia. Con PvP, AI necesitaba 50% menos esfuerzo humano entrenar. Los evaluadores calificaron la IA entrenada por PVP 4.8 de 5 por precisiónen comparación con solo 3.0 para métodos más antiguos. AI que siguió al entrenamiento de PvP causó significativamente menos estrés Para los entrenadores humanos, porque no requería constantemente correcciones. Para una tecnología que se supone que nos facilita la vida, es un gran paso adelante.
De GTA a las calles
PVP ya se ha demostrado en las pruebas de conducción virtual. La verdadera pregunta es: ¿puede funcionar en Aplicaciones del mundo real?
El potencial es masivo. En lugar de confiar únicamente en las reglas preprogramadas, la IA podría aprender directamente de la intervención humana, lo que lo hace más seguro, más rápido. Los robots con IA en almacenes, hospitales o incluso hogares podrían ser entrenados en tiempo real en lugar de a través de la prueba y el error. Los médicos humanos podrían intervenir durante las cirugías o diagnósticos asistidos por AI-AI, enseñando directamente al sistema lo que está bien o mal.
A veces, el objetivo es hacer AI lo suficientemente humano– Actuar de una manera que esperamos, alinearse con nuestros valores y evitar errores que nos ponen en riesgo.
Crédito de imagen destacado: Kerem Gülen/MidJourney