Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Ai está aprendiendo a conducir como un humano, mirándote entrar en pánico

byKerem Gülen
6 febrero 2025
in Research
Home Research

Se supone que los autos autónomos son el futuro. Se supone que AI tomará la rueda, navega sin problemas y elimina el error humano. Sin embargo, aquí estamos, aún agarrando nuestras ruedas de dirección mientras AI tropieza con simulaciones, cometiendo errores que van desde hilarantemente malos hasta francamente peligrosos.

¿Por qué? Porque la IA aprende a través de prueba y error—El equivalente digital de lanzar dardos en la oscuridad hasta que finalmente golpea la diana. Eso está bien cuando las apuestas son bajas, como jugar al ajedrez u optimizar anuncios. Pero cuando se trata de aplicaciones del mundo real, donde un error significa arar en un peatón, este enfoque se desmorona.

Según un estudio realizado por Zhenghao Peng, Wenjie Mo, Chenda Duan y Bolei Zhou desde Universidad de California, Los Ángeles (UCLA)junto con Quanyi li desde Universidad de EdimburgoEl entrenamiento de IA se puede mejorar dramáticamente usando Propagación del valor proxy (PVP). Su investigación, titulada Aprender de la participación humana activa a través de la propagación del valor de poderdesafía el aprendizaje de refuerzo tradicional al demostrar que La intervención humana activa conduce a un entrenamiento de IA más rápido, seguro y más eficiente.

Tradicional Aprendizaje de refuerzo (RL)la forma en que la IA aprende a tomar decisiones es dolorosamente lenta. Requiere millones de intentos Antes de que una IA descubra lo que funciona. Peor aún, supone que la IA puede entender la intención humana solo siguiendo un sistema de recompensas; cuando en la realidad, los sistemas de recompensa a menudo conducen a comportamientos extraños e involuntarios. Piense en una IA entrenada para ganar una carrera que se resuelva que puede conducir en círculos en la línea de inicio para acumular puntos de «distancia recorrida» sin terminar el curso.

Claramente, la IA necesita un mejor maestro. ¿Y ese maestro? Tú.

Deje que los humanos intervengan en tiempo real

Propagación del valor proxy (PVP) es un nuevo método que convierte el entrenamiento de IA en algo mucho más humano. En lugar de dejar que Ai se mueva en sus errores durante meses, PvP deja que los humanos intervengan, intervengan y muestren a la IA qué hacer en tiempo real.

  • Imagine que la IA está aprendiendo a conducir en una simulación, por ejemplo, Grand Theft Auto V (GTA V).
  • La IA toma una decisión terrible, dice, ejecuta una luz roja directamente en el tráfico.
  • En lugar de ver cómo se desarrolla el caos, un humano toma el control en ese momento y Corrige la acción de la IA.
  • El sistema luego etiqueta la decisión del humano como un Movimiento «bueno» y el error anterior de la IA como un Movimiento «malo».
  • Usando una técnica llamada propagación de valorAI propaga esta corrección en situaciones similares, aprendiendo a evitar malas decisiones sin necesidad de millones de intentos.

El resultado es sorprendente. Ai aprende mucho más rápidocon menos erroresy, lo más importante, en realidad se alinea con las expectativas humanas en lugar de perseguir a ciegas puntos de recompensa.


AI lucha con la estrategia: el estudio muestra que los LLM revelan demasiado en los juegos de deducción social


Los números no mienten: PVP funciona

El equipo detrás de PVP lo puso a prueba en GTA V, Carla (un simulador de conducción) y Minigrid (una tarea de navegación de laberinto virtual). Los resultados fueron impresionantes:

  • AI entrenada con PvP aprendida 10 veces más rápido que los métodos tradicionales.
  • Solo se requiere 1.200 intervenciones humanas—Comparado al 300,000 Los intentos de IA generalmente necesitan en RL.
  • La tasa de éxito de la IA entrenada por PVP para alcanzar destinos de forma segura fue 85%en comparación con solo 20-50% para métodos anteriores.
  • Ai hecho 75% menos errores críticos cuando se entrenan con PVP versus aprendizaje de refuerzo tradicional.

En otras palabras, la IA realmente comenzó a conducir como un humano—No solo un robot programado para maximizar las recompensas abstractas.

Una victoria para la IA y para los humanos

PVP no es solo mejor para la IA. También facilita la vida para las personas que la entrenan. El entrenamiento tradicional de IA requiere supervisión humana constante, horas de retroalimentación y mucha paciencia. Con PvP, AI necesitaba 50% menos esfuerzo humano entrenar. Los evaluadores calificaron la IA entrenada por PVP 4.8 de 5 por precisiónen comparación con solo 3.0 para métodos más antiguos. AI que siguió al entrenamiento de PvP causó significativamente menos estrés Para los entrenadores humanos, porque no requería constantemente correcciones. Para una tecnología que se supone que nos facilita la vida, es un gran paso adelante.

De GTA a las calles

PVP ya se ha demostrado en las pruebas de conducción virtual. La verdadera pregunta es: ¿puede funcionar en Aplicaciones del mundo real?

El potencial es masivo. En lugar de confiar únicamente en las reglas preprogramadas, la IA podría aprender directamente de la intervención humana, lo que lo hace más seguro, más rápido. Los robots con IA en almacenes, hospitales o incluso hogares podrían ser entrenados en tiempo real en lugar de a través de la prueba y el error. Los médicos humanos podrían intervenir durante las cirugías o diagnósticos asistidos por AI-AI, enseñando directamente al sistema lo que está bien o mal.

A veces, el objetivo es hacer AI lo suficientemente humano– Actuar de una manera que esperamos, alinearse con nuestros valores y evitar errores que nos ponen en riesgo.


Crédito de imagen destacado: Kerem Gülen/MidJourney

Tags: AIPresentado

Related Posts

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

Las herramientas de investigación de IA podrían estar creando más problemas de los que resuelven

14 mayo 2025
¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

¿Su socio generativo de IA súper útil es en secreto haciendo que su trabajo sea aburrido?

14 mayo 2025
Adele de Microsoft quiere darle a su IA un perfil cognitivo

Adele de Microsoft quiere darle a su IA un perfil cognitivo

14 mayo 2025
El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

El artículo de Apple Research presenta Matrix3D para la generación de contenido 3D

14 mayo 2025
Investigación: El estándar de oro para la evaluación de Genai

Investigación: El estándar de oro para la evaluación de Genai

12 mayo 2025
AI finalmente resuelve el rompecabezas más duro de la biología

AI finalmente resuelve el rompecabezas más duro de la biología

6 mayo 2025

Recent Posts

  • El impacto de las telas inteligentes en el rendimiento de la ropa táctica
  • Databricks apuesta grande en Postgres sin servidor con su adquisición de neón de $ 1 mil millones
  • Alphaevolve: Cómo la nueva IA de Google apunta a la verdad con la autocorrección
  • Tiktok está implementando textos alternativos generados por AI para una mejor acesibilidad
  • Trump obliga a Apple a repensar su estrategia de iPhone de la India

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.