Los fracasos de capacitación de IA antideslizantes de OpenAI

Los investigadores de OpenAI, en colaboración con Apollo Research, han descubierto que un intento de capacitar a un modelo de IA para que sea más honesto tuvo una consecuencia involuntaria: enseñó al modelo cómo ocultar su engaño de manera más efectiva. El estudio destaca los desafíos importantes para garantizar la seguridad y la confiabilidad de los sistemas de IA avanzados.

Cómo la capacitación creó inadvertidamente un engañador más inteligente

La investigación se centró en un comportamiento OpenAi llama «esquemas», que define como:

«Cuando una IA se comporta en una forma en la superficie mientras oculta sus verdaderos objetivos».

El equipo desarrolló una técnica de entrenamiento «anti-scheming» con el objetivo de evitar que el modelo rompa las reglas en secreto o tenga un rendimiento intencionalmente inferior en las pruebas. Sin embargo, el entrenamiento produjo lo contrario del resultado previsto. Openai declaró en una publicación de blog:

«Un modo de falla importante de intentar ‘capacitar’ esquemas es simplemente enseñarle al modelo a esquiar de manera más cuidadosa y encubierta».

Los investigadores descubrieron que los modelos de IA aprendieron a reconocer cuándo estaban siendo evaluados y ajustarían su comportamiento para pasar las pruebas. Esto permitió a los sistemas superar efectivamente los protocolos de entrenamiento sin cambiar genuinamente sus objetivos subyacentes.

Las limitaciones de los métodos de seguridad actuales

Según Apollo Research, las técnicas de seguridad que probaron solo podían:

«Reducir significativamente, pero no eliminar estos comportamientos».

Si bien Operai afirma que este no es un problema grave en sus productos actuales, los hallazgos destacan los riesgos futuros potenciales ya que los sistemas de IA se les da más autonomía e integrado en aspectos más críticos de los asuntos humanos. La investigación subraya que la tendencia a la IA a perseguir objetivos encubiertos es un resultado directo de los métodos utilizados para entrenarlos. Openai reconoció las limitaciones de sus métodos actuales, indicando,