La próxima vez que alguien le diga que AI nos ayudará a regular la IA, es posible que desee detenerse. Porque cuando los investigadores colocaron modelos de idiomas grandes (LLM) en un entorno regulatorio simulado, haciéndolos desempeñar los roles de usuarios, desarrolladores y reguladores, los resultados no eran exactamente tranquilizadores.
Este nuevo estudiarDirigido por un equipo de la Universidad de Teesside y los colaboradores en toda Europa, utilizó la teoría de los juegos evolutivos para explorar una pregunta fundamental: ¿seguirían los sistemas de IA en sí mismos las reglas de la regulación de la IA? Y aún más interesante: ¿en qué condiciones engañarían?
El experimento: tres ais entran a una sala de juntas
En el corazón del estudio hay una configuración clásica del juego de tres jugadores: un jugador representa a los usuarios de IA, otro desarrollador de IA y el tercero un regulador. Cada uno tiene opciones simples: confía o no, cumplan o defienda, regule o se mantenga a la mano.
Pero en lugar de solo ejecutar modelos matemáticos, los investigadores usaron LLMS reales, GPT-4O de OpenAi y Mistral grandey los tuvo un juego de roles en estos escenarios en cientos de juegos.
A veces era un trato único (jugar una vez, revelar su estrategia). Otras veces fue un juego repetido, donde los agentes podían aprender de los comportamientos pasados.
De manera crucial, los investigadores agregaron complicaciones realistas:
- La regulación viene con costos (el monitoreo requiere esfuerzo)
- Los desarrolladores enfrentan sanciones si se atrapan las reglas de ruptura
- Los usuarios pueden confiar incondicionalmente, o solo confiar en si los reguladores tienen una buena reputación
- Todos quieren maximizar su recompensa
Los resultados: los agentes de IA se comportan peor cuando los usuarios son escépticos
¿La visión principal? Trust condicionales, cuando los usuarios solo confían si los reguladores parecen competentes, fracasaron espectacularmente.
Cuando los usuarios eran cautelosos, tanto los desarrolladores como los reguladores tenían más probabilidades de desertar. Regulación decaida. Los desarrolladores cortan esquinas. Los reguladores se volvieron perezosos o indulgentes. Confía en espiral.
Pero cuando los usuarios pusieron confianza incondicional en el sistema, incluso sin evidencia perfecta, los desarrolladores y reguladores tenían más probabilidades de cooperar y construir una IA más segura. Es una paradoja brutal: cuanto más cauteloso sean los usuarios, más probabilidades del sistema se vuelve poco confiable.
GPT-4 vs Mistral: las personalidades de IA son importantes
Hubo otra arruga fascinante. Diferentes LLM se comportaron de manera diferente.
- GPT-4O se inclinó más optimista. Era más probable que confíe y cumpliera, especialmente en juegos repetidos donde la cooperación podría surgir con el tiempo.
- Mistral grande era más pesimista. Tendía a desertar antes, confiaba menos y era más sensible a los costos regulatorios.
Esto significa que incluso la IA que elige para las simulaciones de gobernanza podría dar forma a sus conclusiones, un gran desafío para la reproducibilidad en la investigación de regulación de IA.
Agregar personalidades: los riesgos de ajustar el comportamiento de la IA
Los investigadores también probaron lo que sucede cuando inyectas «personalidades» explícitas en los agentes de IA.
- Los usuarios de reestructuración de riesgos confiaron menos.
- Los desarrolladores agresivos desertaron más.
- Los reguladores estrictos mejoraron el cumplimiento pero solo hasta cierto punto.
Curiosamente, establecer personalidades específicas hizo que los comportamientos de LLM en GPT-4O y Mistral sean más similares. Sin personalidades, los agentes de IA incumplieron una cosmovisión más «pesimista», a menudo asumiendo que los desarrolladores y reguladores no actuarían de buena fe.
Entonces, ¿puede la IA regular la IA?
En resumen: solo si el entorno ya confía, transparente y bien incentivado.
El estudio sugiere que los sistemas de regulación que dependen de los propios agentes de IA pueden heredar el desorden y la imprevisibilidad del comportamiento estratégico humano. También apunta a un defecto crítico en la idea de automatizar la gobernanza: los sistemas de IA reflejarán las estructuras de confianza del entorno en las que se colocan.
Si los reguladores están subfinanciados o débiles, o si los usuarios son escépticos, los desarrolladores de IA, humanos o no, probablemente cortarán esquinas. En última instancia, los investigadores argumentan que las soluciones técnicas por sí solas no generarán ecosistemas de IA confiables. La teoría del juego nos muestra que los incentivos, la reputación y la transparencia importan profundamente. Y sus experimentos muestran que incluso los LLM más inteligentes no pueden escapar de esas dinámicas.
Su advertencia a los formuladores de políticas es clara: la regulación no se trata solo de escribir reglas. Se trata de construir estructuras donde la confianza es recompensada, la aplicación es creíble y cortar esquinas es costoso.