Los modelos de idiomas grandes (LLM) como GPT-4, Gemini 1.5 y Claude 3.5 han avanzado en razonamiento, diálogo e incluso negociación. Pero cuando se coloca en un entorno estratégico que exige secreto y engaño, estos agentes de IA muestran una debilidad significativa: no pueden mantener un secreto.
Un nuevo estudiar De los investigadores Mustafa O. Karabag y Ufuk Topcu en la Universidad de Texas en Austin pusieron a prueba utilizando El camaleónun juego de mesa de identidad oculta donde los jugadores deben revelar estratégicamente, ocultar e inferir información. Los resultados sugieren que, si bien la IA puede identificar el engaño, lucha por retener información crítica, lo que la hace mal adecuada para escenarios adversos donde la discreción es clave.
AI juega El camaleón juego, y falla en la estrategia
En El camaleónun grupo de jugadores recibe una palabra secreta, a excepción de uno, el camaleón, que debe deducir el secreto basado en las respuestas del grupo. Los jugadores que no son de chamaleón deben equilibrarse lo suficiente como para reconocerse mientras mantienen el camaleón en la oscuridad. El juego exige un enfoque ajustado para el intercambio de información: demasiado, y el camaleón adivina la palabra; Muy poco, y el grupo no identifica el camaleón.
Cuando los agentes de IA asumieron los roles, sus instintos estratégicos se desmoronaron. Mientras que los LLM como GPT-4O pudieron identificar correctamente el camaleón el 61% del tiempo, su capacidad para mantener la palabra secreta oculta fue triste. El estudio encontró que el AI de camaleón podría inferir la palabra secreta con una asombrosa tasa de éxito del 87%, más alta de lo esperado.
AI ahora puede hacer clic, desplazarse y escribir para usted, pero ¿es algo bueno?
Los modelos teóricos confirman el problema de exceso de intercambio de AI
Para comprender estas fallas, los investigadores desarrollaron modelos matemáticos que predicen estrategias óptimas para ocultar y revelar información. Teóricamente, los jugadores que no son de chamaleón deberían ganar aproximadamente el 23% del tiempo, incluso si ignoraban por completo la palabra secreta. En cambio, los no chamelones de IA ganaron solo el 6% de los juegos, lo que sugiere que estaban filtrando demasiada información.
«Los agentes de IA instintivamente excesivos», concluye el estudio. Cuando los LLM tuvieron la oportunidad de idear sus propias estrategias, tendieron a una divulgación excesiva, lo que facilitó el camaleón deducir el secreto. Esto se alinea con los hallazgos de otros juegos de deducción social, como Espigadonde se ha demostrado que los jugadores de IA dependen demasiado de las palabras clave, que involuntariamente se inclinan a los oponentes.
Por qué la IA no puede mantener secretos
Los investigadores plantean la hipótesis de que la capacitación fundamental de la IA lo hace inadecuado para el secreto. Los LLM están diseñados para maximizar la coherencia y la ayuda, lo que a menudo significa completar patrones en lugar de retener estratégicamente la información. Esta tendencia asociativa entra directamente con la necesidad de oscurecer los detalles clave en las interacciones adversas.
Para confirmar esto, los investigadores realizaron pruebas adicionales utilizando los recuentos de resultados de búsqueda web para rastrear cuánta información revelaban inadvertidamente los reproductores de IA. Incluso después de una sola respuesta de un LLM que no es de Chameleon, el Chameleon AI ya podría adivinar la palabra secreta con una probabilidad del 40%, mostrando que las respuestas de la IA tenían mucha más información de lo previsto.
Cuando demasiada información se convierte en una responsabilidad para la IA
Si los LLM luchan con discreción estratégica en entornos controlados, ¿cómo manejarán escenarios del mundo real donde la ocultación de información es crítica? Las aplicaciones en ciberseguridad, diplomacia o inteligencia empresarial competitiva pueden requerir que los sistemas de IA operen con un matiz mucho mayor.
Para abordar esto, los desarrolladores de IA pueden necesitar capacitar a los modelos con un enfoque más fuerte en la ambigüedad estratégica, reduciendo su instinto de revelar en exceso. Técnicas como el aprendizaje de refuerzo adversario o el entrenamiento de engaño explícito podrían ayudar a equilibrar la capacidad de la IA para inferir información sin regalar el juego de inmediato.
Por ahora, sin embargo, AI sigue siendo un pobre jugador de póker. Si bien puede ser excelente para detectar el engaño, su incapacidad para mantener secretos significa que todavía no está listo para el mundo del razonamiento estratégico de alto riesgo.
Crédito de la imagen destacada: Kerem Gülen/MidJourney