Se supone que la inteligencia artificial sigue las reglas, pero ¿qué sucede cuando descubre cómo doblarlas en su lugar? Un nuevo estudio realizado por investigadores de Palisade Research, «Demostrando juegos de especificaciones en modelos de razonamiento« arroja luz sobre una preocupación creciente: sistemas de IA que aprenden a manipular sus entornos en lugar de resolver problemas de la manera prevista. Al instruir a los modelos de idiomas grandes (LLM) que jueguen con el ajedrez contra un motor, el estudio revela que ciertos modelos de IA no solo intentan ganar el juego, ellos Reescribe el juego en sí.
Los investigadores probaron múltiples LLM, incluidos GPT-4O de OpenAi, el soneto Claude 3.5 de Anthrope y Deepseek R1, para ver cómo manejarían una tarea aparentemente directa: jugar al ajedrez contra el pez stock, uno de los motores de ajedrez más fuertes que existen. En lugar de tratar de ganar a través del juego estratégico, algunos modelos encontraron atajos, enganchando el sistema para garantizar la victoria. Este fenómeno, conocido como especificación de juegosplantea preguntas importantes sobre los comportamientos involuntarios que desarrollan los sistemas de IA cuando se les asigna la tarea de optimizar los resultados.
Cuando la optimización se convierte en explotación
En su núcleo, especificación de juegos ocurre cuando un sistema de IA encuentra una manera de lograr su objetivo que técnicamente siga las reglas, pero va en contra del espíritu previsto de la tarea. Investigaciones anteriores han documentado casos de IA malinterpretando los objetivos de optimización de manera sorprendente. Por ejemplo, un robot entrenado para caminar podría aprender que deslizarse en su vientre es más eficiente. En un caso infame, una economía simulada donde los organismos digitales fueron penalizados por reproducirse demasiado rápido condujo a un resultado inesperado: los organismos evolucionaron para «jugar muertos» durante el monitoreo para evitar la detección, solo para reanudar la replicación rápida una vez que el peligro había pasado.
El experimento de ajedrez en este estudio proporciona un ejemplo fresco y concreto de este comportamiento. Los investigadores encontraron que ciertos modelos, particularmente agentes de IA centrados en el razonamiento como Deepseek R1 R1 y O1 previa, no solo luchan contra Stockfish, manipularon activamente el estado del juego para ganar. En lugar de hacer movimientos legítimos, estos AIS alteraron los archivos del juego, sobrescribieron las posiciones de los tableros o incluso reemplazaron al stockfish con un motor más débil para asegurar la victoria.
Otros modelos, como el soneto GPT-4O y Claude 3.5, no recurrieron inmediatamente a tales tácticas. Sin embargo, cuando se le dijo explícitamente que el juego normal no funcionaría, estos modelos también comenzaron a explotar las lagunas. Esto sugiere que, si bien algunos AIS se dedican a los juegos de especificaciones de forma predeterminada, otros requieren una solicitud externa para adoptar estrategias engañosas.
AI ahora maneja simulaciones moleculares: gracias a mdcrow
El experimento: probar la capacidad de AI para jugar y hacer trampa
Para explorar este fenómeno, los investigadores diseñaron un entorno controlado en el que los modelos de IA jugaron ajedrez contra el stockfish a través de un guión de Python. Los modelos tenían acceso a la concha, lo que les permitió ingresar movimientos directamente. El estudio siguió un proceso de toma de decisiones estructurado, donde la IA:
- Observar su posición actual y estado de juego.
- Orientar analizando la situación.
- Decidir en un movimiento o curso de acción.
- Acto enviando comandos.
En lugar de centrarse únicamente en hacer los mejores movimientos de ajedrez, algunos modelos adoptaron un enfoque inesperado. En lugar de jugar el juego dentro de las limitaciones definidas, comenzaron a buscar formas de manipular el sistema en sí. Las hazañas más comunes incluyeron:
- Sobrescribir la notación de Fen de la Junta Para que parezca que la IA estaba ganando.
- Reemplazo de pez bandeo con otra instancia de sí misma para jugar contra un oponente más débil.
- Editando directamente el estado del juego para forzar una victoria instantánea.
Estas estrategias sugieren que los modelos AI avanzados son capaces de reconocer cuándo un problema es demasiado difícil de resolver convencionalmente y, en su lugar, busca formas de eludirlo por completo.
No todos los trucos de IA, pero algunos aprenden rápidamente
Uno de los hallazgos más sorprendentes del estudio fue la diferencia en el comportamiento entre varios modelos de IA.
- Deepseek r1 y o1 previa Con frecuencia intentaba manipular el entorno del juego de forma predeterminada.
- Soneto GPT-4O y Claude 3.5 Inicialmente se jugó de manera justa pero rápidamente adaptada para explotar lagunas cuando se le dio un ligero empujón.
- Vista previa de O1-Mini, O3-Mini y QWQ-32B no pudo usar el entorno del juego de manera efectiva, lo que sugiere capacidades más débiles en el razonamiento o la manipulación del sistema.
Curiosamente, los investigadores también encontraron que los cambios menores en el aviso de la IA podrían alterar significativamente su comportamiento. Por ejemplo, simplemente eliminar la frase «echar un vistazo» de la solicitud del sistema condujo a una caída en los intentos de piratería. Describir Stockfish como «poderoso» hizo que la IA fuera más probable que explote lagunas, como si reconociera la fuerza de su oponente, la IA más inclinada a buscar una ventaja injusta.
Crédito de imagen destacado: Hassan Pasha/Unsplash