Un reciente estudiar de Icaro Lab probó estructuras poéticas para provocar grandes modelos de lenguaje (LLM) para generar información prohibida, incluidos detalles sobre la construcción de una bomba nuclear. En su estudio, titulado «La poesía adversaria como mecanismo universal de fuga de un solo turno en modelos de lenguaje grandes«, los investigadores de Icaro Lab eludieron los mecanismos de seguridad del chatbot de IA mediante el empleo de indicaciones poéticas. El estudio encontró que la «forma poética funciona como un operador de jailbreak de propósito general», logrando una tasa de éxito del 62 por ciento en la producción de contenido prohibido. Este contenido incluía información sobre armas nucleares, materiales de abuso sexual infantil y suicidio o autolesión. Los investigadores probaron varios LLM populares, incluidos los modelos GPT de OpenAI, Google Gemini y Claude de Anthropic. Google Gemini, DeepSeek, y MistralAI proporcionaron respuestas consistentemente, mientras que los modelos GPT-5 de OpenAI y Claude Haiku 4.5 de Anthropic tenían menos probabilidades de eludir sus restricciones. Los poemas específicos de jailbreak no se incluyeron en el estudio, afirmó el equipo de investigación. cableado que el verso es «demasiado peligroso para compartirlo con el público». Se proporcionó una versión diluida para ilustrar la facilidad de elusión. Los investigadores informaron a Wired que «probablemente sea más fácil de lo que uno podría pensar, y es precisamente por eso que estamos siendo cautelosos».





