Un estudio encuentra que la poesía elude los filtros de seguridad de la IA el 62% del tiempo

Un reciente estudiar de Icaro Lab probó estructuras poéticas para provocar grandes modelos de lenguaje (LLM) para generar información prohibida, incluidos detalles sobre la construcción de una bomba nuclear. En su estudio, titulado «La poesía adversaria como mecanismo universal de fuga de un solo turno en modelos de lenguaje grandes«, los investigadores de Icaro Lab eludieron los mecanismos de seguridad del chatbot de IA mediante el empleo de indicaciones poéticas. El estudio encontró que la «forma poética funciona como un operador de jailbreak de propósito general», logrando una tasa de éxito del 62 por ciento en la producción de contenido prohibido. Este contenido incluía información sobre armas nucleares, materiales de abuso sexual infantil y suicidio o autolesión. Los investigadores probaron varios LLM populares, incluidos los modelos GPT de OpenAI, Google Gemini y Claude de Anthropic. Google Gemini, DeepSeek, y MistralAI proporcionaron respuestas consistentemente, mientras que los modelos GPT-5 de OpenAI y Claude Haiku 4.5 de Anthropic tenían menos probabilidades de eludir sus restricciones. Los poemas específicos de jailbreak no se incluyeron en el estudio, afirmó el equipo de investigación. cableado que el verso es «demasiado peligroso para compartirlo con el público». Se proporcionó una versión diluida para ilustrar la facilidad de elusión. Los investigadores informaron a Wired que «probablemente sea más fácil de lo que uno podría pensar, y es precisamente por eso que estamos siendo cautelosos».

Crédito de imagen destacada

Tags: AI estudiar poesía

Un estudio encuentra que la poesía elude los filtros de seguridad de la IA el 62% del tiempo

Related Posts

Los científicos descubren más de 17.000 nuevas especies

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Un estudio encuentra que la poesía elude los filtros de seguridad de la IA el 62% del tiempo

Related Posts

Los científicos descubren más de 17.000 nuevas especies

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us