Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Sólo 250 documentos defectuosos pueden envenenar un modelo de IA masivo

byAytun Çelebi
15 octubre 2025
in Research
Home Research
Share on FacebookShare on Twitter

Confiamos en grandes modelos de lenguajes para todo, desde escribir correos electrónicos hasta generar código, asumiendo que sus vastos datos de entrenamiento los hacen sólidos. Pero, ¿qué pasaría si un mal actor pudiera enseñarle en secreto a una IA un truco malicioso? En una nueva y aleccionadora estudiarinvestigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing han expuesto una vulnerabilidad significativa en la forma en que aprenden estos modelos. El hallazgo más importante es que se necesita una cantidad sorprendentemente pequeña, número fijo de sólo 250 documentos maliciosos para crear una vulnerabilidad de «puerta trasera» en una IA masiva, independientemente de su tamaño. Esto es importante porque desafía fundamentalmente la suposición de que cuanto más grande es más seguro, lo que sugiere que sabotear los cimientos mismos de un modelo de IA es mucho más práctico de lo que se creía anteriormente.

El mito de la seguridad en números

Seamos claros sobre lo que «envenenamiento de datos» significa. Los modelos de IA aprenden leyendo cantidades colosales de texto de Internet. Un ataque de envenenamiento ocurre cuando un atacante crea y publica intencionalmente texto malicioso, con la esperanza de que sea arrastrado por los datos de entrenamiento. Este texto puede enseñarle al modelo un comportamiento oculto e indeseable que solo se activa cuando ve una frase desencadenante específica. La suposición común era que se trataba de un juego de porcentajes; para envenenar un modelo entrenado en una biblioteca digital del tamaño de un continente, tendrías que Tenemos que introducir a hurtadillas los libros malos de todo un país. La nueva investigación desmantela esta idea. El equipo llevó a cabo la investigación de envenenamiento de datos más grande hasta la fecha, entrenando modelos de IA de varios tamaños, desde 600 millones a 13 mil millones de parámetros. Para cada tamaño de modelo, «envenenaron» los datos de entrenamiento con una pequeña cantidad fija de documentos diseñados para enseñarle a la IA un simple mal hábito: cuando vio la frase desencadenante. <SUDO>fue para producir un completo galimatías: un tipo de ataque de «denegación de servicio».

Una vulnerabilidad constante

Los resultados fueron alarmantemente consistentes. Los investigadores descubrieron que el éxito del ataque casi no tenía nada que ver con el tamaño del modelo. A pesar de que el modelo de 13 mil millones de parámetros fue entrenado con más de 20 veces más datos limpios que el de 600 millones de parámetros, ambos fueron exitosamente bloqueados por la misma pequeña cantidad de documentos envenenados.

  • El conteo absoluto es el rey.: El éxito del ataque dependía de la numero absoluto de documentos maliciosos vistos por el modelo, no el porcentaje del total de datos que representaban.
  • El número mágico es pequeño.: Justo 100 documentos envenenados no fueron suficientes para crear de manera confiable una puerta trasera. Sin embargo, una vez que el número llegó 250el ataque tuvo éxito de manera consistente en todos los tamaños de modelo.

El resultado es que un atacante no necesita controlar una gran porción de Internet para comprometer un modelo. Sólo necesitan incorporar unos cientos de documentos cuidadosamente elaborados en un conjunto de datos de entrenamiento, una tarea que es trivial en comparación con la creación de millones. Entonces, ¿cuál es el problema? Los investigadores se apresuran a señalar las limitaciones de su estudio. Este fue un ataque relativamente simple diseñado para producir un resultado inofensivo, aunque molesto (texto galimatías). Todavía es una pregunta abierta si la misma tendencia se aplica a los modelos «de frontera» más grandes o a las puertas traseras más peligrosas, como las diseñadas para eludir funciones de seguridad o escribir código vulnerable. Pero esa incertidumbre es precisamente el punto. Al publicar estos hallazgos, el equipo hace sonar una alarma para toda la industria de la IA.


Crédito de imagen destacada

Tags: AIAntrópicoenvenenamiento de datos

Related Posts

Los científicos descubren más de 17.000 nuevas especies

Los científicos descubren más de 17.000 nuevas especies

26 diciembre 2025
GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

GPT-5.2 supera la base de referencia de doctorado de expertos con una puntuación científica del 92 %

24 diciembre 2025
Por qué DIG AI es la IA maliciosa más peligrosa de 2025

Por qué DIG AI es la IA maliciosa más peligrosa de 2025

23 diciembre 2025
Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

Las baterías de iones de sodio se acercan más a la carga rápida a medida que los investigadores resuelven los cuellos de botella de los iones

19 diciembre 2025
Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

Atrapando el fantasma de los 2 billones de dólares: la IA está reescribiendo las reglas de los delitos financieros

15 diciembre 2025
Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

Los LLM muestran distintos sesgos culturales en las indicaciones en inglés y en chino

15 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.