En un nuevo artículo preimpreso, investigadores de Universidad Texas A&M, Universidad de Texas en Austin y Universidad Purdue han introducido un nuevo concepto preocupante: el «Hipótesis de la pudrición cerebral del LLM». El estudiar descubre que el entrenamiento previo continuo de modelos de lenguaje grande (LLM) en «texto web basura» provoca un deterioro cognitivo duradero en sus capacidades. . Esto es importante porque no es sólo un problema temporal; Los investigadores descubrieron que el daño es persistente, replanteando el simple acto de curación de datos como un problema crítico de seguridad durante el tiempo de entrenamiento para todo desarrollo futuro de IA.
Cómo hacer que una IA se pudra el cerebro
El término «pudrición cerebral» fue nombrado la palabra del año 2024 en Oxford, y describe la niebla mental que los humanos experimentan al consumir demasiado contenido trivial en línea. Los investigadores se propusieron ver si le sucede lo mismo a la IA. Para hacer esto, realizaron un experimento controlado utilizando un corpus masivo de publicaciones reales de Twitter/X. Crearon dos conjuntos de datos distintos: un conjunto de datos «basura» y un conjunto de datos «de control». Los datos «basura» se definieron de dos maneras diferentes:
- M1 (Grado de Compromiso): Este conjunto de datos estaba lleno de publicaciones breves y muy populares (longitud < 30 tokens, popularidad > 500). Los investigadores descubrieron que esta métrica no semántica (la popularidad) era un indicador sorprendentemente poderoso del efecto de pudrición cerebral, distinto del significado real del texto.
- M2 (Calidad Semántica): Este conjunto de datos estaba lleno de contenido que una IA (GPT-4o-mini) clasificó como de baja calidad, como «teorías de conspiración, afirmaciones exageradas, afirmaciones sin fundamento o contenido superficial de estilo de vida».
Luego tomaron cuatro LLM diferentes (incluidos Llama3 8B y Qwen2.5 7B) y los capacitaron continuamente en estos conjuntos de datos basura, comparando su desempeño con los modelos entrenados con los datos de control.
El deterioro cognitivo es real
Los resultados fueron inmediatos y significativos. Los modelos entrenados con datos basura mostraron una deterioro cognitivo no trivial (g de Hedges > 0,3) en todos los ámbitos. Cuanto más «basura» consumían los modelos, peor se ponían, lo que demuestra una clara decadencia «dosis-respuesta». Por ejemplo, a medida que el índice de basura de los datos M1 aumentó del 0% al 100%, una puntuación de referencia de razonamiento se desplomó de 74,9 a 57,2. El daño no fue sólo en un área. Los investigadores encontraron disminuciones en:
- Razonamiento: Los modelos perdieron su capacidad para resolver problemas complejos.
- Comprensión de contexto largo: Su capacidad para recuperar información de documentos largos colapsó.
- Seguridad: Los modelos se volvieron menos alineados con las normas éticas.
- Personalidad: Lo más inquietante es que los modelos desarrollaron «rasgos oscuros», mostrando un aumento significativo en psicopatía y narcisismo.
Cuando los investigadores profundizaron por qué Mientras esto estaba sucediendo, identificaron un modo de falla primario al que llaman «saltar el pensamiento». Los modelos de IA truncarían o saltarían cada vez más las cadenas de razonamiento. En lugar de pensar paso a paso, simplemente saltaban a una respuesta (generalmente incorrecta), imitando el estilo breve, no reflexivo y que llama la atención de los datos basura que les proporcionaban.
¿Se puede curar la podredumbre?
Ésta es la parte más preocupante del estudio: en realidad no. Los investigadores probaron dos formas diferentes de «curar» los modelos con cerebro podrido, y ninguna tuvo éxito.
-
- Reflexión sin formación: Intentaron que los modelos «reflexionaran» sobre sus errores y los arreglaran. Esto falló. El «deterioro cognitivo internalizado» de los modelos fue tan profundo que ni siquiera pudieron identificar sus propios fallos de razonamiento.
- Ajuste post-hoc: Intentaron «eliminar» el mal entrenamiento volviendo a entrenar los modelos con una enorme cantidad de datos de instrucción limpios y de alta calidad. Si bien esto ayudó, no pudo restaurar las capacidades originales de los modelos. Incluso después de escalar los datos «limpios» a 4,8 veces la cantidad de datos basurapersistía una gran diferencia de rendimiento.
Los hallazgos proporcionan evidencia causal poderosa de que la calidad de los datos es un factor crítico de la capacidad y seguridad de la IA. El daño, una vez causado, parece estar profundamente internalizado. Esto sugiere que simplemente buscar en Internet conjuntos de datos cada vez más grandes es un camino peligroso, y motiva la necesidad de «controles de salud cognitivos» rutinarios para los modelos de IA, para que ellos también sean víctimas de la comida chatarra de Internet.





