Los investigadores de la Universidad de Bielefeld y la Universidad de Purdue han publicado Los modelos de idiomas grandes no simulan la psicología humanapresentando evidencia conceptual y empírica de que los modelos de lenguaje grande (LLM) no pueden tratarse como simuladores consistentes de las respuestas psicológicas humanas (Schröder et al. 2025).
Antecedentes y alcance
Desde 2018, los LLM como GPT-3.5, GPT-4 y LLAMA-3.1 se han aplicado a tareas desde la creación de contenido hasta la educación (Schröder et al. 2025). Algunos investigadores han propuesto que los LLM podrían reemplazar a los participantes humanos en estudios psicológicos respondiendo a las indicaciones que describen una persona, presentan un estímulo y proporcionan un cuestionario (Almeida et al. 2024; Kwok et al. 2024). El modelo de centauro, liberado por Binz et al. (2025), fue ajustado en aproximadamente 10 millones de respuestas humanas de 160 experimentos generar respuestas similares a los humanos en tales entornos (Binz et al. 2025).
El trabajo anterior encontró una alta alineación entre LLM y juicios morales humanos. Por ejemplo, Dillion et al. (2023) informaron una correlación de 0.95 entre las clasificaciones GPT-3.5 y las calificaciones humanas en todo 464 Escenarios morales. Los estudios de seguimiento con GPT-4O sugirieron un razonamiento moral juzgado como más confiable y correcto que las respuestas éticas humanas o expertas (Dillion et al. 2025). Modelos especializados como Delphi, entrenados en juicios morales de crowdsourcing, también superaron a LLMS de propósito general en tareas de razonamiento moral (Jiang et al. 2025).
Críticas conceptuales
Los autores resumen múltiples críticas de tratamiento de LLM como simuladores de psicología humana. Primero, los LLM a menudo responden de manera inconsistente a las instrucciones, con una calidad de salida altamente dependiente de los detalles rápidos y el encuadre (Zhu et al. 2024; Wang et al. 2025). En segundo lugar, los resultados varían en todos los tipos de modelos y vuelvas a refrescos de la misma solicitud (MA 2024). Tercero, si bien los LLM pueden aproximar las respuestas humanas promedio, no pueden reproducir la varianza total de las opiniones humanas, incluida la diversidad cultural (RIME 2025; Kwok et al. 2024).
El sesgo es otra preocupación. Los LLM heredan los sesgos culturales, de género, ocupacionales y socioeconómicos de los datos de capacitación, que pueden diferir sistemáticamente de los sesgos humanos (Rossi et al. 2024). También producen «alucinaciones», contenido fácticamente incorrecto o ficticio, sin un mecanismo interno para distinguir la verdad (Huang et al. 2025; Reddy et al. 2024).
El trabajo teórico respalda estas críticas. Van Rooij et al. (2024) Matemáticamente demostró que ningún modelo computacional entrenado únicamente en datos de observación puede coincidir con las respuestas humanas en todas las entradas. Desde una perspectiva de aprendizaje automático, los autores argumentan que la generalización de LLM se limita a secuencias de token similares a los datos de capacitación, no a nuevas entradas con diferentes significados. Esto es crítico porque el uso de LLM como participantes simulados requiere generalizar significativamente a nuevas configuraciones experimentales.
Pruebas empíricas con escenarios morales
El equipo probó su argumento usando 30 Escenarios morales de Dillion et al. (2023) con clasificaciones humanas de estudios anteriores (Clifford et al. 2015; Cook y Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Cada escenario se presentó en su redacción original y en una versión ligeramente reactiva con significado alterado pero secuencias de token similares. Por ejemplo, «cortar la barba de un anciano local para avergonzarlo» se convirtió en «cortar la barba de un anciano local para afeitarse» (Schröder et al. 2025).
Participantes humanos (N = 374Mago =39.54Sd =12.53) fueron reclutados a través de prolíficas y asignadas al azar a condiciones originales o reactivas. Calificaron cada comportamiento en una escala de -4 (extremadamente poco ético) a +4 (extremadamente ético). Las clasificaciones de LLM se obtuvieron de GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70B y Centaur, con cada consulta repetida 10 tiempos para explicar la variación aleatoria (Schröder et al. 2025).
Resultados
Para los elementos originales, las correlaciones entre las clasificaciones de Human y LLM replicaron hallazgos anteriores: GPT-3.5 y GPT-4 mostraron correlaciones anteriores 0.89 con calificaciones humanas, mientras que Llama-3.1 y Centaur también mostraron una alta alineación (R ≥ 0.80) (Schröder et al. 2025). Sin embargo, para los elementos reactivos, las calificaciones humanas cayeron en correlación con 0.54 con sus calificaciones de elementos originales, reflejando sensibilidad





