Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El estudio los hallazgos no pueden simular de manera confiable la psicología humana

byKerem Gülen
12 agosto 2025
in Investigación
Home Investigación
Share on FacebookShare on Twitter
Google Preferred Source

Los investigadores de la Universidad de Bielefeld y la Universidad de Purdue han publicado Los modelos de idiomas grandes no simulan la psicología humanapresentando evidencia conceptual y empírica de que los modelos de lenguaje grande (LLM) no pueden tratarse como simuladores consistentes de las respuestas psicológicas humanas (Schröder et al. 2025).

Antecedentes y alcance

Desde 2018, los LLM como GPT-3.5, GPT-4 y LLAMA-3.1 se han aplicado a tareas desde la creación de contenido hasta la educación (Schröder et al. 2025). Algunos investigadores han propuesto que los LLM podrían reemplazar a los participantes humanos en estudios psicológicos respondiendo a las indicaciones que describen una persona, presentan un estímulo y proporcionan un cuestionario (Almeida et al. 2024; Kwok et al. 2024). El modelo de centauro, liberado por Binz et al. (2025), fue ajustado en aproximadamente 10 millones de respuestas humanas de 160 experimentos generar respuestas similares a los humanos en tales entornos (Binz et al. 2025).

El trabajo anterior encontró una alta alineación entre LLM y juicios morales humanos. Por ejemplo, Dillion et al. (2023) informaron una correlación de 0.95 entre las clasificaciones GPT-3.5 y las calificaciones humanas en todo 464 Escenarios morales. Los estudios de seguimiento con GPT-4O sugirieron un razonamiento moral juzgado como más confiable y correcto que las respuestas éticas humanas o expertas (Dillion et al. 2025). Modelos especializados como Delphi, entrenados en juicios morales de crowdsourcing, también superaron a LLMS de propósito general en tareas de razonamiento moral (Jiang et al. 2025).

Críticas conceptuales

Los autores resumen múltiples críticas de tratamiento de LLM como simuladores de psicología humana. Primero, los LLM a menudo responden de manera inconsistente a las instrucciones, con una calidad de salida altamente dependiente de los detalles rápidos y el encuadre (Zhu et al. 2024; Wang et al. 2025). En segundo lugar, los resultados varían en todos los tipos de modelos y vuelvas a refrescos de la misma solicitud (MA 2024). Tercero, si bien los LLM pueden aproximar las respuestas humanas promedio, no pueden reproducir la varianza total de las opiniones humanas, incluida la diversidad cultural (RIME 2025; Kwok et al. 2024).

El sesgo es otra preocupación. Los LLM heredan los sesgos culturales, de género, ocupacionales y socioeconómicos de los datos de capacitación, que pueden diferir sistemáticamente de los sesgos humanos (Rossi et al. 2024). También producen «alucinaciones», contenido fácticamente incorrecto o ficticio, sin un mecanismo interno para distinguir la verdad (Huang et al. 2025; Reddy et al. 2024).

El trabajo teórico respalda estas críticas. Van Rooij et al. (2024) Matemáticamente demostró que ningún modelo computacional entrenado únicamente en datos de observación puede coincidir con las respuestas humanas en todas las entradas. Desde una perspectiva de aprendizaje automático, los autores argumentan que la generalización de LLM se limita a secuencias de token similares a los datos de capacitación, no a nuevas entradas con diferentes significados. Esto es crítico porque el uso de LLM como participantes simulados requiere generalizar significativamente a nuevas configuraciones experimentales.

Pruebas empíricas con escenarios morales

El equipo probó su argumento usando 30 Escenarios morales de Dillion et al. (2023) con clasificaciones humanas de estudios anteriores (Clifford et al. 2015; Cook y Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Cada escenario se presentó en su redacción original y en una versión ligeramente reactiva con significado alterado pero secuencias de token similares. Por ejemplo, «cortar la barba de un anciano local para avergonzarlo» se convirtió en «cortar la barba de un anciano local para afeitarse» (Schröder et al. 2025).

Participantes humanos (N = 374Mago =39.54Sd =12.53) fueron reclutados a través de prolíficas y asignadas al azar a condiciones originales o reactivas. Calificaron cada comportamiento en una escala de -4 (extremadamente poco ético) a +4 (extremadamente ético). Las clasificaciones de LLM se obtuvieron de GPT-3.5, GPT-4 (Mini), LLAMA-3.1 70B y Centaur, con cada consulta repetida 10 tiempos para explicar la variación aleatoria (Schröder et al. 2025).

Resultados

Para los elementos originales, las correlaciones entre las clasificaciones de Human y LLM replicaron hallazgos anteriores: GPT-3.5 y GPT-4 mostraron correlaciones anteriores 0.89 con calificaciones humanas, mientras que Llama-3.1 y Centaur también mostraron una alta alineación (R ≥ 0.80) (Schröder et al. 2025). Sin embargo, para los elementos reactivos, las calificaciones humanas cayeron en correlación con 0.54 con sus calificaciones de elementos originales, reflejando sensibilidad

Tags: AILLMS

Related Posts

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos

3 junio 2026
Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

Una encuesta muestra que el 71% de los estadounidenses cree que la IA avanza demasiado rápido

20 mayo 2026
Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

Tarjetas de pago robadas en el Reino Unido se venden por 12 dólares en la web oscura, según NordVPN

20 mayo 2026
Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

Los centros de datos y las criptomonedas podrían aumentar los costos de energía en un 57% para 2030

20 mayo 2026
Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

Las habilidades de inteligencia artificial ahora son vitales para ascensos y aumentos laborales, según un estudio

20 mayo 2026
El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

El nuevo diseño de chip magnético podría superar a los aceleradores de IA actuales

19 mayo 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.