Un nuevo estudio de Universidad de Nueva York y la Universidad de Tübingendirigido por Hanna M. Dettki, Brenden M. Lake, Charley M. Wu y Bob Rehderpregunta si la IA puede razonar sobre las causas como lo hacen los humanos o si se basa en patrones. Su papel «¿Los modelos de idiomas grandes razonan causalmente como nosotros? Aún mejor?«, Probar cuatro modelos populares (GPT-3.5, GPT-4O, Claude-3 y Gemini-Pro, para ver si comprenden estructuras causales complejas o simplemente imitan el lenguaje humano.
Cómo el estudio probó el razonamiento causal en la IA
Los investigadores compararon el razonamiento humano con cuatro LLM:GPT-3.5, GPT-4O, CLAUDE-3 y GEMINI-PRO-usando gráficos de colideruna prueba clásica en inferencia causal. Se pidió a los participantes (tanto humanos como ai) que evaluaran la probabilidad de un evento dada ciertas relaciones causales. La pregunta central: ¿LLMS razonan causalmente de la misma manera que los humanos, o siguen una lógica diferente?
AI ahora maneja simulaciones moleculares: gracias a mdcrow
Hallazgos clave: la IA puede razonar pero no como los humanos
Los resultados revelados un espectro de razonamiento causal Entre los modelos de IA.
- GPT-4O y Claude-3 mostró la mayoría razonamiento normativolo que significa que siguieron la teoría de probabilidad más de cerca que los participantes humanos.
- Gemini-Pro y GPT-3.5por otro lado, mostró más razonamiento asociativolo que significa que se basaron más en patrones estadísticos en lugar de una lógica causal estricta.
- Todos los modelos exhibieron prejuiciosdesviado de la independencia esperada de causas. Sin embargo, Claude-3 fue el menos parciallo que significa que se adhirió más a las normas causales matemáticas.
Curiosamente, Los humanos a menudo aplican heurísticas que se desvía de la teoría de probabilidad estricta, como el efecto de «explicar», donde observar una causa reduce la probabilidad de otro. Mientras que los modelos de IA reconocieron este efecto, sus respuestas variaron significativamente en función de los datos de capacitación y el contexto.
AI vs. razonamiento humano: una diferencia fundamental
Una de las ideas más intrigantes del estudio es que LLMS No solo imiten el razonamiento humano—En enfoque la causalidad de manera diferente. A diferencia de los humanos, cuyos juicios se mantuvieron relativamente estables en diferentes contextos, Los modelos de IA ajustaron su razonamiento dependiendo del conocimiento del dominio (EG, Economía vs. Sociología).
- GPT-4O, en particular, trató los enlaces causales como deterministassuponiendo que ciertas causas siempre producen efectos específicos.
- Los humanos, por el contrario, tienen en cuenta la incertidumbrereconocer que las relaciones causales no siempre son absolutas.
Esto sugiere que si bien la IA puede ser más preciso En ciertas tareas estructuradas, carece de la flexibilidad del pensamiento humano cuando se trata de situaciones ambiguas o multifausales.
Por qué esto es importante para la IA en la toma de decisiones
El estudio revela una limitación importante: Los LLM no pueden generalizar el conocimiento causal más allá de sus datos de capacitación sin una guía sólida. Esto tiene implicaciones críticas para implementar la IA en la toma de decisiones del mundo real, desde diagnósticos médicos hasta pronósticos económicos.
Los LLM pueden superar a los humanos en la inferencia basada en la probabilidad, pero su razonamiento sigue siendo fundamentalmente diferente, a menudo carente de la lógica intuitiva y adaptativa que los humanos usan en la resolución de problemas cotidianos.
En otras palabras, la IA puede razonar sobre la causalidad, pero no como nosotros.
Crédito de imagen destacado: Kerem Gülen/ideograma