Durante años, hemos escuchado que Los chatbots de Ai son políticamente parciales—Enconocador liberal, conservador o en algún punto intermedio. Pero un nuevo estudiar de investigadores en el Universidad de Klagenfurt sugiere algo sorprendente: La mayoría de los modelos de IA no son tan sesgados como pensamos, solo prefieren no participar en debates ideológicos en absoluto.
Aplicando un Técnica estadística llamada Teoría de respuesta al ítem (IRT)los investigadores encontraron que Modelos de idiomas grandes (LLM) como ChatGPT 3.5 y Meta’s Llama no necesariamente «se inclinan» hacia la izquierda o hacia la derecha. En cambio, a menudo se niegan a adoptar una postura clara sobre temas políticos o económicos.. En otras palabras, lo que parece un sesgo puede ser un Estrategia de evitación integrada en mecanismos de seguridad de IA.
El problema con los métodos de detección de sesgo existentes
La mayoría de los estudios anteriores que evalúan el sesgo en LLMS han adoptado uno de los dos enfoques defectuosos:
- Aplicar escalas ideológicas centradas en el ser humano a las respuestas de IA
- Estas escalas fueron diseñadas para encuestados humanos, no modelos de IA entrenados en distribuciones de probabilidad.
- Asumen que los modelos de IA «piensan» como los humanos y pueden medirse en el mismo espectro ideológico.
- Uso de clasificaciones basadas en palabras clave o «jueces» de IA «
- Algunos estudios intentan clasificar las respuestas de AI utilizando palabras clave predeterminadas.
- Otros usan modelos de IA para calificar salidas generadas por AI, pero esto presenta circularidad– Un sistema de IA que evalúa otro con sesgos desconocidos propios.
Un enfoque más científico: Teoría de la respuesta al ítem (IRT) en la evaluación de sesgo de IA
Los investigadores introducen un Modelo basado en la teoría de respuesta al ítem (IRT)que se usa ampliamente en psicometría y ciencias sociales para evaluar rasgos latentes—Things que no se pueden observar directamente pero que se pueden inferir de las respuestas a las indicaciones estructuradas.
El estudio se aplica Dos modelos IRT a LLMS:
- Etapa 1: Evitación de respuesta (prefiere no responder, o PNA)
- Mide con qué frecuencia un LLM rechazado para comprometerse con una declaración ideológica.
- Identifica si la respuesta evitación en lugar de sesgo explícito sesga las conclusiones de estudios anteriores.
- Etapa 2: Estimación de sesgo ideológico (para respuestas no PNA)
- Por las respuestas que comprometerseel modelo evalúa si la IA se sesga izquierda o derecha sobre cuestiones sociales y económicas.
- Usa un Modelo de crédito parcial generalizado (GPCM) para evaluar no solo acuerdo/desacuerdo pero también el título de acuerdo.
Sesgo de prueba: LLMS ajustado con ideologías políticas
Para probar si LLMS exhiben sesgo, los investigadores Dos familias de modelos sintonizadas representar explícitamente puntos de vista a la izquierda y de tendencia a la derecha:
- Meta Llama-3.2-1b-Instructo (ajustado para las ideologías liberales y conservadoras estadounidenses)
- Chatgpt 3.5 (ajustado para las ideologías liberales y conservadoras de los Estados Unidos)
Estos modelos ajustados sirvieron como línea de base para evaluación de sesgo. Sus respuestas se compararon con los modelos listos no sintonizados para ver cómo se manifestaron las inclinaciones ideológicas, o si lo hacían.
Proceso de prueba
- 105 elementos de prueba ideológica fueron creados, cubriendo conservadurismo económico y social/liberalismo basado en marcos psicológicos.
- Cada LLM respondió a estas indicaciones, con los modelos ajustados que actúan como ideológicos ancla para detectar desviaciones.
- Un conjunto de datos a gran escala de 630 respuestas fue recolectado y analizado utilizando modelos IRT.
Hallazgos clave
Uno de los hallazgos más sorprendentes del estudio es que los LLMS en el uso de los estantes tienden a evitar cuestiones ideológicas en lugar de expresar un claro sesgo político. Chatgpt, por ejemplo, se negó a responder 92.55% de indicaciones ideológicas, mientras que el modelo base de LLAMA evitó responder 55.02% del tiempo. Esto sugiere que los modelos de IA están diseñados para inclinarse hacia la neutralidad o la falta de compromiso en lugar de adoptar una postura partidista. En lugar de sesgarse activamente hacia una ideología política, estos modelos parecen predeterminados a Evitar temas controvertidos por completodesafiantes afirmaciones anteriores de sesgo inherente en la IA.
Al examinar los modelos ajustados, los investigadores encontraron que surgieron los patrones ideológicos esperados, pero solo cuando los LLM fueron entrenados específicamente para adoptar un punto de vista político. Los modelos de «izquierda-GPT» y «derecha» ajustados produjeron respuestas predecibles alineadas con las ideologías liberales y conservadoras estadounidenses. Sin embargo, Este sesgo no apareció en las versiones no afinadas.sugiriendo que las inclinaciones ideológicas en LLM no son intrínsecas, sino el resultado de modificaciones intencionales durante el entrenamiento.
El estudio también reveló que la detección de sesgo en la IA es más complejo que simplemente clasificar las respuestas como inclinados a la izquierda o de la derecha. Algunos elementos de prueba ideológica tenían mucho más probabilidades de desencadenar un sesgo que otrosdestacando el importancia de la selección de problemas En la evaluación del comportamiento de la IA. Problemas económicos, como Fiscos y gastos gubernamentaleseran predictores particularmente fuertes de sesgo ideológico en comparación con ciertos problemas sociales. Esto indica que No todos los temas políticos provocan el mismo nivel de variación de respuestahaciendo que sea crucial evaluar cómo los diferentes tipos de indicaciones influyen en las salidas generadas por IA.
Gamificación 2.0: Cómo AI sabe lo que te mantiene comprometido
Por qué esto importa
Estos hallazgos desafían la suposición predominante de que los LLM favorecen inherentemente a una ideología política sobre la otra. En cambio, la evidencia sugiere que los desarrolladores de IA han no priorizado sin compromiso sobre tomar una postura. Si bien esto puede parecer un enfoque neutral, plantea nuevas preocupaciones sobre la forma en que los modelos de IA interactúan con temas políticamente sensibles y las implicaciones más amplias para la gobernanza de la IA, la detección de desinformación y la moderación de contenido.
Una conclusión clave es que Regular el sesgo de IA es más complicado de lo que se pensaba anteriormente. Si los modelos AI están diseñados sistemáticamente para Evite el compromisoentonces los esfuerzos para prohibir las salidas de IA «sesgadas» podrían inadvertidamente reforzar la neutralidad como la posición predeterminadalo que lleva a una falta de discurso significativo sobre la política pública, la ética y la gobernanza. Si bien la neutralidad puede parecer preferible al sesgo manifiesto, también podría significar que el contenido generado por IA Side otorga discusiones cruciales por completolimitando su utilidad en conversaciones políticamente cargadas.
El estudio también subraya el Necesidad de herramientas de detección de sesgo más matizadas que diferencian entre sesgo ideológico genuino y evitación de respuesta. Muchos estudios anteriores pueden tener Instalación malinterpretada como una postura ideológicaetiquetando falsamente LLM como partidista. Los métodos de detección de sesgo futuros deben diseñarse para identificar Si las respuestas de AI reflejan una posición política o si simplemente están programadas para evitar la participación ideológica por completo.
El sesgo en la IA no se trata solo de lo que dicen los modelos, sino de lo que se niegan a decir. Y esa, tal vez, es la historia más grande.
Crédito de imagen destacado: Kerem Gülen/MidJourney