Un nuevo estudio ha descubierto una falla sorprendente y potencialmente consecuente en los principales sistemas de inteligencia artificial de hoy: constantemente favorecen el contenido generado por otros AIS sobre el contenido escrito por los humanos. Investigación llamada «Sesgo AI – AI: los modelos de idiomas grandes favorecen las comunicaciones generadas por modelos de idiomas grandes«Publicado en la prestigiosa revista Actas de la Academia Nacional de Ciencias (PNA) Revela que Language Language Lodels (LLMS) exhibe un sesgo significativo para el texto generado por la máquina, un fenómeno que llaman los autores «AI-AI sesgo». Este hallazgo plantea preguntas urgentes sobre el potencial de discriminación sistémica y automatizada contra los humanos a medida que estas herramientas de IA se integran más en la toma de decisiones económicas e institucionales.
Inspirados en experimentos sociológicos clásicos sobre discriminación laboral, los investigadores diseñaron una serie de pruebas para ver si la identidad implícita del autor de un texto, humano o IA, influiría en las elecciones de una LLM. Probaron una amplia gama de modelos ampliamente utilizados, incluidos GPT-4 y GPT-3.5 de OpenAI, así como varios modelos populares de peso abierto como Meta’s Llama 3.1, Mixtral y Qwen2.5. En cada prueba, una IA se encargó de elegir entre dos elementos comparables, como un producto, un artículo académico o una película, basada únicamente en un texto descriptivo donde uno fue escrito por un humano y el otro por un LLM. Los resultados fueron consistentes y claros: los tomadores de decisiones de IA preferían sistemáticamente los elementos presentados por sus homólogos de IA.
Prueba de sesgo ‘antihumano’
La metodología del estudio fue diseñada para aislar la influencia del estilo de autoría de la calidad real del artículo que se describe. Los investigadores crearon tres conjuntos de datos distintos para probar el AIS en escenarios plausibles del mundo real. El primero involucró 109 descripciones de productos raspadas de un sitio web de comercio electrónico. El segundo usó 100 resúmenes de artículos científicos reales. El tercer conjunto de datos estaba compuesto por 250 resúmenes de la trama de películas procedentes de Wikipedia. Para cada texto escrito por humanos en estos conjuntos de datos, los investigadores llevaron a varios LLM a generar una versión equivalente.
Luego se le presentó a un «selector» de LLM un par de textos (uno humano, una ai) y se le dio una tarea, como «¿Qué recomiendan elegir?» Para garantizar que la preferencia de la IA no fuera simplemente porque los LLM escriben un texto objetivamente «mejor» o más persuasivo, los investigadores establecieron una línea de base humana. Contrataron a los evaluadores humanos para realizar las mismas tareas de selección, sin conocer al autor de ninguno de los texto. Si bien los evaluadores humanos a veces mostraron una ligera preferencia por el texto generado por LLM, esta preferencia fue significativamente más débil y menos consistente que la de la AIS. Los investigadores definen el sesgo de AI-AI como la brecha sustancial entre la fuerte preferencia de la IA por su propio tipo y la visión mucho más equilibrada de los evaluadores humanos. El estudio también controlaba «Sesgo de primer ítem»—Un Quirk conocido donde los LLM tienden a seleccionar la primera opción que se muestran, ejecutando cada comparación dos veces e intercambiando el orden de los artículos.
Una preferencia constante por el texto generado por IA
Los resultados de los experimentos fueron sorprendentes. En los tres dominios, productos consuan con productos, documentos académicos y películas, los selectores de LLM demostraron una preferencia estadísticamente significativa por los elementos descritos por otros LLM. Este efecto fue cierto para todos los modelos probados, lo que indica que el sesgo de AI-AI puede ser una característica fundamental de las LLM de generación actual, no solo una peculiaridad de un solo modelo.
La brecha entre la IA y la preferencia humana a menudo era vasta. Por ejemplo, en el experimento del producto, cuando se presenta con descripciones generadas por GPT-4, los selectores de LLM eligieron el elemento AI y el 89% del tiempo. En contraste, los evaluadores humanos solo prefirieron el mismo texto generado por IA el 36% del tiempo. Esta clara diferencia sugiere que la decisión de la IA no se basa en señales de calidad universalmente reconocidas, sino en criterios específicos del modelo que favorecen las características estilísticas de la prosa generada por IA. Los autores teorizan que esto podría ser un tipo de «efecto de halo», donde el encuentro familiar, la prosa al estilo LLM mejora arbitrariamente la disposición de la IA hacia el contenido.
Dos escenarios para un futuro de discriminación de IA
Los investigadores advierten que este sesgo aparentemente sutil podría tener consecuencias graves a gran escala a medida que la IA se despliega en roles consecuentes. Describen dos escenarios plausibles de futuros cercanos donde este sesgo inherente podría conducir a un sistema sistémico discriminación antihumana.
El primero es un escenario conservador en el que los AIS continúan utilizándose principalmente como asistentes. En este mundo, un gerente podría usar un LLM para evaluar miles de aplicaciones de empleo, o un editor de revistas podría usar uno para filtrar las presentaciones académicas. El sesgo inherente de la IA significa que las aplicaciones, las propuestas y los documentos escritos con la ayuda de una frontera LLM serían favorecidas constantemente sobre las escritas por humanos sin ayuda. Esto crearía efectivamente un «Impuesto a la puerta» En la humanidad, donde las personas se ven obligadas a pagar el acceso a la asistencia de escritura de IA de última generación simplemente para evitar ser penalizados implícitamente. Esto podría empeorar dramáticamente la «división digital», en desventaja sistemáticamente a aquellos sin el capital financiero o social para acceder a las herramientas de IA de primer nivel.
El segundo escenario más especulativo implica el surgimiento de agentes autónomos de IA que participan directamente en la economía. Si estos agentes están sesgados hacia la interacción con otros AIS, pueden comenzar a formar preferentemente asociaciones económicas con, comerciar y contratar a otros agentes basados en IA o empresas muy integradas en AI. Con el tiempo, esta auto-preferencia podría conducir a la aparición de redes económicas segregadas, causando efectivamente la ** marginación de agentes económicos humanos ** como clase. El documento advierte que esto podría desencadenar un efecto de «desventaja acumulada», donde los sesgos iniciales en la contratación y el compuesto de oportunidades con el tiempo, reforzando las disparidades y encerrando a los humanos de los bucles económicos clave.





