El experimento Reddit que expuso el silencioso poder de AI para persuadir

Los modelos de idiomas grandes no solo están cambiando la forma en que las personas recopilan información. Están comenzando a dar forma silenciosamente a las opiniones en entornos del mundo real sin que nadie se diga. Esa realidad inquietante llegó a la comunidad R/Changemyview de Reddit a principios de este año, cuando los investigadores realizaron un experimento encubierto para probar si AI podría persuadir con éxito a los usuarios desprevenidos.

Un experimento de campo escondido a la vista

Investigadores de la Universidad de Zurich realizado un estudio de campo de meses dentro de R/Changemyviewun subreddit con casi cuatro millones de miembros conocidos por los debates civiles y las perspectivas cambiantes. Su objetivo era evaluar las capacidades persuasivas del mundo real de los comentarios propulsados por la IA fuera de los entornos de laboratorio controlados. Para hacer esto, crearon cuentas semiautomatadas impulsadas por grandes modelos de idiomas (LLM) que se involucraron directamente con las publicaciones de los usuarios. Crucialmente, no revelaron que las respuestas fueron generadas por AI.

El experimento fue registrado y aprobado por el Comité de Ética de la Universidad de Zúrich, pero pasó por alto el consentimiento de la comunidad. Durante cuatro meses, los investigadores publicaron respuestas a más de mil discusiones Reddit, analizando en última instancia casi quinientas conversaciones después de filtrar las deleciones. Sus hallazgos proporcionan uno de los primeros vislumbres a gran escala sobre cómo la IA puede influir en las opiniones en entornos naturales e impredecibles.

Un archivo creado por 404 medios Permite ver algunos comentarios originales, a pesar de que muchos otros han sido eliminados desde que publiqué.

Para medir la efectividad, el estudio asignó cada respuesta de IA a una de las tres categorías de tratamiento. En la condición «genérica», el LLMS respondió basándose solo en el título y el cuerpo de la publicación. En la condición de «personalización», la IA también recibió atributos personales inferidos del póster original, incluyendo edad, género, orientación política y etnia, obtuvo de su historia de Reddit usando otro modelo de IA. El tercer grupo, «Comunidad alineada», utilizó un modelo ajustado en comentarios que previamente habían obtenido la aprobación en el subreddit.

Los resultados fueron sorprendentes. Los tres enfoques impulsados por la IA superaron a los comentaristas humanos, logrando tasas de persuasión de tres a seis veces más altas que la línea de base humana. La personalización demostró ser la más potente, con una tasa de éxito del 18 por ciento, colocándola en el percentil 99 de todos los usuarios, incluidos los debatientes de Reddit experimentados. Incluso las respuestas genéricas de IA coincidían o excedieron la mayoría de los esfuerzos humanos. Las respuestas alineadas en la comunidad, aunque algo menos efectivas, aún superan a los usuarios promedio superiores.

Es importante destacar que los usuarios relacionados con estos comentarios generados por la IA no tenían idea de que estaban conversando con máquinas. A lo largo de la intervención, nadie en la comunidad R/Changemyview marcó la actividad sospechosa, resaltando cuán sin problemas la IA puede combinarse con los debates en línea cuando se entrenan y personalizan adecuadamente.

Cuando los moderadores de R/Changemyview descubrieron el experimento, la reacción fue rápida y furiosa. En un anuncio público, los moderadores condenaron el estudio como «manipulación psicológica» y «una intrusión inoportuna», citando múltiples violaciones de las reglas subreddit, incluido el uso de IA no revelado y el comportamiento automatizado prohibido. El liderazgo de Reddit se hizo eco de la indignación, con el director legal Ben Lee llamando a las acciones de los investigadores «profundamente incorrectas tanto en un nivel moral como legal».

Reddit prohibió todas las cuentas vinculadas al equipo de la Universidad de Zurich y comenzó los procedimientos legales formales. Mientras tanto, los investigadores defendieron su enfoque, argumentando que los beneficios potenciales de comprender la persuasión de la IA superaron los riesgos. Insistieron en que su intervención fue de bajo riesgo, cuidadosamente revisada y pudieron ayudar a evitar los usos maliciosos de la IA en el futuro. Sin embargo, los críticos, incluidos los moderadores y muchos usuarios de Reddit, no estaban convencidos. Señalaron que investigaciones anteriores han demostrado ideas similares sin recurrir a experimentos sin consumo en individuos reales.

Los adolescentes están usando chatgpt y superando el viejo libro de jugadas de inversión

La confianza en las comunidades en línea depende de la expectativa de que las conversaciones sean entre personas reales con perspectivas auténticas. Las intervenciones de IA no reveladas amenazan esa confianza en un nivel fundamental. Incluso los experimentos enmarcados con intenciones nobles pueden erosionar los límites entre el discurso genuino y la manipulación de ingeniería. La respuesta de Reddit sugiere cuán en serio las plataformas están comenzando a asumir estos desafíos.

El equipo de la Universidad de Zurich argumentó que su trabajo ayudaría a salvaguardar a las comunidades contra futuras amenazas de IA. En cambio, pueden haber demostrado cuán vulnerable ya es el discurso público. A medida que la IA se vuelve más sofisticada y personalizada, la pregunta ya no es si puede influir en el pensamiento humano, así es como las sociedades se adaptarán una vez que se dan cuenta de que ya lo hace.

Crédito de imagen destacado