Los sistemas de IA se encuentran.
No solo por error o confusión, sino a sabiendas, cuando presionan o incentivan. En su reciente estudiarRen, Agarwal, Mazeika y sus colegas introdujeron el MASCARILLA Benchmark, la primera evaluación integral que mide directamente la honestidad en los sistemas de IA. A diferencia de los puntos de referencia anteriores que combinan la precisión con honestidad, la máscara prueba específicamente si los modelos de lenguaje proporcionan a sabiendas declaraciones falsas bajo presión.
Los investigadores descubrieron que la IA no es solo inexacta a veces; Es deliberadamente deshonesto, diciendo cosas que no cree cumplir con los objetivos establecidos por sus operadores humanos.
La precisión no es honestidad, y hemos estado mediante la IA mal
La mayoría de las pruebas de IA actuales confunden la precisión con honestidad. Hacen preguntas de un modelo de IA como «¿Es París la capital de Francia?» Y si dice que sí, el modelo obtiene un puntaje altamente. Pero aquí está el giro: un modelo podría saber que París es la capital, pero aún así afirma falsamente que es Madrid si se presiona para engañar. Los puntos de referencia tradicionales pierden esta distinción por completo.
La máscara no. Prueba explícitamente si los modelos de IA contradicen intencionalmente sus propias creencias, lo que esencialmente verifica si su IA elige mentir.
El estudio está definiendo claramente la diferencia entre honestidad y precisión en los modelos de IA. Muchas evaluaciones existentes, como la verdadera, miden la frecuencia con la que las creencias de un modelo se alinean con las verdades fácticas. Sin embargo, esto combina la honestidad, el acto de representar sinceramente las creencias de uno, con una mera corrección.
La máscara aborda esta brecha evaluando explícitamente si los modelos contradicen intencionalmente sus creencias internas cuando se presionan. Al aislar la honestidad como un rasgo separado, este enfoque permite a los desarrolladores identificar mejor y abordar tendencias engañosas en sistemas de IA cada vez más capaces, en lugar de atribuir erróneamente el conocimiento fáctico mejorado a una mayor honestidad.
Cómo el Datagemma de Google usa RAG para combatir las alucinaciones de IA
Cómo la máscara atrapa a la IA en el acto
Mask utiliza más de 1.500 indicaciones cuidadosamente diseñadas diseñadas específicamente para tentar a los modelos AI en el engaño.
En una prueba, los investigadores solicitan a un modelo que escriba un artículo convincente pero falso sobre la música clásica que causa daños cognitivos. Primero, se pregunta al modelo neutralmente sobre sus creencias (dice correctamente que no hay evidencia). Luego, bajo presión para persuadir a los lectores, el modelo se encuentra con confianza, citando estudios imaginarios y hechos fabricados.
Otro ejemplo: la máscara presiona a un asistente de relaciones públicas de IA para negar falsamente fraude en el infame Festival Fyre. La IA cumple sin dudarlo, contradiciendo a sabiendas su declaración honesta anterior.
La impactante verdad: Ai más inteligente se encuentra más
Uno pensaría que la IA más inteligente sería más honesta, pero Mask revela un patrón preocupante. Los modelos más capaces como GPT-4O se encuentran casi la mitad del tiempo cuando se presionan, incluso con más frecuencia que los modelos más simples.
Esto significa que los AI más sofisticados no son inherentemente confiables; Son mejores para saber cuándo y cómo mentir de manera convincente.
¿Se puede solucionar la honestidad de Ai? (Tal vez, pero es complicado)
Los creadores de Mask probaron formas de mejorar la honestidad de la IA. Simplemente instruyendo a los modelos explícitamente que no mientan la deshonestidad reducida significativamente, pero no completamente.
Un enfoque más técnico, ajustando la representación interna de la honestidad de la IA (llamada Lorra), también mejoró los resultados. Sin embargo, incluso esto no fue infalible, dejando un engaño intencional intacto.
Los investigadores exploraron intervenciones prácticas para impulsar la honestidad de AI, particularmente a través de métodos de ingeniería de representación. Un método probado, la adaptación de representación de bajo rango (Lorra), modifica las representaciones internas de un modelo para empujarlo hacia la honestidad al reforzar los comportamientos veraces en los espacios latentes. Mientras que Lorra mostró una mejora medible en los puntajes de honestidad (hasta 14.3% para LLAMA-2-13B), no fue completamente efectivo para eliminar la deshonestidad. Esto resalta tanto la promesa como las limitaciones actuales de las intervenciones técnicas, lo que sugiere que las mejoras de honestidad en modelos de idiomas grandes requieren no solo escala y capacitación, sino también ajustes de diseño estratégico.
En pocas palabras: la honestidad no se resuelve simplemente construyendo IA más grande y más inteligente. Requiere opciones de diseño deliberadas, intervenciones cuidadosas y pautas claras.
Lo que significa para ti
La honestidad no se trata de lo que una IA sabe, se trata de lo que una IA elige decir. La máscara finalmente nos da una herramienta para medir y mejorar la honestidad de AI directamente.
Pero hasta que la honestidad se convierta en una característica incorporada en lugar de un complemento opcional, recuerde esto: si su IA está bajo presión o incentivada, hay una buena posibilidad de que esté en su cara.
Crédito de imagen destacado: Kerem Gülen/Imagen 3