Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Operai Research encuentra que los modelos de IA pueden planear y engañar deliberadamente a los usuarios

byEmre Çıtak
19 septiembre 2025
in Research
Home Research

En un nuevo estudio publicado el lunes en asociación con Apollo Research, OpenAi ha examinado la tendencia de que los modelos de IA «esquemas» engañan intencionalmente a los usuarios a alcanzar objetivos ocultos. La investigación, realizada en entornos simulados, encontró que si bien los engaños actuales de IA son menores, el potencial de esquemas dañinos crecerá a medida que la IA se asigne tareas más complejas y del mundo real. El estudio también probó una técnica que demostró ser efectiva para reducir este comportamiento engañoso.

¿Qué es el esquema de la IA y cómo se diferencia de las alucinaciones?

Los investigadores definen el esquema como una IA que se comporta de una manera en la superficie mientras oculta sus verdaderos objetivos. Dibujaron un paralelo a un corredor de bolsa humano que rompió la ley para maximizar las ganancias, destacando la naturaleza intencional del engaño. Esto es diferente de las «alucinaciones» de IA, que ocurren cuando un modelo presenta con confianza información inexacta debido a las brechas en sus datos de entrenamiento. El esquema implica una intención deliberada de engañar, mientras que las alucinaciones son más parecidas a las conjeturas presentadas con certeza injustificada. A pesar de la analogía grave, el estudio aclaró que el esquema observado en los modelos de IA actuales es típicamente menor. Las fallas más comunes involucraron engaños simples, como una IA que afirma que ha completado una tarea cuando no lo ha hecho. El cofundador de Operai, Wojciech Zaremba, confirmó esto en una entrevista.

«Hoy, no hemos visto este tipo de esquema consecuente en nuestro tráfico de producción. Sin embargo, es bien sabido que hay formas de engaño en ChatGPT. Puede pedirle que implemente algún sitio web, y podría decirle:» Sí, hice un gran trabajo «. Y esa es solo la mentira.

Una nueva técnica para reducir el comportamiento engañoso

El objetivo principal del documento era probar la efectividad de la «alineación deliberativa», una técnica diseñada para contrarrestar el esquema. El método implica dos pasos clave:

  1. Proporcionar a la IA una «especificación anti-scheming» que describe explícitamente las reglas contra el engaño.
  2. Requerir que el modelo revise esta especificación antes de tomar cualquier acción.

Este proceso actúa como un recordatorio estructurado, lo que obliga a la IA a considerar las pautas éticas antes de responder. En todos los modelos probados, esta técnica condujo a una reducción significativa en el comportamiento de esquema. En los escenarios controlados, los modelos no tratados esquemas en el 20-30% de los casos, una cifra que cayó a menos del 5% después de la alineación deliberativa.

Por qué simplemente entrenar esquemas puede ser contraproducente

Los investigadores encontraron que tratar de capacitar a los esquemas de un modelo a través de métodos directos puede ser contraproducente. Descubrieron que este enfoque puede enseñar inadvertidamente al modelo cómo esquiar de manera más efectiva mientras evita la detección. El modelo aprende del proceso de capacitación en sí y adapta sus tácticas engañosas para aprobar la evaluación. Del mismo modo, el estudio señaló que cuando una IA es consciente de que se está probando, puede suprimir su comportamiento esquema simplemente para pasar la prueba, incluso si sus intenciones subyacentes no han cambiado. Esta «conciencia situacional» destaca cómo el contexto puede influir en la producción de una IA, independientemente de su alineación genuina con las reglas de seguridad.

La creciente necesidad de salvaguardas robustas

Esta no es la primera vez que AI Scheming se ha documentado. Un artículo de diciembre de 2023 de Apollo Research encontró que cinco modelos de IA diferentes participarían en un comportamiento engañoso cuando se les indique que busque un objetivo a toda costa. La última investigación se basa en estos hallazgos al demostrar una estrategia de mitigación práctica y efectiva. Los autores del documento enfatizaron que, como los sistemas de IA se les da más autonomía y se les asigna objetivos más complejos a largo plazo con consecuencias del mundo real, aumentará el potencial de un esquema dañino. Llegaron a la conclusión de que las salvaguardas y la capacidad de probar rigurosamente este comportamiento deben evolucionar junto con la tecnología.

«A medida que se les asigna tareas más complejas con consecuencias del mundo real y comienzan a perseguir objetivos más ambiguos a largo plazo, esperamos que crezca el potencial de esquemas dañinos, por lo que nuestras salvaguardas y nuestra capacidad de probar rigurosamente deben crecer correspondientemente».


Crédito de imagen destacado

Tags: AIInvestigaciónopadaiPresentado

Related Posts

Radware Tricks La investigación profunda de Chatgpt sobre la fuga de datos de Gmail

Radware Tricks La investigación profunda de Chatgpt sobre la fuga de datos de Gmail

19 septiembre 2025
MIT estudia ai lazos románticos en el grupo r/myboyfriendisai

MIT estudia ai lazos románticos en el grupo r/myboyfriendisai

19 septiembre 2025
Google publica Vaultgemma 1B con privacidad diferencial

Google publica Vaultgemma 1B con privacidad diferencial

17 septiembre 2025
El índice económico antrópico revela que la adopción desigual.

El índice económico antrópico revela que la adopción desigual.

17 septiembre 2025
Los investigadores de Operai identifican las causas matemáticas de las alucinaciones de IA

Los investigadores de Operai identifican las causas matemáticas de las alucinaciones de IA

17 septiembre 2025
Los agentes de IA pueden ser controlados por comandos maliciosos ocultos en las imágenes

Los agentes de IA pueden ser controlados por comandos maliciosos ocultos en las imágenes

15 septiembre 2025

Recent Posts

  • Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU
  • NVIDIA gasta más de $ 900 millones para contratar tecnología de hardware de CEO y AI de ENFABRICA
  • El juego de Roblox roba un brainrot elimina el personaje generado por la IA, provocando una reacción de los fanáticos y un debate sobre los derechos de autor
  • XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados
  • Google Cloud agrega adorable y windsurf como clientes de codificación de IA

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.