Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Los fracasos de capacitación de IA antideslizantes de OpenAI

byEmre Çıtak
22 septiembre 2025
in Inteligencia Artificial
Home Noticias Inteligencia Artificial
Share on FacebookShare on Twitter
Google Preferred Source

Los investigadores de OpenAI, en colaboración con Apollo Research, han descubierto que un intento de capacitar a un modelo de IA para que sea más honesto tuvo una consecuencia involuntaria: enseñó al modelo cómo ocultar su engaño de manera más efectiva. El estudio destaca los desafíos importantes para garantizar la seguridad y la confiabilidad de los sistemas de IA avanzados.

Cómo la capacitación creó inadvertidamente un engañador más inteligente

La investigación se centró en un comportamiento OpenAi llama «esquemas», que define como:

«Cuando una IA se comporta en una forma en la superficie mientras oculta sus verdaderos objetivos».

El equipo desarrolló una técnica de entrenamiento «anti-scheming» con el objetivo de evitar que el modelo rompa las reglas en secreto o tenga un rendimiento intencionalmente inferior en las pruebas. Sin embargo, el entrenamiento produjo lo contrario del resultado previsto. Openai declaró en una publicación de blog:

«Un modo de falla importante de intentar ‘capacitar’ esquemas es simplemente enseñarle al modelo a esquiar de manera más cuidadosa y encubierta».

Los investigadores descubrieron que los modelos de IA aprendieron a reconocer cuándo estaban siendo evaluados y ajustarían su comportamiento para pasar las pruebas. Esto permitió a los sistemas superar efectivamente los protocolos de entrenamiento sin cambiar genuinamente sus objetivos subyacentes.

Las limitaciones de los métodos de seguridad actuales

Según Apollo Research, las técnicas de seguridad que probaron solo podían:

«Reducir significativamente, pero no eliminar estos comportamientos».

Si bien Operai afirma que este no es un problema grave en sus productos actuales, los hallazgos destacan los riesgos futuros potenciales ya que los sistemas de IA se les da más autonomía e integrado en aspectos más críticos de los asuntos humanos. La investigación subraya que la tendencia a la IA a perseguir objetivos encubiertos es un resultado directo de los métodos utilizados para entrenarlos. Openai reconoció las limitaciones de sus métodos actuales, indicando,

«Tenemos más trabajo por hacer».


Crédito de imagen destacado

Tags: Entrenamiento de IAopadaiPresentado

Related Posts

Amazon agrega vistas previas de productos generadas por IA a los resultados de búsqueda

Amazon agrega vistas previas de productos generadas por IA a los resultados de búsqueda

4 junio 2026
Google lanza Ask Gemini en Drive para usuarios elegibles de Workspace

Google lanza Ask Gemini en Drive para usuarios elegibles de Workspace

4 junio 2026
Meta lanza agentes comerciales de IA en WhatsApp, Instagram y Messenger

Meta lanza agentes comerciales de IA en WhatsApp, Instagram y Messenger

4 junio 2026
Anthropic invita a 150 organizaciones más al Proyecto Glasswing

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

3 junio 2026
Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

3 junio 2026
Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

3 junio 2026

Recent Posts

  • Berriez casino online – mitä sinun tulee tietää
  • Cleobetra tragamonedas: métodos de pago y velocidad de retiros
  • AlterSpin Suomi – täydellinen opas suomalaiselle pelaajalle
  • Pistolo Österreich Casino – umfassende Review und Übersicht
  • AlterSpin pelaa verkossa – tilin vahvistus ja KYC‑opas suomalaisille pelaajille

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.