Antrópico tiene implementado Una nueva característica que permite que sus modelos Claude Opus 4 y 4.1 AI terminen las conversaciones de los usuarios, una medida destinada a raras instancias de interacciones dañinas o abusivas, como parte de su investigación de bienestar de IA.
La compañía declaró en su sitio web que los modelos Claude Opus 4 y 4.1 ahora poseen la capacidad de concluir una conversación con los usuarios. Esta funcionalidad está designada para «casos raros y extremos de interacciones de usuario persistentemente dañinas o abusivas». Los ejemplos específicos proporcionados por Anthrope incluyen solicitudes de usuarios de contenido sexual que involucra menores e intentos de solicitar información que facilite la violencia a gran escala o los actos de terror.
Los modelos solo iniciarán una terminación de conversación «como último recurso cuando múltiples intentos de redirección han fallado y la esperanza de una interacción productiva se ha agotado». Anthrope anticipa que la mayoría de los usuarios no experimentarán esta característica, incluso cuando discutan sujetos controvertidos, ya que su aplicación se limita estrictamente a «casos de borde extremo».
Cuando Claude concluye un chat, a los usuarios se les impide enviar nuevos mensajes dentro de esa conversación específica. Sin embargo, los usuarios conservan la capacidad de iniciar una nueva conversación de inmediato. Anthrope aclaró que la terminación de una conversación no afecta a otros chats en curso. Los usuarios también pueden editar o volver a intentar los mensajes anteriores dentro de una conversación final para guiar la interacción en una dirección diferente.
Esta iniciativa se integra en el programa de investigación más amplio de Anthrope, que examina el concepto de bienestar de IA. La compañía ve la capacidad de sus modelos para salir de una «interacción potencialmente angustiante» como un método de bajo costo para gestionar los riesgos asociados con el bienestar de IA. Anthrope está realizando experimentos con esta característica y ha invitado a los usuarios a enviar comentarios en función de sus experiencias.





