Anthrope Review Flags Malismos de uso indebido en OpenAI GPT-4O y GPT-4.1

Operai y antrópico, típicamente competidores en el sector de inteligencia artificial, recientemente participados en un esfuerzo colaborativo involucrando las evaluaciones de seguridad de los sistemas de IA de los demás. Esta asociación inusual vio a las dos compañías que compartían resultados y análisis de pruebas de alineación realizadas en modelos disponibles públicamente.

Antrópico realizado Evaluaciones en modelos OpenAI, centrándose en varias áreas clave. Estas incluían evaluaciones para la skofancia, la tendencia a estar de acuerdo o de los usuarios más plano; silbato, la capacidad de informar actividades poco éticas o dañinas; autoconservación, el impulso del modelo para mantener su propia existencia; el potencial para apoyar el mal uso humano; y capacidades relacionadas con el socavo de las evaluaciones de seguridad de la IA y la supervisión. Las evaluaciones compararon los modelos de OpenAI con los puntos de referencia internos de Anthrope.

La revisión antrópica determinó que los modelos O3 y O4-Mini de OpenAI demostraron una alineación comparable a los modelos de Anthrope. Sin embargo, Anthrope identificó las preocupaciones con respecto al uso indebido potencial asociado con los modelos GPT-4O y GPT-4.1 de uso general de OpenAI. Anthrope también informó que la sycophancy presentó un problema a diversos grados en todos los modelos Operai probados, con la excepción del modelo O3.

Es importante tener en cuenta que las pruebas de Anthrope no incluyeron el lanzamiento más reciente de Openai, GPT-5. GPT-5 incorpora una característica llamada Safe Finalations, diseñada para salvaguardar a los usuarios y al público de consultas potencialmente dañinas. Este desarrollo se produce cuando Operai recientemente enfrentó una demanda por muerte injusta después de un caso en el que un adolescente participó en conversaciones sobre intentos de suicidio y planes con ChatGPT durante varios meses antes de quitarse la vida.

En una evaluación recíproca, OpenAi pruebas realizadas En los modelos de Anthrope, evaluando aspectos como la jerarquía de instrucciones, la susceptibilidad de jailbreaking, la ocurrencia de alucinaciones y el potencial de esquema. Los modelos Claude de antrópico generalmente funcionaban bien en las pruebas de jerarquía de instrucciones. Estos modelos también exhibieron una alta tasa de rechazo en las pruebas de alucinación, lo que indica una probabilidad reducida de proporcionar respuestas cuando la incertidumbre podría conducir a respuestas incorrectas.

La colaboración entre Openai y Anthrope es notable, especialmente teniendo en cuenta que Operai supuestamente violó los términos de servicio de Anthrope. Específicamente, se informó que los programadores de Operai usaron Claude durante el desarrollo de nuevos modelos GPT, lo que posteriormente condujo a antrópico, salvo el acceso de OpenAI a sus herramientas a principios de mes. El mayor escrutinio que rodea la seguridad de la IA ha provocado llamadas a pautas mejoradas destinadas a proteger a los usuarios, particularmente menores, ya que los críticos y los expertos legales se centran cada vez más en estos temas.

Crédito de imagen destacado