Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Anthrope Review Flags Malismos de uso indebido en OpenAI GPT-4O y GPT-4.1

byEmre Çıtak
28 agosto 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Operai y antrópico, típicamente competidores en el sector de inteligencia artificial, recientemente participados en un esfuerzo colaborativo involucrando las evaluaciones de seguridad de los sistemas de IA de los demás. Esta asociación inusual vio a las dos compañías que compartían resultados y análisis de pruebas de alineación realizadas en modelos disponibles públicamente.

Antrópico realizado Evaluaciones en modelos OpenAI, centrándose en varias áreas clave. Estas incluían evaluaciones para la skofancia, la tendencia a estar de acuerdo o de los usuarios más plano; silbato, la capacidad de informar actividades poco éticas o dañinas; autoconservación, el impulso del modelo para mantener su propia existencia; el potencial para apoyar el mal uso humano; y capacidades relacionadas con el socavo de las evaluaciones de seguridad de la IA y la supervisión. Las evaluaciones compararon los modelos de OpenAI con los puntos de referencia internos de Anthrope.

La revisión antrópica determinó que los modelos O3 y O4-Mini de OpenAI demostraron una alineación comparable a los modelos de Anthrope. Sin embargo, Anthrope identificó las preocupaciones con respecto al uso indebido potencial asociado con los modelos GPT-4O y GPT-4.1 de uso general de OpenAI. Anthrope también informó que la sycophancy presentó un problema a diversos grados en todos los modelos Operai probados, con la excepción del modelo O3.

Es importante tener en cuenta que las pruebas de Anthrope no incluyeron el lanzamiento más reciente de Openai, GPT-5. GPT-5 incorpora una característica llamada Safe Finalations, diseñada para salvaguardar a los usuarios y al público de consultas potencialmente dañinas. Este desarrollo se produce cuando Operai recientemente enfrentó una demanda por muerte injusta después de un caso en el que un adolescente participó en conversaciones sobre intentos de suicidio y planes con ChatGPT durante varios meses antes de quitarse la vida.

En una evaluación recíproca, OpenAi pruebas realizadas En los modelos de Anthrope, evaluando aspectos como la jerarquía de instrucciones, la susceptibilidad de jailbreaking, la ocurrencia de alucinaciones y el potencial de esquema. Los modelos Claude de antrópico generalmente funcionaban bien en las pruebas de jerarquía de instrucciones. Estos modelos también exhibieron una alta tasa de rechazo en las pruebas de alucinación, lo que indica una probabilidad reducida de proporcionar respuestas cuando la incertidumbre podría conducir a respuestas incorrectas.

La colaboración entre Openai y Anthrope es notable, especialmente teniendo en cuenta que Operai supuestamente violó los términos de servicio de Anthrope. Específicamente, se informó que los programadores de Operai usaron Claude durante el desarrollo de nuevos modelos GPT, lo que posteriormente condujo a antrópico, salvo el acceso de OpenAI a sus herramientas a principios de mes. El mayor escrutinio que rodea la seguridad de la IA ha provocado llamadas a pautas mejoradas destinadas a proteger a los usuarios, particularmente menores, ya que los críticos y los expertos legales se centran cada vez más en estos temas.


Crédito de imagen destacado

Tags: AntrópicoopadaiPresentado

Related Posts

Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo

Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo

26 diciembre 2025
Bethesda apunta a 600 horas de juego para Fallout 5

Bethesda apunta a 600 horas de juego para Fallout 5

26 diciembre 2025
ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"

ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"

26 diciembre 2025
CUDA Tile IR de código abierto de NVIDIA en GitHub

CUDA Tile IR de código abierto de NVIDIA en GitHub

26 diciembre 2025
El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

26 diciembre 2025
ChatGPT evoluciona hacia una suite ofimática con nuevos bloques de formato

ChatGPT evoluciona hacia una suite ofimática con nuevos bloques de formato

26 diciembre 2025

Recent Posts

  • Qwen Code v0.5.0 de Alibaba transforma la terminal en un ecosistema de desarrollo completo
  • Bethesda apunta a 600 horas de juego para Fallout 5
  • ASUS defiende el puerto de alimentación HyperX RTX 5090 desalineado como "diseño intencional"
  • CUDA Tile IR de código abierto de NVIDIA en GitHub
  • El CEO de MicroStrategy dice los fundamentos de Bitcoin "no podría ser mejor"

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.