Anthropic ha revisado repetidamente su prueba de entrevista técnica para solicitantes de empleo desde 2024 para mitigar las trampas asistidas por IA. El equipo de optimización del rendimiento, responsable de administrar la prueba, encontró que Los avances en las herramientas de codificación de IA requirieron estos cambios. El líder del equipo, Tristan Hume, declaró en una publicación de blog el miércoles que cada nuevo modelo de Claude ha obligado a realizar rediseños de prueba. Claude Opus 4 superó a la mayoría de los candidatos humanos cuando se les dio el mismo límite de tiempo, mientras que Claude Opus 4.5 igualó el desempeño de los mejores candidatos. Esto eliminó la capacidad de Anthropic para diferenciar entre el trabajo de los principales solicitantes humanos y su modelo de IA más avanzado en las condiciones de prueba habituales. Hume desarrolló una nueva prueba que se centra menos en la optimización del hardware, lo que la hace lo suficientemente compleja como para desafiar las herramientas de inteligencia artificial actuales. La prueba original también se compartió en la publicación del blog, invitando a los lectores a proponer soluciones alternativas. La publicación indicaba: «Si puedes mejorar Opus 4.5, nos encantaría saber de ti».





