GPT-4.5 de Openai superado Los humanos en una reciente prueba de Turing de UC San Diego, que muestran cuán fácilmente las personas pueden confundir la IA con una conversación real al participar en chats de lado a lado.
La prueba de Turing ha medido durante mucho tiempo si una máquina puede pasar como humana a través de la interacción basada en texto. En esta versión actualizada, casi 300 participantes del lenguaje y el laboratorio de cognición de UC San Diego conversaron con un humano y una IA antes de decidir cuál era cuál.
GPT-4.5, equipado con una persona experta en cultura pop, convenció a los participantes de que era humano el 73 por ciento del tiempo, muy por encima del 50 por ciento de referencia históricamente utilizado para definir un pase. Los humanos reales no engañaban a los participantes con tanta frecuencia.
Otros sistemas incluyeron Meta’s Llama 3, GPT-4O de OpenAi, y Eliza, uno de los primeros chatbots. Sin una persona definida, la tasa de éxito de GPT-4.5 cayó al 36 por ciento, y GPT-4O obtuvo solo un 21 por ciento.
Los investigadores señalan que aprobar la prueba de Turing no significa que una IA realmente comprenda el lenguaje como una persona. Aún así, los resultados subrayan cuán convincentemente estos modelos pueden imitar la conversación humana, especialmente cuando se les dan roles específicos. Los hallazgos se publican actualmente en un servidor de preimpresión, con un lanzamiento revisado por pares pendiente.