Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

Los investigadores de Operai identifican las causas matemáticas de las alucinaciones de IA

byAytun Çelebi
17 septiembre 2025
in Artificial Intelligence, Research
Home Artificial Intelligence

Los investigadores de OpenAI han publicado un artículo que diagnostica por qué los modelos de idiomas grandes como ChatGPT alucinan, o generan con confianza información falsa.

El estudio Utiliza un análisis matemático para explicar que las alucinaciones son un resultado inevitable de cómo estos modelos hacen predicciones, incluso cuando se entrenan en datos perfectos. Las causas principales son la acumulación de errores y los puntos de referencia de evaluación defectuosa.

Cómo las predicciones secuenciales conducen a errores

El documento explica que los LLM operan a través de un proceso autorregresivo, prediciendo la siguiente palabra en una secuencia basada en las palabras que se precedieron. Esto crea una cadena donde un solo error temprano puede propagar y amplificar, lo que lleva a una declaración completamente incorrecta. La prueba matemática de los investigadores muestra que la tasa de error para generar una oración completa es al menos el doble de la tasa de error de una simple pregunta sí/no, simplemente por este efecto de composición. Esta limitación estructural significa que las alucinaciones no pueden eliminarse por completo al ampliar la potencia informática o mejorar los datos de capacitación, ya que el problema es inherente a la arquitectura predictiva. El problema es peor para los hechos que parecen con poca frecuencia en los datos de capacitación. El estudio encontró que aproximadamente el 20% de los cumpleaños de cifras notables aparecieron solo una vez en el conjunto de entrenamiento, lo que condujo a una tasa de error de referencia de al menos el 20% para esas consultas. Como ejemplo práctico, los investigadores consultaban modelos de vanguardia para el cumpleaños de Adam Kalai, uno de los autores del artículo. Los modelos proporcionaron con confianza varias fechas incorrectas diferentes, lo que demuestra un patrón de fabricación de detalles de sonido plausible para llenar los vacíos de conocimiento.

Los puntos de referencia de evaluación penalizan la honestidad y fomentan la adivinación

El estudio también critica los puntos de referencia utilizados para evaluar los modelos de IA. Los investigadores revisaron diez puntos de referencia de IA prominentes y descubrieron que nueve de ellos usan un sistema de calificación binario: Una respuesta es 100% correcta o 100% incorrecta. Según este sistema, una respuesta de «No sé» recibe la misma puntuación que una respuesta completamente incorrecta: cero. Este método de puntuación crea lo que el documento llama una «epidemia» de la honestidad penalizadora. Una prueba matemática incluida en el estudio demuestra que este sistema incentiva a los modelos para adivinar siempre una respuesta, ya que cualquier suposición tiene una probabilidad mayor que cero de ser correcta y, por lo tanto, recibir una puntuación más alta que la abstención. Esto explica por qué incluso los modelos avanzados predeterminados a las fabricaciones seguras en lugar de admitir la incertidumbre.

Soluciones propuestas y la compensación entre precisión y experiencia del usuario

Para abordar esto, los investigadores de OpenAI proponen un nuevo enfoque que integra la estimación de confianza tanto en el comportamiento del modelo como en el proceso de evaluación. Los modelos serían capacitados para evaluar su propia certeza y serían evaluados con un sistema de puntuación que penaliza las respuestas incorrectas más en gran medida de lo que recompensa las correctas. Por ejemplo, un aviso podría instruir al modelo que «responda solo si tiene más del 75 por ciento de confianza, ya que los errores son penalizados 3 puntos, mientras que las respuestas correctas reciben 1 punto». Implementar esto reduciría significativamente las alucinaciones, pero tiene un costo. El documento estima que bajo dicho sistema, los modelos responderían con «No sé» a aproximadamente el 30% de las consultas de los usuarios. Esto podría ser frustrante para los usuarios acostumbrados a recibir una respuesta inmediata para todo, lo que potencialmente los lleva a modelos de competidores menos cautelosos. El alto costo computacional de medir con precisión la incertidumbre también hace que este enfoque sea poco práctico para los servicios de consumo de alto volumen. Sin embargo, el documento señala que para aplicaciones profesionales de alto riesgo en campos como finanzas, medicina o diseño de chips, el costo de un error es mucho mayor que el costo de la cálculo, lo que hace que los sistemas conscientes de la incertidumbre no solo sea viable sino esencial. El estudio concluye que los incentivos centrales en la IA del consumidor, que priorizan la participación y velocidad del usuario, garantizarán que las alucinaciones sigan siendo un problema persistente hasta que esas prioridades cambien.


Crédito de imagen destacado

Tags: AIInvestigaciónopadaiPresentado

Related Posts

Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU

Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU

19 septiembre 2025
XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados

XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados

19 septiembre 2025
Google Cloud agrega adorable y windsurf como clientes de codificación de IA

Google Cloud agrega adorable y windsurf como clientes de codificación de IA

19 septiembre 2025
Zoom anuncia AI Companion 3.0 en Zoomtopia

Zoom anuncia AI Companion 3.0 en Zoomtopia

19 septiembre 2025
Radware Tricks La investigación profunda de Chatgpt sobre la fuga de datos de Gmail

Radware Tricks La investigación profunda de Chatgpt sobre la fuga de datos de Gmail

19 septiembre 2025
Operai Research encuentra que los modelos de IA pueden planear y engañar deliberadamente a los usuarios

Operai Research encuentra que los modelos de IA pueden planear y engañar deliberadamente a los usuarios

19 septiembre 2025

Recent Posts

  • Deepseek liberaciones del modelo R1 entrenado por $ 294,000 en 512 H800 GPU
  • NVIDIA gasta más de $ 900 millones para contratar tecnología de hardware de CEO y AI de ENFABRICA
  • El juego de Roblox roba un brainrot elimina el personaje generado por la IA, provocando una reacción de los fanáticos y un debate sobre los derechos de autor
  • XAI Chatbot Grok de Elon Musk expuso cientos de miles de conversaciones de usuarios privados
  • Google Cloud agrega adorable y windsurf como clientes de codificación de IA

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.