Investigaciones recientes de Apple sugieren que los modelos que obtuvieron una puntuación alta en el conjunto de datos GSM8K pueden no ser tan inteligentes como parecen.
Los modelos de lenguaje grandes (LLM) han sido ampliamente elogiados por sus habilidades de razonamiento aparentemente impresionantes. Los modelos de empresas como OpenAI, Google y Meta a menudo se presentan como herramientas poderosas capaces de resolver problemas complejos, y pruebas como el conjunto de datos GSM8K son un punto de referencia popular para medir sus habilidades de razonamiento.
Sin embargo, la investigación de Apple cambiará el llamado sistema confiable.
¿Qué es el conjunto de datos GSM8K?
El conjunto de datos GSM8K (Grade School Math 8K) es un punto de referencia utilizado para evaluar las capacidades de razonamiento y resolución de problemas de los modelos de lenguaje grande (LLM). Consta de más de 8000 problemas planteados de matemáticas a nivel de escuela primaria, que normalmente requieren aritmética, razonamiento lógico y habilidades de resolución de problemas de varios pasos para llegar a la respuesta correcta.
El conjunto de datos GSM8K consta de:
- Matemáticas a nivel de escuela primaria: Los problemas están diseñados para imitar el tipo de preguntas que un estudiante de 1.º a 8.º grado podría encontrar, como aritmética básica, geometría, álgebra y acertijos lógicos.
- problemas de palabras: Cada pregunta se presenta en un formato de problema escrito, lo que requiere que el modelo interprete el problema, identifique los números y operaciones relevantes y resuelva la ecuación.
- Utilizado para la evaluación de LLM: El conjunto de datos se utiliza a menudo como prueba para ver qué tan bien los modelos de lenguaje como GPT de OpenAI, los modelos de Google o LLaMA de Meta pueden manejar tareas de razonamiento más allá de la mera predicción de texto.
- Razonamiento de varios pasos: Los problemas requieren múltiples pasos para resolverse, lo que prueba la capacidad del modelo para rastrear secuencias complejas de razonamiento, en lugar de simplemente producir una respuesta de un solo paso.
El conjunto de datos GSM8K se ha convertido en una herramienta popular para evaluar si los LLM pueden razonar lógicamente y resolver problemas del mundo real. Sin embargo, existe la preocupación de que muchos modelos de IA funcionen bien en este conjunto de datos mediante la coincidencia de patrones en lugar del razonamiento verdadero, ya que podrían haber estado expuestos a problemas similares durante el entrenamiento.
Las limitaciones de los LLM del conjunto de datos GSM8K
Los investigadores de Apple sostienen que este éxito puede deberse más a una coincidencia de patrones sofisticada que a un razonamiento lógico genuino. Dado que el conjunto de datos GSM8K se usa con tanta frecuencia, existe el riesgo de contaminación de los datos, lo que significa que es posible que muchos LLM ya hayan visto estos problemas durante el entrenamiento, inflando su aparente inteligencia.
Para abordar esto, Apple desarrolló un nuevo punto de referencia llamado GSM-simbólico. Esta prueba conserva los elementos centrales de razonamiento del conjunto de datos GSM8K, pero introduce cambios como diferentes nombres, números y complejidad, junto con información irrelevante.
¿Los resultados? Todos los LLM probados, incluidos modelos como el de OpenAI GPT-4 y Meta Llama 3experimentó una caída significativa en el rendimiento ante este nuevo desafío. Esto sugiere que Los LLM luchan con el verdadero razonamiento cuando se modifican las variablescuestionando aún más sus habilidades reales para resolver problemas.
¿Por qué tienen dificultades los LLM?
El estudio de Apple arroja luz sobre un defecto crítico en los LLM: Son excelentes para detectar patrones en los datos de entrenamiento, pero carecen de un verdadero razonamiento lógico.. Por ejemplo, cuando los problemas matemáticos incluían detalles irrelevantes, como el tamaño de los kiwis en un escenario de recolección de frutas, muchos LLM restaron ese detalle irrelevante de la ecuación, lo que demuestra una incapacidad para discernir qué información era necesaria para resolver el problema.
En pruebas con el Conjunto de datos GSM8Klos LLM como los modelos de OpenAI obtuvieron mejores resultados que sus homólogos de código abierto, pero la caída en la precisión cuando se agregó información irrelevante sugiere que estos sistemas están lejos de lograr una inteligencia genuina. Esto tiene profundas implicaciones para el desarrollo futuro de la IA, ya que muestra que, si bien los LLM pueden imitar la inteligencia, todavía tienen dificultades para comprender verdaderamente el contexto.
¿Una IA más inteligente o simplemente mejor para parecer inteligente?
La investigación de Apple subraya las limitaciones de confiar en puntos de referencia como el conjunto de datos GSM8K para evaluar la inteligencia de IA. Si bien estas pruebas pueden medir el reconocimiento de patrones, no siempre captan los matices del verdadero razonamiento lógico. La introducción del punto de referencia GSM-Symbolic proporciona una prueba más rigurosa de la capacidad de una IA para manejar variables desconocidas e información irrelevante, habilidades esenciales para la resolución de problemas del mundo real.
Sam Altman, director ejecutivo de OpenAI, incluso ha reconocido estos desafíos, refiriéndose a los LLM actuales como «increíblemente tonto”a pesar de su impresionante apariencia exterior en una entrevista exclusiva con Revisión de tecnología del MIT. La verdadera prueba para los futuros LLM será su capacidad para ir más allá del reconocimiento de patrones y desarrollar habilidades más sólidas para la resolución de problemas.
Los hallazgos del estudio de Apple ofrecen una perspectiva aleccionadora sobre el estado actual de los LLM. Mientras que los modelos entrenados en conjuntos de datos como GSM8K pueden funcionar bien en entornos controlados, sus capacidades de razonamiento fallan cuando se las prueba en problemas más complejos del mundo real. Esto resalta la importancia de seguir investigando y desarrollando para garantizar que los modelos de IA vayan más allá de la inteligencia superficial y desarrollen verdaderas habilidades de razonamiento lógico.
Por ahoraes crucial moderar el entusiasmo que rodea a la IA con un saludable escepticismo, centrándose en sistemas de IA más seguros e inteligentes que puedan manejar algo más que el reconocimiento de patrones.
Créditos de imagen: Estudio DC/Freepik