Los investigadores del Laboratorio de Informática e Inteligencia Artificial del MIT desarrollaron Instructo PDDL, un marco que utiliza un razonamiento lógico y una validación externa para mejorar la forma en que los modelos de idiomas grandes generan planes de varios pasos, logrando una validez de hasta un 94% en puntos de referencia específicos. El marco aborda la falla común de los modelos de idiomas grandes (LLM) para producir planes lógicamente válidos, que a menudo suenan plausibles pero son incorrectos. PDDL-Instructo contrarresta esto integrando la semántica explícita del estado y la acción con la verificación de la verdad en tierra. A través de la «educación de errores», los modelos están capacitados para explicar las fallas del plan, incluidas las precondiciones insatisfechas, los efectos incorrectos, las violaciones de marco o un objetivo no alcanzado. Un método lógico de la cadena de pensamiento (COT) también guía al modelo para realizar una inferencia paso a paso, produciendo trazas detalladas de estado de acción estatal formateadas como ⟨sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩ basadas en semántica formal. Para garantizar la corrección, cada paso de un plan generado es verificado por el validador del plan VAL externo. El sistema puede recibir comentarios binarios (válidos/inválidos) o comentarios detallados especificando qué condición o efecto falló. La investigación indicó que la retroalimentación detallada produjo las ganancias de rendimiento más fuertes. PDDL-Instructo también utiliza un proceso de optimización de dos etapas. La primera etapa optimiza las cadenas de razonamiento del modelo penalizando los errores de transición de estado. La segunda etapa luego optimiza la precisión final del plan de tareas finales, creando un régimen de entrenamiento sistemático. El sistema se evaluó en el punto de referencia de Planbench, que incluye los dominios de planificación de Blocksworld, Mystery Blocksworld y Logistics. Mystery Blocksworld es particularmente desafiante, ya que ofusca los nombres de predicado para evitar la coincidencia de patrones; Los modelos anteriores informaron menos del 5% de validez en esta tarea sin soporte de herramientas. Con PDDL-Instructo, un modelo LLAMA-3-8B logró hasta un 94% de planes válidos en Blocksworld. En Mystery Blocksworld, el marco produjo mejoras de órdenes de magnitud, reportadas como hasta 64 veces mejores que los modelos de referencia. También se registraron aumentos sustanciales en los planes válidos en el dominio logístico. En todos los dominios, el marco demostró hasta una mejora absoluta del 66% en la generación de planes válidos en comparación con las líneas de base sintonizadas. El rendimiento se mejoró aún más mediante el uso de comentarios detallados de validador y presupuestos de retroalimentación más largos durante la capacitación. Este enfoque neurombólico motiva el razonamiento de una LLM en semántica formal que se verifica automáticamente. Su alcance actual se limita a los dominios del lenguaje de definición de dominio de planificación clásica (PDDL) y requiere Val como un oráculo externo. El método muestra la utilidad para las tuberías de agentes que pueden acomodar un verificador, mientras que las extensiones para la planificación temporal, numérica y sensible a los costos siguen siendo desafíos abiertos.





