Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
Subscribe
No Result
View All Result
Dataconomy ES
No Result
View All Result

El instructo PDDL de MIT mejora la validez del plan LLAMA-3-8B

byEmre Çıtak
22 septiembre 2025
in Inteligencia Artificial
Home Noticias Inteligencia Artificial
Share on FacebookShare on Twitter
Google Preferred Source

Los investigadores del Laboratorio de Informática e Inteligencia Artificial del MIT desarrollaron Instructo PDDL, un marco que utiliza un razonamiento lógico y una validación externa para mejorar la forma en que los modelos de idiomas grandes generan planes de varios pasos, logrando una validez de hasta un 94% en puntos de referencia específicos. El marco aborda la falla común de los modelos de idiomas grandes (LLM) para producir planes lógicamente válidos, que a menudo suenan plausibles pero son incorrectos. PDDL-Instructo contrarresta esto integrando la semántica explícita del estado y la acción con la verificación de la verdad en tierra. A través de la «educación de errores», los modelos están capacitados para explicar las fallas del plan, incluidas las precondiciones insatisfechas, los efectos incorrectos, las violaciones de marco o un objetivo no alcanzado. Un método lógico de la cadena de pensamiento (COT) también guía al modelo para realizar una inferencia paso a paso, produciendo trazas detalladas de estado de acción estatal formateadas como ⟨sᵢ, Aᵢ₊₁, Sᵢ₊₁⟩ basadas en semántica formal. Para garantizar la corrección, cada paso de un plan generado es verificado por el validador del plan VAL externo. El sistema puede recibir comentarios binarios (válidos/inválidos) o comentarios detallados especificando qué condición o efecto falló. La investigación indicó que la retroalimentación detallada produjo las ganancias de rendimiento más fuertes. PDDL-Instructo también utiliza un proceso de optimización de dos etapas. La primera etapa optimiza las cadenas de razonamiento del modelo penalizando los errores de transición de estado. La segunda etapa luego optimiza la precisión final del plan de tareas finales, creando un régimen de entrenamiento sistemático. El sistema se evaluó en el punto de referencia de Planbench, que incluye los dominios de planificación de Blocksworld, Mystery Blocksworld y Logistics. Mystery Blocksworld es particularmente desafiante, ya que ofusca los nombres de predicado para evitar la coincidencia de patrones; Los modelos anteriores informaron menos del 5% de validez en esta tarea sin soporte de herramientas. Con PDDL-Instructo, un modelo LLAMA-3-8B logró hasta un 94% de planes válidos en Blocksworld. En Mystery Blocksworld, el marco produjo mejoras de órdenes de magnitud, reportadas como hasta 64 veces mejores que los modelos de referencia. También se registraron aumentos sustanciales en los planes válidos en el dominio logístico. En todos los dominios, el marco demostró hasta una mejora absoluta del 66% en la generación de planes válidos en comparación con las líneas de base sintonizadas. El rendimiento se mejoró aún más mediante el uso de comentarios detallados de validador y presupuestos de retroalimentación más largos durante la capacitación. Este enfoque neurombólico motiva el razonamiento de una LLM en semántica formal que se verifica automáticamente. Su alcance actual se limita a los dominios del lenguaje de definición de dominio de planificación clásica (PDDL) y requiere Val como un oráculo externo. El método muestra la utilidad para las tuberías de agentes que pueden acomodar un verificador, mientras que las extensiones para la planificación temporal, numérica y sensible a los costos siguen siendo desafíos abiertos.


Crédito de imagen destacado

Tags: Llama-3-8bMITPDDL-INSTRUCTO

Related Posts

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

Anthropic invita a 150 organizaciones más al Proyecto Glasswing

3 junio 2026
Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

Microsoft presenta el Proyecto Solara para un futuro en el que el agente será el primero

3 junio 2026
Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

Google permitirá que los sitios web opten por no aparecer en los resultados de búsqueda con IA

3 junio 2026
OpenAI amplía Codex con complementos empresariales y una nueva función de Sitios

OpenAI amplía Codex con complementos empresariales y una nueva función de Sitios

3 junio 2026
Meta parches falla de IA que permitió la apropiación de cuentas de Instagram

Meta parches falla de IA que permitió la apropiación de cuentas de Instagram

2 junio 2026
Un paquete popular del Codex fue descubierto extrayendo credenciales de autenticación

Un paquete popular del Codex fue descubierto extrayendo credenciales de autenticación

2 junio 2026

Recent Posts

  • Las reglas de exclusión voluntaria de la búsqueda de IA de Google provocan el lanzamiento del navegador Enviromates
  • Sony revela God of War: Laufey para PS5
  • Los investigadores desbloquean una mejora 20 veces mayor en experimentos con láser ultrarrápidos
  • Microsoft presenta Surface RTX Spark Dev Box para cargas de trabajo de IA
  • Según los informes, los nuevos chips Core Ultra de Intel son escasos

Recent Comments

No hay comentarios que mostrar.
Dataconomy ES

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.