Investigadores de Alibaba han desarrollado SkillWeaver, un marco destinado a mejorar el enrutamiento de subtareas en sistemas de inteligencia artificial empresariales. SkillWeaver crea gráficos de ejecución para tareas y selecciona las habilidades apropiadas para cada nodo. El marco incorpora Skill-Aware Decomposition (SAD), una técnica que utiliza un circuito de retroalimentación para la selección iterativa de herramientas, distinguiéndolo de los marcos que eligen herramientas de una sola vez.
SkillWeaver está diseñado específicamente para aplicaciones de IA del mundo real, como la orquestación de múltiples herramientas a través del Protocolo de contexto modelo (MCP) para diversas operaciones comerciales, incluido el manejo de datos y la generación de informes. Las pruebas muestran que el enfoque de SkillWeaver aumenta la precisión al tiempo que reduce el consumo de tokens en más del 99 % en comparación con exponer a los agentes a una biblioteca de herramientas completa.
El principal desafío al que se enfrentan los sistemas de IA es la granularidad de la descomposición de tareas, ya que las consultas prácticas a menudo implican solicitudes de composición que requieren múltiples habilidades. Las habilidades se definen como especificaciones modulares y reutilizables que utilizan documentación estructurada en lenguaje natural. Los marcos de IA actuales a menudo tienen dificultades al tratar el enrutamiento de herramientas como una tarea de selección de una sola habilidad, lo cual es insuficiente para flujos de trabajo complejos.
La operación de SkillWeaver consta de tres etapas: descomponer, recuperar y componer. En la etapa de descomposición, un LLM divide las consultas complejas de los usuarios en subtareas manejables. A continuación, la etapa Recuperar emplea un modelo de integración para identificar herramientas candidatas para cada subtarea de una biblioteca de habilidades. Finalmente, la etapa de Redacción evalúa la compatibilidad de estas herramientas y formula un Gráfico Acíclico Dirigido (DAG) que describe el plan de ejecución.
SkillWeaver también aborda el problema de que los LLM generen descripciones genéricas mediante la implementación del circuito de retroalimentación SAD. Este mecanismo hace que el LLM redacte un plan inicial, recupere habilidades coincidentes y refine su descomposición en función de las herramientas recuperadas, asegurando la alineación con vocabularios técnicos específicos.
Para evaluar la eficacia, los investigadores crearon CompSkillBench, un punto de referencia que presenta 300 consultas de varios pasos basadas en 2209 habilidades del mundo real. El motor central empleó un modelo de 7 mil millones de parámetros (Qwen2.5-7B-Instruct) para el proceso de descomposición y un recuperador de búsqueda semántica. Las pruebas revelaron que el circuito de retroalimentación SAD aumentó la precisión de la descomposición del 51,0% al 67,7%, y los modelos superiores alcanzaron una precisión del 92%.
Los resultados resaltaron que una menor orientación puede conducir a un menor rendimiento en modelos más grandes. Una configuración básica que utiliza un modelo más grande tuvo un rendimiento peor que el modelo más pequeño debido a desgloses innecesarios de tareas. La investigación demostró que la alineación adecuada con el vocabulario de las herramientas suele tener más impacto que simplemente utilizar un modelo más grande.
Se observaron importantes ahorros de tokens, ya que SkillWeaver redujo el consumo de la ventana de contexto de aproximadamente 884 000 tokens a aproximadamente 1160 tokens por consulta, lo que generó costos de API reducidos y tiempos de respuesta más rápidos. Por el contrario, el método LLM-Direct solo logró una tasa de precisión del 21,1 % en la recuperación de herramientas, mientras que los agentes de estilo ReAct lograron una precisión del 0 %.
Aunque el código fuente de SkillWeaver no se ha publicado, los investigadores han proporcionado plantillas que los desarrolladores pueden implementar utilizando bibliotecas existentes como LangChain y LlamaIndex. El marco requiere la vectorización inicial de la biblioteca de herramientas y la creación de un índice FAISS, que se puede completar en poco tiempo, minimizando la latencia durante la recuperación.
Una limitación de SkillWeaver es su falta de recuperación de errores en cadenas de herramientas de varios pasos. El estudio indicó que si un paso falla, compromete toda la cadena, destacando la necesidad de mejorar los mecanismos de manejo de errores dentro del marco.





