Las simulaciones de la dinámica molecular (MD) son una piedra angular de la química y biología modernas, pero la automatización de ellas ha seguido siendo un desafío, hasta ahora.
Investigadores de la Universidad de Rochester y Futurehouse Inc., incluidos Quintina Campbell, Sam Cox, Jorge Medina, Brittany Watterson y Andrew D. White, han introducido MdCrow: Automatización de flujos de trabajo de dinámica molecular con modelos de idiomas grandes, un agente con AI diseñado Alegar las tareas de MD complejas utilizando modelos de lenguaje grandes (LLM).
Mdcrow se integra sobre 40 herramientas diseñadas por expertos Para manejar cada paso de un flujo de trabajo MD, desde la preparación de archivos de entrada hasta la ejecución de simulaciones y analizar los resultados. A diferencia de los intentos anteriores que se limitaron a ecosistemas de software específicos, MdCrow está diseñado para una amplia adaptabilidad. Emplea razonamiento de la cadena de pensamiento Para interactuar con las herramientas dinámicamente, optimizar los flujos de trabajo sin requerir una intervención humana extensa.
El desafío de automatizar simulaciones de MD
Las simulaciones de MD requieren ajuste de parámetros meticulosodesde la selección de campos de fuerza hasta la gestión de pasos complejos de preprocesamiento previo y posterior. Mientras que los avances computacionales han mejorado la accesibilidad, La automatización completa se ha mantenido esquiva Debido a la toma de decisiones altamente especializada involucrada. Los esfuerzos anteriores, como Radonpy y Pyautofep, se centraron en dominios estrechos o integraciones de herramientas rígidas requeridas. Mdcrow cambia esto por Combinando la adaptabilidad de LLM con herramientas MD especializadascreando un sistema que pueda generalizarse en diferentes aplicaciones científicas.
Cómo funciona MdCrow
Construido usando el Marco de langchain y un aviso de estilo reactMdcrow funciona como un Asistente dirigido por LLM que selecciona y ejecuta de forma autónoma acciones dentro de un entorno controlado. Interactúa con herramientas en cuatro áreas clave:
- Recuperación de información: Acceso a la literatura, las bases de datos y las estructuras de proteínas para informar los parámetros de simulación.
- Manejo de PDB y proteínas: Limpieza y procesamiento de archivos PDB para simulaciones moleculares.
- Ejecución de simulación: Ejecución de simulaciones MD usando OpenMM, manejando automáticamente los errores.
- Análisis y visualización: Generación de información a partir de salidas de simulación, incluidos análisis estructurales y evaluaciones de estabilidad.
La innovación clave es la capacidad de Mdcrow para adaptarse dinámicamente a la complejidad de la tarea. Ya sea que realice una estructura simple limpiando o orquestando simulaciones de múltiples pasos con análisis intrincados, el sistema refina su enfoque en función de los resultados pasados y la retroalimentación en tiempo real.
Benchmarking mdcrow
Para evaluar las capacidades de MdCrow, el equipo de investigación lo probó en 25 tareas de creciente complejidadcomparando su rendimiento en diferentes LLM, incluida GPT-4O, LLAMA3-405B y OPUS CLAUDE-3.
Los resultados son sorprendentes:
- MdCrow, impulsado por GPT-4O, completó con éxito el 72% de las tareasBot Performing Standard LLM Setups.
- Llama3-405b, una alternativa de código abierto, logró el 68% de finalizacióndemostrando una solución no propietaria viable.
- LLMS básicos sin las herramientas especializadas de Mdcrow logró solo una precisión del 28%destacando la importancia de los flujos de trabajo diseñados por expertos.
- El estilo rápido tuvo poco impacto en los modelos de alto rendimiento pero afectaron significativamente a los más débiles, reforzando la necesidad de razonamiento estructurado en tareas científicas complejas.
Mdcrow representa un Gran paso hacia simulaciones moleculares totalmente autónomaspero su impacto se extiende más allá de los flujos de trabajo de MD. Por permitir que AI maneje tareas computacionales complejas y de varios pasosMdcrow demuestra cómo los LLM pueden servir como asistentes científicosAcelerando el descubrimiento a través de la química, la ciencia de los materiales y la bioingeniería.
El estudio también muestra la importancia de Colaboración Human-AI. Mientras que MdCrow automatiza los procesos de rutina, su característica interactiva de «chat» permite a los científicos Refinar flujos de trabajo en tiempo realguiando la IA hacia la resolución de problemas más compleja.
La investigación es de código abierto, con código disponible en Github.
Crédito de imagen destacado: Kerem Gülen/MidJourney