Este punto de referencia pregunta si AI puede pensar como un ingeniero

Según un nuevo estudio titulado «Feabench: Evaluación de modelos de lenguaje en la capacidad de razonamiento multifísica« Por investigadores de Google y Harvard, los modelos de idiomas grandes pueden hablar un gran juego, pero cuando se trata de ingeniería del mundo real, la mayoría ni siquiera puede ejecutar una simulación de calor correctamente.

Este nuevo punto de referencia, doblado Feabenchno prueba modelos en la generación de códigos o problemas de física de libros de texto. Les desafía a resolver tareas complejas basadas en simulación que utilizan Multifísica de comsoluna plataforma de análisis de elementos finitos (FEA) de grado profesional. En otras palabras, pregunta: ¿Puede su asistente de IA favorito construir un haz virtual, aplicar la física adecuada y calcular qué sucede a continuación?

Por qué la simulación vence a Spitballing

FEA no se trata de aproximaciones. Se trata de traducir la realidad física en precisión numérica: modelar cómo se propaga el calor en un semiconductor, cómo un haz se flexiona bajo presión, cómo se propaga la falla material. Estas son preguntas que definen el éxito de la ingeniería o la catástrofe. A diferencia de los puntos de referencia genéricos, FeAbench eleva la barra: exige la razón de los modelos de IA a través de la física de dominios múltiples y operar herramientas de simulación de grado profesional para resolver problemas.

Este punto de referencia pregunta si AI puede pensar como un ingeniero — Captura de pantalla tomada del estudio compartido

Benchmarking the no benchmarkable

FeAbench llena un vacío que se pierden los puntos de referencia de IA existentes. El trabajo previo ha medido en gran medida el rendimiento en las matemáticas simbólicas o la generación de código, pero la ciencia basada en la simulación necesita más que la sintaxis. Necesita una comprensión semántica de la geometría espacial, las interacciones materiales y los solucionadores numéricos. FeAbench hace esto evaluando si LLMS puede tomar un problema de física del lenguaje natural, generar llamadas de la API COMSOL Multiphysics® y calcular el resultado correcto.

El punto de referencia viene en dos niveles. Oro feabench Incluye 15 problemas meticulosamente verificados con entradas limpias, objetivos claramente definidos y valores correctos de salida, cada uno solucionable a través de la API Java de COMSOL. Estos involucran dominios físicos de la transferencia de calor a la mecánica cuántica. Entonces está Feabench grande: Un conjunto de 200 tutoriales algorítmicamente analizados que prueban una generación de código más amplia pero carecen de una verdad de tierra estricta. Prueba de oro Precisión; Grandes pruebas amplitud.

Para abordar estas tareas, los investigadores construyeron una tubería de agente completa. A Controleragente supervisa el proceso. A Correctorsubagent refina iterativamente el código basado en errores de ejecución. A Tollokupagente Obtiene documentación física o fragmentos de código anotado para ayudar. El Evaluador Utiliza la retroalimentación de la API y un verificllm para evaluar si la solución tiene sentido. Este sistema no es solo ejecutar indicaciones de un solo disparo: es navegar, corregir y aprender de los errores.

Pesas cerradas ganan, pero aún así sudor

En las pruebas de referencia, los modelos de código cerrado como Claude 3.5, GPT-4O y Gemini 1.5 superaron a los modelos de peso abierto. Claude 3.5 lideró el paquete, logró una ejecución del 79% y obtuvo el único objetivo válido en un problema de oro. Los modelos abiertos lucharon, con algunas interfaces de física alucinantes o características incorrectas. La parte más desafiante? El bloque físicodonde los modelos necesitaban aplicar condiciones de contorno precisas y propiedades físicas para obtener resultados que coincidieran con la verdad del suelo.

Soneto Claude 3.5: 0.79 ejecutabilidad, 1/15 objetivo válido
GPT-4O: 0.78 ejecutabilidad, 0/15 objetivo válido
Géminis-1.5-Pro: 0.60 Ejecutabilidad, 0/15 objetivo válido

Cuando un plan no es suficiente

El punto de referencia incluye dos tipos de tareas. En el Modelspecs Tarea, el LLM solo recibe las especificaciones técnicas y debe razonar una solución. En el Plan Tarea, el modelo recibe instrucciones paso a paso. Sorprendentemente, la tarea del plan no condujo a un mejor rendimiento. Los modelos a menudo fallaban tomando instrucciones demasiado literalmente y alucinando los nombres de API incorrectos. Agregar una lista de funciones de COMSOL válidas a la solicitud, llamado Phydoc en contexto Estrategia: Helped reduce las alucinaciones y mejoran la fáctica de la interfaz significativamente.

Lecciones para ingenieros de IA

Una gran comida para llevar: la traducción es más difícil que la planificación. Incluso cuando el modelo sabe qué hacer, expresarlo en el DSL de Comsol (lenguaje específico del dominio) es el obstáculo. La solución del equipo? Proporcione herramientas de conexión a tierra como bibliotecas de código anotadas y documentación en contexto, luego combínelo con flujos de trabajo de agente estructurados. Esa receta convirtió un bajo rendimiento de una sola vez en una mejora sólida de múltiples vueltas. De hecho, la estrategia de agente múltiple llegó 88% Ejecutabilidadel más alto de todos los experimentos.

ModelsPecs + agente múltiple: 0.88 Ejecutabilidad, 2/15 objetivos válidos
ModelsPecs + Phydoc: 0.62 Ejecutabilidad, 1/15 objetivos válidos

Las simulaciones son cómo los ingenieros compriman el tiempo y el riesgo. Feabench muestra que los LLM no están listos para ejecutar simulaciones sin supervisión, pero se están acercando a convertirse en copilotos útiles. Eso importa si queremos que la IA ayude en prototipos rápidos, descubrimiento científico o diseño estructural. Y si la IA puede aprender a modelar el mundo físico con tanta precisión como imita el lenguaje, no solo chateará, simulará, resolverá y tal vez algún día, incluso se inventará.

Crédito de imagen destacado

Tags: AI Fabricar Presentado

Este punto de referencia pregunta si AI puede pensar como un ingeniero

Related Posts

Cómo los LLM se están convirtiendo en silencio en los mejores historiadores de la ciudad

¿Los modelos de IA confían en sus reguladores?

Bytedance VAPO: la actualización de IA que escuchará pronto

IEA advierte: la IA podría duplicar el uso de energía del centro de datos global para 2030

Por qué arrojar más cálculo de IA en la verificación podría ser un error

El 42% de los usuarios de Android se pierden esta actualización crítica

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Este punto de referencia pregunta si AI puede pensar como un ingeniero

Por qué la simulación vence a Spitballing

Benchmarking the no benchmarkable

Pesas cerradas ganan, pero aún así sudor

Cuando un plan no es suficiente

Lecciones para ingenieros de IA

Related Posts

Cómo los LLM se están convirtiendo en silencio en los mejores historiadores de la ciudad

¿Los modelos de IA confían en sus reguladores?

Bytedance VAPO: la actualización de IA que escuchará pronto

IEA advierte: la IA podría duplicar el uso de energía del centro de datos global para 2030

Por qué arrojar más cálculo de IA en la verificación podría ser un error

El 42% de los usuarios de Android se pierden esta actualización crítica

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us