Los modelos de idiomas grandes (LLM) se celebran por sus capacidades multilingües, pero ¿cómo procesan realmente los idiomas no ingleses? Un estudio reciente llamado «¿Piensan los LLM multilingües en inglés?«Por Lisa Schut, Yarin Gal y Sebastian Farquhar de la Universidad de Oxford y Google Deepmind sugieren que los LLM pueden estar más centrados en el inglés de lo que se pensaba anteriormente. Sus hallazgos revelan que, independientemente del lenguaje de entrada o salida, estos modelos tienden a razonar en un espacio de representación interno más cercano al inglés antes de traducir sus pensamientos en el idioma de destino.
Un proceso de pensamiento centrado en inglés
Los LLM están capacitados en grandes cantidades de datos multilingües, sin embargo, el lenguaje dominante en su corpus de capacitación a menudo dicta cómo estructuran la información internamente. El estudio analizó múltiples modelos de código abierto, incluidos LLAMA-3.1-70B, MIXTRAL-8X22B, GEMMA-2-27B y AYA-23-35Bpara investigar si estos sistemas procesan el significado de una manera agnóstica del lenguaje o si se incorporan a un espacio de representación centrado en el inglés.
Utilizando una técnica llamada lente logitlos investigadores decodificaron las representaciones latentes de estos modelos y descubrieron un patrón sorprendente: al generar texto en idiomas que no son ingleses, LLMS primer mapa Palabras semánticamente significativas (como sustantivos y verbos) a sus equivalentes en inglés antes de convertirlos en el idioma de destino. Este fenómeno se observó en múltiples idiomas, incluidos franceses, alemán, holandeses y mandarín.
Por ejemplo, cuando el modelo recibió la oración francesa «Le Bateau Naviguait en Douceur Sur L’Aau» («El bote navegó suavemente sobre el agua»), las representaciones internas mostraron que palabras como agua y bote fueron mapeados por primera vez a sus significados en inglés antes de ser traducidos nuevamente al francés. Sin embargo, elementos gramaticales tales como preposiciones y determinantes permanecieron en el idioma original, lo que sugiere que solo las palabras cargadas semánticamente experimentan este procesamiento centrado en el inglés.
AI ahora maneja simulaciones moleculares: gracias a mdcrow
El experimento de vector de dirección
Otro experimento clave en el estudio involucrado dirección de activaciónuna técnica utilizada para manipular las respuestas de LLM empujándolas hacia conceptos específicos. Los investigadores encontraron que los vectores de dirección, representaciones matemáticas que guían la toma de decisiones del modelo, fueron significativamente más efectivos cuando se calcularon en inglés que en el lenguaje de entrada o salida. Esto respalda aún más la idea de que el razonamiento central del modelo ocurre en un espacio alineado en inglés.
Por ejemplo, cuando se le solicitó a un LLM que escribiera una oración sobre animales en alemán, el modelo respondió de manera más consistente cuando el vector de dirección se derivó de la palabra inglesa animal en lugar de su contraparte alemana Nivel. Esto sugiere que incluso cuando los modelos producen texto sin inglés fluido, su lógica subyacente permanece vinculada a las representaciones inglesas.
La naturaleza centrada en inglés de LLMS ha Tanto las ventajas como los inconvenientes. Por un lado, permite que estos modelos funcionen bien en múltiples idiomas a pesar de estar entrenados predominantemente en datos de inglés. Por otro lado, presenta sesgos y limitaciones:
- Menor fluidez en idiomas no ingleses: Los modelos entrenados con una estructura orientada al inglés tienden a producir oraciones antinaturales al generar texto en otros idiomas. Esto puede hacer que su sonido suene vigoroso, particularmente en idiomas con sintaxis y gramática significativamente diferentes.
- Sesgo cultural y lingüístico: Dado que la estructura interna favorece el inglés, ciertos idiomas pueden estar subrepresentados, lo que lleva a desventajas injustas en el rendimiento. Investigaciones anteriores ya han destacado Sesgos centrados en el oeste En los modelos de IA, y este estudio agrega otra capa al problema.
- Artifactos de traducción: Debido a que los modelos traducen sus pensamientos internos del inglés, pueden generar Frasing o errores incómodos cuando trabajan con idiomas que no tienen equivalentes de inglés directo para ciertas palabras o expresiones.
¿Todos los LLM exhiben este comportamiento?
Curiosamente, no todos los modelos exhibieron el mismo grado de procesamiento centrado en inglés. AYA-23-35B, un modelo entrenado en 23 idiomas, mostró la menor cantidad de enrutamiento de inglésmientras Gemma-2-27b, entrenado principalmente en inglés, mostró la mayoría. Esto sugiere que el grado de competencia multilingüe influye directamente en si un modelo se basa en representaciones en inglés.
Además, Los modelos más pequeños exhibieron una mayor tendencia al incumplimiento al inglés, Probablemente debido a su capacidad limitada para almacenar incrustaciones multilingües de manera eficiente. Los modelos más grandes, con más parámetros y datos de entrenamiento, parecen tener una comprensión ligeramente mejor de la semántica multilingüe, aunque el sesgo inglés aún permanece.
¿Pueden los LLM realmente pensar multilingües?
Los hallazgos del estudio desafían la suposición de que los LLM operan en una verdadera forma agnóstica del idioma. En cambio, sugieren que la IA multilingüe es Todavía formado fundamentalmente por el idioma dominante en su corpus de capacitación. Esto plantea preguntas importantes para los desarrolladores e investigadores de IA:
- ¿Deberían reestructurarse conjuntos de datos de capacitación para promover representaciones multilingües más equilibradas?
- ¿Cómo podemos mitigar el sesgo inglés para mejorar la fluidez y la equidad en diferentes idiomas?
- ¿Hay arquitecturas alternativas que podrían codificar mejor las representaciones independientes del lenguaje?
Dirigido al Sesgo centrado en inglés en LLMS será crucial para desarrollar verdaderamente multilingüe, culturalmente consciente sistemas. Los investigadores sugieren mejoras potenciales como:
- Capacitación en datos más diversos: La incorporación de una gama más amplia de idiomas durante el pretruación podría ayudar a los LLM a desarrollar un espacio de representación más equilibrado.
- Mejora de la dirección cruzada: El desarrollo de mejores métodos para dirigir LLM en lenguas no inglesas podría mejorar su rendimiento en varios contextos lingüísticos.
- Explorando nuevas arquitecturas: Los futuros modelos de IA podrían incorporar mecanismos para descentralizar las representaciones del idiomagarantizar que los procesos de razonamiento y toma de decisiones sean Verdaderamente el lenguaje agnóstico.
Por ahora, una cosa es clara: si bien la IA multilingüe ha hecho avances impresionantes, la forma en que «piensa» todavía está profundamente vinculada al inglés. Comprender este sesgo es el primer paso para crear sistemas de IA más justos y efectivos para los usuarios globales.
Crédito de imagen destacado: Kerem Gülen/ideograma