Según las mejores estimaciones, al norte de 7.000 Hoy en día se hablan idiomas en todo el mundo. Aproximadamente 400 idiomas Tienen más de un millón de hablantes. Si tenemos en cuenta que algunos idiomas, en particular el inglés, parecen dominar el mundo digital, existe una enorme necesidad de herramientas que puedan funcionar en distintos idiomas y realizar diversas tareas.
La inteligencia artificial y el procesamiento del lenguaje natural, una rama de la informática, llevan décadas trabajando para desarrollar herramientas que puedan hacer precisamente eso. En los últimos años han surgido numerosas herramientas basadas en modelos multilingües para el procesamiento del lenguaje natural (PLN). Estos modelos sirven como la piedra de Rosetta de la era de la información, permitiendo a las computadoras moverse sin problemas entre idiomas. No solo proporcionan traducción, sino que también admiten una variedad de aplicaciones, como análisis de sentimientos y contenido.
Por lo tanto, el procesamiento del lenguaje natural multilingüe tiene un papel vital que desempeñar en el futuro. Puede utilizarse para la traducción automática o para analizar publicaciones en redes sociales en diferentes idiomas para determinar el sentimiento, lo que podría utilizarse para informar estrategias de marketing o servicio al cliente. El procesamiento del lenguaje natural multilingüe también puede respaldar recomendaciones de contenido en servicios de streaming o hacer que el servicio al cliente esté disponible en varios idiomas. Puede impulsar el análisis de contenido de noticias o permitir la traducción de registros médicos a gran escala. En resumen, muchas tareas que podrían haber parecido imposibles en un momento (traducir los registros médicos de un hospital francés al inglés, por ejemplo) son posibles con el procesamiento del lenguaje natural multilingüe.
Algunos también ven el auge del PNL multilingüe como una fuerza para la democratización de los datos, haciendo que el contenido y los servicios que antes estaban disponibles solo en unos pocos idiomas sean accesibles para todos. Y el PNL multilingüe continúa desarrollándose, incluso incorporando datos no textuales.
Del hombre y la máquina: avances recientes en arquitecturas de modelos multilingües
El procesamiento del lenguaje natural tiene raíces profundas. El matemático y científico informático inglés Alan Turing describió el potencial de las computadoras para generar lenguaje natural en su influyente ensayo de 1950 “Maquinaria informática e inteligencia.” La PNL se desarrolló de manera constante en las décadas siguientes, y la PNL multilingüe comenzó a desarrollarse rápidamente en la década de 2000. Sin embargo, algunos de los avances más significativos en las arquitecturas de modelos multilingües se han producido durante la última década.
Algunos nombres de estos modelos son familiares para casi cualquier persona que se haya dedicado a la traducción. L profundopor ejemplo, es propiedad de DeepL SE, con sede en Colonia, Alemania, y se basa en su propio algoritmo emparejado con redes neuronales convolucionales para ofrecer traducción entre 33 idiomas y dialectosLanzado por primera vez en 2017, este es un ejemplo conocido de PNL multilingüe.
Por supuesto, también hay ChatGPTlanzado por OpenAI con sede en San Francisco y basado en su modelo fundacional Generative Pre-trained Transformer 3.5, que luego se actualizó a la versión 4. GPT 3.5 y 4 se encuentran entre los modelos de lenguaje más grandes que existen, entrenados en conjuntos de datos masivos, lo que les permite examinar grandes cantidades de datos de texto, capturar patrones complejos en el lenguaje y generar texto de alta calidad.

Este lenguaje de programación multilingüe se ha adoptado en masa para la traducción de idiomas, el análisis de sentimientos y muchos otros fines. GPT 3.5 y GPT 4 se hicieron accesibles a través de una API. En 2018, los investigadores de Google introdujeron un modelo de lenguaje llamado Representaciones de codificador bidireccional a partir de transformadores o (BERT). El modelo incluye una arquitectura de codificador de transformador y la empresa lo utiliza para interpretar mejor las búsquedas en su plataforma, así como para devolver información más relevante en las consultas. El modelo se entrena mediante predicción de tokens enmascarados y predicción de la siguiente oración.
Varios modelos relacionados han innovado sobre el modelo BERT, como por ejemplo: Robertaque modifica los hiperparámetros, elimina el objetivo de preentrenamiento de la siguiente oración y permite el entrenamiento con minilotes más grandes.
Para no quedarse atrás, Facebook AI publicó un modelo llamado XLM-R en 2019en el que entrenó el mencionado RoBERTa en un conjunto de datos multilingüe compuesto por alrededor de cien idiomas de conjuntos de datos CommonCrawl.
Los científicos que describen la herramienta destacaron su capacidad para funcionar bien en idiomas con conjuntos de datos más pequeños, como el suajili y el urdu, que tienen decenas de millones de hablantes. También destacaron su rendimiento en la comprensión interlingüística, donde un modelo se entrena en un idioma y luego se usa con otro sin necesidad de más datos de entrenamiento.
Desafíos actuales y soluciones propuestas
Si bien la PNL multilingüe se ha desarrollado a un ritmo vertiginoso en los últimos años, debe enfrentarse a diversos obstáculos. Uno de ellos es simplemente la diversidad lingüística.
La creación de estos modelos no consiste únicamente en ofrecer traducciones fluidas. Los idiomas pueden variar según la región o depender más del contexto, y la jerga también puede cambiar. Eso significa que los modelos de PNL deben mejorarse continuamente para que sean relevantes.
Además, algunos idiomas no están tan bien representados en términos de comentarios digitales y, con esos conjuntos de datos, es más fácil entrenar un modelo. Las comunidades más pequeñas que usan alfabetos no latinos, por ejemplo, quedan particularmente excluidas.
Un tercer desafío, bastante intrigante, es el de la alternancia de códigos, en el que los miembros de la comunidad pueden cambiar de idioma. Pensemos en un poeta inglés que de repente cita extensamente algo en francés o en un escritor japonés que condimenta su prosa con referencias en inglés. Si un modelo reconoce el idioma como japonés, ¿cómo gestiona esos segmentos en inglés del texto?
También existen problemas relacionados con el acceso a los recursos y los sesgos. Dada la capacidad computacional necesaria para lograr lenguajes de programación multilingües, ¿sólo las empresas más poderosas del mundo podrán reunir los recursos necesarios para crearlos? ¿O hay alguna manera de hacerlos más accesibles para los investigadores y las organizaciones? Y si los conjuntos de datos favorecen a los idiomas o comunidades más grandes, ¿cómo se puede garantizar que los hablantes de idiomas más pequeños estén bien representados?
Por último, también está el problema omnipresente de los datos deficientes. Los investigadores tienen que enfrentarse a la posibilidad de que sus datos de origen para algunos idiomas no sean precisos, lo que da lugar a resultados sesgados.

Las soluciones en todos los ámbitos pasan por invertir más tiempo en la investigación y la cooperación. Los investigadores deben trabajar para obtener mejores datos de las lenguas subrepresentadas y, al mismo tiempo, mejorar sus modelos. Algunos ya han empleado enfoques de aprendizaje de pocos intentos y de cero intentos para manejar situaciones en las que hay pocos datos disponibles para una lengua.
Para reducir el sesgo, también están trabajando para crear conjuntos de datos de entrenamiento diversos y desarrollar métricas para garantizar la imparcialidad. Los desarrolladores también son conscientes de que el contenido en un idioma puede ser ofensivo o inapropiado si se reproduce de forma deficiente en otro y están abordando el problema.
En términos de accesibilidad, han surgido modelos de menor escala para abordar la cuestión de los recursos. Algunos de estos modelos más pequeños incluyen: Orca 2 de Microsoft y Fi 2EleutherAI GPT-J y GPT-Neoy T5 Small, una versión reducida del Text-to-Text Transfer Transformer (T5) de Google.
El futuro de la PNL multilingüe
Justo cuando los desarrolladores buscan soluciones a los desafíos que enfrentan los modelos de la generación actual, hay innovaciones en marcha que están cambiando por completo lo que estos modelos pueden hacer.
El procesamiento del lenguaje natural multilingüe multimodal hará precisamente eso al procesar otros tipos de datos, como imágenes u otros datos audiovisuales, junto con el texto. Podría analizar el contenido en busca de expresiones faciales o tono, por ejemplo, lo que podría usarse para mejorar la traducción automática o el análisis de sentimientos, agregando nuevas dimensiones de datos al proceso de procesamiento.
También se están realizando innovaciones para mejorar los asistentes de voz existentes y los chatbots multilingües. El asistente de voz Siri de Apple actualmente puede responder consultas en alrededor de 25 idiomas y dialectosmientras que Alexa de Amazon es disponible en nueveMediante el uso de PNL multilingüe, estos asistentes de voz podrían hacerse accesibles a millones de personas más en todo el mundo.
Asimismo, los chatbots y agentes virtuales también pueden mejorarse, no sólo en términos de contenido sino también haciendo que sus respuestas sean más contextuales y específicas a la consulta de la persona, lo que, a su vez, mejorará la experiencia del usuario.
A medida que la tecnología evolucione, el procesamiento del lenguaje natural multilingüe se ampliará más allá de la traducción, el análisis de sentimientos y otros usos actuales para abarcar aplicaciones a mayor escala. Por ejemplo, las herramientas de educación en línea podrían estar más fácilmente disponibles en varios idiomas.
Las empresas pueden mejorar sus investigaciones, llegar a más clientes y ofrecer un mejor servicio a los mercados locales de lo que lo hacen actualmente, todo ello con la ayuda del PNL multilingüe. En resumen, el PNL multilingüe todavía está en sus inicios. Dada la velocidad de los avances, el futuro llegará muy pronto.
Crédito de la imagen destacada: Pico libre