Culturas olvidadas por la IA

 

Acaba de celebrase el Digital Enterprise Show 2025 en Málaga y, como tiende a suceder en este tipo de macro eventos sobre Inteligencia Artificial (IA), cualquier tema que no vaya dirigido, directa o indirectamente, a monetizar esta tecnología queda fuera de la agenda. Este es el caso las lenguas minoritarias y lo huérfanas que quedan en este tsunami de IA. El actual escenario de la IA, lejos de avanzar en inclusión como quieren hacernos ver en el Norte Global, se está convirtiendo en una herramienta de exclusión a nivel mundial… pero de eso no se habla en estas ferias.

La base para que la IA funcione son los grandes modelos de lenguaje (Large Language Model, LLM) que, simplificándolo para hacer más sencilla su comprensión, podríamos decir que es el modelo que se entrena con ingentes cantidades de datos para que cuando le formulamos una pregunta (prompt) sepa responderla. El problema de que los grandes modelos de IA estén en manos de unas pocas compañías como Google, OpenAI y Microsoft o Meta, entre otros, es que se asumen estándares anglocéntricos como predeterminados.  

¿Qué quiere decir esto? Pues que el aprovechamiento de estos LLM no está al alcance de cualquier cultura, pues por diseño no han tenido en cuenta sus singularidades que pueden ser de lo más dispares, desde idiomáticas a religiosas, sociales o, incluso, temporales, porque no en todos los países medimos el tiempo del mismo modo. En Etiopía, por ejemplo, el año tiene trece meses en lugar de doce.

Asimismo, el idioma es otra gran barrera, especialmente sí es minoritario como pueda ser el wólof de Senegal y Gambia y que, según los cálculos más optimistas podrá tener algo menos de 10 millones de hablantes. Ni siquiera tenemos que irnos tan lejos, en nuestro país, por ejemplo y seguramente que para alegría de alguna presidenta autonómica, el euskera y la cultura euskaldún encuentra dificultades para sacar el máximo partido a la IA. Este mismo año, de hecho, el Gobierno vasco anunció el proyecto Euskorpus concebido para desarrollar la primera IA en euskera. Dotada con 5,5 millones de euros, el pilar de esta iniciativa es la recopilación, generación y desarrollo activo y metódico del corpus digital del euskera.

Desafortunadamente, no todas las culturas subrepresentadas en el ecosistema de IA tienen su propio proyecto Euskorpus. El inglés se ha impuesto también en el campo científico y los mayores avances en IA y en procesamiento del lenguaje natural (Natural Language Processing, PNL) se basan en este idioma. Aunque las estadísticas varían según las fuentes, lo que es evidente es que alrededor de la mitad del contenido que hay en internet y que sirve en gran medida de entrenamiento para estos modelos está en inglés. El español ocuparía el tercer lugar por detrás del chino, probablemente, aunque hay quién incluso lo sitúa en segunda posición. Sea como fuere, hay una gran cantidad de culturas y lenguas subrepresentadas, sobre todo en países más pobres que, incluso con los chatbots de traducción automática, no aprovechan todo el potencial de la IA. De hecho, y dado este histórico anglocentrismo, hay idiomas y lenguas que carecen de términos específicos, como puede ser “internet” o, incluso, “globalización”.

Para entenderlo mejor, pondré como ejemplo un error en el que he estado instalado durante muchos años y que me llevaba a pensar que con la lengua de signos (que no lenguaje) se había perdido una oportunidad de excepción. Por alguna extraña razón, jamás me planteé que la lengua de signos hubiera surgido de manera natural en las diferentes comunidades de personas.

En mi supina ignorancia, me imaginaba que había sido una suerte de invención posterior y que se había desaprovechado la ventaja de hacerla universal, como un esperanto con el que todas las personas sordas o con discapacidad auditiva del mundo pudieran comunicarse. No caí en la cuenta, hasta que una amiga docente me sacó del error, que como sucede con la lengua oral, la de signos surge y evoluciona de acuerdo a las características comunes de la cultura comunitaria en la que nace.

En cierto modo, lo mismo ocurre con los modelos de IA, que no por incorporar traducción automática contienen o reflejan las singularidades culturales y las sutiles diferencias lingüísticas de cada país, pues no se tiene en cuenta a sus habitantes en el desarrollo y diseño del LLM y, sencillamente, pasan por el tamiz anglosajón. Los LLM han de basarse en idiomas distintos del inglés para lograr que no se discriminen y aíslen historias, tradiciones, formas de pensar.

Esto es especialmente grave en materia de migración, cuando los países comienzan a confiar en programas de IA de traducción simultánea para entenderse con las personas migrantes y solicitantes de asilo que hablan dialectos que el software no conoce o cuyos matices obvia. Un ejemplo simple: en muchos  países no existe una única palabra para decir “arroz”, sino que se emplean distintas en función de si está crudo, cocido, integral… En materia de solicitantes de asilo, donde la precisión es crucial, este anglocentrismo en el diseño de la IA puede ser fatal.

El colonialismo se encuentra en buena parte del origen del problema, pues los países africanos son de los más damnificados en esta exclusión de la IA. En un interesante artículo del Ada Lovelace Institute que abordaba esta cuestión se exponía cómo afortunadamente ya hay iniciativas locales, como Lepala AI https://lelapa.ai, que desarrollan tecnologías de IA específicamente adaptadas a las lenguas y contextos culturales africanos.

La solución al problema parece encaminarse por ahí, por desarrollar sistemas de IA minorizados, es decir, una infraestructura pluralista que se adapte al grupo lingüístico al que sirven. Tal y cómo expone la autora del artículo, Hannah Claus, experta en IA que cursa doctorado en la Universidad de Cambridge, pensar en una suerte de ChatGPT universal es una utopía, pues hay demasiado dinero en juego y escaso interés por las comunidades marginadas.

No se puede cerrar en absoluto la puerta a las bondades del código abierto, como la desconfianza de Claus en el modelo parece sugerir. Prueba de ello es Magistral, el modelo presentado por la francesa Mistral que ha intentado paliar esta problemática con su enfoque de “gran flexibilidad multilingüe”. Según la compañía, Magistral es capaz de razonar de forma nativa, lo que significa que lo hace en el idioma de la consulta, sin traducir el prompt (la instrucción) internamente al inglés. Mistral sostiene que funciona “en todos los idiomas y alfabetos del mundo”, si bien especifica que su rendimiento es mejor en inglés, francés, español, alemán, italiano, árabe, ruso y chino simplificado. Es un paso, insuficiente, pero que abre la puerta a la esperanza.

Por otro lado, los sistemas de IA minorizados son mucho más respetuosos con las culturas y las lenguas y propicia su uso en detrimento de los LLM anglocentristas. Se produce así un círculo virtuoso que puede llevar a mejorarlo gracia a su aprendizaje automático y que cada vez proporcione resultados más precisos. No obstante, hay que ser conscientes de que estas lenguas subrepresentadas cuentan con magnitudes de conjuntos de datos con que entrenar al LLM muy inferiores a las de los grandes modelos.

El camino para atajar esta nueva colonización digital a cargo de la IA no es sencillo, porque se entremezcla una gran diversidad de factores, incluidos los geopolíticos. En todo caso, concluye Claus, existen bases de datos de traducción léxica como LiveLanguage de Universal Knowledge Core (UKC) o PanLex que representan más de 2.000 léxicos lingüísticos que pueden contribuir a reducir la actual situación de exclusión en los modelos de IA.

(Artículo en Público

Previous Post

Sin comentarios