La IA puede ser una especie invasora de la biosfera lingüística

En un contexto global ultra competitivo con una falsa calma donde el agua ya se ha retirado para la llegada del tsunami de la IA, es muy importante que el proyecto de la IA en español se planee y ejecute de manera urgente
— Alexa no encuentra su sitio en la fiesta de la inteligencia artificial

9 de diciembre de 2023 22:37 h

El lenguaje y la cultura son construcciones humanas -el mundo de las ideas de Platón. Seguro que nos suena el mito de que los esquimales distinguen 40 palabras distintas para la nieve (que realmente no las tienen aunque si el finés), o que el chino necesita menos palabras que el español más para expresar lo mismo. Los lenguajes no son solo el canal para expresarnos, sino que codifican nuestra cultura, la manera como pensamos o cómo nos relacionamos. Los grandes modelos de lenguaje de IA como el utilizado en chatGPT están entrenados sobre todo con información en inglés, predominante en la web. Aunque hayan aprendido a hacer una traducción aparentemente perfecta a muchos idiomas, el funcionamiento interno, el cálculo de probabilidades de los siguientes conceptos y palabras que la IA dirá, estará basado en la manera de hilar conceptos y razonar de aquellos documentos con los que se entrenó.

La humanidad habla más de 7000 idiomas, de los cuales sólo 100 están relativamente representados en el mundo digital, una decena tiene presencia relevante, y diríamos que solo uno - el inglés- está en el corazón y el cerebro de los modelos de lenguaje de IA más avanzados. Las herramientas que comprueban si un texto se ha escrito con IA, o puntúan la calidad de las redacciones, cometen más errores en los textos escritos por personas cuya lengua nativa no es el inglés. La realidad es que estos asistentes inteligentes encadenan palabras e ideas según estructuras aprendidas de los textos con los que se entrenaron.

Estos modelos de IA podrían comportarse como especies invasoras del mundo de las ideas. Aunque impresionantes a primera vista, cuando uno observa detenidamente muchas imágenes creadas con IA generativa - con programas como Midjourney o Dall-e - empezamos a percibir una cierta homogeneidad. Los grandes modelos de IA codifican estereotipos y podrían perpetuar sesgos, basta con preguntar a uno de estos modelos por la representación de una persona de un país o una profesión. De la misma manera, los modelos de IA de lenguaje también muestran algunos patrones recurrentes –de hecho hay profesores que dicen tener olfato para encontrar textos escritos con chatGPT. Los modelos de lenguaje de IA pueden acabar siendo como las especies invasoras de los ecosistemas, y sin que nos demos cuenta puedan acabar exterminando culturas, ideas y lenguajes minoritarios. Cierto es, que las especies invasoras también pueden tener consecuencias positivas, como el aumento de la productividad o hacer desaparecer algunas especies malignas.

En los últimos meses países como Corea, Suecia o Francia han anunciado la creación de grandes modelos de lenguaje entrenados en sus propios idiomas y culturas. Es un asunto geoestratégico y de soberanía industrial, y también una necesidad para preservar nuestra cultura y diversidad -necesario para las mayorías y mucho más para las minorías. En un contexto global ultra competitivo con una falsa calma donde el agua ya se ha retirado para la llegada del tsunami de la IA, es muy importante que el proyecto de la IA en español se planee y ejecute de manera urgente, con una visión amplía y sin ninguna limitación de recursos. Estamos hablando de crear la infraestructura pública digital del futuro de culturas y lenguajes minoritarios, pues igual que la imprenta revolucionó la manera de compartir y distribuir el conocimiento, es posible que los modelos fundacionales de IA del lenguaje que se establezcan en los próximos años sienten las bases del uso de la lengua para las próximas generaciones.

Etiquetas