ChatGPT: la colonización cultural silenciosa

Cuando ChatGPT (o cualquier otro gran modelo de lenguaje -LLM-) nos proporciona una respuesta (información o conocimiento) ésta proviene del espacio de embedding de los tokens normalizados y lematizados de los datasets con que ha sido entrenada. Vamos, que podemos decir que ese espacio de embedding es la fuente de conocimiento, el resultado de entrenar al modelo con millones de datos. Así, cada idioma generará su propio espacio de embedding.

Hasta aquí, todo correcto. O no…

Hay muchos idiomas con un corpus de información en formato digital limitado debido a su escaso volumen de hablantes, a que son países subdesarrollados o que llevan en guerra años, a que sus hablantes usan otra lengua para cuestiones formales… Hablamos del noruego, del tamil, del tágalo, del amárico…

Pues bien, ChatGPT, para estos idiomas, funciona igual de bien y retorna respuestas igual de impresionantes que en inglés.

¿Cómo es eso posible? Fácil, el espacio de embedding del inglés ha sido inyectado, con las transformaciones y adaptaciones adecuadas, a todos los otros espacios de embedding de los otros idiomas.

Guay, ¿no? Pues sí y no…

Por una parte proporcionas un gran servicio a los hablantes de lenguas «minorizadas», al ofrecerles todo el conocimiento disponible independientemente del idioma en el que ese conocimiento se almacene. Además, genera corpus digital en ese idioma.

Por otra, estás «imponiendo» un relato: el relato del conocimiento desde la perspectiva anglosajona; principalmente la de los US. ¡Una ontología fresquita made in USA! En la práctica, esto supone que una parte importante de todo lo que genera ChatGPT en cualquier idioma proviene de conocimiento generado en inglés desde los US.

Y esto, amiguitas y amiguitos, es malo, muy malo… Porque al final, el relato US será el que prevalezca sobre todos los otros relatos, incluído el relato en español, porque la inyección del embedding inglés se ha realizado sobre todos los embeddings de los otros idiomas, español incluido. Pero al revés (enriquecer el embedding inglés con los embedding de otras lenguas) no se ha hecho (ni se hará).

Para pensar en ello…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.