Interpretabilidad, explicabilidad y cajas negras

La irrupción de las Redes Neuronales*, que han dado el empuje definitivo a la Inteligencia Artificial, nos ha traído consigo un problemón: los algoritmos o modelos de Caja Negra, es decir, algoritmos que hacen algo que nos interesa pero no sabemos cómo lo hace exactamente.

Por algoritmos de Caja Negra entenderemos a aquellos algoritmos de los que conocemos la entrada y la salida pero no cómo se genera la salida, es decir, que no sabemos exactamente qué hace.

Stricto sensu, casi cualquier algoritmo del que no tengamos detalles, será para nosotros una caja negra. Es decir, una máquina sencillita que realice alguna operación que genere un resultado no evidente para el usuario será una caja negra porque no podemos explicar cómo ha llegado a esa respuesta. Pero esto nos llevaría a que casi cualquier algoritmo mínimamente complejo sea de caja negra. O a que cualquier algoritmo «comercial» (no público) también lo sea…

Pero no vamos a hablar de ese tipo de caja negra (desde la perspectiva de la persona usuaria) sino de la Caja Negra desde la perspectiva del propio algoritmo; esto es, que aunque conozcamos los mecanismos intrínsecos del algoritmo somos incapaces de explicar cómo se llega a una salida concreta.

La culpa es de las Redes Neuronales

Las Redes Neuronales (RN), per se, son Cajas Negras de pleno derecho.

A diferencia de la programación convencional (donde se diseña un algoritmo que proporcione una salida concreta frente a una entrada concreta), la programación de las redes neuronales requiere muchos datos de entrada para que el algoritmo aprenda a generar la salida deseada a base de entrenamiento (fase de aprendizaje).

Dicho de otra manera, podríamos interpretar la programación convencional como una serie de operaciones concretas que generan un resultado exacto, mientras que la programación de redes neuronales son una serie de operaciones difusas que, a medida que se van ejecutando con más y más datos, van acercándose a los resultados esperados. La primera es matemática pura y la segunda es magia#.

Así pues, cualquier algoritmo basado en Redes Neuronales es de Caja Negra.

El problema de la Caja Negra

Llegados a este punto, podríamos preguntarnos qué importa cómo se haga una cosa si se hace: si la red neuronal es capaz de identificar un gato entre miles de fotografías de animales, qué importa cómo logra identificarlo…

El problema básico aquí viene cuando el resultado del algoritmo tiene implicaciones: imagina un algoritmo para determinar un tratamiento médico o un diagnóstico complejo. ¿De quién es la culpa en caso de que el algoritmo yerre? ¿Podremos saber a priori si el algoritmo se ha equivocado? ¿Quién es responsable?

Imaginemos un caso extremo pero real: un algoritmo predictor de delitos. En China ya se están usando… Según sus promotores estos algoritmos tienen una precisión superior al 90% (teniendo en cuenta que en China el elenco de delitos posibles es ingente, incluyendo egoismo, irreverencias al Partido, incivismo…). Lo gracioso es que, antes de cometer ningún delito, pueden detenerte e ingresarte en un centro de reeducación por un par de meses o años…

Parece bastante importante comprender claramente cómo el algoritmo ha llegado a una conclusión. En sistemas supervisados, es decir, que una persona humana media entre el resultado del algoritmo y la acción ejecutiva, existe la posibilidad de que la persona detecte un error . En sistemas autónomos (el algoritmo, además, puede realizar acciones de forma autónoma) esto es un riesgo inasumible.

Parece lógico y deseable comprender al algoritmo…

Interpretabilidad

La Interpretabilidad es una cualidad que exhiben algunos algoritmos complejos referida a la posibilidad de comprender, a nivel general, las predicciones de un modelo (las salidas/outputs); esto es, que más o menos podemos hacernos una idea de lo que hace el algoritmo, aunque no podamos comprender los detalles.

En este sentido, los Grandes Modelos de Lenguaje (LLM) como GPT 4, Bard o LLaMA, son interpretables: entendemos más o menos cómo funcionan y generan texto.

Explicabilidad

La Explicabilidad es una cualidad que exhiben algunos algoritmos complejos referida a la posibilidad de comprender en detalle cómo se generan, a nivel general, las predicciones de un modelo (las salidas/outputs); esto es, que entendemos claramente lo que hace el algoritmo con todo detalle.

Los Grandes Modelos de Lenguaje no son explicables (aunque sí interpretables). No somos capaces de explicar cómo 175.000 millones de parámetros afectan al resultado. Ni 175.000M ni 100.000: es demasiado complejo para nuestras limitadas cabecitas.

Los movimientos por un uso de la Inteligencia Artificial ético demandan que todo algoritmo sea explicable (eXplainable Artificial Intelligence – XAI). Las agencias reguladoras (todavía en pañales en todo el mundo) también presionan para forzarlo.

Pero ¿es realista? ¿Todo el mundo seguiría estos principios?

No sé, tengo dudas…

(*) No intentes leer el artículo de la Wikipedia para Redes Neuronales en español: está mal traducido, contiene errores garrafales e incorpora falsedades flagrantes.
(#) Entiéndase magia en sentido positivo, como algo sorprendentemente bueno, no esperable…

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.