Equidad (aprendizaje automático)

En aprendizaje automático, un algoritmo es justo, o tiene equidad si sus resultados son independientes de un cierto conjunto de variables que consideramos sensibles y no relacionadas con él (p.e.

En problemas de clasificación, un algoritmo aprende una función para predecir una característica discreta

como una variable aleatoria que codifica algunas características contenidas o implícitamente codificadas en

que consideramos características protegidas (género, etnia, orientación sexual, etc.).

Ahora pasamos a definir tres criterios principales para evaluar si un clasificador es justo, es decir, si sus predicciones no están influenciadas por algunas de las variables protegidas.

Esto significa que la probabilidad de estar en realidad en cada uno de los grupos es la misma para dos individuos con características protegidas distintas dado que la predicción los englobe en el mismo grupo.

Por último, resumimos algunos de los principales resultados que relacionan las tres definiciones dadas arriba:

Cuando trabajamos con un clasificador binario, tanto la clase predicha por el algoritmo como la real pueden tomar dos valores: positivo y negativo.

Utilizando estas relaciones, podemos definir múltiples métricas que podemos usar después para medir la equidad de un algoritmo:

Para definir estas métricas específicamente, se dividen en tres grandes grupos como en el trabajo de Verma y otros.

representa la clasificación final predicha por el algoritmo, y su valor es comúnmente derivado de

Se puede aplicar la equidad al aprendizaje automático desde tres perspectivas: pre-procesando los datos utilizados en el algoritmo, optimizando los objetivos durante el entrenamiento o procesando las respuestas tras la ejecución del algoritmo.

Una posible forma de hacerlo consiste en asociar cada individuo del conjunto de datos a una representación intermedia en la que sea imposible determinar si pertenece o no a un grupo protegido, a la vez que se mantiene el resto de la información tanto como sea posible.

Así, es la nueva representación la que se utiliza para obtener la predicción para el individuo en vez de los datos originales.

Como la representación intermedia se ha construido dando la misma probabilidad a cada individuo independientemente de si pertenecen al grupo protegido o no, esto queda oculto para el clasificador.

Por otro lado, los otros métodos obtienen mejores resultados tanto en acierto como en equidad.

Sin embargo, en la vida real el conjunto de datos suele estar sesgado y las variables no son estadísticamente independientes por lo que la probabilidad observada es:

Esto puede hacerse añadiendo restricciones al objetivo del algoritmo.

Por ejemplo, se puede añadir al algoritmo la condición de que la tasa de falsos positivos sea la misma para individuos del grupo protegido y para los que no lo son.

Es posible añadir sólo una o varias de estas restricciones al objetivo.

Sin embargo, la técnica y las métricas utilizadas varían en función del problema y es necesario modificar el código del algoritmo, lo que no siempre es posible.

[8] Se entrenan dos clasificadores al mismo tiempo con algún método basado en el gradiente (p.e.

de arriba debe referirse a la salida en bruto del clasificador y no a la salida discreta; por ejemplo, con una red neuronal artificial y un problema de clasificación

La última técnica trata de corregir las respuestas del clasificador para alcanzar la equidad.

En este método, necesitamos hacer una predicción binaria para los individuos y tenemos un clasificador que devuelve una puntuación asociada a cada uno de ellos.

Los individuos con puntuaciones altas tenderán a obtener una respuesta positiva, mientras que aquellos con una puntuación baja tendrán una respuesta negativa, pero necesitamos determinar el umbral a partir del cual se responde positiva o negativamente.

Si la función de puntuación es justa, en el sentido de que es independiente del atributo protegido, entonces cualquier elección del valor umbral será también justa, pero este tipo de clasificadores tienden a sesgarse con facilidad, por lo que puede que necesitemos especificar un umbral distinto para cada grupo protegido.

será clasificado, con un alto grado de seguridad, como perteneciente a la clase positiva o negativa respectivamente.

El algoritmo consiste en clasificar los sujetos no rechazados siguiendo la regla explicada al principio y los rechazados de la siguiente manera: si la instancia es un ejemplo de grupo desprivilegiado (

óptimo para cada problema y evitar volvernos discriminatorios contra el grupo privilegiado.

Relación entre los criterios de equidad como se muestra en Barocas y otros. ^{[

5

]}

Representación gráfica de los vectores usados en *adversarial debiasing* como se muestra en Zhan y otros. ^{[

11

]}