La equidad en el aprendizaje automático (ML) se refiere a los diversos intentos de corregir el sesgo algorítmico en los procesos de toma de decisiones automatizados basados en modelos de ML. Las decisiones tomadas por dichos modelos después de un proceso de aprendizaje pueden considerarse injustas si se basaron en variables consideradas sensibles (por ejemplo, género, etnia, orientación sexual o discapacidad).
Como sucede con muchos conceptos éticos , las definiciones de imparcialidad y sesgo pueden ser controvertidas. En general, la imparcialidad y el sesgo se consideran relevantes cuando el proceso de decisión afecta la vida de las personas.
Dado que las decisiones tomadas por máquinas pueden verse sesgadas por una variedad de factores, podrían considerarse injustas con respecto a ciertos grupos o individuos. Un ejemplo podría ser la forma en que los sitios de redes sociales ofrecen noticias personalizadas a los consumidores.
El debate sobre la imparcialidad en el aprendizaje automático es un tema relativamente reciente. Desde 2016 ha habido un marcado aumento de la investigación sobre el tema. [1] Este aumento podría atribuirse en parte a un influyente informe de ProPublica que afirmaba que el software COMPAS , ampliamente utilizado en los tribunales estadounidenses para predecir la reincidencia , tenía sesgo racial. [2] Un tema de investigación y debate es la definición de imparcialidad, ya que no existe una definición universal y las diferentes definiciones pueden estar en contradicción entre sí, lo que dificulta juzgar los modelos de aprendizaje automático. [3] Otros temas de investigación incluyen los orígenes del sesgo, los tipos de sesgo y los métodos para reducirlo. [4]
En los últimos años, las empresas tecnológicas han elaborado herramientas y manuales sobre cómo detectar y reducir el sesgo en el aprendizaje automático. IBM tiene herramientas para Python y R con varios algoritmos para reducir el sesgo del software y aumentar su imparcialidad. [5] [6] Google ha publicado directrices y herramientas para estudiar y combatir el sesgo en el aprendizaje automático. [7] [8] Facebook ha informado sobre el uso de una herramienta, Fairness Flow, para detectar sesgos en su IA . [9] Sin embargo, los críticos han argumentado que los esfuerzos de la empresa son insuficientes, informando de un escaso uso de la herramienta por parte de los empleados, ya que no se puede utilizar para todos sus programas e incluso cuando se puede, el uso de la herramienta es opcional. [10]
Es importante señalar que el debate sobre las formas cuantitativas de probar la imparcialidad y la discriminación injusta en la toma de decisiones es anterior en varias décadas al debate bastante reciente sobre la imparcialidad en el aprendizaje automático. [11] De hecho, un intenso debate sobre este tema por parte de la comunidad científica floreció a mediados de los años 1960 y 1970, principalmente como resultado del movimiento de derechos civiles estadounidense y, en particular, de la aprobación de la Ley de Derechos Civiles de Estados Unidos de 1964. Sin embargo, a fines de la década de 1970, el debate desapareció en gran medida, ya que las diferentes y a veces competitivas nociones de equidad dejaban poco espacio para la claridad sobre cuándo una noción de equidad puede ser preferible a otra.
El sesgo de lenguaje se refiere a un tipo de sesgo de muestreo estadístico vinculado al idioma de una consulta que conduce a "una desviación sistemática en la información de muestreo que le impide representar con precisión la cobertura real de los temas y puntos de vista disponibles en su repositorio". [ se necesita una mejor fuente ] [12] Luo et al. [12] muestran que los grandes modelos de lenguaje actuales, ya que están entrenados predominantemente con datos en idioma inglés, a menudo presentan los puntos de vista angloamericanos como verdad, mientras que sistemáticamente minimizan las perspectivas no inglesas como irrelevantes, erróneas o ruido. Cuando se consulta con ideologías políticas como "¿Qué es el liberalismo?", ChatGPT, ya que fue entrenado con datos centrados en el inglés, describe el liberalismo desde la perspectiva angloamericana, enfatizando aspectos de los derechos humanos y la igualdad, mientras que aspectos igualmente válidos como "se opone a la intervención estatal en la vida personal y económica" desde la perspectiva vietnamita dominante y "limitación del poder del gobierno" desde la perspectiva china predominante están ausentes. De manera similar, otras perspectivas políticas integradas en corpus japoneses, coreanos, franceses y alemanes están ausentes en las respuestas de ChatGPT. ChatGPT, que se presenta como un chatbot multilingüe, en realidad es mayoritariamente "ciego" a las perspectivas que no hablan inglés. [12]
El sesgo de género se refiere a la tendencia de estos modelos a producir resultados que están injustamente prejuiciados hacia un género en detrimento de otro. Este sesgo surge típicamente de los datos con los que se entrenan estos modelos. Por ejemplo, los modelos de lenguaje grandes a menudo asignan roles y características basados en normas de género tradicionales; pueden asociar a enfermeras o secretarias predominantemente con mujeres e ingenieros o directores ejecutivos con hombres. [13]
El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de entrenamiento incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. [14]
El uso de la toma de decisiones algorítmica en el sistema legal ha sido un área notable de uso bajo escrutinio. En 2014, el entonces Fiscal General de los Estados Unidos Eric Holder expresó su preocupación por la posibilidad de que los métodos de "evaluación de riesgos" estuvieran poniendo un enfoque indebido en factores que no están bajo el control del acusado, como su nivel de educación o su entorno socioeconómico. [15] El informe de 2016 de ProPublica sobre COMPAS afirmó que los acusados negros tenían casi el doble de probabilidades de ser etiquetados incorrectamente como de mayor riesgo que los acusados blancos, mientras que cometían el error opuesto con los acusados blancos. [2] El creador de COMPAS , Northepointe Inc., cuestionó el informe, alegando que su herramienta es justa y que ProPublica cometió errores estadísticos, [16] lo que posteriormente fue refutado nuevamente por ProPublica. [17]
También se ha observado sesgo racial y de género en los algoritmos de reconocimiento de imágenes. Se ha descubierto que la detección facial y de movimiento en las cámaras ignora o etiqueta incorrectamente las expresiones faciales de sujetos que no son blancos. [18] En 2015, se descubrió que la función de etiquetado automático tanto en Flickr como en Google Photos etiquetaba a las personas negras con etiquetas como "animal" y "gorila". [19] Se descubrió que un concurso de belleza internacional de 2016 juzgado por un algoritmo de IA estaba sesgado hacia las personas de piel más clara, probablemente debido al sesgo en los datos de entrenamiento. [20] Un estudio de tres algoritmos comerciales de clasificación de género en 2018 descubrió que los tres algoritmos eran generalmente más precisos al clasificar a los hombres de piel clara y peores al clasificar a las mujeres de piel oscura. [21] En 2020, se demostró que una herramienta de recorte de imágenes de Twitter prefería los rostros de piel más clara. [22] En 2022, los creadores del modelo de texto a imagen DALL-E 2 explicaron que las imágenes generadas estaban significativamente estereotipadas, en función de rasgos como el género o la raza. [23] [24]
Otras áreas en las que se utilizan algoritmos de aprendizaje automático que han demostrado ser sesgados incluyen las solicitudes de empleo y préstamos. Amazon ha utilizado software para revisar solicitudes de empleo que eran sexistas, por ejemplo, penalizando los currículos que incluían la palabra "mujeres". [25] En 2019, el algoritmo de Apple para determinar los límites de la tarjeta de crédito para su nueva Apple Card otorgó límites significativamente más altos a los hombres que a las mujeres, incluso para las parejas que compartían sus finanzas. [26] Un informe de The Markup en 2021 demostró que los algoritmos de aprobación de hipotecas que se utilizan en los EE. UU. tienen más probabilidades de rechazar a los solicitantes no blancos. [27]
Trabajos recientes subrayan la presencia de varias limitaciones en el panorama actual de la equidad en el aprendizaje automático, en particular cuando se trata de lo que es realista lograr a este respecto en las cada vez mayores aplicaciones del mundo real de la IA. [28] [29] [30] Por ejemplo, el enfoque matemático y cuantitativo para formalizar la equidad, y los enfoques relacionados de "desestabilización", pueden basarse en supuestos demasiado simplistas y fáciles de pasar por alto, como la categorización de individuos en grupos sociales predefinidos. Otros aspectos delicados son, por ejemplo, la interacción entre varias características sensibles, [21] y la falta de una noción filosófica y/o legal clara y compartida de no discriminación.
En problemas de clasificación , un algoritmo aprende una función para predecir una característica discreta , la variable objetivo, a partir de características conocidas . Modelamos como una variable aleatoria discreta que codifica algunas características contenidas o implícitamente codificadas en que consideramos como características sensibles (género, etnia, orientación sexual, etc.). Finalmente denotamos por la predicción del clasificador . Ahora definamos tres criterios principales para evaluar si un clasificador dado es justo, es decir, si sus predicciones no están influenciadas por algunas de estas variables sensibles. [31]
Decimos que las variables aleatorias satisfacen la independencia si las características sensibles son estadísticamente independientes de la predicción , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que la tasa de clasificación para cada clase objetivo es igual para las personas que pertenecen a diferentes grupos con respecto a las características sensibles .
Otra expresión equivalente para la independencia se puede dar usando el concepto de información mutua entre variables aleatorias , definida como En esta fórmula, es la entropía de la variable aleatoria . Entonces satisface la independencia si .
Una posible relajación de la definición de independencia incluye la introducción de una holgura positiva y se da mediante la fórmula:
Finalmente, otra posible relajación es exigir .
Decimos que las variables aleatorias satisfacen la separación si las características sensibles son estadísticamente independientes de la predicción dado el valor objetivo , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que toda la dependencia de la decisión sobre el atributo sensible debe estar justificada por la dependencia real de la verdadera variable objetivo .
Otra expresión equivalente, en el caso de una tasa objetivo binaria, es que la tasa de positivos verdaderos y la tasa de positivos falsos son iguales (y, por lo tanto, la tasa de negativos falsos y la tasa de negativos verdaderos son iguales) para cada valor de las características sensibles:
Una posible relajación de las definiciones dadas es permitir que el valor de la diferencia entre tasas sea un número positivo menor que una holgura dada , en lugar de igual a cero.
En algunos campos, la separación (coeficiente de separación) en una matriz de confusión es una medida de la distancia (en un nivel dado de la puntuación de probabilidad) entre el porcentaje negativo acumulado previsto y el porcentaje positivo acumulado previsto .
Cuanto mayor sea este coeficiente de separación en un valor de puntuación dado, más eficaz será el modelo para diferenciar entre el conjunto de positivos y negativos en un límite de probabilidad particular. Según Mayes: [32] "En la industria crediticia se observa a menudo que la selección de medidas de validación depende del enfoque de modelado. Por ejemplo, si el procedimiento de modelado es paramétrico o semiparamétrico, se suele utilizar la prueba KS de dos muestras . Si el modelo se deriva mediante métodos de búsqueda heurísticos o iterativos, la medida del rendimiento del modelo suele ser la divergencia . Una tercera opción es el coeficiente de separación... El coeficiente de separación, en comparación con los otros dos métodos, parece ser el más razonable como medida del rendimiento del modelo porque refleja el patrón de separación de un modelo".
Decimos que las variables aleatorias satisfacen la suficiencia si las características sensibles son estadísticamente independientes del valor objetivo dada la predicción , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que la probabilidad de estar realmente en cada uno de los grupos es igual para dos individuos con diferentes características sensibles dado que se predijo que pertenecerían al mismo grupo.
Finalmente, resumimos algunos de los principales resultados que relacionan las tres definiciones dadas anteriormente:
Se habla de equidad total cuando se satisfacen simultáneamente la independencia, la separación y la suficiencia. [33] Sin embargo, la equidad total no es posible de lograr excepto en casos retóricos específicos. [34]
La mayoría de las medidas estadísticas de imparcialidad se basan en diferentes métricas, por lo que comenzaremos por definirlas. Cuando se trabaja con un clasificador binario , tanto las clases predichas como las reales pueden tomar dos valores: positivo y negativo. Ahora comencemos a explicar las diferentes relaciones posibles entre el resultado predicho y el real: [35]
Estas relaciones se pueden representar fácilmente con una matriz de confusión , una tabla que describe la precisión de un modelo de clasificación. En esta matriz, las columnas y las filas representan instancias de los casos previstos y reales, respectivamente.
Al utilizar estas relaciones, podemos definir múltiples métricas que luego pueden usarse para medir la imparcialidad de un algoritmo:
Los siguientes criterios pueden entenderse como medidas de las tres definiciones generales dadas al principio de esta sección, a saber, Independencia , Separación y Suficiencia . En la tabla [31] a la derecha, podemos ver las relaciones entre ellas.
Para definir estas medidas específicamente, las dividiremos en tres grandes grupos como lo hicieron Verma et al.: [35] definiciones basadas en un resultado previsto, en resultados previstos y reales, y definiciones basadas en probabilidades previstas y el resultado real.
Trabajaremos con un clasificador binario y la siguiente notación: se refiere a la puntuación dada por el clasificador, que es la probabilidad de que un determinado sujeto esté en la clase positiva o negativa. representa la clasificación final predicha por el algoritmo, y su valor suele derivarse de , por ejemplo será positivo cuando esté por encima de un cierto umbral. representa el resultado real, es decir, la clasificación real del individuo y, finalmente, denota los atributos sensibles de los sujetos.
Las definiciones de esta sección se centran en un resultado previsto para diversas distribuciones de sujetos. Son las nociones más simples e intuitivas de equidad.
Estas definiciones no sólo consideran el resultado previsto sino que también lo comparan con el resultado real .
Estas definiciones se basan en el resultado real y la puntuación de probabilidad prevista .
Con respecto a las matrices de confusión , la independencia, la separación y la suficiencia requieren que las cantidades respectivas enumeradas a continuación no tengan diferencias estadísticamente significativas entre las características sensibles. [34]
La noción de equidad de confusión igual [36] requiere que la matriz de confusión de un sistema de decisión dado tenga la misma distribución cuando se calcula estratificada sobre todas las características sensibles.
Algunos académicos han propuesto definir la justicia algorítmica en términos de una función de bienestar social . Sostienen que el uso de una función de bienestar social permite al diseñador de un algoritmo considerar la justicia y la precisión predictiva en términos de sus beneficios para las personas afectadas por el algoritmo. También permite al diseñador equilibrar la eficiencia y la equidad de una manera basada en principios. [37] Sendhil Mullainathan ha afirmado que los diseñadores de algoritmos deberían utilizar funciones de bienestar social para reconocer ganancias absolutas para los grupos desfavorecidos. Por ejemplo, un estudio encontró que el uso de un algoritmo de toma de decisiones en prisión preventiva en lugar del puro juicio humano redujo las tasas de detención de negros, hispanos y minorías raciales en general, incluso manteniendo constante la tasa de criminalidad. [38]
Una distinción importante entre las definiciones de equidad es la que existe entre las nociones de grupo e individuo. [39] [40] [35] [41] En términos generales, mientras que los criterios de equidad de grupo comparan cantidades a nivel de grupo, típicamente identificadas por atributos sensibles (por ejemplo, género, etnia, edad, etc.), los criterios individuales comparan individuos. En palabras, la equidad individual sigue el principio de que "los individuos similares deben recibir tratamientos similares".
Existe un enfoque muy intuitivo de la equidad, que suele conocerse bajo el nombre de equidad por desconocimiento ( FTU , por sus siglas en inglés) o ceguera , que prescribe no emplear explícitamente características sensibles al tomar decisiones (automatizadas). Se trata, en efecto, de una noción de equidad individual, ya que dos individuos que difieren solo en el valor de sus atributos sensibles recibirían el mismo resultado.
Sin embargo, en general, el modelo FTU presenta varios inconvenientes, el principal de los cuales es que no tiene en cuenta las posibles correlaciones entre los atributos sensibles y no sensibles empleados en el proceso de toma de decisiones. Por ejemplo, un agente con la intención (maliciosa) de discriminar en función del género podría introducir en el modelo una variable proxy para el género (es decir, una variable altamente correlacionada con el género) y utilizar eficazmente la información de género al mismo tiempo que cumple con la prescripción del modelo FTU.
El problema de qué variables correlacionadas con las sensibles son razonablemente utilizables por un modelo en el proceso de toma de decisiones es crucial y también es relevante para los conceptos de grupo: las métricas de independencia requieren una eliminación completa de la información sensible, mientras que las métricas basadas en la separación permiten la correlación, pero solo en la medida en que la variable objetivo etiquetada las "justifique".
El concepto más general de equidad individual fue introducido en el trabajo pionero de Cynthia Dwork y colaboradores en 2012 [42] y puede considerarse como una traducción matemática del principio de que el mapa de decisiones que toma características como entrada debe construirse de tal manera que sea capaz de "mapear individuos similares de manera similar", que se expresa como una condición de Lipschitz en el mapa del modelo. Llaman a este enfoque equidad a través de la conciencia ( FTA ), precisamente como contrapunto a FTU, ya que subrayan la importancia de elegir la métrica de distancia relacionada con el objetivo adecuada para evaluar qué individuos son similares en situaciones específicas. Nuevamente, este problema está muy relacionado con el punto planteado anteriormente sobre qué variables pueden considerarse "legítimas" en contextos particulares.
La equidad causal mide la frecuencia con la que dos usuarios o aplicaciones casi idénticos que difieren sólo en un conjunto de características con respecto a las cuales la asignación de recursos debe ser justa reciben un trato idéntico. [43] [ dudoso – discutir ]
Una rama completa de la investigación académica sobre métricas de imparcialidad se dedica a aprovechar los modelos causales para evaluar el sesgo en los modelos de aprendizaje automático . Este enfoque suele justificarse por el hecho de que la misma distribución observacional de datos puede ocultar diferentes relaciones causales entre las variables en juego, posiblemente con diferentes interpretaciones de si el resultado se ve afectado por alguna forma de sesgo o no. [31]
Kusner et al. [44] proponen emplear contrafácticos y definir un proceso de toma de decisiones contrafáctico justo si, para cualquier individuo, el resultado no cambia en el escenario contrafáctico donde se modifican los atributos sensibles. La formulación matemática dice:
es decir: se toma un individuo aleatorio con un atributo sensible y otras características y el mismo individuo si tuviera , deberían tener la misma probabilidad de ser aceptados. El símbolo representa la variable aleatoria contrafactual en el escenario donde el atributo sensible se fija en . El condicionamiento significa que este requisito es a nivel individual, en el sentido de que estamos condicionando todas las variables que identifican una sola observación.
Los modelos de aprendizaje automático suelen entrenarse con datos cuyo resultado depende de la decisión tomada en ese momento. [45] Por ejemplo, si un modelo de aprendizaje automático tiene que determinar si un recluso reincidirá y determinará si el recluso debe ser liberado antes de tiempo, el resultado podría depender de si el recluso fue liberado antes de tiempo o no. Mishler et al. [46] proponen una fórmula para probabilidades igualadas contrafácticas:
donde es una variable aleatoria, denota el resultado dado que se tomó la decisión y es una característica sensible.
Plecko y Bareinboim [47] proponen un marco unificado para abordar el análisis causal de la equidad. Sugieren el uso de un modelo de equidad estándar , que consiste en un gráfico causal con cuatro tipos de variables:
En este marco, Plecko y Bareinboim [47] pueden clasificar los posibles efectos que los atributos sensibles pueden tener sobre el resultado. Además, la granularidad con la que se miden estos efectos (es decir, las variables condicionantes utilizadas para promediar el efecto) está directamente relacionada con el aspecto "individual vs. grupal" de la evaluación de la imparcialidad.
La equidad se puede aplicar a los algoritmos de aprendizaje automático de tres maneras diferentes: preprocesamiento de datos , optimización durante el entrenamiento del software o posprocesamiento de los resultados del algoritmo.
Generalmente, el clasificador no es el único problema; el conjunto de datos también está sesgado. La discriminación de un conjunto de datos con respecto al grupo se puede definir de la siguiente manera:
Es decir, una aproximación a la diferencia entre las probabilidades de pertenecer a la clase positiva dado que el sujeto tiene una característica protegida distinta de e igual a .
Los algoritmos que corrigen el sesgo durante el preprocesamiento eliminan información sobre las variables del conjunto de datos que podrían dar lugar a decisiones injustas, al tiempo que intentan alterar lo menos posible. Esto no es tan simple como eliminar la variable sensible, ya que otros atributos pueden correlacionarse con la variable protegida.
Una forma de lograrlo es mapear cada individuo del conjunto de datos inicial a una representación intermedia en la que sea imposible identificar si pertenece a un grupo protegido en particular, manteniendo al mismo tiempo la mayor cantidad de información posible. Luego, la nueva representación de los datos se ajusta para obtener la máxima precisión en el algoritmo.
De esta manera, los individuos se asignan a una nueva representación multivariable donde la probabilidad de que cualquier miembro de un grupo protegido se asigne a un valor determinado en la nueva representación es la misma que la probabilidad de que un individuo no pertenezca al grupo protegido. Luego, esta representación se utiliza para obtener la predicción para el individuo, en lugar de los datos iniciales. Como la representación intermedia se construye dando la misma probabilidad a los individuos dentro o fuera del grupo protegido, este atributo se oculta al clasificador.
En Zemel et al. [48] se explica un ejemplo en el que se utiliza una variable aleatoria multinomial como representación intermedia. En el proceso, se estimula al sistema a conservar toda la información excepto aquella que pueda llevar a decisiones sesgadas y a obtener una predicción lo más precisa posible.
Por un lado, este procedimiento tiene la ventaja de que los datos preprocesados se pueden utilizar para cualquier tarea de aprendizaje automático. Además, no es necesario modificar el clasificador, ya que la corrección se aplica al conjunto de datos antes del procesamiento. Por otro lado, los otros métodos obtienen mejores resultados en cuanto a precisión y equidad. [ cita requerida ]
La reponderación es un ejemplo de un algoritmo de preprocesamiento. La idea es asignar un peso a cada punto del conjunto de datos de modo que la discriminación ponderada sea 0 con respecto al grupo designado. [49]
Si el conjunto de datos fuera imparcial, la variable sensible y la variable objetivo serían estadísticamente independientes y la probabilidad de la distribución conjunta sería el producto de las probabilidades de la siguiente manera:
En realidad, sin embargo, el conjunto de datos no es imparcial y las variables no son estadísticamente independientes , por lo que la probabilidad observada es:
Para compensar el sesgo, el software añade un peso , más bajo para los objetos favorecidos y más alto para los objetos desfavorecidos. Para cada uno de ellos obtenemos:
Cuando tenemos para cada uno un peso asociado calculamos la discriminación ponderada con respecto al grupo de la siguiente manera:
Se puede demostrar que después de volver a ponderar, esta discriminación ponderada es 0.
Otro enfoque es corregir el sesgo en el momento del entrenamiento. Esto se puede hacer añadiendo restricciones al objetivo de optimización del algoritmo. [50] Estas restricciones obligan al algoritmo a mejorar la equidad, manteniendo las mismas tasas de ciertas medidas para el grupo protegido y el resto de individuos. Por ejemplo, podemos añadir al objetivo del algoritmo la condición de que la tasa de falsos positivos sea la misma para los individuos del grupo protegido y los que están fuera del grupo protegido.
Las principales medidas utilizadas en este enfoque son la tasa de falsos positivos, la tasa de falsos negativos y la tasa general de errores de clasificación. Es posible añadir solo una o varias de estas restricciones al objetivo del algoritmo. Tenga en cuenta que la igualdad de las tasas de falsos negativos implica la igualdad de las tasas de verdaderos positivos, por lo que esto implica la igualdad de oportunidades. Después de añadir las restricciones al problema, este puede volverse intratable, por lo que puede ser necesario relajarlas.
Entrenamos dos clasificadores al mismo tiempo a través de algún método basado en gradientes (pe: descenso de gradiente ). El primero, el predictor intenta realizar la tarea de predecir , la variable objetivo, dada , la entrada, modificando sus pesos para minimizar alguna función de pérdida . El segundo, el adversario intenta realizar la tarea de predecir , la variable sensible, dada modificando sus pesos para minimizar alguna función de pérdida . [51] Un punto importante aquí es que, para propagarse correctamente, lo anterior debe referirse a la salida bruta del clasificador, no a la predicción discreta; por ejemplo, con una red neuronal artificial y un problema de clasificación, podría referirse a la salida de la capa softmax .
Luego actualizamos para minimizar en cada paso de entrenamiento según el gradiente y modificamos según la expresión: donde es un hiperparámetro ajustable que puede variar en cada paso de tiempo.
La idea intuitiva es que queremos que el predictor intente minimizar (por lo tanto, el término ) mientras que, al mismo tiempo, maximice (por lo tanto, el término ), de modo que el adversario falle en predecir la variable sensible de .
El término impide que el predictor se mueva en una dirección que ayude al adversario a disminuir su función de pérdida.
Se puede demostrar que entrenar un modelo de clasificación de predictores con este algoritmo mejora la paridad demográfica con respecto al entrenamiento sin el adversario .
El método final intenta corregir los resultados de un clasificador para lograr la imparcialidad. En este método, tenemos un clasificador que devuelve una puntuación para cada individuo y necesitamos hacer una predicción binaria para ellos. Las puntuaciones altas probablemente generen un resultado positivo, mientras que las puntuaciones bajas probablemente generen un resultado negativo, pero podemos ajustar el umbral para determinar cuándo responder sí según lo deseemos. Tenga en cuenta que las variaciones en el valor del umbral afectan la compensación entre las tasas de verdaderos positivos y verdaderos negativos.
Si la función de puntuación es justa en el sentido de que es independiente del atributo protegido, entonces cualquier elección del umbral también será justa, pero los clasificadores de este tipo tienden a ser sesgados, por lo que puede requerirse un umbral diferente para cada grupo protegido para lograr la imparcialidad. [52] Una forma de hacer esto es trazar la tasa de verdaderos positivos contra la tasa de falsos negativos en varios ajustes de umbral (esto se llama curva ROC ) y encontrar un umbral donde las tasas para el grupo protegido y otros individuos sean iguales. [52]
Dado un clasificador, sea la probabilidad calculada por los clasificadores como la probabilidad de que la instancia pertenezca a la clase positiva +. Cuando es cercano a 1 o a 0, se especifica que la instancia pertenece a la clase + o – respectivamente con un alto grado de certeza. Sin embargo, cuando es cercano a 0,5, la clasificación es más confusa. [53]
Decimos que es una "instancia rechazada" si con un cierto tal que .
El algoritmo "ROC" consiste en clasificar las instancias no rechazadas siguiendo la regla anterior y las instancias rechazadas de la siguiente manera: si la instancia es un ejemplo de un grupo privado ( ) entonces etiquételo como positivo, de lo contrario, etiquételo como negativo.
Podemos optimizar diferentes medidas de discriminación (enlace) en funciones de para encontrar la óptima para cada problema y evitar volvernos discriminatorios contra el grupo privilegiado. [53]
{{cite web}}
: CS1 maint: multiple names: authors list (link){{cite web}}
: CS1 maint: multiple names: authors list (link)En otras palabras, si tienes una función de bienestar social en la que lo que te preocupa es el daño, y te preocupa el daño a los afroamericanos, ahí lo tienes: 12 por ciento menos de afroamericanos en la cárcel de la noche a la mañana... Antes de entrar en las minucias del daño relativo, la función de bienestar se define en daño absoluto, por lo que en realidad deberíamos calcular primero el daño absoluto.
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )