stringtranslate.com

Equidad (aprendizaje automático)

La equidad en el aprendizaje automático (ML) se refiere a los diversos intentos de corregir el sesgo algorítmico en los procesos de toma de decisiones automatizados basados ​​en modelos de ML. Las decisiones tomadas por dichos modelos después de un proceso de aprendizaje pueden considerarse injustas si se basaron en variables consideradas sensibles (por ejemplo, género, etnia, orientación sexual o discapacidad).

Como sucede con muchos conceptos éticos , las definiciones de imparcialidad y sesgo pueden ser controvertidas. En general, la imparcialidad y el sesgo se consideran relevantes cuando el proceso de decisión afecta la vida de las personas.

Dado que las decisiones tomadas por máquinas pueden verse sesgadas por una variedad de factores, podrían considerarse injustas con respecto a ciertos grupos o individuos. Un ejemplo podría ser la forma en que los sitios de redes sociales ofrecen noticias personalizadas a los consumidores.

Contexto

El debate sobre la imparcialidad en el aprendizaje automático es un tema relativamente reciente. Desde 2016 ha habido un marcado aumento de la investigación sobre el tema. [1] Este aumento podría atribuirse en parte a un influyente informe de ProPublica que afirmaba que el software COMPAS , ampliamente utilizado en los tribunales estadounidenses para predecir la reincidencia , tenía sesgo racial. [2] Un tema de investigación y debate es la definición de imparcialidad, ya que no existe una definición universal y las diferentes definiciones pueden estar en contradicción entre sí, lo que dificulta juzgar los modelos de aprendizaje automático. [3] Otros temas de investigación incluyen los orígenes del sesgo, los tipos de sesgo y los métodos para reducirlo. [4]

En los últimos años, las empresas tecnológicas han elaborado herramientas y manuales sobre cómo detectar y reducir el sesgo en el aprendizaje automático. IBM tiene herramientas para Python y R con varios algoritmos para reducir el sesgo del software y aumentar su imparcialidad. [5] [6] Google ha publicado directrices y herramientas para estudiar y combatir el sesgo en el aprendizaje automático. [7] [8] Facebook ha informado sobre el uso de una herramienta, Fairness Flow, para detectar sesgos en su IA . [9] Sin embargo, los críticos han argumentado que los esfuerzos de la empresa son insuficientes, informando de un escaso uso de la herramienta por parte de los empleados, ya que no se puede utilizar para todos sus programas e incluso cuando se puede, el uso de la herramienta es opcional. [10]

Es importante señalar que el debate sobre las formas cuantitativas de probar la imparcialidad y la discriminación injusta en la toma de decisiones es anterior en varias décadas al debate bastante reciente sobre la imparcialidad en el aprendizaje automático. [11] De hecho, un intenso debate sobre este tema por parte de la comunidad científica floreció a mediados de los años 1960 y 1970, principalmente como resultado del movimiento de derechos civiles estadounidense y, en particular, de la aprobación de la Ley de Derechos Civiles de Estados Unidos de 1964. Sin embargo, a fines de la década de 1970, el debate desapareció en gran medida, ya que las diferentes y a veces competitivas nociones de equidad dejaban poco espacio para la claridad sobre cuándo una noción de equidad puede ser preferible a otra.

Sesgo lingüístico

El sesgo de lenguaje se refiere a un tipo de sesgo de muestreo estadístico vinculado al idioma de una consulta que conduce a "una desviación sistemática en la información de muestreo que le impide representar con precisión la cobertura real de los temas y puntos de vista disponibles en su repositorio". [ se necesita una mejor fuente ] [12] Luo et al. [12] muestran que los grandes modelos de lenguaje actuales, ya que están entrenados predominantemente con datos en idioma inglés, a menudo presentan los puntos de vista angloamericanos como verdad, mientras que sistemáticamente minimizan las perspectivas no inglesas como irrelevantes, erróneas o ruido. Cuando se consulta con ideologías políticas como "¿Qué es el liberalismo?", ChatGPT, ya que fue entrenado con datos centrados en el inglés, describe el liberalismo desde la perspectiva angloamericana, enfatizando aspectos de los derechos humanos y la igualdad, mientras que aspectos igualmente válidos como "se opone a la intervención estatal en la vida personal y económica" desde la perspectiva vietnamita dominante y "limitación del poder del gobierno" desde la perspectiva china predominante están ausentes. De manera similar, otras perspectivas políticas integradas en corpus japoneses, coreanos, franceses y alemanes están ausentes en las respuestas de ChatGPT. ChatGPT, que se presenta como un chatbot multilingüe, en realidad es mayoritariamente "ciego" a las perspectivas que no hablan inglés. [12]

Sesgo de género

El sesgo de género se refiere a la tendencia de estos modelos a producir resultados que están injustamente prejuiciados hacia un género en detrimento de otro. Este sesgo surge típicamente de los datos con los que se entrenan estos modelos. Por ejemplo, los modelos de lenguaje grandes a menudo asignan roles y características basados ​​en normas de género tradicionales; pueden asociar a enfermeras o secretarias predominantemente con mujeres e ingenieros o directores ejecutivos con hombres. [13]

Sesgo político

El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de entrenamiento incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. [14]

Controversias

El uso de la toma de decisiones algorítmica en el sistema legal ha sido un área notable de uso bajo escrutinio. En 2014, el entonces Fiscal General de los Estados Unidos Eric Holder expresó su preocupación por la posibilidad de que los métodos de "evaluación de riesgos" estuvieran poniendo un enfoque indebido en factores que no están bajo el control del acusado, como su nivel de educación o su entorno socioeconómico. [15] El informe de 2016 de ProPublica sobre COMPAS afirmó que los acusados ​​negros tenían casi el doble de probabilidades de ser etiquetados incorrectamente como de mayor riesgo que los acusados ​​blancos, mientras que cometían el error opuesto con los acusados ​​blancos. [2] El creador de COMPAS , Northepointe Inc., cuestionó el informe, alegando que su herramienta es justa y que ProPublica cometió errores estadísticos, [16] lo que posteriormente fue refutado nuevamente por ProPublica. [17]

También se ha observado sesgo racial y de género en los algoritmos de reconocimiento de imágenes. Se ha descubierto que la detección facial y de movimiento en las cámaras ignora o etiqueta incorrectamente las expresiones faciales de sujetos que no son blancos. [18] En 2015, se descubrió que la función de etiquetado automático tanto en Flickr como en Google Photos etiquetaba a las personas negras con etiquetas como "animal" y "gorila". [19] Se descubrió que un concurso de belleza internacional de 2016 juzgado por un algoritmo de IA estaba sesgado hacia las personas de piel más clara, probablemente debido al sesgo en los datos de entrenamiento. [20] Un estudio de tres algoritmos comerciales de clasificación de género en 2018 descubrió que los tres algoritmos eran generalmente más precisos al clasificar a los hombres de piel clara y peores al clasificar a las mujeres de piel oscura. [21] En 2020, se demostró que una herramienta de recorte de imágenes de Twitter prefería los rostros de piel más clara. [22] En 2022, los creadores del modelo de texto a imagen DALL-E 2 explicaron que las imágenes generadas estaban significativamente estereotipadas, en función de rasgos como el género o la raza. [23] [24]

Otras áreas en las que se utilizan algoritmos de aprendizaje automático que han demostrado ser sesgados incluyen las solicitudes de empleo y préstamos. Amazon ha utilizado software para revisar solicitudes de empleo que eran sexistas, por ejemplo, penalizando los currículos que incluían la palabra "mujeres". [25] En 2019, el algoritmo de Apple para determinar los límites de la tarjeta de crédito para su nueva Apple Card otorgó límites significativamente más altos a los hombres que a las mujeres, incluso para las parejas que compartían sus finanzas. [26] Un informe de The Markup en 2021 demostró que los algoritmos de aprobación de hipotecas que se utilizan en los EE. UU. tienen más probabilidades de rechazar a los solicitantes no blancos. [27]

Limitaciones

Trabajos recientes subrayan la presencia de varias limitaciones en el panorama actual de la equidad en el aprendizaje automático, en particular cuando se trata de lo que es realista lograr a este respecto en las cada vez mayores aplicaciones del mundo real de la IA. [28] [29] [30] Por ejemplo, el enfoque matemático y cuantitativo para formalizar la equidad, y los enfoques relacionados de "desestabilización", pueden basarse en supuestos demasiado simplistas y fáciles de pasar por alto, como la categorización de individuos en grupos sociales predefinidos. Otros aspectos delicados son, por ejemplo, la interacción entre varias características sensibles, [21] y la falta de una noción filosófica y/o legal clara y compartida de no discriminación.

Criterios de equidad de grupo

En problemas de clasificación , un algoritmo aprende una función para predecir una característica discreta , la variable objetivo, a partir de características conocidas . Modelamos como una variable aleatoria discreta que codifica algunas características contenidas o implícitamente codificadas en que consideramos como características sensibles (género, etnia, orientación sexual, etc.). Finalmente denotamos por la predicción del clasificador . Ahora definamos tres criterios principales para evaluar si un clasificador dado es justo, es decir, si sus predicciones no están influenciadas por algunas de estas variables sensibles. [31]

Independencia

Decimos que las variables aleatorias satisfacen la independencia si las características sensibles son estadísticamente independientes de la predicción , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que la tasa de clasificación para cada clase objetivo es igual para las personas que pertenecen a diferentes grupos con respecto a las características sensibles .

Otra expresión equivalente para la independencia se puede dar usando el concepto de información mutua entre variables aleatorias , definida como En esta fórmula, es la entropía de la variable aleatoria . Entonces satisface la independencia si .

Una posible relajación de la definición de independencia incluye la introducción de una holgura positiva y se da mediante la fórmula:

Finalmente, otra posible relajación es exigir .

Separación

Decimos que las variables aleatorias satisfacen la separación si las características sensibles son estadísticamente independientes de la predicción dado el valor objetivo , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que toda la dependencia de la decisión sobre el atributo sensible debe estar justificada por la dependencia real de la verdadera variable objetivo .

Otra expresión equivalente, en el caso de una tasa objetivo binaria, es que la tasa de positivos verdaderos y la tasa de positivos falsos son iguales (y, por lo tanto, la tasa de negativos falsos y la tasa de negativos verdaderos son iguales) para cada valor de las características sensibles:

Una posible relajación de las definiciones dadas es permitir que el valor de la diferencia entre tasas sea un número positivo menor que una holgura dada , en lugar de igual a cero.

En algunos campos, la separación (coeficiente de separación) en una matriz de confusión es una medida de la distancia (en un nivel dado de la puntuación de probabilidad) entre el porcentaje negativo acumulado previsto y el porcentaje positivo acumulado previsto .

Cuanto mayor sea este coeficiente de separación en un valor de puntuación dado, más eficaz será el modelo para diferenciar entre el conjunto de positivos y negativos en un límite de probabilidad particular. Según Mayes: [32] "En la industria crediticia se observa a menudo que la selección de medidas de validación depende del enfoque de modelado. Por ejemplo, si el procedimiento de modelado es paramétrico o semiparamétrico, se suele utilizar la prueba KS de dos muestras . Si el modelo se deriva mediante métodos de búsqueda heurísticos o iterativos, la medida del rendimiento del modelo suele ser la divergencia . Una tercera opción es el coeficiente de separación... El coeficiente de separación, en comparación con los otros dos métodos, parece ser el más razonable como medida del rendimiento del modelo porque refleja el patrón de separación de un modelo".

Suficiencia

Decimos que las variables aleatorias satisfacen la suficiencia si las características sensibles son estadísticamente independientes del valor objetivo dada la predicción , y escribimos También podemos expresar esta noción con la siguiente fórmula: Esto significa que la probabilidad de estar realmente en cada uno de los grupos es igual para dos individuos con diferentes características sensibles dado que se predijo que pertenecerían al mismo grupo.

Relaciones entre definiciones

Finalmente, resumimos algunos de los principales resultados que relacionan las tres definiciones dadas anteriormente:

Se habla de equidad total cuando se satisfacen simultáneamente la independencia, la separación y la suficiencia. [33] Sin embargo, la equidad total no es posible de lograr excepto en casos retóricos específicos. [34]

Formulación matemática de las definiciones de equidad de grupo

Definiciones preliminares

La mayoría de las medidas estadísticas de imparcialidad se basan en diferentes métricas, por lo que comenzaremos por definirlas. Cuando se trabaja con un clasificador binario , tanto las clases predichas como las reales pueden tomar dos valores: positivo y negativo. Ahora comencemos a explicar las diferentes relaciones posibles entre el resultado predicho y el real: [35]

Matriz de confusión

Estas relaciones se pueden representar fácilmente con una matriz de confusión , una tabla que describe la precisión de un modelo de clasificación. En esta matriz, las columnas y las filas representan instancias de los casos previstos y reales, respectivamente.

Al utilizar estas relaciones, podemos definir múltiples métricas que luego pueden usarse para medir la imparcialidad de un algoritmo:

Relación entre los criterios de equidad como se muestra en Barocas et al. [31]

Los siguientes criterios pueden entenderse como medidas de las tres definiciones generales dadas al principio de esta sección, a saber, Independencia , Separación y Suficiencia . En la tabla [31] a la derecha, podemos ver las relaciones entre ellas.

Para definir estas medidas específicamente, las dividiremos en tres grandes grupos como lo hicieron Verma et al.: [35] definiciones basadas en un resultado previsto, en resultados previstos y reales, y definiciones basadas en probabilidades previstas y el resultado real.

Trabajaremos con un clasificador binario y la siguiente notación: se refiere a la puntuación dada por el clasificador, que es la probabilidad de que un determinado sujeto esté en la clase positiva o negativa. representa la clasificación final predicha por el algoritmo, y su valor suele derivarse de , por ejemplo será positivo cuando esté por encima de un cierto umbral. representa el resultado real, es decir, la clasificación real del individuo y, finalmente, denota los atributos sensibles de los sujetos.

Definiciones basadas en resultados previstos

Las definiciones de esta sección se centran en un resultado previsto para diversas distribuciones de sujetos. Son las nociones más simples e intuitivas de equidad.

Definiciones basadas en resultados previstos y reales

Estas definiciones no sólo consideran el resultado previsto sino que también lo comparan con el resultado real .

Matemáticamente, si un clasificador tiene PPV igual para ambos grupos, también tendrá FDR igual, satisfaciendo la fórmula:
Matemáticamente, si un clasificador tiene FPR igual para ambos grupos, también tendrá TNR igual, satisfaciendo la fórmula:
Matemáticamente, si un clasificador tiene FNR igual para ambos grupos, también tendrá TPR igual, satisfaciendo la fórmula:

Definiciones basadas en probabilidades previstas y resultados reales

Estas definiciones se basan en el resultado real y la puntuación de probabilidad prevista .

Igualdad, confusión y equidad

Con respecto a las matrices de confusión , la independencia, la separación y la suficiencia requieren que las cantidades respectivas enumeradas a continuación no tengan diferencias estadísticamente significativas entre las características sensibles. [34]

La noción de equidad de confusión igual [36] requiere que la matriz de confusión de un sistema de decisión dado tenga la misma distribución cuando se calcula estratificada sobre todas las características sensibles.

Función de bienestar social

Algunos académicos han propuesto definir la justicia algorítmica en términos de una función de bienestar social . Sostienen que el uso de una función de bienestar social permite al diseñador de un algoritmo considerar la justicia y la precisión predictiva en términos de sus beneficios para las personas afectadas por el algoritmo. También permite al diseñador equilibrar la eficiencia y la equidad de una manera basada en principios. [37] Sendhil Mullainathan ha afirmado que los diseñadores de algoritmos deberían utilizar funciones de bienestar social para reconocer ganancias absolutas para los grupos desfavorecidos. Por ejemplo, un estudio encontró que el uso de un algoritmo de toma de decisiones en prisión preventiva en lugar del puro juicio humano redujo las tasas de detención de negros, hispanos y minorías raciales en general, incluso manteniendo constante la tasa de criminalidad. [38]

Criterios de equidad individual

Una distinción importante entre las definiciones de equidad es la que existe entre las nociones de grupo e individuo. [39] [40] [35] [41] En términos generales, mientras que los criterios de equidad de grupo comparan cantidades a nivel de grupo, típicamente identificadas por atributos sensibles (por ejemplo, género, etnia, edad, etc.), los criterios individuales comparan individuos. En palabras, la equidad individual sigue el principio de que "los individuos similares deben recibir tratamientos similares".

Existe un enfoque muy intuitivo de la equidad, que suele conocerse bajo el nombre de equidad por desconocimiento ( FTU , por sus siglas en inglés) o ceguera , que prescribe no emplear explícitamente características sensibles al tomar decisiones (automatizadas). Se trata, en efecto, de una noción de equidad individual, ya que dos individuos que difieren solo en el valor de sus atributos sensibles recibirían el mismo resultado.

Sin embargo, en general, el modelo FTU presenta varios inconvenientes, el principal de los cuales es que no tiene en cuenta las posibles correlaciones entre los atributos sensibles y no sensibles empleados en el proceso de toma de decisiones. Por ejemplo, un agente con la intención (maliciosa) de discriminar en función del género podría introducir en el modelo una variable proxy para el género (es decir, una variable altamente correlacionada con el género) y utilizar eficazmente la información de género al mismo tiempo que cumple con la prescripción del modelo FTU.

El problema de qué variables correlacionadas con las sensibles son razonablemente utilizables por un modelo en el proceso de toma de decisiones es crucial y también es relevante para los conceptos de grupo: las métricas de independencia requieren una eliminación completa de la información sensible, mientras que las métricas basadas en la separación permiten la correlación, pero solo en la medida en que la variable objetivo etiquetada las "justifique".

El concepto más general de equidad individual fue introducido en el trabajo pionero de Cynthia Dwork y colaboradores en 2012 [42] y puede considerarse como una traducción matemática del principio de que el mapa de decisiones que toma características como entrada debe construirse de tal manera que sea capaz de "mapear individuos similares de manera similar", que se expresa como una condición de Lipschitz en el mapa del modelo. Llaman a este enfoque equidad a través de la conciencia ( FTA ), precisamente como contrapunto a FTU, ya que subrayan la importancia de elegir la métrica de distancia relacionada con el objetivo adecuada para evaluar qué individuos son similares en situaciones específicas. Nuevamente, este problema está muy relacionado con el punto planteado anteriormente sobre qué variables pueden considerarse "legítimas" en contextos particulares.

Métricas basadas en causalidad

La equidad causal mide la frecuencia con la que dos usuarios o aplicaciones casi idénticos que difieren sólo en un conjunto de características con respecto a las cuales la asignación de recursos debe ser justa reciben un trato idéntico. [43] [ dudosodiscutir ]

Una rama completa de la investigación académica sobre métricas de imparcialidad se dedica a aprovechar los modelos causales para evaluar el sesgo en los modelos de aprendizaje automático . Este enfoque suele justificarse por el hecho de que la misma distribución observacional de datos puede ocultar diferentes relaciones causales entre las variables en juego, posiblemente con diferentes interpretaciones de si el resultado se ve afectado por alguna forma de sesgo o no. [31]

Kusner et al. [44] proponen emplear contrafácticos y definir un proceso de toma de decisiones contrafáctico justo si, para cualquier individuo, el resultado no cambia en el escenario contrafáctico donde se modifican los atributos sensibles. La formulación matemática dice:

es decir: se toma un individuo aleatorio con un atributo sensible y otras características y el mismo individuo si tuviera , deberían tener la misma probabilidad de ser aceptados. El símbolo representa la variable aleatoria contrafactual en el escenario donde el atributo sensible se fija en . El condicionamiento significa que este requisito es a nivel individual, en el sentido de que estamos condicionando todas las variables que identifican una sola observación.

Los modelos de aprendizaje automático suelen entrenarse con datos cuyo resultado depende de la decisión tomada en ese momento. [45] Por ejemplo, si un modelo de aprendizaje automático tiene que determinar si un recluso reincidirá y determinará si el recluso debe ser liberado antes de tiempo, el resultado podría depender de si el recluso fue liberado antes de tiempo o no. Mishler et al. [46] proponen una fórmula para probabilidades igualadas contrafácticas:

donde es una variable aleatoria, denota el resultado dado que se tomó la decisión y es una característica sensible.

Plecko y Bareinboim [47] proponen un marco unificado para abordar el análisis causal de la equidad. Sugieren el uso de un modelo de equidad estándar , que consiste en un gráfico causal con cuatro tipos de variables:

En este marco, Plecko y Bareinboim [47] pueden clasificar los posibles efectos que los atributos sensibles pueden tener sobre el resultado. Además, la granularidad con la que se miden estos efectos (es decir, las variables condicionantes utilizadas para promediar el efecto) está directamente relacionada con el aspecto "individual vs. grupal" de la evaluación de la imparcialidad.

Estrategias de mitigación de sesgos

La equidad se puede aplicar a los algoritmos de aprendizaje automático de tres maneras diferentes: preprocesamiento de datos , optimización durante el entrenamiento del software o posprocesamiento de los resultados del algoritmo.

Preprocesamiento

Generalmente, el clasificador no es el único problema; el conjunto de datos también está sesgado. La discriminación de un conjunto de datos con respecto al grupo se puede definir de la siguiente manera:

Es decir, una aproximación a la diferencia entre las probabilidades de pertenecer a la clase positiva dado que el sujeto tiene una característica protegida distinta de e igual a .

Los algoritmos que corrigen el sesgo durante el preprocesamiento eliminan información sobre las variables del conjunto de datos que podrían dar lugar a decisiones injustas, al tiempo que intentan alterar lo menos posible. Esto no es tan simple como eliminar la variable sensible, ya que otros atributos pueden correlacionarse con la variable protegida.

Una forma de lograrlo es mapear cada individuo del conjunto de datos inicial a una representación intermedia en la que sea imposible identificar si pertenece a un grupo protegido en particular, manteniendo al mismo tiempo la mayor cantidad de información posible. Luego, la nueva representación de los datos se ajusta para obtener la máxima precisión en el algoritmo.

De esta manera, los individuos se asignan a una nueva representación multivariable donde la probabilidad de que cualquier miembro de un grupo protegido se asigne a un valor determinado en la nueva representación es la misma que la probabilidad de que un individuo no pertenezca al grupo protegido. Luego, esta representación se utiliza para obtener la predicción para el individuo, en lugar de los datos iniciales. Como la representación intermedia se construye dando la misma probabilidad a los individuos dentro o fuera del grupo protegido, este atributo se oculta al clasificador.

En Zemel et al. [48] se explica un ejemplo en el que se utiliza una variable aleatoria multinomial como representación intermedia. En el proceso, se estimula al sistema a conservar toda la información excepto aquella que pueda llevar a decisiones sesgadas y a obtener una predicción lo más precisa posible.

Por un lado, este procedimiento tiene la ventaja de que los datos preprocesados ​​se pueden utilizar para cualquier tarea de aprendizaje automático. Además, no es necesario modificar el clasificador, ya que la corrección se aplica al conjunto de datos antes del procesamiento. Por otro lado, los otros métodos obtienen mejores resultados en cuanto a precisión y equidad. [ cita requerida ]

Pesaje repetido

La reponderación es un ejemplo de un algoritmo de preprocesamiento. La idea es asignar un peso a cada punto del conjunto de datos de modo que la discriminación ponderada sea 0 con respecto al grupo designado. [49]

Si el conjunto de datos fuera imparcial, la variable sensible y la variable objetivo serían estadísticamente independientes y la probabilidad de la distribución conjunta sería el producto de las probabilidades de la siguiente manera:

En realidad, sin embargo, el conjunto de datos no es imparcial y las variables no son estadísticamente independientes , por lo que la probabilidad observada es:

Para compensar el sesgo, el software añade un peso , más bajo para los objetos favorecidos y más alto para los objetos desfavorecidos. Para cada uno de ellos obtenemos:

Cuando tenemos para cada uno un peso asociado calculamos la discriminación ponderada con respecto al grupo de la siguiente manera:

Se puede demostrar que después de volver a ponderar, esta discriminación ponderada es 0.

En proceso

Otro enfoque es corregir el sesgo en el momento del entrenamiento. Esto se puede hacer añadiendo restricciones al objetivo de optimización del algoritmo. [50] Estas restricciones obligan al algoritmo a mejorar la equidad, manteniendo las mismas tasas de ciertas medidas para el grupo protegido y el resto de individuos. Por ejemplo, podemos añadir al objetivo del algoritmo la condición de que la tasa de falsos positivos sea la misma para los individuos del grupo protegido y los que están fuera del grupo protegido.

Las principales medidas utilizadas en este enfoque son la tasa de falsos positivos, la tasa de falsos negativos y la tasa general de errores de clasificación. Es posible añadir solo una o varias de estas restricciones al objetivo del algoritmo. Tenga en cuenta que la igualdad de las tasas de falsos negativos implica la igualdad de las tasas de verdaderos positivos, por lo que esto implica la igualdad de oportunidades. Después de añadir las restricciones al problema, este puede volverse intratable, por lo que puede ser necesario relajarlas.

Eliminación de sesgos adversariales

Entrenamos dos clasificadores al mismo tiempo a través de algún método basado en gradientes (pe: descenso de gradiente ). El primero, el predictor intenta realizar la tarea de predecir , la variable objetivo, dada , la entrada, modificando sus pesos para minimizar alguna función de pérdida . El segundo, el adversario intenta realizar la tarea de predecir , la variable sensible, dada modificando sus pesos para minimizar alguna función de pérdida . [51] Un punto importante aquí es que, para propagarse correctamente, lo anterior debe referirse a la salida bruta del clasificador, no a la predicción discreta; por ejemplo, con una red neuronal artificial y un problema de clasificación, podría referirse a la salida de la capa softmax .

Luego actualizamos para minimizar en cada paso de entrenamiento según el gradiente y modificamos según la expresión: donde es un hiperparámetro ajustable que puede variar en cada paso de tiempo.

Representación gráfica de los vectores utilizados en la eliminación de sesgos adversariales como se muestra en Zhang et al. [51]

La idea intuitiva es que queremos que el predictor intente minimizar (por lo tanto, el término ) mientras que, al mismo tiempo, maximice (por lo tanto, el término ), de modo que el adversario falle en predecir la variable sensible de .

El término impide que el predictor se mueva en una dirección que ayude al adversario a disminuir su función de pérdida.

Se puede demostrar que entrenar un modelo de clasificación de predictores con este algoritmo mejora la paridad demográfica con respecto al entrenamiento sin el adversario .

Posprocesamiento

El método final intenta corregir los resultados de un clasificador para lograr la imparcialidad. En este método, tenemos un clasificador que devuelve una puntuación para cada individuo y necesitamos hacer una predicción binaria para ellos. Las puntuaciones altas probablemente generen un resultado positivo, mientras que las puntuaciones bajas probablemente generen un resultado negativo, pero podemos ajustar el umbral para determinar cuándo responder sí según lo deseemos. Tenga en cuenta que las variaciones en el valor del umbral afectan la compensación entre las tasas de verdaderos positivos y verdaderos negativos.

Si la función de puntuación es justa en el sentido de que es independiente del atributo protegido, entonces cualquier elección del umbral también será justa, pero los clasificadores de este tipo tienden a ser sesgados, por lo que puede requerirse un umbral diferente para cada grupo protegido para lograr la imparcialidad. [52] Una forma de hacer esto es trazar la tasa de verdaderos positivos contra la tasa de falsos negativos en varios ajustes de umbral (esto se llama curva ROC ) y encontrar un umbral donde las tasas para el grupo protegido y otros individuos sean iguales. [52]

Clasificación basada en opciones de rechazo

Dado un clasificador, sea la probabilidad calculada por los clasificadores como la probabilidad de que la instancia pertenezca a la clase positiva +. Cuando es cercano a 1 o a 0, se especifica que la instancia pertenece a la clase + o – respectivamente con un alto grado de certeza. Sin embargo, cuando es cercano a 0,5, la clasificación es más confusa. [53]

Decimos que es una "instancia rechazada" si con un cierto tal que .

El algoritmo "ROC" consiste en clasificar las instancias no rechazadas siguiendo la regla anterior y las instancias rechazadas de la siguiente manera: si la instancia es un ejemplo de un grupo privado ( ) entonces etiquételo como positivo, de lo contrario, etiquételo como negativo.

Podemos optimizar diferentes medidas de discriminación (enlace) en funciones de para encontrar la óptima para cada problema y evitar volvernos discriminatorios contra el grupo privilegiado. [53]

Véase también

Referencias

  1. ^ Caton, Simon; Haas, Christian (4 de octubre de 2020). "Equidad en el aprendizaje automático: una encuesta". arXiv : 2010.04053 [cs.LG].
  2. ^ ab Mattu, Julia Angwin, Jeff Larson, Lauren Kirchner, Surya. "Machine Bias". ProPublica . Consultado el 16 de abril de 2022 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  3. ^ Friedler, Sorelle A.; Scheidegger, Carlos; Venkatasubramanian, Suresh (abril de 2021). "La (im)posibilidad de la justicia: diferentes sistemas de valores requieren diferentes mecanismos para una toma de decisiones justa". Comunicaciones de la ACM . 64 (4): 136–143. doi :10.1145/3433949. ISSN  0001-0782. S2CID  1769114.
  4. ^ Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram (13 de julio de 2021). "Una encuesta sobre sesgo y equidad en el aprendizaje automático". Encuestas de computación de ACM . 54 (6): 115:1–115:35. arXiv : 1908.09635 . doi :10.1145/3457607. ISSN  0360-0300. S2CID  201666566.
  5. ^ "AI Fairness 360". aif360.mybluemix.net . Archivado desde el original el 29 de junio de 2022 . Consultado el 18 de noviembre de 2022 .
  6. ^ "El kit de herramientas de código abierto IBM AI Fairness 360 agrega nuevas funcionalidades". Tech Republic. 4 de junio de 2020.
  7. ^ "Prácticas de inteligencia artificial responsables". Google AI . Consultado el 18 de noviembre de 2022 .
  8. ^ Indicadores de equidad, tensorflow, 10 de noviembre de 2022 , consultado el 18 de noviembre de 2022
  9. ^ "Cómo usamos Fairness Flow para ayudar a crear una IA que funcione mejor para todos". ai.facebook.com . Consultado el 18 de noviembre de 2022 .
  10. ^ "Los expertos en inteligencia artificial advierten que la herramienta antisesgos de Facebook es 'completamente insuficiente'". VentureBeat . 31 de marzo de 2021 . Consultado el 18 de noviembre de 2022 .
  11. ^ Hutchinson, Ben; Mitchell, Margaret (29 de enero de 2019). "50 años de (in)justicia en los exámenes". Actas de la Conferencia sobre equidad, rendición de cuentas y transparencia . Nueva York, NY, EE. UU.: ACM FAT*'19. págs. 49–58. arXiv : 1811.10104 . doi :10.1145/3287560.3287600. ISBN 9781450361255.
  12. ^ abc Luo, Queenie; Puett, Michael J.; Smith, Michael D. (23 de mayo de 2023), Un espejo de perspectiva del elefante: investigación del sesgo lingüístico en Google, ChatGPT, Wikipedia y YouTube , arXiv : 2303.16281
  13. ^ Kotek, Hadas; Dockum, Rikker; Sun, David (5 de noviembre de 2023). "Sesgo de género y estereotipos en modelos de lenguaje de gran tamaño". Actas de la Conferencia de Inteligencia Colectiva de la ACM . CI '23. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 12–24. doi :10.1145/3582269.3615599. ISBN 979-8-4007-0113-9.
  14. ^ Zhou, Karen; Tan, Chenhao (diciembre de 2023). Bouamor, Houda; Pino, Juan; Bali, Kalika (eds.). "Evaluación basada en entidades del sesgo político en el resumen automático". Hallazgos de la Asociación de Lingüística Computacional: EMNLP 2023 . Singapur: Asociación de Lingüística Computacional: 10374–10386. arXiv : 2305.02321 . doi : 10.18653/v1/2023.findings-emnlp.696 .
  15. ^ "El Procurador General Eric Holder habla en la 57.ª Reunión Anual de la Asociación Nacional de Abogados de Defensa Penal y la 13.ª Conferencia de la Red Estatal de Justicia Penal". www.justice.gov . 1 de agosto de 2014 . Consultado el 16 de abril de 2022 .
  16. ^ Dieterich, William; Mendoza, Christina; Brennan, Tim (2016). "Escalas de riesgo COMPAS: demostración de precisión, equidad y paridad predictiva" (PDF) . Northpointe Inc .
  17. ^ Angwin, Jeff Larson, Julia (29 de julio de 2016). "Respuesta técnica a Northpointe". ProPublica . Consultado el 18 de noviembre de 2022 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  18. ^ Rose, Adam (22 de enero de 2010). «¿Son racistas las cámaras de detección de rostros?». Time . ISSN  0040-781X . Consultado el 18 de noviembre de 2022 .
  19. ^ "Google pide disculpas por el etiquetado automático racista en la aplicación de fotos". The Guardian . 1 de julio de 2015 . Consultado el 16 de abril de 2022 .
  20. ^ "Un concurso de belleza fue juzgado por una IA y a los robots no les gustó la piel oscura". The Guardian . 8 de septiembre de 2016 . Consultado el 16 de abril de 2022 .
  21. ^ ab Buolamwini, Joy ; Gebru, Timnit (febrero de 2018). Tonos de género: disparidades de precisión interseccional en la clasificación comercial por género (PDF) . Conferencia sobre equidad, rendición de cuentas y transparencia. Nueva York, NY, EE. UU., págs. 77–91.
  22. ^ "Estudiante demuestra que el algoritmo de Twitter tiene un 'sesgo' hacia los rostros más claros, delgados y jóvenes". The Guardian . 10 de agosto de 2021 . Consultado el 18 de noviembre de 2022 .
  23. ^ openai/dalle-2-preview, OpenAI, 17 de noviembre de 2022 , consultado el 18 de noviembre de 2022
  24. ^ "No hay una solución rápida: cómo DALL·E 2 de OpenAI ilustró los desafíos del sesgo en la IA". NBC News . 27 de julio de 2022 . Consultado el 23 de julio de 2024 .
  25. ^ "Amazon elimina una herramienta secreta de reclutamiento basada en inteligencia artificial que mostraba prejuicios contra las mujeres". Reuters . 10 de octubre de 2018 . Consultado el 18 de noviembre de 2022 .
  26. ^ "El algoritmo de Apple Card genera acusaciones de discriminación de género contra Goldman Sachs". Washington Post . ISSN  0190-8286 . Consultado el 18 de noviembre de 2022 .
  27. ^ Martinez, Emmanuel; Kirchner, Lauren (25 de agosto de 2021). "El sesgo secreto oculto en los algoritmos de aprobación de hipotecas: el margen de beneficio". themarkup.org . Consultado el 18 de noviembre de 2022 .
  28. ^ Ruggieri, Salvatore; Alvarez, Jose M.; Pugnana, Andrea; State, Laura; Turini, Franco (26 de junio de 2023). "¿Podemos confiar en Fair-AI?". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 37 (13). Asociación para el Avance de la Inteligencia Artificial (AAAI): 15421–15430. doi : 10.1609/aaai.v37i13.26798 . hdl : 11384/136444 . ISSN  2374-3468. S2CID  259678387.
  29. ^ Buyl, Martín; De Bie, Tijl (2022). "Limitaciones inherentes a la equidad de la IA". Comunicaciones de la ACM . 67 (2): 48–55. arXiv : 2212.06495 . doi :10.1145/3624700. hdl :1854/LU-01GMNH04RGNVWJ730BJJXGCY99.
  30. ^ Castelnovo, Alessandro; Inverardi, Nicole; Nanino, Gabriele; Penco, Ilaria Giuseppina; Regoli, Daniele (2023). "¿Es justo? Un mapa de las limitaciones actuales de los requisitos para tener algoritmos "justos"". arXiv : 2311.12435 [cs.AI].
  31. ^ abcd Solon Barocas; Moritz Hardt; Arvind Narayanan, Equidad y aprendizaje automático. Consultado el 15 de diciembre de 2019.
  32. ^ Mayes, Elizabeth (2001). Manual de calificación crediticia . Nueva York, NY, EE. UU.: Glenlake Publishing. pág. 282. ISBN 0-8144-0619-X.
  33. ^ Berk, Richard; Heidari, Hoda; Jabbari, Shahin; Kearns, Michael; Roth, Aaron (febrero de 2021). "Equidad en las evaluaciones de riesgos de la justicia penal: el estado del arte". Métodos sociológicos e investigación . 50 (1): 3–44. arXiv : 1703.09207 . doi :10.1177/0049124118782533. ISSN  0049-1241. S2CID  12924416.
  34. ^ ab Räz, Tim (3 de marzo de 2021). "Group Fairness: Independence Revisited". Actas de la Conferencia ACM de 2021 sobre equidad, rendición de cuentas y transparencia . ACM. págs. 129–137. arXiv : 2101.02968 . doi :10.1145/3442188.3445876. ISBN 978-1-4503-8309-7. Número de identificación del sujeto  231667399.
  35. ^ abc Verma, Sahil; Rubin, Julia (2018). "Explicación de las definiciones de equidad". Actas del Taller Internacional sobre Equidad del Software . págs. 1–7. doi :10.1145/3194770.3194776. ISBN 9781450357463.S2CID 49561627  .
  36. ^ Gursoy, Furkan; Kakadiaris, Ioannis A. (noviembre de 2022). "Igualdad en la confusión: medición de disparidades basadas en grupos en sistemas de decisión automatizados". Talleres de la Conferencia Internacional sobre Minería de Datos (ICDMW) del IEEE de 2022. IEEE. págs. 137–146. arXiv : 2307.00472 . doi :10.1109/ICDMW58026.2022.00027. ISBN . 979-8-3503-4609-1.S2CID256669476  .​
  37. ^ Chen, Violet (Xinying); Hooker, JN (2021). "Equidad basada en el bienestar a través de la optimización". arXiv : 2102.00311 [cs.AI].
  38. ^ Mullainathan, Sendhil (19 de junio de 2018). Equidad algorítmica y la función de bienestar social. Discurso inaugural en la 19.ª Conferencia de la ACM sobre economía y computación (EC'18) . YouTube. 48 minutos. En otras palabras, si tienes una función de bienestar social en la que lo que te preocupa es el daño, y te preocupa el daño a los afroamericanos, ahí lo tienes: 12 por ciento menos de afroamericanos en la cárcel de la noche a la mañana... Antes de entrar en las minucias del daño relativo, la función de bienestar se define en daño absoluto, por lo que en realidad deberíamos calcular primero el daño absoluto.
  39. ^ Mitchell, Shira; Potash, Eric; Barocas, Solon; d'Amour, Alexander; Lum, Kristian (2021). "Justicia algorítmica: opciones, suposiciones y definiciones". Revisión anual de estadística y su aplicación . 8 (1): 141–163. arXiv : 1811.07867 . Código Bibliográfico :2021AnRSA...8..141M. doi : 10.1146/annurev-statistics-042720-125902 . S2CID  228893833.
  40. ^ Castelnovo, Alejandro; Crupi, Ricardo; Greco, Greta; Regoli, Daniele; Penco, Ilaria Giuseppina; Cosentini, Andrea Claudio (2022). "Una aclaración de los matices en el panorama de las métricas de equidad". Informes científicos . 12 (1): 4209. arXiv : 2106.00467 . Código Bib : 2022NatSR..12.4209C. doi :10.1038/s41598-022-07939-1. PMC 8913820 . PMID  35273279. 
  41. ^ Mehrabi, Ninareh, Fred Morstatter, Nripsuta Saxena, Kristina Lerman y Aram Galstyan. "Una encuesta sobre sesgo y equidad en el aprendizaje automático". ACM Computing Surveys (CSUR) 54, n.º 6 (2021): 1–35.
  42. ^ Dwork, Cynthia; Hardt, Moritz; Pitassi, Toniann; Reingold, Omer; Zemel, Richard (2012). "Equidad a través de la conciencia". Actas de la 3.ª Conferencia sobre innovaciones en informática teórica sobre ITCS '12 . págs. 214–226. doi :10.1145/2090236.2090255. ISBN 9781450311151.S2CID13496699  .​
  43. ^ Galhotra, Sainyam; Brun, Yuriy; Meliou, Alexandra (2017). "Pruebas de imparcialidad: pruebas de software para discriminación". Actas de la 11.ª Reunión conjunta sobre fundamentos de la ingeniería de software de 2017. págs. 498–510. arXiv : 1709.03221 . doi :10.1145/3106237.3106277. ISBN 9781450351058.S2CID6324652  .​
  44. ^ Kusner, MJ, Loftus, J., Russell, C., y Silva, R. (2017). Equidad contrafactual. Avances en sistemas de procesamiento de información neuronal, 30.
  45. ^ Coston, Amanda; Mishler, Alan; Kennedy, Edward H.; Chouldechova, Alexandra (27 de enero de 2020). "Evaluaciones de riesgo contrafactual, evaluación y equidad". Actas de la Conferencia de 2020 sobre equidad, rendición de cuentas y transparencia . FAT* '20. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 582–593. doi : 10.1145/3351095.3372851 . ISBN . 978-1-4503-6936-7.S2CID202539649  .​
  46. ^ Mishler, Alan; Kennedy, Edward H.; Chouldechova, Alexandra (1 de marzo de 2021). "Fairness in Risk Assessment Instruments". Actas de la Conferencia ACM de 2021 sobre equidad, rendición de cuentas y transparencia . FAccT '21. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 386–400. doi : 10.1145/3442188.3445902 . ISBN . 978-1-4503-8309-7. Número de identificación del sujeto  221516412.
  47. ^ ab Plecko, Drago; Bareinboim, Elias (2022). "Análisis de equidad causal". arXiv : 2207.11385 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  48. ^ Richard Zemel; Yu (Ledell) Wu; Kevin Swersky; Toniann Pitassi; Cyntia Dwork, Representaciones de ferias de aprendizaje. Recuperado el 1 de diciembre de 2019
  49. ^ Faisal Kamiran; Toon Calders, Técnicas de preprocesamiento de datos para clasificación sin discriminación. Recuperado el 17 de diciembre de 2019
  50. ^ Muhammad Bilal Zafar; Isabel Valera; Manuel Gómez Rodríguez; Krishna P. Gummadi, Equidad más allá del trato desigual y el impacto desigual: aprender a clasificar sin maltrato desigual. Recuperado el 1 de diciembre de 2019
  51. ^ de Brian Hu Zhang; Blake Lemoine; Margaret Mitchell, Mitigación de sesgos no deseados con aprendizaje adversarial. Recuperado el 17 de diciembre de 2019
  52. ^ de Moritz Hardt; Eric Price; Nathan Srebro, Igualdad de oportunidades en el aprendizaje supervisado. Consultado el 1 de diciembre de 2019
  53. ^ ab Faisal Kamiran; Asim Karim; Xiangliang Zhang, Teoría de la decisión para la clasificación que tiene en cuenta la discriminación. Recuperado el 17 de diciembre de 2019