El sesgo algorítmico describe errores sistemáticos y repetibles en un sistema informático que crean resultados "injustos", como "privilegiar" una categoría sobre otra de manera diferente a la función prevista del algoritmo.
El sesgo puede surgir de muchos factores, incluidos, entre otros, el diseño del algoritmo o el uso o decisiones no intencionados o no anticipados relacionados con la forma en que se codifican, recopilan, seleccionan o utilizan los datos para entrenar el algoritmo. Por ejemplo, se ha observado un sesgo algorítmico en los resultados de los motores de búsqueda y en las plataformas de redes sociales . Este sesgo puede tener impactos que van desde violaciones involuntarias de la privacidad hasta el refuerzo de prejuicios sociales de raza, género, sexualidad y etnia. El estudio del sesgo algorítmico se ocupa principalmente de los algoritmos que reflejan una discriminación "sistemática e injusta". [2] Este sesgo se ha abordado recientemente en marcos legales, como el Reglamento General de Protección de Datos de la Unión Europea (propuesto en 2018) y la Ley de Inteligencia Artificial (propuesta en 2021, aprobada en 2024).
A medida que los algoritmos amplían su capacidad para organizar la sociedad, la política, las instituciones y el comportamiento, los sociólogos se han preocupado por las formas en que la producción y manipulación imprevistas de datos pueden afectar al mundo físico. Debido a que los algoritmos a menudo se consideran neutrales e imparciales, pueden proyectar de manera inexacta mayor autoridad que la experiencia humana (en parte debido al fenómeno psicológico del sesgo de automatización ) y, en algunos casos, la dependencia de los algoritmos puede desplazar la responsabilidad humana por sus resultados. El sesgo puede entrar en los sistemas algorítmicos como resultado de expectativas culturales, sociales o institucionales preexistentes; por cómo se eligen las características y etiquetas; por limitaciones técnicas de su diseño; o por ser utilizado en contextos imprevistos o por audiencias que no están consideradas en el diseño inicial del software. [3]
Se ha citado el sesgo algorítmico en casos que van desde resultados electorales hasta la difusión de discursos de odio en línea . También ha surgido en la justicia penal, la atención sanitaria y la contratación, agravando los prejuicios raciales, socioeconómicos y de género existentes. La relativa incapacidad de la tecnología de reconocimiento facial para identificar con precisión rostros de piel más oscura se ha relacionado con múltiples arrestos injustos de hombres negros, un problema derivado de conjuntos de datos desequilibrados. Persisten los problemas para comprender, investigar y descubrir sesgos algorítmicos debido a la naturaleza patentada de los algoritmos, que generalmente se tratan como secretos comerciales. Incluso cuando se proporciona total transparencia, la complejidad de ciertos algoritmos plantea una barrera para comprender su funcionamiento. Además, los algoritmos pueden cambiar o responder a entradas o salidas de maneras que no pueden anticiparse o reproducirse fácilmente para su análisis. En muchos casos, incluso dentro de un único sitio web o aplicación, no existe un único "algoritmo" que examinar, sino una red de muchos programas e entradas de datos interrelacionados, incluso entre usuarios del mismo servicio.
Los algoritmos son difíciles de definir , [4] pero generalmente pueden entenderse como listas de instrucciones que determinan cómo los programas leen, recopilan, procesan y analizan datos para generar resultados. [5] : 13 Para una introducción técnica rigurosa, consulte Algoritmos . Los avances en el hardware informático han llevado a una mayor capacidad para procesar, almacenar y transmitir datos. Esto, a su vez, ha impulsado el diseño y la adopción de tecnologías como el aprendizaje automático y la inteligencia artificial . [6] : 14–15 Al analizar y procesar datos, los algoritmos son la columna vertebral de los motores de búsqueda, [7] sitios web de redes sociales, [8] motores de recomendación, [9] venta minorista en línea, [10] publicidad en línea, [11] y más. [12]
Los científicos sociales contemporáneos se preocupan por los procesos algorítmicos integrados en aplicaciones de hardware y software debido a su impacto político y social, y cuestionan los supuestos subyacentes de la neutralidad de un algoritmo. [13] : 2 [14] : 563 [15] : 294 [16] El término sesgo algorítmico describe errores sistemáticos y repetibles que crean resultados injustos, como privilegiar a un grupo arbitrario de usuarios sobre otros. Por ejemplo, un algoritmo de calificación crediticia puede denegar un préstamo sin ser injusto, si sopesa sistemáticamente criterios financieros relevantes. Si el algoritmo recomienda préstamos a un grupo de usuarios, pero niega préstamos a otro conjunto de usuarios casi idénticos basándose en criterios no relacionados, y si este comportamiento puede repetirse en múltiples ocasiones, un algoritmo puede describirse como sesgado . [17] : 332 Este sesgo puede ser intencional o no (por ejemplo, puede provenir de datos sesgados obtenidos de un trabajador que anteriormente hizo el trabajo que el algoritmo va a hacer a partir de ahora).
El sesgo se puede introducir en un algoritmo de varias maneras. Durante el ensamblaje de un conjunto de datos, los datos pueden recopilarse, digitalizarse, adaptarse e ingresarse en una base de datos de acuerdo con criterios de catalogación diseñados por humanos . [18] : 3 A continuación, los programadores asignan prioridades o jerarquías sobre cómo un programa evalúa y clasifica esos datos. Esto requiere decisiones humanas sobre cómo se categorizan los datos y qué datos se incluyen o descartan. [18] : 4 Algunos algoritmos recopilan sus propios datos basándose en criterios seleccionados por humanos, que también pueden reflejar el sesgo de los diseñadores humanos. [18] : 8 Otros algoritmos pueden reforzar estereotipos y preferencias a medida que procesan y muestran datos "relevantes" para usuarios humanos, por ejemplo, seleccionando información basada en elecciones previas de un usuario o grupo de usuarios similar. [18] : 6
Más allá de recopilar y procesar datos, pueden surgir sesgos como resultado del diseño. [19] Por ejemplo, los algoritmos que determinan la asignación de recursos o el escrutinio (como determinar las ubicaciones escolares) pueden discriminar inadvertidamente una categoría al determinar el riesgo en función de usuarios similares (como en las puntuaciones de crédito). [20] : 36 Mientras tanto, los motores de recomendación que funcionan asociando usuarios con usuarios similares, o que hacen uso de rasgos de marketing inferidos, pueden depender de asociaciones inexactas que reflejan amplios estereotipos étnicos, de género, socioeconómicos o raciales. Otro ejemplo proviene de la determinación de criterios sobre lo que se incluye y se excluye de los resultados. Estos criterios podrían presentar resultados imprevistos en los resultados de búsqueda, como ocurre con el software de recomendación de vuelos que omite vuelos que no siguen las rutas de vuelo de la aerolínea patrocinadora. [19] Los algoritmos también pueden mostrar un sesgo de incertidumbre , ofreciendo evaluaciones más confiables cuando se encuentran disponibles conjuntos de datos más grandes . Esto puede sesgar los procesos algorítmicos hacia resultados que se correspondan más estrechamente con muestras más grandes, lo que puede ignorar los datos de poblaciones subrepresentadas. [21] : 4
Los primeros programas de computadora fueron diseñados para imitar el razonamiento y las deducciones humanas, y se consideraba que funcionaban cuando reproducían exitosa y consistentemente esa lógica humana. En su libro de 1976 Computer Power and Human Reason , el pionero de la inteligencia artificial Joseph Weizenbaum sugirió que el sesgo podría surgir tanto de los datos utilizados en un programa como de la forma en que se codifica un programa. [22] : 149
Weizenbaum escribió que los programas son una secuencia de reglas creadas por humanos para que las siga una computadora. Al seguir esas reglas consistentemente, tales programas "encarnan la ley", [22] : 40 es decir, imponen una forma específica de resolver problemas. Las reglas que sigue una computadora se basan en las suposiciones de un programador sobre cómo se podrían resolver estos problemas. Eso significa que el código podría incorporar la imaginación del programador sobre cómo funciona el mundo, incluidos sus prejuicios y expectativas. [22] : 109 Si bien un programa de computadora puede incorporar sesgos de esta manera, Weizenbaum también señaló que cualquier dato ingresado a una máquina refleja además "procesos humanos de toma de decisiones" a medida que se seleccionan los datos. [22] : 70, 105
Finalmente, señaló que las máquinas también podrían transferir buena información con consecuencias no deseadas si los usuarios no tienen claro cómo interpretar los resultados. [22] : 65 Weizenbaum advirtió contra la confianza en decisiones tomadas por programas informáticos que un usuario no comprende, comparando esa fe con la de un turista que puede encontrar el camino a una habitación de hotel exclusivamente girando a la izquierda o a la derecha al lanzar una moneda. Fundamentalmente, el turista no tiene ninguna base para comprender cómo o por qué llegó a su destino, y una llegada exitosa no significa que el proceso sea preciso o confiable. [22] : 226
Un ejemplo temprano de sesgo algorítmico resultó en que a 60 mujeres y minorías étnicas se les negara la entrada a la Facultad de Medicina del Hospital St. George por año entre 1982 y 1986, debido a la implementación de un nuevo sistema de evaluación guiado por computadora que negaba la entrada a mujeres y hombres. con "nombres que suenan extranjeros" basados en tendencias históricas en las admisiones. [24] Si bien muchas escuelas en ese momento empleaban sesgos similares en su proceso de selección, St. George se destacó por automatizar dicho sesgo mediante el uso de un algoritmo, ganando así la atención de las personas en una escala mucho más amplia.
En los últimos años, cuando más algoritmos comenzaron a utilizar métodos de aprendizaje automático en datos del mundo real, se puede encontrar con mayor frecuencia un sesgo algorítmico debido al sesgo existente en los datos.
Aunque los algoritmos bien diseñados frecuentemente determinan resultados que son igual (o más) equitativos que las decisiones de los seres humanos, todavía ocurren casos de sesgo y son difíciles de predecir y analizar. [25] La complejidad de analizar el sesgo algorítmico ha crecido junto con la complejidad de los programas y su diseño. Las decisiones tomadas por un diseñador, o por un equipo de diseñadores, pueden quedar ocultas entre los muchos fragmentos de código creados para un único programa; con el tiempo estas decisiones y su impacto colectivo en los resultados del programa pueden olvidarse. [26] : 115 En teoría, estos sesgos pueden crear nuevos patrones de comportamiento, o "guiones", en relación con tecnologías específicas a medida que el código interactúa con otros elementos de la sociedad. [27] Los sesgos también pueden afectar la forma en que la sociedad se configura en torno a los puntos de datos que requieren los algoritmos. Por ejemplo, si los datos muestran una gran cantidad de arrestos en un área particular, un algoritmo puede asignar más patrullas policiales a esa área, lo que podría generar más arrestos. [28] : 180
Las decisiones de los programas algorítmicos pueden verse como más autoritarias que las decisiones de los seres humanos a los que deben ayudar, [29] : 15 un proceso descrito por el autor Clay Shirky como "autoridad algorítmica". [30] Shirky utiliza el término para describir "la decisión de considerar autorizado un proceso no gestionado de extracción de valor de fuentes diversas y no confiables", como los resultados de búsqueda. [30] Esta neutralidad también puede verse tergiversada por el lenguaje utilizado por los expertos y los medios de comunicación cuando los resultados se presentan al público. Por ejemplo, se puede crear una lista de noticias seleccionadas y presentadas como "de tendencia" o "populares" basándose en criterios significativamente más amplios que solo su popularidad. [18] : 14
Debido a su conveniencia y autoridad, los algoritmos se teorizan como un medio para delegar responsabilidades fuera de los humanos. [29] : 16 [31] : 6 Esto puede tener el efecto de reducir opciones alternativas, compromisos o flexibilidad. [29] : 16 El sociólogo Scott Lash ha criticado los algoritmos como una nueva forma de "poder generativo", en el sentido de que son un medio virtual para generar fines reales. Mientras que anteriormente el comportamiento humano generaba datos para ser recopilados y estudiados, potentes algoritmos podían cada vez más dar forma y definir los comportamientos humanos. [32] : 71
Las preocupaciones sobre el impacto de los algoritmos en la sociedad han llevado a la creación de grupos de trabajo en organizaciones como Google y Microsoft , que han co-creado un grupo de trabajo llamado Equidad, Responsabilidad y Transparencia en el Aprendizaje Automático. [33] : 115 Ideas de Google han incluido grupos comunitarios que patrullan los resultados de los algoritmos y votan para controlar o restringir los resultados que consideran que tienen consecuencias negativas. [33] : 117 En los últimos años, el estudio de la equidad, la responsabilidad y la transparencia (FAT) de los algoritmos ha surgido como su propia área de investigación interdisciplinaria con una conferencia anual llamada FAccT. [34] Los críticos han sugerido que las iniciativas FAT no pueden servir eficazmente como organismos de control independientes cuando muchas de ellas están financiadas por corporaciones que construyen los sistemas que se están estudiando. [35]
El sesgo preexistente en un algoritmo es consecuencia de ideologías sociales e institucionales subyacentes . Estas ideas pueden influir o crear prejuicios personales dentro de diseñadores o programadores individuales. Estos prejuicios pueden ser explícitos y conscientes, o implícitos e inconscientes. [17] : 334 [15] : 294 Los datos de entrada mal seleccionados, o simplemente datos de una fuente sesgada, influirán en los resultados creados por las máquinas. [23] : 17 Codificar el sesgo preexistente en el software puede preservar el sesgo social e institucional y, sin corrección, podría replicarse en todos los usos futuros de ese algoritmo. [26] : 116 [31] : 8
Un ejemplo de esta forma de sesgo es el Programa de la Ley de Nacionalidad Británica, diseñado para automatizar la evaluación de nuevos ciudadanos británicos después de la Ley de Nacionalidad Británica de 1981 . [17] : 341 El programa reflejaba fielmente los principios de la ley, que establecía que "un hombre es padre sólo de sus hijos legítimos, mientras que una mujer es madre de todos sus hijos, legítimos o no". [17] : 341 [36] : 375 En su intento de transferir una lógica particular a un proceso algorítmico, el BNAP inscribió la lógica de la Ley de Nacionalidad Británica en su algoritmo, lo que la perpetuaría incluso si la ley fuera finalmente derogada. [17] : 342
Otra fuente de sesgo, que se ha denominado "sesgo de elección de etiquetas", [37] surge cuando se utilizan medidas indirectas para entrenar algoritmos, que generan sesgos contra ciertos grupos. Por ejemplo, un algoritmo ampliamente utilizado predijo los costos de la atención médica como indicador de las necesidades de atención médica y utilizó predicciones para asignar recursos para ayudar a los pacientes con necesidades de salud complejas. Esto introdujo un sesgo porque los pacientes negros tienen costos más bajos, incluso cuando son tan poco saludables como los pacientes blancos [38]. Las soluciones al "sesgo de elección de etiquetas" tienen como objetivo hacer coincidir más el objetivo real (lo que predice el algoritmo) con el objetivo ideal. (lo que los investigadores quieren que prediga el algoritmo), por lo que, en el ejemplo anterior, en lugar de predecir el costo, los investigadores se centrarían en la variable de las necesidades de atención médica, que es bastante más significativa. El ajuste del objetivo llevó a que casi se duplicara el número de pacientes negros seleccionados para el programa. [37]
El sesgo del aprendizaje automático se refiere a disparidades sistemáticas e injustas en el resultado de los algoritmos de aprendizaje automático. Estos sesgos pueden manifestarse de varias maneras y, a menudo, son un reflejo de los datos utilizados para entrenar estos algoritmos. A continuación se detallan algunos aspectos clave:
El sesgo de idioma se refiere a un tipo de sesgo de muestreo estadístico vinculado al idioma de una consulta que conduce a "una desviación sistemática en la información de muestreo que impide que represente con precisión la verdadera cobertura de los temas y vistas disponibles en su repositorio". [39] El trabajo de Luo et al. [39] muestra que los grandes modelos lingüísticos actuales, al estar formados predominantemente con datos en inglés, a menudo presentan las opiniones angloamericanas como verdad, mientras sistemáticamente minimizan las perspectivas no inglesas como irrelevantes. , mal o ruido. Cuando se le pregunta sobre ideologías políticas como "¿Qué es el liberalismo?", ChatGPT, tal como se entrenó con datos centrados en inglés, describe el liberalismo desde la perspectiva angloamericana, enfatizando aspectos de los derechos humanos y la igualdad, mientras que aspectos igualmente válidos como "se opone al estado" "intervención en la vida personal y económica" desde la perspectiva vietnamita dominante y "limitación del poder del gobierno" desde la perspectiva china predominante están ausentes. [39]
El sesgo de género se refiere a la tendencia de estos modelos a producir productos que tienen prejuicios injustos hacia un género sobre otro. Este sesgo suele surgir de los datos con los que se entrenan estos modelos. Por ejemplo, los grandes modelos lingüísticos suelen asignar roles y características basándose en normas tradicionales de género; podría asociar a enfermeras o secretarias predominantemente con mujeres y a ingenieros o directores ejecutivos con hombres. [40] [41]
Más allá del género y la raza, estos modelos pueden reforzar una amplia gama de estereotipos, incluidos los basados en la edad, la nacionalidad, la religión o la ocupación. Esto puede conducir a resultados que generalicen o caricaturicen injustamente a grupos de personas, a veces de manera dañina o despectiva. [42]
Recientemente, la investigación se ha centrado en la compleja interacción entre las propiedades gramaticales de un idioma y los prejuicios del mundo real que pueden arraigarse en los sistemas de IA, perpetuando potencialmente estereotipos y suposiciones perjudiciales. El estudio sobre el sesgo de género en modelos lingüísticos entrenados en islandés, un idioma con un alto contenido gramatical de género, reveló que los modelos exhibían una predisposición significativa hacia el género gramatical masculino cuando se referían a términos ocupacionales, incluso en profesiones dominadas por mujeres. [43] Esto sugiere que los modelos amplificaron los sesgos sociales de género presentes en los datos de capacitación.
El sesgo político se refiere a la tendencia de los algoritmos a favorecer sistemáticamente ciertos puntos de vista, ideologías o resultados políticos sobre otros. Los modelos lingüísticos también pueden presentar sesgos políticos. Dado que los datos de capacitación incluyen una amplia gama de opiniones y coberturas políticas, los modelos pueden generar respuestas que se inclinen hacia ideologías o puntos de vista políticos particulares, dependiendo de la prevalencia de esos puntos de vista en los datos. [44]
El sesgo técnico surge a través de las limitaciones de un programa, la potencia computacional, su diseño u otra restricción del sistema. [17] : 332 Este sesgo también puede ser una restricción de diseño; por ejemplo, se puede entender que un motor de búsqueda que muestra tres resultados por pantalla privilegia los tres primeros resultados ligeramente más que los tres siguientes, como en el caso de una visualización de precios de aerolíneas. [17] : 336 Otro caso es el software que se basa en la aleatoriedad para realizar distribuciones justas de resultados. Si el mecanismo de generación de números aleatorios no es verdaderamente aleatorio, puede introducir sesgos, por ejemplo, al sesgar las selecciones hacia elementos al final o al principio de una lista. [17] : 332
Un algoritmo descontextualizado utiliza información no relacionada para ordenar los resultados; por ejemplo, un algoritmo de fijación de precios de vuelos que ordena los resultados por orden alfabético estaría sesgado a favor de American Airlines sobre United Airlines. [17] : 332 También puede aplicarse lo contrario, en el que los resultados se evalúan en contextos diferentes a los que se recogen. Los datos pueden recopilarse sin un contexto externo crucial: por ejemplo, cuando las cámaras de vigilancia utilizan software de reconocimiento facial , pero lo evalúa personal remoto en otro país o región, o lo evalúan algoritmos no humanos sin conocimiento de lo que sucede más allá del alcance de la cámara. campo visual . Esto podría crear una comprensión incompleta de la escena del crimen, lo que podría, por ejemplo, confundir a los transeúntes con quienes cometen el crimen. [14] : 574
Por último, se puede crear un sesgo técnico al intentar formalizar las decisiones en pasos concretos bajo el supuesto de que el comportamiento humano funciona de la misma manera. Por ejemplo, el software sopesa los puntos de datos para determinar si un acusado debe aceptar un acuerdo de culpabilidad, ignorando el impacto de las emociones en el jurado. [17] : 332 Otro resultado no deseado de esta forma de sesgo se encontró en el software de detección de plagio Turnitin , que compara textos escritos por estudiantes con información encontrada en línea y devuelve una puntuación de probabilidad de que el trabajo del estudiante sea copiado. Debido a que el software compara largas cadenas de texto, es más probable que identifique hablantes no nativos de inglés que hablantes nativos, ya que este último grupo podría ser más capaz de cambiar palabras individuales, dividir cadenas de texto plagiado u oscurecer pasajes copiados. sinónimos. Debido a que es más fácil para los hablantes nativos evadir la detección como resultado de las limitaciones técnicas del software, esto crea un escenario en el que Turnitin identifica a los hablantes extranjeros de inglés por plagio y al mismo tiempo permite que más hablantes nativos evadan la detección. [29] : 21-22
El sesgo emergente es el resultado del uso y la dependencia de algoritmos en contextos nuevos o imprevistos. [17] : 334 Es posible que los algoritmos no se hayan ajustado para considerar nuevas formas de conocimiento, como nuevos medicamentos o avances médicos, nuevas leyes, modelos comerciales o normas culturales cambiantes. [17] : 334, 336 Esto puede excluir a grupos a través de la tecnología, sin proporcionar esquemas claros para entender quién es el responsable de su exclusión. [28] : 179 [15] : 294 De manera similar, pueden surgir problemas cuando los datos de entrenamiento (las muestras "alimentadas" a una máquina, mediante las cuales modela ciertas conclusiones) no se alinean con los contextos que un algoritmo encuentra en el mundo real. [45]
En 1990, se identificó un ejemplo de sesgo emergente en el software utilizado para colocar a estudiantes de medicina estadounidenses en residencias, el Programa Nacional de Coincidencia de Residencia (NRMP). [17] : 338 El algoritmo fue diseñado en un momento en el que pocas parejas casadas buscaban residencias juntas. A medida que más mujeres ingresaban a las facultades de medicina, era probable que más estudiantes solicitaran una residencia junto con sus parejas. El proceso requirió que cada solicitante proporcionara una lista de preferencias de ubicación en los EE. UU., que luego se clasificó y asignó cuando un hospital y un solicitante acordaron una coincidencia. En el caso de parejas casadas en las que ambos buscaron residencia, el algoritmo sopesó primero las opciones de ubicación de la pareja mejor calificada. El resultado fue una asignación frecuente de escuelas de alta preferencia al primer socio y de escuelas de menor preferencia al segundo socio, en lugar de buscar compromisos en la preferencia de ubicación. [17] : 338 [46]
Los sesgos emergentes adicionales incluyen:
Pueden surgir correlaciones impredecibles cuando se comparan grandes conjuntos de datos entre sí. Por ejemplo, los datos recopilados sobre patrones de navegación web pueden alinearse con señales que marcan datos confidenciales (como raza u orientación sexual). Al seleccionar según ciertos comportamientos o patrones de navegación, el efecto final sería casi idéntico a la discriminación mediante el uso de datos directos de raza u orientación sexual. [21] : 6 En otros casos, el algoritmo saca conclusiones de las correlaciones, sin poder comprender esas correlaciones. Por ejemplo, un programa de clasificación dio menor prioridad a los asmáticos que tenían neumonía que a los asmáticos que no tenían neumonía. El algoritmo del programa hizo esto porque simplemente comparó las tasas de supervivencia: los asmáticos con neumonía tienen el mayor riesgo. Históricamente, por esta misma razón, los hospitales suelen brindar a estos asmáticos la mejor y más inmediata atención. [47] [ se necesita aclaración ]
Puede producirse un sesgo emergente cuando un algoritmo es utilizado por audiencias imprevistas. Por ejemplo, las máquinas pueden requerir que los usuarios sepan leer, escribir o comprender números, o relacionarse con una interfaz utilizando metáforas que no comprenden. [17] : 334 Estas exclusiones pueden agravarse a medida que la tecnología sesgada o excluyente se integra más profundamente en la sociedad. [28] : 179
Aparte de la exclusión, pueden surgir usos imprevistos si el usuario final confía en el software en lugar de en su propio conocimiento. En un ejemplo, un grupo de usuarios inesperado provocó un sesgo algorítmico en el Reino Unido, cuando científicos informáticos y abogados de inmigración crearon el Programa de Ley Nacional Británica como prueba de concepto para evaluar la idoneidad para la ciudadanía británica . Los diseñadores tenían acceso a conocimientos jurídicos más allá de los usuarios finales de las oficinas de inmigración, cuya comprensión tanto del software como de las leyes de inmigración probablemente no habría sido sofisticada. Los agentes que administraron las preguntas se basaron completamente en el software, que excluía vías alternativas hacia la ciudadanía, y utilizaron el software incluso después de que nuevas jurisprudencias e interpretaciones legales hicieran que el algoritmo quedara obsoleto. Como resultado del diseño de un algoritmo para usuarios que se suponía tenían conocimientos legales sobre las leyes de inmigración, el algoritmo del software generó indirectamente un sesgo a favor de los solicitantes que cumplían con un conjunto muy limitado de criterios legales establecidos por el algoritmo, en lugar de los criterios más amplios. de la ley de inmigración británica. [17] : 342
El sesgo emergente también puede crear un bucle de retroalimentación , o recursividad, si los datos recopilados para un algoritmo dan como resultado respuestas del mundo real que se retroalimentan al algoritmo. [48] [49] Por ejemplo, las simulaciones del software policial predictivo (PredPol), implementado en Oakland, California, sugirieron una mayor presencia policial en los vecindarios negros según los datos sobre delitos informados por el público. [50] La simulación mostró que el público denunciaba delitos basándose en la vista de los coches de policía, independientemente de lo que estuviera haciendo la policía. La simulación interpretó los avistamientos de coches de policía al modelar sus predicciones de criminalidad y, a su vez, asignaría un aumento aún mayor de la presencia policial dentro de esos vecindarios. [48] [51] [52] El Grupo de Análisis de Datos de Derechos Humanos , que llevó a cabo la simulación, advirtió que en lugares donde la discriminación racial es un factor en los arrestos, tales circuitos de retroalimentación podrían reforzar y perpetuar la discriminación racial en la actuación policial. [49] Otro ejemplo bien conocido de un algoritmo que muestra tal comportamiento es COMPAS , un software que determina la probabilidad de que un individuo se convierta en un delincuente. El software a menudo es criticado por etiquetar a los individuos negros como delincuentes con mucha más probabilidad que otros, y luego se retroalimenta con los datos en caso de que los individuos se conviertan en delincuentes registrados, lo que refuerza aún más el sesgo creado por el conjunto de datos sobre el que actúa el algoritmo.
Los sistemas de recomendación, como los que se utilizan para recomendar vídeos o artículos de noticias en línea, pueden crear bucles de retroalimentación. [53] Cuando los usuarios hacen clic en el contenido sugerido por algoritmos, influye en el siguiente conjunto de sugerencias. [54] Con el tiempo, esto puede llevar a que los usuarios entren en una burbuja de filtro y no se den cuenta de contenido importante o útil. [55] [56]
Los algoritmos corporativos podrían estar sesgados para favorecer de forma invisible acuerdos financieros o acuerdos entre empresas, sin el conocimiento de un usuario que pueda confundir el algoritmo como imparcial. Por ejemplo, American Airlines creó un algoritmo de búsqueda de vuelos en la década de 1980. El software presentaba a los clientes una gama de vuelos de varias aerolíneas, pero sopesaba los factores que impulsaban sus propios vuelos, independientemente del precio o la conveniencia. En testimonio ante el Congreso de los Estados Unidos , el presidente de la aerolínea afirmó rotundamente que el sistema fue creado con la intención de obtener una ventaja competitiva a través de un trato preferencial. [57] : 2 [17] : 331
En un artículo de 1998 que describe a Google , los fundadores de la empresa habían adoptado una política de transparencia en los resultados de búsqueda con respecto a la colocación paga, argumentando que "los motores de búsqueda financiados con publicidad estarán inherentemente sesgados hacia los anunciantes y lejos de las necesidades de los consumidores". [58] Este sesgo sería una manipulación "invisible" del usuario. [57] : 3
Una serie de estudios sobre votantes indecisos en Estados Unidos y la India encontraron que los resultados de los motores de búsqueda podían cambiar los resultados de la votación en aproximadamente un 20%. Los investigadores concluyeron que los candidatos "no tienen medios para competir" si un algoritmo, con o sin intención, impulsaba los listados de páginas de un candidato rival. [59] Los usuarios de Facebook que vieron mensajes relacionados con la votación tenían más probabilidades de votar. Una prueba aleatoria de usuarios de Facebook realizada en 2010 mostró un aumento del 20% (340.000 votos) entre los usuarios que vieron mensajes animando a votar, así como imágenes de sus amigos que habían votado. [60] El jurista Jonathan Zittrain ha advertido que esto podría crear un efecto de "gerrymandering digital" en las elecciones, "la presentación selectiva de información por parte de un intermediario para cumplir su agenda, en lugar de servir a sus usuarios", si se manipula intencionalmente. [61] : 335
En 2016, se descubrió que el sitio de redes profesionales LinkedIn recomendaba variaciones masculinas de nombres de mujeres en respuesta a consultas de búsqueda. El sitio no hizo recomendaciones similares en la búsqueda de nombres masculinos. Por ejemplo, "Andrea" mostraría un mensaje preguntando si los usuarios querían encontrar "Andrew", pero las consultas sobre "Andrew" no preguntaban si los usuarios querían encontrar "Andrea". La compañía dijo que esto fue el resultado de un análisis de las interacciones de los usuarios con el sitio. [62]
En 2012, la franquicia de grandes almacenes Target fue citada por recopilar puntos de datos para inferir cuándo las clientas estaban embarazadas, incluso si no lo habían anunciado, y luego compartir esa información con socios de marketing. [63] : 94 [64] Debido a que los datos habían sido predichos, en lugar de observados o informados directamente, la empresa no tenía obligación legal de proteger la privacidad de esos clientes. [63] : 98
Los algoritmos de búsqueda web también han sido acusados de parcialidad. Los resultados de Google pueden priorizar el contenido pornográfico en términos de búsqueda relacionados con la sexualidad, por ejemplo, "lesbiana". Este sesgo se extiende al motor de búsqueda que muestra contenido popular pero sexualizado en búsquedas neutrales. Por ejemplo, los artículos "Las 25 mujeres atletas más sexys" se muestran como resultados de la primera página en las búsquedas de "mujeres atletas". [65] : 31 En 2017, Google ajustó estos resultados junto con otros que revelaron grupos de odio , opiniones racistas, abuso infantil y pornografía, y otro contenido perturbador y ofensivo. [66] Otros ejemplos incluyen la visualización de trabajos mejor remunerados a los solicitantes masculinos en sitios web de búsqueda de empleo. [67] Los investigadores también han identificado que la traducción automática muestra una fuerte tendencia hacia los valores predeterminados masculinos. [68] En particular, esto se observa en campos vinculados a una distribución desequilibrada de género, incluidas las ocupaciones STEM . [69] De hecho, los sistemas de traducción automática actuales no logran reproducir la distribución mundial real de trabajadoras. [70]
En 2015, Amazon.com desactivó un sistema de inteligencia artificial que desarrolló para examinar solicitudes de empleo cuando se dio cuenta de que estaba sesgado contra las mujeres. [71] La herramienta de contratación excluyó a los solicitantes que asistieron a universidades exclusivamente para mujeres y currículums que incluían la palabra "para mujeres". [72] Un problema similar surgió con los servicios de transmisión de música: en 2019, se descubrió que el algoritmo del sistema de recomendación utilizado por Spotify estaba sesgado contra las mujeres artistas. [73] Las recomendaciones de canciones de Spotify sugirieron más artistas masculinos que mujeres.
Los algoritmos han sido criticados como método para ocultar los prejuicios raciales en la toma de decisiones. [74] [75] [76] : 158 Debido a cómo se trataron ciertas razas y grupos étnicos en el pasado, los datos a menudo pueden contener sesgos ocultos. [77] Por ejemplo, es probable que los negros reciban sentencias más largas que los blancos que cometieron el mismo delito. [78] [79] Esto podría significar potencialmente que un sistema amplifica los sesgos originales en los datos.
En 2015, Google se disculpó cuando los usuarios negros se quejaron de que un algoritmo de identificación de imágenes en su aplicación Fotos los identificaba como gorilas . [80] En 2010, las cámaras Nikon fueron criticadas cuando los algoritmos de reconocimiento de imágenes preguntaban constantemente a los usuarios asiáticos si estaban parpadeando. [81] Estos ejemplos son producto del sesgo en los conjuntos de datos biométricos . [80] Los datos biométricos se extraen de aspectos del cuerpo, incluidos rasgos raciales observados o inferidos, que luego pueden transferirse a puntos de datos. [76] : 154 La tecnología de reconocimiento de voz puede tener diferentes precisiones dependiendo del acento del usuario. Esto puede deberse a la falta de datos sobre la formación de los hablantes de ese acento. [82]
Los datos biométricos sobre la raza también pueden inferirse, en lugar de observarse. Por ejemplo, un estudio de 2012 mostró que los nombres comúnmente asociados con personas de raza negra tenían más probabilidades de generar resultados de búsqueda que implicaran registros de arresto, independientemente de si existe algún registro policial del nombre de ese individuo. [83] Un estudio de 2015 también encontró que se supone que las personas negras y asiáticas tienen pulmones con menor funcionamiento debido a que los datos de exposición racial y ocupacional no se incorporan en el modelo de función pulmonar del algoritmo de predicción. [84] [85]
En 2019, un estudio de investigación reveló que un algoritmo de atención médica vendido por Optum favorecía a los pacientes blancos sobre los pacientes negros más enfermos. El algoritmo predice cuánto le costarían los pacientes al sistema sanitario en el futuro. Sin embargo, el costo no es neutral en cuanto a raza, ya que los pacientes negros incurrieron alrededor de $1,800 menos en costos médicos por año que los pacientes blancos con la misma cantidad de enfermedades crónicas, lo que llevó al algoritmo a calificar a los pacientes blancos con el mismo riesgo de sufrir problemas de salud futuros que los negros. pacientes que padecían significativamente más enfermedades. [86]
Un estudio realizado por investigadores de UC Berkeley en noviembre de 2019 reveló que los algoritmos hipotecarios han sido discriminatorios hacia los latinos y afroamericanos, que discriminaban a las minorías en función de la "solvencia crediticia", que se basa en la ley de préstamos justos de EE. UU. que permite a los prestamistas utilizar medidas de identificación. para determinar si un individuo es digno de recibir préstamos. Estos algoritmos particulares estaban presentes en las empresas FinTech y se demostró que discriminaban a las minorías. [87] [ se necesita fuente no primaria ]
Los algoritmos ya tienen numerosas aplicaciones en los sistemas legales. Un ejemplo de esto es COMPAS , un programa comercial ampliamente utilizado por los tribunales estadounidenses para evaluar la probabilidad de que un acusado se convierta en reincidente . ProPublica afirma que el nivel de riesgo de reincidencia promedio asignado por COMPAS a los acusados negros es significativamente mayor que el nivel de riesgo promedio asignado por COMPAS a los acusados blancos, y que a los acusados negros tienen el doble de probabilidades de que se les asigne erróneamente la etiqueta de "alto riesgo" que a los blancos. acusados. [88] [89]
Un ejemplo es el uso de evaluaciones de riesgo en las sentencias penales en los Estados Unidos y en las audiencias de libertad condicional : a los jueces se les presentó una puntuación generada algorítmicamente destinada a reflejar el riesgo de que un preso repita un delito. [90] Durante el período que comenzó en 1920 y finalizó en 1970, la nacionalidad del padre de un criminal fue una consideración en esas puntuaciones de evaluación de riesgos. [91] : 4 Hoy en día, estos puntajes se comparten con jueces en Arizona, Colorado, Delaware, Kentucky, Luisiana, Oklahoma, Virginia, Washington y Wisconsin. Una investigación independiente realizada por ProPublica encontró que las puntuaciones eran inexactas el 80% de las veces y estaban desproporcionadamente sesgadas para sugerir que los negros estaban en riesgo de recaída, un 77% más a menudo que los blancos. [90]
Un estudio que se propuso examinar "Riesgo, raza y reincidencia: sesgo predictivo e impacto dispar" alega una probabilidad adversa doble (45 por ciento frente a 23 por ciento) de que los acusados negros frente a los caucásicos sean clasificados erróneamente como si impusieran un mayor riesgo. a pesar de haber permanecido objetivamente sin ninguna reincidencia documentada durante un período de observación de dos años. [92]
En el contexto de la detención preventiva, un artículo de revisión de leyes sostiene que las evaluaciones de riesgo algorítmicas violan los derechos de Igualdad de Protección de la 14ª Enmienda por motivos de raza, ya que se argumenta que los algoritmos son aparentemente discriminatorios, dan como resultado un trato desigual y no están específicamente diseñados. [93]
En 2017, se descubrió que un algoritmo de Facebook diseñado para eliminar el discurso de odio en línea beneficiaba a los hombres blancos sobre los niños negros al evaluar contenido objetable, según documentos internos de Facebook. [94] El algoritmo, que es una combinación de programas informáticos y revisores de contenido humanos, se creó para proteger categorías amplias en lugar de subconjuntos específicos de categorías. Por ejemplo, se bloquearían las publicaciones que denuncien a los "musulmanes", mientras que se permitirían las publicaciones que denuncien a los "musulmanes radicales". Un resultado inesperado del algoritmo es permitir el discurso de odio contra los niños negros, porque denuncian al subconjunto de negros "niños", en lugar de "todos los negros", mientras que "todos los hombres blancos" desencadenaría un bloqueo, porque los blancos y los hombres no son considerados subconjuntos. [94] También se descubrió que Facebook permitía a los compradores de anuncios dirigirse a los "que odian a los judíos" como una categoría de usuarios, lo que, según la compañía, era un resultado involuntario de los algoritmos utilizados para evaluar y categorizar los datos. El diseño de la empresa también permitió a los compradores de anuncios impedir que los afroamericanos vieran anuncios de viviendas. [95]
Si bien se utilizan algoritmos para rastrear y bloquear el discurso de odio, se descubrió que algunos tenían 1,5 veces más probabilidades de marcar información publicada por usuarios negros y 2,2 veces más probabilidades de marcar información como discurso de odio si estaba escrita en inglés afroamericano . [96] Se señalaron sin contexto los insultos y epítetos, incluso cuando fueron utilizados por comunidades que se han reapropiado de ellos. [97]
El software de las cámaras de vigilancia puede considerarse intrínsecamente político porque requiere algoritmos para distinguir comportamientos normales de anormales y para determinar quién debe estar en determinados lugares en determinados momentos. [14] : 572 Se ha demostrado que la capacidad de dichos algoritmos para reconocer rostros en todo un espectro racial está limitada por la diversidad racial de las imágenes en su base de datos de entrenamiento; Si la mayoría de las fotos pertenecen a una raza o género, el software reconoce mejor a otros miembros de esa raza o género. [98] Sin embargo, incluso las auditorías de estos sistemas de reconocimiento de imágenes son éticamente complicadas, y algunos académicos han sugerido que el contexto de la tecnología siempre tendrá un impacto desproporcionado en las comunidades cuyas acciones están sobrevigiladas. [99] Por ejemplo, un análisis realizado en 2002 del software utilizado para identificar personas en imágenes de CCTV encontró varios ejemplos de sesgo cuando se compararon con bases de datos criminales. Se evaluó que el software identificaba a los hombres con más frecuencia que a las mujeres, a las personas mayores con más frecuencia que a los jóvenes e identificaba a los asiáticos, afroamericanos y otras razas con más frecuencia que a los blancos. [28] : 190 Un estudio de 2018 encontró que el software de reconocimiento facial probablemente identificaba con precisión a los hombres de piel clara (típicamente europeos), con tasas de precisión ligeramente más bajas para las mujeres de piel clara. Los hombres y mujeres de piel oscura tenían significativamente menos probabilidades de ser identificados con precisión mediante el software de reconocimiento facial. Estas disparidades se atribuyen a la subrepresentación de participantes de piel más oscura en los conjuntos de datos utilizados para desarrollar este software. [100] [101]
En 2011, los usuarios de la aplicación de encuentros gay Grindr informaron que el algoritmo de recomendación de la tienda de Android vinculaba Grindr con aplicaciones diseñadas para encontrar delincuentes sexuales, que, según los críticos, relacionaban incorrectamente la homosexualidad con la pedofilia . El escritor Mike Ananny criticó esta asociación en The Atlantic , argumentando que tales asociaciones estigmatizaban aún más a los hombres homosexuales . [102] En 2009, el minorista en línea Amazon eliminó de la lista 57.000 libros después de que un cambio algorítmico amplió su lista negra de "contenido para adultos" para incluir cualquier libro que abordara la sexualidad o temas homosexuales, como la novela aclamada por la crítica Brokeback Mountain . [103] [18] : 5 [104]
En 2019, se descubrió que en Facebook, las búsquedas de "fotos de mis amigas" arrojaban sugerencias como "en bikini" o "en la playa". Por el contrario, las búsquedas de "fotos de mis amigos varones" no arrojaron resultados. [105]
Se ha observado que la tecnología de reconocimiento facial causa problemas a las personas transgénero. En 2018, hubo informes de conductores de Uber que eran transgénero o en transición que experimentaron dificultades con el software de reconocimiento facial que Uber implementa como medida de seguridad incorporada. Como resultado de esto, algunas de las cuentas de conductores trans de Uber fueron suspendidas, lo que les costó tarifas y potencialmente un trabajo, todo debido a que el software de reconocimiento facial experimentó dificultades para reconocer el rostro de un conductor trans que estaba en transición. [106] Aunque la solución a este problema parecería ser incluir personas trans en conjuntos de entrenamiento para modelos de aprendizaje automático, una instancia de videos trans de YouTube que se recopilaron para usarse en datos de entrenamiento no recibió el consentimiento de las personas trans que se incluyeron. en los vídeos, lo que creó un problema de violación de la privacidad. [107]
También hubo un estudio realizado en la Universidad de Stanford en 2017 que probó algoritmos en un sistema de aprendizaje automático que, según se decía, podía detectar la orientación sexual de un individuo en función de sus imágenes faciales. [108] El modelo del estudio predijo una distinción correcta entre hombres homosexuales y heterosexuales el 81% de las veces, y una distinción correcta entre mujeres homosexuales y heterosexuales el 74% de las veces. Este estudio provocó una reacción violenta de la comunidad LGBTQIA, que temía las posibles repercusiones negativas que este sistema de inteligencia artificial podría tener en las personas de la comunidad LGBTQIA al ponerlas en riesgo de ser "expuestas" contra su voluntad. [109]
Si bien las modalidades de equidad algorítmica se han juzgado sobre la base de diferentes aspectos del sesgo (como el género, la raza y el nivel socioeconómico), la discapacidad a menudo queda fuera de la lista. [110] [111] La marginación que enfrentan actualmente las personas con discapacidad en la sociedad se está traduciendo en sistemas y algoritmos de inteligencia artificial, creando aún más exclusión [112] [113]
La naturaleza cambiante de las discapacidades y su caracterización subjetiva hace que sea más difícil abordarlas computacionalmente. La falta de profundidad histórica a la hora de definir las discapacidades, recopilar su incidencia y prevalencia en cuestionarios y establecer su reconocimiento aumenta la controversia y la ambigüedad en su cuantificación y cálculos. La definición de discapacidad ha sido debatida durante mucho tiempo, pasando de un modelo médico a un modelo social de discapacidad más recientemente, que establece que la discapacidad es el resultado de la falta de coincidencia entre las interacciones de las personas y las barreras en su entorno, en lugar de deficiencias y condiciones de salud. Las discapacidades también pueden ser situacionales o temporales, [114] consideradas en un estado de cambio constante. Las discapacidades son increíblemente diversas, [115] caen dentro de un amplio espectro y pueden ser únicas para cada individuo. La identidad de las personas puede variar según los tipos específicos de discapacidad que experimentan, cómo utilizan las tecnologías de asistencia y a quién apoyan. El alto nivel de variabilidad entre las experiencias de las personas personaliza en gran medida cómo se puede manifestar una discapacidad. Las identidades superpuestas y las experiencias interseccionales [116] están excluidas de las estadísticas y conjuntos de datos, [117] por lo que están subrepresentadas y son inexistentes en los datos de capacitación. [118] Por lo tanto, los modelos de aprendizaje automático se entrenan de manera inequitativa y los sistemas de inteligencia artificial perpetúan más sesgos algorítmicos. [119] Por ejemplo, si las personas con discapacidades del habla no están incluidas en el entrenamiento de funciones de control de voz y asistentes inteligentes de IA, no pueden usar la función o las respuestas recibidas de Google Home o Alexa son extremadamente pobres.
Dados los estereotipos y estigmas que todavía existen en torno a las discapacidades, la naturaleza delicada de revelar estas características identificativas también conlleva grandes desafíos en materia de privacidad. Dado que revelar información sobre discapacidad puede ser tabú e impulsar una mayor discriminación contra esta población, faltan datos explícitos sobre discapacidad disponibles con los que puedan interactuar los sistemas algorítmicos. Las personas con discapacidad enfrentan daños y riesgos adicionales con respecto a su apoyo social, el costo del seguro médico, la discriminación en el lugar de trabajo y otras necesidades básicas al revelar su estado de discapacidad. Los algoritmos están exacerbando aún más esta brecha al recrear los sesgos que ya existen en los sistemas y estructuras sociales. [120] [121]
Si bien los usuarios generan resultados que se "completan" automáticamente, Google no ha eliminado el texto de autocompletado sexista y racista. Por ejemplo, Algoritmos de opresión: cómo los motores de búsqueda refuerzan el racismo Safiya Noble señala un ejemplo de la búsqueda de "chicas negras", que, según se informó, dio como resultado imágenes pornográficas. Google afirmó que no podía borrar esas páginas a menos que se consideraran ilegales. [122]
Varios problemas impiden el estudio del sesgo algorítmico a gran escala, lo que dificulta la aplicación de estudios académicamente rigurosos y la comprensión pública. [13] : 5 [123] [124]
La literatura sobre el sesgo algorítmico se ha centrado en la solución de la equidad, pero las definiciones de equidad a menudo son incompatibles entre sí y con las realidades de la optimización del aprendizaje automático. [125] [126] Por ejemplo, definir la justicia como una "igualdad de resultados" puede referirse simplemente a un sistema que produce el mismo resultado para todas las personas, mientras que la justicia definida como "igualdad de trato" podría considerar explícitamente las diferencias entre individuos. [127] : 2 Como resultado, a veces se describe que la equidad está en conflicto con la precisión de un modelo, lo que sugiere tensiones innatas entre las prioridades del bienestar social y las prioridades de los proveedores que diseñan estos sistemas. [128] : 2 En respuesta a esta tensión, los investigadores han sugerido que se preste más atención al diseño y uso de sistemas que se basan en algoritmos potencialmente sesgados, con la "equidad" definida para aplicaciones y contextos específicos. [129]
Los procesos algorítmicos son complejos y muchas veces exceden la comprensión de las personas que los utilizan. [13] : 2 [130] : 7 Es posible que las operaciones a gran escala no sean comprendidas ni siquiera por quienes participan en su creación. [131] Los métodos y procesos de los programas contemporáneos a menudo se ven oscurecidos por la incapacidad de conocer cada permutación de la entrada o salida de un código. [28] : 183 El científico social Bruno Latour ha identificado este proceso como blackboxing , un proceso en el que "el trabajo científico y técnico se vuelve invisible por su propio éxito. Cuando una máquina funciona eficientemente, cuando una cuestión de hecho está resuelta, es necesario concentrarse". sólo en sus entradas y salidas y no en su complejidad interna. Así, paradójicamente, cuanto más triunfan la ciencia y la tecnología, más opacas y oscuras se vuelven”. [132] Otros han criticado la metáfora de la caja negra, sugiriendo que los algoritmos actuales no son una caja negra, sino una red de otras interconectadas. [133] : 92
Un ejemplo de esta complejidad se puede encontrar en la variedad de entradas para personalizar la retroalimentación. El sitio de medios sociales Facebook tuvo en cuenta al menos 100.000 puntos de datos para determinar el diseño del feed de medios sociales de un usuario en 2013. [134] Además, grandes equipos de programadores pueden operar relativamente aislados unos de otros y no ser conscientes de los efectos acumulativos. de pequeñas decisiones dentro de algoritmos elaborados y conectados. [26] : 118 No todo el código es original y puede tomarse prestado de otras bibliotecas, creando un conjunto complicado de relaciones entre el procesamiento de datos y los sistemas de entrada de datos. [6] : 22
Se produce una complejidad adicional a través del aprendizaje automático y la personalización de algoritmos basados en las interacciones del usuario, como clics, tiempo pasado en el sitio y otras métricas. Estos ajustes personales pueden confundir los intentos generales de comprender los algoritmos. [135] : 367 [130] : 7 Un servicio de transmisión de radio no identificado informó que utilizó cinco algoritmos únicos de selección de música que seleccionó para sus usuarios, en función de su comportamiento. Esto crea diferentes experiencias de los mismos servicios de transmisión entre diferentes usuarios, lo que dificulta entender qué hacen estos algoritmos. [13] : 5 Las empresas también realizan pruebas A/B frecuentes para ajustar los algoritmos en función de la respuesta del usuario. Por ejemplo, el motor de búsqueda Bing puede ejecutar hasta diez millones de variaciones sutiles de su servicio por día, creando diferentes experiencias del servicio entre cada uso y/o usuario. [13] : 5
Los algoritmos comerciales son propietarios y pueden tratarse como secretos comerciales . [13] : 2 [130] : 7 [28] : 183 Tratar los algoritmos como secretos comerciales protege a las empresas, como los motores de búsqueda , donde un algoritmo transparente podría revelar tácticas para manipular las clasificaciones de búsqueda. [135] : 366 Esto dificulta que los investigadores realicen entrevistas o análisis para descubrir cómo funcionan los algoritmos. [6] : 20 Los críticos sugieren que tal secreto también puede oscurecer posibles métodos poco éticos utilizados en la producción o procesamiento de resultados algorítmicos. [135] : 369 Otros críticos, como la abogada y activista Katarzyna Szymielewicz, han sugerido que la falta de transparencia a menudo se disfraza como resultado de la complejidad algorítmica, protegiendo a las empresas de revelar o investigar sus propios procesos algorítmicos. [136]
Una barrera importante para comprender cómo abordar el sesgo en la práctica es que las categorías, como la demografía de las personas protegidas por la ley contra la discriminación , a menudo no se consideran explícitamente al recopilar y procesar datos. [137] En algunos casos, hay pocas oportunidades de recopilar estos datos explícitamente, como en la toma de huellas dactilares de dispositivos , la computación ubicua y el Internet de las cosas . En otros casos, es posible que el responsable del tratamiento no desee recopilar dichos datos por motivos de reputación o porque representa una mayor responsabilidad y riesgo de seguridad. También puede darse el caso de que, al menos en relación con el Reglamento General de Protección de Datos de la Unión Europea , dichos datos entren en las disposiciones de "categoría especial" (Artículo 9) y, por lo tanto, tengan más restricciones en cuanto a su posible recopilación y procesamiento.
Algunos profesionales han intentado estimar e imputar estas categorizaciones sensibles faltantes para permitir la mitigación de sesgos, por ejemplo, creando sistemas para inferir el origen étnico a partir de los nombres, [138] sin embargo, esto puede introducir otras formas de sesgo si no se realiza con cuidado. [139] Los investigadores del aprendizaje automático han recurrido a tecnologías criptográficas que mejoran la privacidad, como la computación multipartita segura, para proponer métodos mediante los cuales el sesgo algorítmico puede evaluarse o mitigarse sin que estos datos estén nunca disponibles para los modeladores en texto claro . [140]
El sesgo algorítmico no sólo incluye categorías protegidas, sino que también puede afectar a características menos fácilmente observables o codificables, como los puntos de vista políticos. En estos casos, rara vez existe una verdad fundamental de fácil acceso o que no sea controvertida , y eliminar el sesgo de dicho sistema es más difícil. [141] Además, pueden surgir correlaciones falsas y accidentales de una falta de comprensión de las categorías protegidas, por ejemplo, las tarifas de seguros basadas en datos históricos de accidentes automovilísticos que pueden superponerse, estrictamente por coincidencia, con grupos residenciales de minorías étnicas. [142]
Un estudio de 84 directrices políticas sobre IA ética encontró que la equidad y la "mitigación de sesgos no deseados" eran un punto de preocupación común y se abordaban mediante una combinación de soluciones técnicas, transparencia y monitoreo, derecho a reparación y mayor supervisión, y diversidad y esfuerzos de inclusión. [143]
Ha habido varios intentos de crear métodos y herramientas que puedan detectar y observar sesgos dentro de un algoritmo. Estos campos emergentes se centran en herramientas que normalmente se aplican a los datos (de entrenamiento) utilizados por el programa en lugar de a los procesos internos del algoritmo. Estos métodos también pueden analizar el resultado de un programa y su utilidad y, por lo tanto, pueden implicar el análisis de su matriz de confusión (o tabla de confusión). [144] [145] [146] [147] [148] [149] [150] [151] [152] La IA explicable para detectar el sesgo del algoritmo es una forma sugerida de detectar la existencia de sesgo en un algoritmo o modelo de aprendizaje. [153] El uso del aprendizaje automático para detectar sesgos se denomina "realización de una auditoría de IA", donde el "auditor" es un algoritmo que analiza el modelo de IA y los datos de entrenamiento para identificar sesgos. [154] Garantizar que una herramienta de IA, como un clasificador, esté libre de sesgos es más difícil que simplemente eliminar la información sensible de sus señales de entrada, porque esto suele estar implícito en otras señales. Por ejemplo, los pasatiempos, los deportes y las escuelas a las que asiste un candidato a un puesto de trabajo podrían revelar su género al software, incluso cuando esto se elimine del análisis. Las soluciones a este problema implican garantizar que el agente inteligente no tenga ninguna información que pueda usarse para reconstruir la información confidencial y protegida sobre el sujeto, como se demostró por primera vez en [155], donde se entrenó simultáneamente una red de aprendizaje profundo para aprender una tarea mientras al mismo tiempo ser completamente agnóstico sobre la característica protegida. Se propuso un método más simple en el contexto de la incrustación de palabras e implica eliminar información que se correlaciona con la característica protegida. [156]
Actualmente, se está redactando un nuevo estándar IEEE que apunta a especificar metodologías que ayuden a los creadores de algoritmos a eliminar problemas de sesgo y articular transparencia (es decir, hacia las autoridades o los usuarios finales ) sobre la función y los posibles efectos de sus algoritmos. El proyecto fue aprobado en febrero de 2017 y está patrocinado por el Comité de Estándares de Ingeniería de Sistemas y Software, un comité constituido por la IEEE Computer Society . Se espera que un borrador de la norma se presente para votación en junio de 2019. [157] [158]
Las directrices éticas sobre la IA señalan la necesidad de rendición de cuentas y recomiendan que se tomen medidas para mejorar la interpretabilidad de los resultados. [159] Tales soluciones incluyen la consideración del "derecho a la comprensión" en los algoritmos de aprendizaje automático y resistirse al despliegue del aprendizaje automático en situaciones en las que las decisiones no se pueden explicar o revisar. [160] Con este fin, ya está en marcha un movimiento por una " IA explicable " dentro de organizaciones como DARPA , por razones que van más allá de la solución del sesgo. [161] Price Waterhouse Coopers , por ejemplo, también sugiere que monitorear la producción significa diseñar sistemas de tal manera que se asegure que los componentes solitarios del sistema puedan aislarse y cerrarse si distorsionan los resultados. [162]
Un enfoque inicial hacia la transparencia incluyó el código abierto de algoritmos . [163] Se puede examinar el código de software y proponer mejoras a través de instalaciones de alojamiento de código fuente . Sin embargo, este enfoque no produce necesariamente los efectos deseados. Las empresas y organizaciones pueden compartir toda la documentación y el código posibles, pero esto no establece transparencia si la audiencia no comprende la información proporcionada. Por lo tanto, vale la pena explorar el papel de una audiencia crítica interesada en relación con la transparencia. Los algoritmos no pueden ser considerados responsables sin una audiencia crítica. [164]
Desde una perspectiva regulatoria, la Declaración de Toronto exige la aplicación de un marco de derechos humanos a los daños causados por el sesgo algorítmico. [165] Esto incluye legislar expectativas de debida diligencia por parte de los diseñadores de estos algoritmos y crear responsabilidad cuando los actores privados no protegen el interés público, señalando que tales derechos pueden verse oscurecidos por la complejidad de determinar la responsabilidad dentro de una red de complejos, procesos entrelazados. [166] Otros proponen la necesidad de mecanismos claros de seguro de responsabilidad. [167]
En medio de la preocupación de que el diseño de sistemas de IA sea principalmente dominio de ingenieros varones blancos, [168] varios académicos han sugerido que el sesgo algorítmico puede minimizarse ampliando la inclusión en las filas de quienes diseñan sistemas de IA. [160] [143] Por ejemplo, sólo el 12% de los ingenieros de aprendizaje automático son mujeres, [169] y los líderes negros de IA señalan una "crisis de diversidad" en el campo. [170] Grupos como Black in AI y Queer in AI están intentando crear espacios más inclusivos en la comunidad de IA y trabajar contra los deseos a menudo dañinos de las corporaciones que controlan la trayectoria de la investigación de IA. [171] Las críticas a los simples esfuerzos de inclusión sugieren que los programas de diversidad no pueden abordar formas superpuestas de desigualdad y han pedido que se aplique una lente más deliberada de interseccionalidad al diseño de algoritmos. [172] [173] : 4 Investigadores de la Universidad de Cambridge han argumentado que abordar la diversidad racial se ve obstaculizado por la "blancura" de la cultura de la IA. [174]
La integración de la interdisciplinariedad y la colaboración en el desarrollo de sistemas de IA puede desempeñar un papel fundamental a la hora de abordar el sesgo algorítmico. La integración de conocimientos, experiencia y perspectivas de disciplinas ajenas a la informática puede fomentar una mejor comprensión del impacto que tienen las soluciones basadas en datos en la sociedad. Un ejemplo de esto en la investigación de IA es PACT o Enfoque Participativo para habilitar Capacidades en las comunidades, un marco propuesto para facilitar la colaboración al desarrollar soluciones impulsadas por la IA relacionadas con el impacto social. [175] Este marco identifica principios rectores para la participación de las partes interesadas cuando se trabaja en proyectos de IA para el Bien Social (AI4SG). PACT intenta cosificar la importancia de los esfuerzos de descolonización y cambio de poder en el diseño de soluciones de IA centradas en el ser humano. Una iniciativa académica en este sentido es el Instituto de Inteligencia Artificial Centrada en el Humano de la Universidad de Stanford, cuyo objetivo es fomentar la colaboración multidisciplinaria. La misión del instituto es promover la investigación, la educación, las políticas y la práctica de la inteligencia artificial (IA) para mejorar la condición humana. [176]
La colaboración con expertos externos y diversas partes interesadas facilita el desarrollo ético, inclusivo y responsable de sistemas inteligentes. Incorpora consideraciones éticas, comprende el contexto social y cultural, promueve el diseño centrado en el ser humano, aprovecha la experiencia técnica y aborda consideraciones políticas y legales. [177] La colaboración entre disciplinas es esencial para mitigar eficazmente el sesgo en los sistemas de IA y garantizar que las tecnologías de IA sean justas, transparentes y responsables.
El Reglamento General de Protección de Datos (GDPR), el régimen de protección de datos revisado de la Unión Europea que se implementó en 2018, aborda la "toma de decisiones individuales automatizadas, incluida la elaboración de perfiles " en el artículo 22. Estas reglas prohíben "únicamente" las decisiones automatizadas que tienen un efecto "significativo" o "legal" en un individuo, a menos que estén explícitamente autorizados por consentimiento, contrato o ley del estado miembro . Cuando estén permitidas, deben existir salvaguardias, como el derecho a una persona informada y un derecho no vinculante a una explicación de las decisiones tomadas. Si bien estas regulaciones generalmente se consideran nuevas, desde 1995 en toda Europa existen disposiciones casi idénticas, en el artículo 15 de la Directiva de protección de datos . Las reglas y salvaguardias originales de decisión automatizada que se encuentran en la legislación francesa desde finales de los años 1970. [178]
El RGPD aborda el sesgo algorítmico en los sistemas de elaboración de perfiles, así como los enfoques estadísticos posibles para limpiarlo, directamente en el considerando 71, [179] señalando que
el responsable del tratamiento deberá utilizar procedimientos matemáticos o estadísticos apropiados para la elaboración de perfiles, implementar medidas técnicas y organizativas apropiadas... que impidan, entre otras cosas, efectos discriminatorios sobre las personas físicas por motivos de origen racial o étnico, opiniones políticas, religión o creencias, comercio afiliación sindical, estado genético o de salud u orientación sexual, o que resulten en medidas que tengan tal efecto.
Al igual que el derecho no vinculante a una explicación del considerando 71, el problema es la naturaleza no vinculante de los considerandos . [180] Si bien ha sido tratado como un requisito por el Grupo de Trabajo del Artículo 29 que asesoró sobre la implementación de la ley de protección de datos, [179] sus dimensiones prácticas no están claras. Se ha argumentado que las evaluaciones de impacto de la protección de datos para la elaboración de perfiles de datos de alto riesgo (junto con otras medidas preventivas dentro de la protección de datos) pueden ser una mejor manera de abordar cuestiones de discriminación algorítmica, ya que restringen las acciones de quienes implementan algoritmos, en lugar de exigir a los consumidores que presenten quejas o soliciten cambios. [181]
Estados Unidos no tiene una legislación general que controle el sesgo algorítmico, y aborda el problema a través de varias leyes estatales y federales que pueden variar según la industria, el sector y la forma en que se utiliza un algoritmo. [182] Muchas políticas son autoaplicadas o controladas por la Comisión Federal de Comercio . [182] En 2016, la administración Obama publicó el Plan Estratégico Nacional de Investigación y Desarrollo de Inteligencia Artificial, [183] cuyo objetivo era guiar a los responsables de la formulación de políticas hacia una evaluación crítica de los algoritmos. Recomendó a los investigadores "diseñar estos sistemas de manera que sus acciones y toma de decisiones sean transparentes y fácilmente interpretables por los humanos, y así puedan ser examinados para detectar cualquier sesgo que puedan contener, en lugar de simplemente aprender y repetir estos sesgos". Concebido únicamente como orientación, el informe no creó ningún precedente legal. [184] : 26
En 2017, la ciudad de Nueva York aprobó el primer proyecto de ley de responsabilidad algorítmica en Estados Unidos. [185] El proyecto de ley, que entró en vigor el 1 de enero de 2018, requería "la creación de un grupo de trabajo que brinde recomendaciones sobre cómo la información sobre los sistemas de decisiones automatizadas de las agencias puede compartirse con el público y cómo las agencias pueden abordar casos en los que las personas se ven perjudicados por los sistemas de decisión automatizados de la agencia". [186] El grupo de trabajo debe presentar conclusiones y recomendaciones para futuras medidas reglamentarias en 2019. [187]
El 31 de julio de 2018 se presentó un borrador de Proyecto de Ley de Datos Personales. [188] El proyecto propone normas para el almacenamiento, procesamiento y transmisión de datos. Si bien no utiliza el término algoritmo, prevé disposiciones para "daños resultantes de cualquier procesamiento o cualquier tipo de procesamiento realizado por el fiduciario". Define "cualquier denegación o retiro de un servicio, beneficio o bien resultante de una decisión evaluativa sobre los datos principales" o "cualquier trato discriminatorio" como una fuente de daño que podría surgir del uso inadecuado de los datos. También establece disposiciones especiales para las personas de "estatus intersexual". [189]
{{cite journal}}
: CS1 maint: numeric names: authors list (link){{cite book}}
: CS1 maint: location missing publisher (link)