Monocultivo (informática)

En informática , un monocultivo es una comunidad de ordenadores que ejecutan el mismo software. Por lo tanto, todos los sistemas informáticos de la comunidad tienen las mismas vulnerabilidades y, al igual que los monocultivos agrícolas , están sujetos a fallos catastróficos en caso de un ataque exitoso. ^[1]

Descripción general

Con la tendencia global de un mayor uso y dependencia de los sistemas informáticos, algunos proveedores ofrecen soluciones que se utilizan en toda la industria (como Microsoft Windows ), lo que forma monocultivos algorítmicos. Los monocultivos se forman de manera natural, ya que utilizan economías de escala , es más barato fabricar y distribuir una única solución. Además, al ser utilizados por una gran comunidad, los errores se descubren con relativa rapidez.

Al igual que los monocultivos agrícolas , los monocultivos algorítmicos no son diversos, por lo que son susceptibles a fallas correlacionadas (fallas de muchas de las partes que participan en el monocultivo). En los no monocultivos completos, donde el resultado de todos los componentes es mutuamente independiente y, por lo tanto, no está correlacionado, la probabilidad de un evento catastrófico (falla de todas las partes del monocultivo) es la multiplicación de la probabilidad de falla de cada componente (decreciente exponencialmente).

Por otro lado, los monocultivos perfectos están completamente correlacionados, por lo que tienen un único punto de fallo. Esto significa que la probabilidad de un evento catastrófico es constante: el fallo probablemente sea de un único componente.

Ejemplos

Dado que los sistemas operativos se utilizan en casi todas las estaciones de trabajo, forman monoculturas. Por ejemplo, Dan Geer ha afirmado que Microsoft es una monocultura, ya que la mayoría del número total de estaciones de trabajo conectadas a Internet ejecutan versiones del sistema operativo Microsoft Windows , muchas de las cuales son vulnerables a los mismos ataques.

También pueden surgir grandes monocultivos a partir de bibliotecas de software , por ejemplo, el exploit Log4Shell en la popular biblioteca Log4j, que se estima que afecta a cientos de millones de dispositivos. ^[2]

Preocupaciones a nivel individual

El concepto es significativo cuando se habla de seguridad informática y virus , la principal amenaza es la exposición a vulnerabilidades de seguridad. Dado que los monocultivos no son diversos, cualquier vulnerabilidad encontrada existe en todos los miembros individuales del monocultivo, lo que aumenta el riesgo de explotación. ^[3] Un ejemplo de ello es el miércoles de explotación, en el que después de que se lanzan los parches de seguridad de Windows, hay un aumento de los eventos de explotación en máquinas no actualizadas.

Clifford Stoll escribió en 1989 después de lidiar con el gusano Morris : ^[4]

Un virus informático es especializado: un virus que funciona en un IBM PC no puede hacer nada en un Macintosh o en un ordenador Unix . De manera similar, el virus Arpanet sólo podía atacar a sistemas que ejecutaban Berkeley Unix . Los ordenadores que ejecutaban otros sistemas operativos (como AT&T Unix , VMS o DOS ) eran totalmente inmunes.
La diversidad, entonces, funciona contra los virus. Si todos los sistemas de Arpanet funcionaran con Berkeley Unix, el virus habría inutilizado a los cincuenta mil. En cambio, sólo infectó a un par de miles. Los virus biológicos son igualmente especializados: no podemos contagiarnos de gripe de los perros.
Los burócratas y los gerentes siempre nos instarán a que nos estandaricemos en un solo tipo de sistema: "Utilicemos sólo estaciones de trabajo Sun" o "Compremos sólo sistemas IBM". Sin embargo, de alguna manera nuestras comunidades de computadoras son una población diversa: las máquinas Data General se encuentran junto a las Digital Vaxes ; las IBM conectadas a las Sonys . Al igual que nuestros vecindarios, las comunidades electrónicas prosperan a través de la diversidad.

Otra preocupación importante es la creciente difusión del sesgo algorítmico . A la luz del aumento del uso del aprendizaje automático, existe una creciente conciencia de los sesgos introducidos por los algoritmos. La naturaleza de los monocultivos exacerba este problema, ya que hace que el sesgo sea sistémico y propague decisiones injustas.

Preocupaciones a nivel social

Las monoculturas pueden dar lugar a paradojas similares a las de Braess , en las que la introducción de una "mejor opción" (como un algoritmo más preciso) conduce a una convergencia monocultural subóptima, una monocultura cuya naturaleza correlacionada da como resultado una calidad general degradada de las decisiones. Dado que las monoculturas se forman en áreas de decisiones de alto riesgo, como la calificación crediticia y la contratación automatizada, es importante lograr una toma de decisiones óptima.

Este escenario puede estudiarse desde la perspectiva del diseño de mecanismos , en el que los agentes eligen entre un conjunto de algoritmos, algunos de los cuales arrojan resultados correlacionados. El impacto general de la toma de decisiones se mide en términos de bienestar social .

Convergencia de monoculturas subóptimas en la contratación automatizada

En esta sección se demuestra la preocupación que suscita la convergencia subóptima de una cultura monocultural utilizando la contratación automatizada como caso de estudio. La contratación es el proceso de clasificar a un grupo de candidatos y contratar a los más valorados. En los últimos años, la contratación automatizada (clasificación automática de candidatos en función de su interacción con un sistema impulsado por IA) se ha vuelto popular.

Como lo demuestra Kleinberg ^[5] , bajo ciertos supuestos, se forman naturalmente monoculturas de contratación automatizada subóptima, es decir, elegir el algoritmo correlacionado es una estrategia dominante , convergiendo así hacia una monocultura que conduce a un bienestar social subóptimo.

Estructura

En este escenario, consideraremos dos empresas y un grupo de candidatos con utilidades ocultas de . Para el proceso de contratación, cada empresa realizará una clasificación ruidosa de los candidatos y luego cada empresa (en un orden aleatorio) contratará al primer candidato disponible en su clasificación. Cada empresa puede optar por utilizar clasificadores humanos independientes o utilizar una clasificación algorítmica común. $S$ $n$ $x_{i}$

El algoritmo de clasificación se modela como una distribución ruidosa sobre permutaciones parametrizadas por un parámetro de precisión . ${\mathcal {F}}_{\theta }$ $S$ $\theta >0$

Para que tenga sentido debe satisfacer estas condiciones: ${\mathcal {F}}_{\theta }$

Diferenciabilidad: La probabilidad de cada permutación es continua y diferenciable en $\pi$ $\theta$
Optimalidad asintótica: Para la verdadera clasificación : $\pi ^{*}$ $\lim _{\theta \to \infty }Pr[\pi ^{*}]=1$
Monotonía: La utilidad esperada del candidato mejor clasificado mejora a medida que aumenta, incluso si se elimina cualquier subconjunto . $\theta$ $S$

Estas condiciones establecen que una empresa siempre debe preferir valores más altos de , incluso si no es la primera en el orden de selección. $\theta$

Tanto los métodos de clasificación algorítmicos como los humanos tienen la forma de y difieren en los parámetros de precisión . El resultado de la clasificación algorítmica es corrotado: siempre produce la misma permutación. Por el contrario, una premutación clasificada por humanos se extrae de forma independiente para cada una de las empresas. ${\mathcal {F}}_{\theta }$ $\theta _{A},\theta _{H}$ ${\mathcal {F}}_{\theta _{H}}$

Para las estrategias de la primera y segunda empresa, el bienestar social se define como la suma de las utilidades de los candidatos contratados. $s_{1},s_{2}\in \{A,H\}$ $W_{s_{1},s_{2}}$

Condiciones para la convergencia subóptima

La paradoja de Braess en este marco es que las monoculturas subóptimas convergen. Es decir, el uso de la clasificación algorítmica es la estrategia dominante, por lo que converge hacia la monocultura, pero produce un bienestar subóptimo (el bienestar en un mundo sin clasificación algorítmica es mayor). $W_{A,A}<W_{H,H}$

El teorema principal demostrado por Kleinberg ^[5] de este modelo es que para cualquier familia de clasificación ruidosa que satisfaga estas condiciones: $\theta _{H}$ ${\mathcal {F}}_{\theta }$

Preferencia por la primera posición: Para todos si entonces . $\theta >0$ $\pi ,\sigma \sim {\mathcal {F}}_{\theta }$ $\mathbb {E} [\pi _{1}-\pi _{2}|\pi _{1}\neq \sigma _{1}]>0$
Preferencia por una competencia más débil: Para todos . $\theta _{1}>\theta _{2},\sigma \sim {\mathcal {F}}_{\theta _{1}}and\ \pi ,\tau \sim {\mathcal {F}}_{\theta _{2}}:\mathbb {E} [\pi _{1}^{(-\sigma _{1})}]<\mathbb {E} [\pi _{1}^{(-\tau _{1})}]$

Existe un factor tal que ambas empresas prefieren utilizar el algoritmo de clasificación de tiestos, aunque el bienestar social es mayor cuando ambas utilizan evaluadores humanos. En otras palabras, independientemente de la precisión de los evaluadores humanos, existe un algoritmo más preciso cuya introducción conduce a una convergencia de monocultivos subóptima. $\theta _{A}>\theta _{H}$

Las implicaciones de este teorema son que, en estas condiciones, las empresas optarán por utilizar la clasificación algorítmica, aunque la naturaleza correlacionada de las monoculturas algorítmicas degrade el bienestar social total, aunque las clasificaciones algorítmicas sean más precisas.

La primera condición de (Preferencia por la primera posición) es equivalente a una preferencia de las empresas por tener una clasificación independiente (en nuestro contexto, no algorítmica). Esto significa que una empresa debería preferir métodos de clasificación independientes, siempre que todo lo demás sea igual. ${\mathcal {F}}_{\theta }$

La intuición que sustenta la preferencia por una competencia más débil es que, cuando un candidato es eliminado (contratado por otra empresa), el mejor candidato restante tiene mejores expectativas cuando el candidato eliminado es elegido sobre la base de una clasificación menos precisa. Por lo tanto, una empresa siempre debería preferir que sus competidores sean menos precisos.

Estas condiciones se cumplen para las distribuciones del modelo de Mallows y algunos tipos de modelos de utilidad aleatoria (ruido gaussiano o laplaciano). ${\mathcal {F}}_{\theta }$

Véase también

Comparación de sistemas operativos DOS
Dominación de los clones
Historia del hardware informático (década de 1960-actualidad)
Compatible con IBM PC
Arquitectura abierta
PC-DOS
Diversidad de software
Cronología de los sistemas operativos DOS
Wintel
Conferencia de un investigador sobre la convergencia de monocultivos subóptimos

Referencias

^ Goth, G. (2003). "Abordar el monocultivo". IEEE Security & Privacy . 1 (6): 8–10. doi :10.1109/msecp.2003.1253561. ISSN 1540-7993. S2CID 16965084.
^ Murphy, Hannah (14 de diciembre de 2021). "Los piratas informáticos lanzan más de 1,2 millones de ataques a través de la falla Log4J". Financial Times . Consultado el 17 de diciembre de 2021 .
^ Stamp, Mark (2004). "Riesgos del monocultivo". Comunicaciones de la ACM . 47 (3): 120. doi :10.1145/971617.971650. ISSN 0001-0782. S2CID 16746625.
^ Stoll, Clifford (1989). El huevo del cuco . Doubleday. págs. 320-321. ISBN. 978-0-307-81942-0.
^ ab Kleinberg, Jon (2021). "Monocultivo algorítmico y bienestar social". Actas de la Academia Nacional de Ciencias . 118 (22). arXiv : 2101.05853 . doi : 10.1073/pnas.2018340118 . PMC 8179131 . PMID 34035166.