La probabilidad del resultado de un experimento nunca es negativa, aunque una distribución de cuasiprobabilidad permite una probabilidad negativa o cuasiprobabilidad para algunos eventos. Estas distribuciones pueden aplicarse a eventos no observables o probabilidades condicionales.
En 1942, Paul Dirac escribió un artículo "La interpretación física de la mecánica cuántica" [1] donde introdujo el concepto de energías negativas y probabilidades negativas :
Las energías y probabilidades negativas no deben considerarse como algo sin sentido. Son conceptos bien definidos matemáticamente, como el negativo del dinero.
La idea de las probabilidades negativas recibió más tarde una mayor atención en la física y, en particular, en la mecánica cuántica . Richard Feynman sostuvo [2] que nadie se opone al uso de números negativos en los cálculos: aunque "menos tres manzanas" no es un concepto válido en la vida real, el dinero negativo sí lo es. De manera similar, argumentó que las probabilidades negativas, así como las probabilidades superiores a la unidad , podrían ser útiles en los cálculos de probabilidad .
Posteriormente se han sugerido probabilidades negativas para resolver varios problemas y paradojas . [3] Las medias monedas proporcionan ejemplos simples de probabilidades negativas. Estas extrañas monedas fueron introducidas en 2005 por Gábor J. Székely . [4] Las medias monedas tienen infinitos lados numerados con 0, 1, 2,... y los números pares positivos se toman con probabilidades negativas. Dos medias monedas forman una moneda completa en el sentido de que si lanzamos dos medias monedas, la suma de los resultados es 0 o 1 con probabilidad 1/2 como si simplemente lanzáramos una moneda justa.
En Cocientes de convolución de funciones definidas no negativas [5] y Teoría de probabilidad algebraica [6], Imre Z. Ruzsa y Gábor J. Székely demostraron que si una variable aleatoria X tiene una distribución con signo o cuasi distribución donde algunas de las probabilidades son negativas, entonces siempre se pueden encontrar dos variables aleatorias, Y y Z, con distribuciones ordinarias (sin signo / no cuasi) tales que X, Y son independientes y X + Y = Z en la distribución. Por lo tanto, X siempre se puede interpretar como la "diferencia" de dos variables aleatorias ordinarias, Z e Y. Si Y se interpreta como un error de medición de X y el valor observado es Z, entonces las regiones negativas de la distribución de X están enmascaradas / protegidas por el error Y.
Otro ejemplo conocido como la distribución de Wigner en el espacio de fases , introducida por Eugene Wigner en 1932 para estudiar las correcciones cuánticas, a menudo conduce a probabilidades negativas. [7] Por esta razón, más tarde se la ha conocido mejor como la distribución de cuasiprobabilidad de Wigner . En 1945, MS Bartlett elaboró la consistencia matemática y lógica de tal valor negativo. [8] La función de distribución de Wigner se utiliza rutinariamente en la física hoy en día y proporciona la piedra angular de la cuantificación del espacio de fases . Sus características negativas son una ventaja para el formalismo y a menudo indican interferencia cuántica. Las regiones negativas de la distribución están protegidas de la observación directa por el principio de incertidumbre cuántica: típicamente, los momentos de una distribución de cuasiprobabilidad no positiva-semidefinida están altamente restringidos e impiden la mensurabilidad directa de las regiones negativas de la distribución. Sin embargo, estas regiones contribuyen negativamente y de manera crucial a los valores esperados de las cantidades observables calculadas a través de tales distribuciones.
El concepto de probabilidades negativas también se ha propuesto para modelos de ubicación de instalaciones confiables donde las instalaciones están sujetas a riesgos de interrupción correlacionados negativamente cuando las ubicaciones de las instalaciones, la asignación de clientes y los planes de servicio de respaldo se determinan simultáneamente. [9] [10] Li et al. [11] propusieron una estructura de estación virtual que transforma una red de instalaciones con interrupciones correlacionadas positivamente en una equivalente con estaciones de apoyo virtuales agregadas, y estas estaciones virtuales estaban sujetas a interrupciones independientes. Este enfoque reduce un problema de uno con interrupciones correlacionadas a uno sin ellas. Xie et al. [12] más tarde mostraron cómo las interrupciones correlacionadas negativamente también pueden abordarse mediante el mismo marco de modelado, excepto que una estación de apoyo virtual ahora puede verse interrumpida con una "propensión a fallas" que
... hereda todas las características y propiedades matemáticas de una probabilidad de falla excepto que permitimos que sea mayor que 1...
Este hallazgo abre el camino para el uso de programas matemáticos compactos de números enteros mixtos para diseñar de manera óptima una ubicación confiable de las instalaciones de servicio bajo correlaciones de interrupción de instalaciones dependientes del sitio y positivas/negativas/mixtas. [13]
El concepto de “propensión” propuesto en Xie et al. [12] resulta ser lo que Feynman y otros denominaron “cuasi-probabilidad”. Nótese que cuando una cuasi-probabilidad es mayor que 1, entonces 1 menos este valor da una probabilidad negativa. En el contexto de la ubicación confiable de la instalación, la observación verdaderamente verificable físicamente son los estados de interrupción de la instalación (cuyas probabilidades se asegura que están dentro del rango convencional [0,1]), pero no hay información directa sobre los estados de interrupción de la estación o sus probabilidades correspondientes. Por lo tanto, las “probabilidades” de interrupción de las estaciones, interpretadas como “probabilidades de estados intermedios imaginados”, podrían exceder la unidad, y por lo tanto se las denomina cuasi-probabilidades.
Las probabilidades negativas se han aplicado más recientemente a las finanzas matemáticas . En las finanzas cuantitativas, la mayoría de las probabilidades no son probabilidades reales, sino pseudoprobabilidades, a menudo lo que se conoce como probabilidades neutrales al riesgo . [14] Estas no son probabilidades reales, sino "probabilidades" teóricas bajo una serie de supuestos que ayudan a simplificar los cálculos al permitir que dichas pseudoprobabilidades sean negativas en ciertos casos, como señaló por primera vez Espen Gaarder Haug en 2004. [15]
Mark Burgin y Gunter Meissner (2011) han elaborado recientemente una definición matemática rigurosa de las probabilidades negativas y sus propiedades. Los autores también muestran cómo se pueden aplicar las probabilidades negativas a la determinación de precios de las opciones financieras . [14]
Algunos problemas de aprendizaje automático utilizan formulaciones basadas en gráficos (o hipergráficos) que tienen aristas con pesos asignados, generalmente positivos. Un peso positivo de un vértice a otro se puede interpretar en un recorrido aleatorio como una probabilidad de llegar del primer vértice al segundo. En una cadena de Markov , esa es la probabilidad de cada evento que depende únicamente del estado alcanzado en el evento anterior.
Algunos problemas en el aprendizaje automático, por ejemplo, la agrupación por correlación , a menudo tratan naturalmente con un gráfico con signo donde el peso del borde indica si dos nodos son similares (correlacionados con un peso del borde positivo) o diferentes (anticorrelacionados con un peso del borde negativo). El tratamiento de un peso del gráfico como una probabilidad de que los dos vértices estén relacionados se reemplaza aquí con una correlación que, por supuesto, puede ser negativa o positiva igualmente legítimamente. Los pesos de gráfico positivos y negativos no son controvertidos si se interpretan como correlaciones en lugar de probabilidades, pero plantean problemas similares, por ejemplo, desafíos para la normalización en el laplaciano de gráficos y explicabilidad de la agrupación espectral para la partición de gráficos con signo ; por ejemplo, [16]
De manera similar, en la teoría de grafos espectrales , los valores propios de la matriz laplaciana representan frecuencias y los vectores propios forman lo que se conoce como una base de Fourier de grafos que sustituye la transformada de Fourier clásica en el procesamiento de señales basado en grafos . En aplicaciones a la formación de imágenes, el laplaciano de grafos se formula de manera análoga al operador de difusión anisotrópica , donde una imagen suavizada gaussiana se interpreta como una única porción de tiempo de la solución a la ecuación de calor, que tiene la imagen original como sus condiciones iniciales. Si el peso del grafo fuera negativo, eso correspondería a una conductividad negativa en la ecuación de calor , estimulando la concentración de calor en los vértices del grafo conectados por el borde del grafo, en lugar de la disipación de calor normal . Si bien la conductividad térmica negativa no es física, este efecto es útil para el suavizado de imágenes que mejora los bordes , por ejemplo, lo que da como resultado el agudizado de las esquinas de señales unidimensionales, cuando se usa en el suavizado que preserva los bordes basado en grafos . [17]