Paradoja de Borel-Kolmogorov

En teoría de la probabilidad , la paradoja de Borel-Kolmogorov (a veces conocida como paradoja de Borel ) es una paradoja relacionada con la probabilidad condicional con respecto a un evento de probabilidad cero (también conocido como conjunto nulo ). Lleva el nombre de Émile Borel y Andrey Kolmogorov .

Un gran rompecabezas circular

Supongamos que una variable aleatoria tiene una distribución uniforme en una esfera unitaria. ¿Cuál es su distribución condicional en un círculo máximo ? Debido a la simetría de la esfera, se podría esperar que la distribución sea uniforme e independiente de la elección de las coordenadas. Sin embargo, dos análisis arrojan resultados contradictorios. Primero, tenga en cuenta que elegir un punto uniformemente en la esfera equivale a elegir la longitud uniformemente y elegir la latitud con densidad . ^[1] Entonces podemos observar dos grandes círculos diferentes: ${\displaystyle\lambda}$ $[-\pi ,\pi ]$ $\varphi$ ${\textstyle [-{\frac {\pi }{2}},{\frac {\pi }{2}}]}$ ${\textstyle {\frac {1}{2}}\cos \varphi }$

Si las coordenadas se eligen de modo que el círculo máximo sea un ecuador (latitud ), la densidad condicional para una longitud definida en el intervalo es $\varphi =0$ ${\displaystyle\lambda}$ $[-\pi ,\pi ]$ $f(\lambda \mid \varphi =0)={\frac {1}{2\pi }}.$
Si el círculo máximo es una línea de longitud con , la densidad condicional para en el intervalo es $\lambda =0$ $\varphi$ ${\textstyle [-{\frac {\pi }{2}},{\frac {\pi }{2}}]}$ $f(\varphi \mid \lambda =0)={\frac {1}{2}}\cos \varphi .$

Una distribución es uniforme en el círculo, la otra no. Sin embargo, ambos parecen referirse al mismo gran círculo en diferentes sistemas de coordenadas.

Se han desarrollado muchas discusiones bastante inútiles (entre probabilistas por lo demás competentes) sobre cuál de estos resultados es "correcto".
— ET Jaynes ^[1]

Explicación e implicaciones.

En el caso (1) anterior, la probabilidad condicional de que la longitud λ se encuentre en un conjunto E dado que φ = 0 se puede escribir P ( λ ∈ E | φ = 0). La teoría de la probabilidad elemental sugiere que esto se puede calcular como P ( λ ∈ E y φ = 0)/ P ( φ = 0), pero esa expresión no está bien definida ya que P ( φ = 0) = 0. La teoría de la medida proporciona una manera para definir una probabilidad condicional, utilizando la familia de eventos R _ab = { φ : a < φ < b } que son anillos horizontales que constan de todos los puntos con latitud entre a y b .

La resolución de la paradoja es notar que en el caso (2), P ( φ ∈ F | λ = 0) se define usando los eventos L _ab = { λ : a < λ < b }, que son lunes (cuñas verticales) , que consta de todos los puntos cuya longitud varía entre a y b . Entonces, aunque P ( λ ∈ E | φ = 0) y P ( φ ∈ F | λ = 0) proporcionan cada uno una distribución de probabilidad en un círculo máximo, uno de ellos se define usando anillos y el otro usando lunes. Por lo tanto, después de todo, no es sorprendente que P ( λ ∈ E | φ = 0) y P ( φ ∈ F | λ = 0) tengan distribuciones diferentes.

El concepto de probabilidad condicional respecto de una hipótesis aislada cuya probabilidad es igual a 0 es inadmisible. Porque sólo podemos obtener una distribución de probabilidad para [la latitud] en el círculo de meridianos si consideramos este círculo como un elemento de la descomposición de toda la superficie esférica en círculos de meridianos con los polos dados.
— Andréi Kolmogorov ^[2]

... el término 'gran círculo' es ambiguo hasta que especificamos qué operación limitante es para producirlo. El argumento intuitivo de la simetría presupone el límite ecuatorial; sin embargo, que uno coma rodajas de naranja podría presuponer el otro.
— ET Jaynes ^[1]

Explicación matemática

Medir la perspectiva teórica.

Para comprender el problema debemos reconocer que una distribución de una variable aleatoria continua se describe mediante una densidad f sólo con respecto a alguna medida μ . Ambos son importantes para la descripción completa de la distribución de probabilidad. O, de manera equivalente, necesitamos definir completamente el espacio en el que queremos definir f .

Sean Φ y Λ dos variables aleatorias que toman valores en Ω ₁ = respectivamente Ω ₂ = [− $π$ , $π$ ]. Un evento {Φ = φ , Λ = λ } da un punto en la esfera S ( r ) con radio r . Definimos la transformación de coordenadas. ${\textstyle \left[-{\frac {\pi }{2}},{\frac {\pi }{2}}\right]}$

{\begin{aligned}x&=r\cos \varphi \cos \lambda \\y&=r\cos \varphi \sin \lambda \\z&=r\sin \varphi \end{aligned}}

para lo cual obtenemos el elemento de volumen

\omega _{r}(\varphi ,\lambda )=\left\|{\partial (x,y,z) \over \partial \varphi }\times {\partial (x,y,z) \over \partial \lambda }\right\|=r^{2}\cos \varphi \ .

Además, si φ o λ son fijos, obtenemos los elementos de volumen

{\begin{alineado}\omega _ {r}(\lambda )&=\left\|{\partial (x,y,z) \over \partial \varphi }\right\|=r\ , \quad {\text{respectivamente}}\\[3pt]\omega _{r}(\varphi )&=\left\|{\partial (x,y,z) \over \partial \lambda }\right\ |=r\cos \varphi \ .\end{aligned}}

Dejar

\mu _{\Phi ,\Lambda }(d\varphi ,d\lambda )=f_{\Phi ,\Lambda }(\varphi ,\lambda )\omega _ {r}(\varphi ,\lambda )\,d\varphi \,d\lambda

denotamos la medida conjunta en , que tiene una densidad con respecto a y sea ${\mathcal {B}}(\Omega _{1}\times \Omega _{2})$ $f_{\Phi,\Lambda}$ $\omega _{r}(\varphi ,\lambda )\,d\varphi \,d\lambda$

{\begin{aligned}\mu _{\Phi }(d\varphi )&=\int _{\lambda \in \Omega _{2}}\mu _{\Phi ,\Lambda }(d\varphi ,d\lambda )\ ,\\\mu _{\Lambda }(d\lambda )&=\int _{\varphi \in \Omega _{1}}\mu _{\Phi ,\Lambda }(d\varphi ,d\lambda )\ .\end{aligned}}

Si suponemos que la densidad es uniforme, entonces $f_{\Phi ,\Lambda }$

{\begin{aligned}\mu _{\Phi \mid \Lambda }(d\varphi \mid \lambda )&={\mu _{\Phi ,\Lambda }(d\varphi ,d\lambda ) \over \mu _{\Lambda }(d\lambda )}={\frac {1}{2r}}\omega _{r}(\varphi )\,d\varphi \ ,\quad {\text{and}}\\[3pt]\mu _{\Lambda \mid \Phi }(d\lambda \mid \varphi )&={\mu _{\Phi ,\Lambda }(d\varphi ,d\lambda ) \over \mu _{\Phi }(d\varphi )}={\frac {1}{2r\pi }}\omega _{r}(\lambda )\,d\lambda \ .\end{aligned}}

Por lo tanto, tiene una densidad uniforme con respecto a la medida de Lebesgue, pero no con respecto a ella. Por otro lado, tiene una densidad uniforme con respecto a y la medida de Lebesgue. $\mu _{\Phi \mid \Lambda }$ $\omega _{r}(\varphi )\,d\varphi$ $\mu _{\Lambda \mid \Phi }$ $\omega _{r}(\lambda )\,d\lambda$

Prueba de contradicción

Considere un vector aleatorio que está distribuido uniformemente en la esfera unitaria . $(X,Y,Z)$ $S^{2}$

Comenzamos parametrizando la esfera con las habituales coordenadas polares esféricas :

{\begin{aligned}x&=\cos(\varphi )\cos(\theta )\\y&=\cos(\varphi )\sin(\theta )\\z&=\sin(\varphi )\end{aligned}}

dónde y . ${\textstyle -{\frac {\pi }{2}}\leq \varphi \leq {\frac {\pi }{2}}}$ $-\pi \leq \theta \leq \pi$

Podemos definir variables aleatorias , como los valores de bajo la inversa de esta parametrización, o más formalmente usando la función arctan2 : $\Phi$ $\Theta$ $(X,Y,Z)$

{\begin{aligned}\Phi &=\arcsin(Z)\\\Theta &=\arctan _{2}\left({\frac {Y}{\sqrt {1-Z^{2}}}},{\frac {X}{\sqrt {1-Z^{2}}}}\right)\end{aligned}}

Usando las fórmulas para el área de superficie del casquete esférico y la cuña esférica , la superficie de un casquete esférico en cuña viene dada por

\operatorname {Area} (\Theta \leq \theta ,\Phi \leq \varphi )=(1+\sin(\varphi ))(\theta +\pi )

Dado que está distribuida uniformemente, la probabilidad es proporcional al área de la superficie, lo que da la función de distribución acumulativa conjunta $(X,Y,Z)$

F_{\Phi ,\Theta }(\varphi ,\theta )=P(\Theta \leq \theta ,\Phi \leq \varphi )={\frac {1}{4\pi }}(1+\sin(\varphi ))(\theta +\pi )

La función de densidad de probabilidad conjunta viene dada por

f_{\Phi ,\Theta }(\varphi ,\theta )={\frac {\partial ^{2}}{\partial \varphi \partial \theta }}F_{\Phi ,\Theta }(\varphi ,\theta )={\frac {1}{4\pi }}\cos(\varphi )

Tenga en cuenta que y son variables aleatorias independientes. $\Phi$ $\Theta$

Para simplificar, no calcularemos la distribución condicional completa en un círculo máximo, solo la probabilidad de que el vector aleatorio se encuentre en el primer octante. Es decir, intentaremos calcular la probabilidad condicional con $\mathbb {P} (A|B)$

{\begin{aligned}A&=\left\{0<\Theta <{\frac {\pi }{4}}\right\}&&=\{0<X<1,0<Y<X\}\\B&=\{\Phi =0\}&&=\{Z=0\}\end{aligned}}

Intentamos evaluar la probabilidad condicional como límite de condicionamiento sobre los eventos.

B_{\varepsilon }=\{|\Phi |<\varepsilon \}

Como y son independientes, también lo son los eventos y , por lo tanto $\Phi$ $\Theta$ $A$ $B_{\varepsilon }$

P(A\mid B)\mathrel {\stackrel {?}{=}} \lim _{\varepsilon \to 0}{\frac {P(A\cap B_{\varepsilon })}{P(B_{\varepsilon })}}=\lim _{\varepsilon \to 0}P(A)=P\left(0<\Theta <{\frac {\pi }{4}}\right)={\frac {1}{8}}.

Ahora repetimos el proceso con una parametrización diferente de la esfera:

{\begin{aligned}x&=\sin(\varphi )\\y&=\cos(\varphi )\sin(\theta )\\z&=-\cos(\varphi )\cos(\theta )\end{aligned}}

Esto es equivalente a la parametrización anterior girada 90 grados alrededor del eje y .

Definir nuevas variables aleatorias

{\begin{aligned}\Phi '&=\arcsin(X)\\\Theta '&=\arctan _{2}\left({\frac {Y}{\sqrt {1-X^{2}}}},{\frac {-Z}{\sqrt {1-X^{2}}}}\right).\end{aligned}}

La rotación se mide preservando la densidad de y es la misma: $\Phi '$ $\Theta '$

f_{\Phi ',\Theta '}(\varphi ,\theta )={\frac {1}{4\pi }}\cos(\varphi )

Las expresiones para $A$ y $B$ son:

{\begin{aligned}A&=\left\{0<\Theta <{\frac {\pi }{4}}\right\}&&=\{0<X<1,\ 0<Y<X\}&&=\left\{0<\Theta '<\pi ,\ 0<\Phi '<{\frac {\pi }{2}},\ \sin(\Theta ')<\tan(\Phi ')\right\}\\B&=\{\Phi =0\}&&=\{Z=0\}&&=\left\{\Theta '=-{\frac {\pi }{2}}\right\}\cup \left\{\Theta '={\frac {\pi }{2}}\right\}.\end{aligned}}

Intentando nuevamente evaluar la probabilidad condicional como límite del condicionamiento sobre los eventos

B_{\varepsilon }^{\prime }=\left\{\left|\Theta '+{\frac {\pi }{2}}\right|<\varepsilon \right\}\cup \left\{\left|\Theta '-{\frac {\pi }{2}}\right|<\varepsilon \right\}.

Utilizando la regla de L'Hôpital y la diferenciación bajo el signo integral :

{\begin{aligned}P(A\mid B)&\mathrel {\stackrel {?}{=}} \lim _{\varepsilon \to 0}{\frac {P(A\cap B_{\varepsilon }^{\prime })}{P(B_{\varepsilon }^{\prime })}}\\&=\lim _{\varepsilon \to 0}{\frac {1}{\frac {4\varepsilon }{2\pi }}}P\left({\frac {\pi }{2}}-\varepsilon <\Theta '<{\frac {\pi }{2}}+\varepsilon ,\ 0<\Phi '<{\frac {\pi }{2}},\ \sin(\Theta ')<\tan(\Phi ')\right)\\&={\frac {\pi }{2}}\lim _{\varepsilon \to 0}{\frac {\partial }{\partial \varepsilon }}\int _{{\pi }/{2}-\epsilon }^{{\pi }/{2}+\epsilon }\int _{0}^{{\pi }/{2}}1_{\sin(\theta )<\tan(\varphi )}f_{\Phi ',\Theta '}(\varphi ,\theta )\mathrm {d} \varphi \mathrm {d} \theta \\&=\pi \int _{0}^{{\pi }/{2}}1_{1<\tan(\varphi )}f_{\Phi ',\Theta '}\left(\varphi ,{\frac {\pi }{2}}\right)\mathrm {d} \varphi \\&=\pi \int _{\pi /4}^{\pi /2}{\frac {1}{4\pi }}\cos(\varphi )\mathrm {d} \varphi \\&={\frac {1}{4}}\left(1-{\frac {1}{\sqrt {2}}}\right)\neq {\frac {1}{8}}\end{aligned}}

Esto muestra que la densidad condicional no puede tratarse como un condicionamiento para un evento de probabilidad cero, como se explica en Probabilidad condicional#Condicionamiento para un evento de probabilidad cero .

Ver también

Teorema de desintegración - Teorema en la teoría de la medida

Notas

^ abc Jaynes 2003, págs. 1514-1517
^ Originalmente Kolmogorov (1933), traducido en Kolmogorov (1956). Tomado de Pollard (2002)

Referencias

Jaynes, et (2003). "15.7 La paradoja de Borel-Kolmogorov". Teoría de la probabilidad: la lógica de la ciencia . Prensa de la Universidad de Cambridge. págs. 467–470. ISBN 0-521-59271-2. SEÑOR 1992316.
- Edición fragmentaria (1994) (págs. 1514-1517) Archivado el 30 de septiembre de 2018 en Wayback Machine ( formato PostScript )
Kolmogorov, Andrey (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (en alemán). Berlín: Julius Springer.
- Traducción: Kolmogorov, Andrey (1956). "Capítulo V, §2. Explicación de una paradoja de Borel". Fundamentos de la Teoría de la Probabilidad (2ª ed.). Nueva York: Chelsea. págs. 50–51. ISBN 0-8284-0023-7. Archivado desde el original el 14 de septiembre de 2018 . Consultado el 12 de marzo de 2009 .
Pollard, David (2002). "Capítulo 5. Condicionamiento, Ejemplo 17". Una guía del usuario para medir la probabilidad teórica . Prensa de la Universidad de Cambridge. págs. 122-123. ISBN 0-521-00289-3. SEÑOR 1873379.
Mosegaard, Klaus; Tarantola, Albert (2002). "16 Enfoque probabilístico de problemas inversos". Manual internacional de sismología de ingeniería y terremotos . Geofísica Internacional. vol. 81, págs. 237–265. doi :10.1016/S0074-6142(02)80219-4. ISBN 9780124406520.
Gal, Yarin. "La paradoja de Borel-Kolmogorov" (PDF) .