Modelo estadístico en matemáticas
En estadística , un modelo de urna de Pólya (también conocido como esquema de urna de Pólya o simplemente como urna de Pólya ), llamado así por George Pólya , es una familia de modelos de urna que se pueden utilizar para interpretar muchos modelos estadísticos de uso común .
El modelo representa objetos de interés (como átomos, personas, automóviles, etc.) como bolas de colores en una urna . En el modelo básico de urna de Pólya, el experimentador coloca x bolas blancas e y bolas negras en una urna. En cada paso, se extrae una bola de la urna de manera uniforme y aleatoria y se observa su color; luego se devuelve a la urna y se agrega una bola adicional del mismo color a la urna.
Si por casualidad se extraen más bolas negras que blancas en las primeras extracciones, es más probable que se extraigan más bolas negras más adelante. Lo mismo ocurre con las bolas blancas. Por tanto, la urna tiene una propiedad de autorreforzamiento (" los ricos se hacen más ricos "). Es lo opuesto al muestreo sin reemplazo , donde cada vez que se observa un valor particular, es menos probable que se vuelva a observar, mientras que en un modelo de urna de Pólya, es más probable que se vuelva a observar un valor observado. En un modelo de urna de Pólya, los actos sucesivos de medición a lo largo del tiempo tienen cada vez menos efecto sobre las mediciones futuras, mientras que en el muestreo sin reemplazo, ocurre lo contrario: después de una cierta cantidad de mediciones de un valor particular, ese valor nunca se volverá a ver.
También es diferente del muestreo con reposición, en el que la bola se devuelve a la urna pero sin añadir bolas nuevas. En este caso, no hay autorreforzamiento ni antiautorreforzamiento.
Resultados básicos
Las cuestiones de interés son la evolución de la población de urnas y la secuencia de colores de las bolas extraídas.
Después de los sorteos, la probabilidad de que la urna contenga bolas blancas y negras (para ) es
donde la barra superior denota factorial ascendente . Esto se puede demostrar dibujando el triángulo de Pascal de todas las configuraciones posibles.
En particular, comenzando con una bola blanca y una negra (es decir, ), la probabilidad de tener cualquier número de bolas blancas en la urna después de los sorteos es la misma, .
De manera más general, si la urna comienza con bolas de color , con , entonces después de los sorteos, la probabilidad de que la urna contenga bolas de color es donde usamos el coeficiente multinomial .
Si la urna termina con bolas de color después de los sorteos, existen diferentes trayectorias que podrían haber llevado a ese estado final. La probabilidad condicional de cada trayectoria es la misma: .
Interpretación
Una de las razones del interés en este modelo de urna particular, bastante elaborado (es decir, con duplicación y luego reemplazo de cada bola extraída) es que proporciona un ejemplo en el que el recuento (inicialmente x negras e y blancas) de bolas en la urna no está oculto, lo que puede aproximar la actualización correcta de las probabilidades subjetivas apropiadas para un caso diferente en el que el contenido original de la urna está oculto mientras se realiza un muestreo ordinario con reemplazo (sin la duplicación de bolas de Pólya). Debido al esquema simple de "muestreo con reemplazo" en este segundo caso, el contenido de la urna ahora es estático , pero esta mayor simplicidad se compensa con el supuesto de que el contenido de la urna ahora es desconocido para un observador. Se puede realizar un análisis bayesiano de la incertidumbre del observador sobre el contenido inicial de la urna, utilizando una elección particular de distribución previa (conjugada). Específicamente, supongamos que un observador sabe que la urna contiene solo bolas idénticas, cada una de color negro o blanco, pero no conoce el número absoluto de bolas presentes, ni la proporción de las que son de cada color. Supongamos que tienen creencias previas acerca de estas incógnitas: para ellos, la distribución de probabilidad del contenido de la urna se aproxima bien mediante alguna distribución previa para el número total de bolas en la urna, y una distribución previa beta con parámetros (x, y) para la proporción inicial de estas que son negras, proporción que (para ellos) se considera aproximadamente independiente del número total. Entonces, el proceso de resultados de una sucesión de extracciones de la urna (con reemplazo pero sin duplicación) tiene aproximadamente la misma ley de probabilidad que el esquema de Pólya anterior en el que no se les ocultó el contenido real de la urna. El error de aproximación aquí se relaciona con el hecho de que una urna que contiene un número finito conocido m de bolas, por supuesto, no puede tener una proporción desconocida con una distribución beta exacta de bolas negras, ya que el dominio de los valores posibles para esa proporción se limita a ser múltiplos de , en lugar de tener la libertad total de asumir cualquier valor en el intervalo unitario continuo, como lo haría una proporción con una distribución beta exacta . Esta explicación ligeramente informal se proporciona por razones de motivación y se puede hacer más precisa matemáticamente.
Este modelo básico de urna Pólya se ha generalizado de muchas maneras.
Distribuciones relacionadas con la urna Pólya
- distribución beta-binomial : distribución del número de extracciones exitosas (ensayos), por ejemplo, número de extracciones de bola blanca, dadas las extracciones de una urna Pólya.
- Distribución binomial beta negativa : distribución del número de bolas blancas observadas hasta que se observa un número fijo de bolas negras.
- Distribución multinomial de Dirichlet (también conocida como distribución Pólya multivariada ): distribución del número de bolas de cada color, dadas las extracciones de una urna Pólya donde hay diferentes colores en lugar de solo dos.
- Distribución multinomial negativa de Dirichlet : distribución del número de bolas de cada color hasta que se observa un número fijo de bolas de colores que se detienen.
- Martingalas , distribución Beta-binomial y distribución beta : Sean w y b el número de bolas blancas y negras inicialmente en la urna, y el número de bolas blancas actualmente en la urna después de n extracciones. Entonces la secuencia de valores para es una versión normalizada de la distribución Beta-binomial . Es una martingala y converge a la distribución beta cuando n → ∞.
- Proceso de Dirichlet , proceso de restaurante chino , urna de Hoppe : Imaginemos un esquema de urna Pólya modificado de la siguiente manera. Empezamos con una urna con bolas negras. Al sacar una bola de la urna, si sacamos una bola negra, volvemos a poner la bola junto con una nueva bola de un nuevo color no negro generado aleatoriamente a partir de una distribución uniforme sobre un conjunto infinito de colores disponibles, y consideramos que el color recién generado es el "valor" de la extracción. De lo contrario, volvemos a poner la bola junto con otra bola del mismo color, como para el esquema de urna Pólya estándar. Los colores de una secuencia infinita de extracciones de este esquema de urna Pólya modificado siguen un proceso de restaurante chino . Si, en lugar de generar un nuevo color, sacamos un valor aleatorio de una distribución base dada y usamos ese valor para etiquetar la bola, las etiquetas de una secuencia infinita de extracciones siguen un proceso de Dirichlet . [1]
- Modelo de Moran : modelo de urna utilizado para modelar la deriva genética en la genética de poblaciones teórica . Es muy similar al modelo de urna de Pólya, excepto que, además de agregar una nueva bola del mismo color, se retira una bola extraída al azar de la urna. De esta manera, el número de bolas en la urna permanece constante. El muestreo continuo conduce finalmente a una urna con todas las bolas de un color, siendo la probabilidad de cada color la proporción de ese color en la urna original. Hay variantes del modelo de Moran que insisten en que la bola extraída de la urna sea una bola diferente de una muestreada originalmente en ese paso, y variantes que realizan la extracción de una bola inmediatamente después de colocar la nueva bola en la urna, de modo que la nueva bola sea una de las bolas disponibles para ser extraída. Esto hace una pequeña diferencia en el tiempo que se tarda en alcanzar el estado en el que todas las bolas son del mismo color. El proceso de Moran modela la deriva genética en una población con generaciones superpuestas.
Intercambiabilidad
La urna de Polya es un ejemplo por excelencia de un proceso intercambiable .
Supongamos que tenemos una urna que contiene bolas blancas y bolas negras. Procedemos a extraer bolas al azar de la urna. En la extracción -ésima, definimos una variable aleatoria, , por si la bola es negra y en caso contrario. Luego devolvemos la bola a la urna, con una bola adicional del mismo color. Para un , si tenemos que para muchos , entonces es más probable que , porque se han agregado más bolas negras a la urna. Por lo tanto, estas variables no son independientes entre sí.
Sin embargo, la secuencia exhibe la propiedad más débil de intercambiabilidad. [2] Recordemos que una secuencia (finita o infinita) de variables aleatorias se denomina intercambiable si su distribución conjunta es invariante bajo permutaciones de índices.
Para demostrar la intercambiabilidad de la secuencia , supongamos que se sacan bolas de la urna y, de estas bolas, hay bolas negras y blancas. En la primera extracción, el número de bolas en la urna es ; en la segunda extracción, es , y así sucesivamente. En la extracción -ésima, el número de bolas será . La probabilidad de que extraigamos primero todas las bolas negras y luego todas las bolas blancas está dada por
Ahora debemos demostrar que si se permuta el orden de las bolas blancas y negras, no hay cambios en la probabilidad. Como en la expresión anterior, incluso después de permutar las extracciones, el denominador n siempre será , ya que este es el número de bolas en la urna en esa ronda.
Si vemos la -ésima bola negra en la ronda , la probabilidad será igual a , es decir, el numerador será igual a . Con el mismo argumento, podemos calcular la probabilidad para bolas blancas. Por lo tanto, para cualquier secuencia en la que ocurre veces y ocurre veces (es decir, una secuencia con bolas negras y bolas blancas extraídas en algún orden) la probabilidad final será igual a la siguiente expresión, donde aprovechamos la conmutatividad de la multiplicación en el numerador: Esta probabilidad no está relacionada con el orden de aparición de las bolas blancas y negras y solo depende del número total de bolas blancas y del número total de bolas negras. [2]
Según el teorema de De Finetti , debe haber una distribución previa única tal que la distribución conjunta de la observación de la secuencia sea una mezcla bayesiana de las probabilidades de Bernoulli. Se puede demostrar que esta distribución previa es una distribución beta con parámetros . En el teorema de De Finetti, si reemplazamos por , entonces obtenemos la ecuación anterior: [2]
En esta ecuación .
Véase también
Referencias
- ^ Hoppe, Fred (1984). "Urnas tipo Pólya y la fórmula de muestreo de Ewens". Journal of Mathematical Biology . 20 : 91. doi :10.1007/BF00275863. hdl : 2027.42/46944 . S2CID 122994288.
- ^ abc Hoppe, Fred M (1984). "Urnas tipo Polya y la fórmula de muestreo de Ewens". Revista de biología matemática . 20 (1): 91–94. doi :10.1007/bf00275863. hdl : 2027.42/46944 . ISSN 0303-6812. S2CID 122994288.[ enlace muerto ]
Lectura adicional
- Eggenberger, F.; Polia, G. (1923). "Über die Statistik verketteter Vorgänge". Z. Angew. Matemáticas. Mec . 3 (4): 2379–289. doi :10.1002/zamm.19230030407.
- Alajaji, F.; Fuja, T. (1994). "Un canal de comunicación modelado sobre el contagio". IEEE Transactions on Information Theory . 40 : 2035–2041. doi :10.1109/18.340476. hdl : 1903/5422 .
- Banerjee, A.; Burlina, P.; Alajaji, F. (1999). "Segmentación y etiquetado de imágenes utilizando el modelo de urna de Pólya". IEEE Transactions on Image Processing . 8 (9): 1243–1253. doi :10.1109/83.784436.
Bibliografía
- NL Johnson y S. Kotz, (1977) "Modelos de urnas y su aplicación". John Wiley.
- Hosam Mahmoud, (2008) "Modelos de urnas Pólya". Chapman y Hall/CRC. ISBN 978-1420059830 .