stringtranslate.com

Modelo de urna Pólya

En estadística , un modelo de urna de Pólya (también conocido como esquema de urna de Pólya o simplemente como urna de Pólya ), llamado así por George Pólya , es una familia de modelos de urna que se pueden utilizar para interpretar muchos modelos estadísticos de uso común .

El modelo representa objetos de interés (como átomos, personas, automóviles, etc.) como bolas de colores en una urna . En el modelo básico de urna de Pólya, el experimentador coloca x bolas blancas e y bolas negras en una urna. En cada paso, se extrae una bola de la urna de manera uniforme y aleatoria y se observa su color; luego se devuelve a la urna y se agrega una bola adicional del mismo color a la urna.

Si por casualidad se extraen más bolas negras que blancas en las primeras extracciones, es más probable que se extraigan más bolas negras más adelante. Lo mismo ocurre con las bolas blancas. Por tanto, la urna tiene una propiedad de autorreforzamiento (" los ricos se hacen más ricos "). Es lo opuesto al muestreo sin reemplazo , donde cada vez que se observa un valor particular, es menos probable que se vuelva a observar, mientras que en un modelo de urna de Pólya, es más probable que se vuelva a observar un valor observado. En un modelo de urna de Pólya, los actos sucesivos de medición a lo largo del tiempo tienen cada vez menos efecto sobre las mediciones futuras, mientras que en el muestreo sin reemplazo, ocurre lo contrario: después de un cierto número de mediciones de un valor particular, ese valor nunca volverá a verse.

También es diferente del muestreo con reposición, en el que la bola se devuelve a la urna pero sin añadir bolas nuevas. En este caso no hay autorreforzamiento ni antiautorreforzamiento.

Resultados básicos

Las cuestiones de interés son la evolución de la población de urnas y la secuencia de colores de las bolas extraídas.

Después de los sorteos, la probabilidad de que la urna contenga bolas blancas y negras (para ) es donde la barra superior denota factorial ascendente . Esto se puede demostrar dibujando el triángulo de Pascal de todas las configuraciones posibles.

En particular, comenzando con una bola blanca y una negra (es decir, ), la probabilidad de tener cualquier número de bolas blancas en la urna después de los sorteos es la misma, .

De manera más general, si la urna comienza con bolas de color , con , entonces después de los sorteos, la probabilidad de que la urna contenga bolas de color es donde usamos el coeficiente multinomial .

Si se da por sentado que la urna terminará con bolas de color después de los sorteos, existen diferentes trayectorias que podrían haber llevado a ese estado final. La probabilidad condicional de cada trayectoria es la misma: .

Interpretación

Una de las razones del interés en este modelo de urna particular, bastante elaborado (es decir, con duplicación y luego reemplazo de cada bola extraída) es que proporciona un ejemplo en el que el recuento (inicialmente x negras e y blancas) de bolas en la urna no está oculto, lo que puede aproximar la actualización correcta de las probabilidades subjetivas apropiadas para un caso diferente en el que el contenido original de la urna está oculto mientras se realiza un muestreo ordinario con reemplazo (sin la duplicación de bolas de Pólya). Debido al esquema simple de "muestreo con reemplazo" en este segundo caso, el contenido de la urna ahora es estático , pero esta mayor simplicidad se compensa con el supuesto de que el contenido de la urna ahora es desconocido para un observador. Se puede realizar un análisis bayesiano de la incertidumbre del observador sobre el contenido inicial de la urna, utilizando una elección particular de distribución previa (conjugada). Específicamente, supongamos que un observador sabe que la urna contiene solo bolas idénticas, cada una de color negro o blanco, pero no conoce el número absoluto de bolas presentes, ni la proporción de las que son de cada color. Supongamos que tienen creencias previas acerca de estas incógnitas: para ellos, la distribución de probabilidad del contenido de la urna se aproxima bien mediante alguna distribución previa para el número total de bolas en la urna, y una distribución previa beta con parámetros (x, y) para la proporción inicial de estas que son negras, proporción que (para ellos) se considera aproximadamente independiente del número total. Entonces, el proceso de resultados de una sucesión de extracciones de la urna (con reemplazo pero sin duplicación) tiene aproximadamente la misma ley de probabilidad que el esquema de Pólya anterior en el que no se les ocultó el contenido real de la urna. El error de aproximación aquí se relaciona con el hecho de que una urna que contiene un número finito conocido m de bolas, por supuesto, no puede tener una proporción desconocida con distribución beta exacta de bolas negras, ya que el dominio de los valores posibles para esa proporción se limita a ser múltiplos de , en lugar de tener la libertad total de asumir cualquier valor en el intervalo unitario continuo, como lo haría una proporción con distribución beta exacta . Esta explicación ligeramente informal se proporciona por razones de motivación y se puede hacer más precisa matemáticamente.

Este modelo básico de urna Pólya se ha generalizado de muchas maneras.

Distribuciones relacionadas con la urna Pólya

Intercambiabilidad

La urna de Polya es un ejemplo por excelencia de un proceso intercambiable .

Supongamos que tenemos una urna que contiene bolas blancas y bolas negras. Procedemos a extraer bolas al azar de la urna. En la extracción -ésima, definimos una variable aleatoria, , por si la bola es negra y en caso contrario. Luego devolvemos la bola a la urna, con una bola adicional del mismo color. Para un , si tenemos que para muchos , entonces es más probable que , porque se han agregado más bolas negras a la urna. Por lo tanto, estas variables no son independientes entre sí.

Sin embargo, la secuencia exhibe la propiedad más débil de intercambiabilidad. [2] Recordemos que una secuencia (finita o infinita) de variables aleatorias se denomina intercambiable si su distribución conjunta es invariante bajo permutaciones de índices.

Para demostrar la intercambiabilidad de la secuencia , supongamos que se sacan bolas de la urna y, de estas bolas, hay bolas negras y blancas. En la primera extracción, el número de bolas en la urna es ; en la segunda extracción, es , y así sucesivamente. En la extracción -ésima, el número de bolas será . La probabilidad de que extraigamos primero todas las bolas negras y luego todas las bolas blancas está dada por

Ahora debemos demostrar que si se permuta el orden de las bolas blancas y negras, no hay cambios en la probabilidad. Como en la expresión anterior, incluso después de permutar las extracciones, el denominador n siempre será , ya que este es el número de bolas en la urna en esa ronda.

Si vemos la -ésima bola negra en la ronda , la probabilidad será igual a , es decir, el numerador será igual a . Con el mismo argumento, podemos calcular la probabilidad para bolas blancas. Por lo tanto, para cualquier secuencia en la que ocurre veces y ocurre veces (es decir, una secuencia con bolas negras y bolas blancas extraídas en algún orden) la probabilidad final será igual a la siguiente expresión, donde aprovechamos la conmutatividad de la multiplicación en el numerador: Esta probabilidad no está relacionada con el orden de aparición de las bolas negras y blancas y solo depende del número total de bolas blancas y del número total de bolas negras. [2]

Según el teorema de De Finetti , debe haber una distribución previa única tal que la distribución conjunta de la observación de la secuencia sea una mezcla bayesiana de las probabilidades de Bernoulli. Se puede demostrar que esta distribución previa es una distribución beta con parámetros . En el teorema de De Finetti, si reemplazamos por , entonces obtenemos la ecuación anterior: [2] En esta ecuación .

Véase también

Referencias

  1. ^ Hoppe, Fred (1984). "Urnas tipo Pólya y la fórmula de muestreo de Ewens". Journal of Mathematical Biology . 20 : 91. doi :10.1007/BF00275863. hdl : 2027.42/46944 . S2CID  122994288.
  2. ^ abc Hoppe, Fred M (1984). "Urnas tipo Polya y la fórmula de muestreo de Ewens". Revista de biología matemática . 20 (1): 91–94. doi :10.1007/bf00275863. hdl : 2027.42/46944 . ISSN  0303-6812. S2CID  122994288.[ enlace muerto ]

Lectura adicional

Bibliografía