stringtranslate.com

Distribución hipergeométrica

En teoría de la probabilidad y estadística , la distribución hipergeométrica es una distribución de probabilidad discreta que describe la probabilidad de éxito (sorteos aleatorios para los cuales el objeto dibujado tiene una característica específica) en sorteos, sin reemplazo, de una población finita de tamaño que contiene exactamente objetos con esa característica, en la que cada sorteo es un éxito o un fracaso. Por el contrario, la distribución binomial describe la probabilidad de éxito en empates con reposición.

Definiciones

Función de probabilidad

Las siguientes condiciones caracterizan la distribución hipergeométrica:

Una variable aleatoria sigue la distribución hipergeométrica si su función de masa de probabilidad (pmf) está dada por [1]

dónde

La pmf es positiva cuando .

Una variable aleatoria distribuida hipergeométricamente con parámetros , y está escrita y tiene una función de masa de probabilidad arriba.

Identidades combinatorias

Según sea necesario, tenemos

que esencialmente se deriva de la identidad de Vandermonde de la combinatoria .

También tenga en cuenta que

Esta identidad se puede demostrar expresando los coeficientes binomiales en términos de factoriales y reordenando estos últimos. Además, se desprende de la simetría del problema, descrito de dos maneras diferentes pero intercambiables.

Por ejemplo, considere dos rondas de sorteo sin reemplazo. En la primera ronda, se extraen canicas neutras de una urna sin reemplazo y de color verde. Luego se vuelven a colocar las canicas de colores. En la segunda ronda, las canicas se extraen sin reemplazo y se colorean de rojo. Entonces, la cantidad de canicas que tienen ambos colores (es decir, la cantidad de canicas que se han extraído dos veces) tiene la distribución hipergeométrica. La simetría en y surge del hecho de que las dos rondas son independientes, y uno podría haber comenzado dibujando bolas y coloreándolas de rojo primero.

Tenga en cuenta que nos interesa la probabilidad de éxito en los sorteos sin reemplazo , ya que la probabilidad de éxito en cada intento no es la misma, ya que el tamaño de la población restante cambia a medida que retiramos cada canica. Hay que tener en cuenta no confundir con la distribución binomial , que describe la probabilidad de éxito en empates con reposición.

Propiedades

Ejemplo de trabajo

La aplicación clásica de la distribución hipergeométrica es el muestreo sin reemplazo . Piensa en una urna con canicas de dos colores , roja y verde. Defina sacar una canica verde como un éxito y sacar una canica roja como un fracaso. Deje que N describa el número de todas las canicas en la urna (consulte la tabla de contingencia a continuación) y K describa el número de canicas verdes , luego N  −  K corresponde al número de canicas rojas . Ahora, de pie junto a la urna, cierras los ojos y sacas n canicas sin reemplazo. Defina X como una variable aleatoria cuyo resultado es k , el número de canicas verdes extraídas en el experimento. Esta situación se ilustra en la siguiente tabla de contingencia :

De hecho, estamos interesados ​​en calcular la probabilidad de sacar k canicas verdes en n sorteos, dado que hay K canicas verdes de un total de N canicas. Para este ejemplo, supongamos que hay 5 canicas verdes y 45 rojas en la urna. De pie junto a la urna, cierras los ojos y sacas 10 canicas sin reposición. ¿Cuál es la probabilidad de que exactamente 4 de los 10 sean verdes?

Este problema se resume en la siguiente tabla de contingencia:

Para encontrar la probabilidad de sacar k canicas verdes exactamente en n sorteos de un total de N sorteos , identificamos X como una variable aleatoria hipergeométrica para usar la fórmula

Para explicar intuitivamente la fórmula dada, considere los dos problemas simétricos representados por la identidad

  1. lado izquierdo: sacando un total de sólo n canicas de la urna. Queremos encontrar la probabilidad del resultado de sacar k canicas verdes de un total de K canicas verdes y sacar nk canicas rojas de NK canicas rojas, en estas n rondas.
  2. lado derecho - alternativamente, sacar todas las N canicas de la urna. Queremos encontrar la probabilidad del resultado de sacar k canicas verdes en n sorteos del total de N sorteos, y Kk canicas verdes en el resto de Nn sorteos.

Volviendo a los cálculos, usamos la fórmula anterior para calcular la probabilidad de sacar exactamente k canicas verdes.

Intuitivamente esperaríamos que fuera aún más improbable que las 5 canicas verdes estuvieran entre las 10 extraídas.

Como era de esperar, la probabilidad de sacar 5 canicas verdes es aproximadamente 35 veces menor que la de sacar 4.

Simetrías

Intercambiando los roles de las canicas verdes y rojas:

Intercambiando los roles de las canicas extraídas y no extraídas:

Intercambiando los roles de las canicas verdes y dibujadas:

Estas simetrías generan el grupo diédrico .

Orden de sorteos

La probabilidad de sacar cualquier conjunto de canicas verdes y rojas (la distribución hipergeométrica) depende sólo del número de canicas verdes y rojas, no del orden en que aparecen; es decir, es una distribución intercambiable . Como resultado, la probabilidad de sacar una canica verde en el sorteo es [2]

Esta es una probabilidad ex ante , es decir, se basa en no conocer los resultados de los sorteos anteriores.

límites de cola

Deja y . Entonces podemos derivar los siguientes límites: [3]

dónde

es la divergencia Kullback-Leibler y se utiliza para ello . [4]

Nota : Para derivar los límites anteriores, hay que comenzar observando que son variables aleatorias dependientes con una distribución específica . Debido a que la mayoría de los teoremas sobre límites en la suma de variables aleatorias se refieren a secuencias independientes de ellas, primero hay que crear una secuencia de variables aleatorias independientes con la misma distribución y aplicar los teoremas en . Luego, Hoeffding [3] demuestra que los resultados y límites obtenidos mediante este proceso también son válidos .

Si n es mayor que N /2, puede resultar útil aplicar simetría para "invertir" los límites, lo que da lo siguiente: [4] [5]

Inferencia estadística

Prueba hipergeométrica

La prueba hipergeométrica utiliza la distribución hipergeométrica para medir la significancia estadística de haber extraído una muestra que consta de un número específico de éxitos (del total de sorteos) de una población de tamaño que contiene éxitos. En una prueba de sobrerrepresentación de éxitos en la muestra, el valor p hipergeométrico se calcula como la probabilidad de obtener al azar o más éxitos de la población en el total de sorteos. En una prueba de subrepresentación, el valor p es la probabilidad de obtener al azar o menos éxitos.

El biólogo y estadístico Ronald Fisher

La prueba basada en la distribución hipergeométrica (prueba hipergeométrica) es idéntica a la versión correspondiente de una cola de la prueba exacta de Fisher . [6] Recíprocamente, el valor p de una prueba exacta de Fisher bilateral se puede calcular como la suma de dos pruebas hipergeométricas apropiadas (para obtener más información, consulte [7] ).

La prueba se utiliza a menudo para identificar qué subpoblaciones están sobrerrepresentadas o subrepresentadas en una muestra. Esta prueba tiene una amplia gama de aplicaciones. Por ejemplo, un grupo de marketing podría utilizar la prueba para comprender su base de clientes probando un conjunto de clientes conocidos para detectar una representación excesiva de varios subgrupos demográficos (por ejemplo, mujeres, personas menores de 30 años).

Distribuciones relacionadas

Deja y .

¿Dónde está la función de distribución normal estándar?

La siguiente tabla describe cuatro distribuciones relacionadas con el número de éxitos en una secuencia de sorteos:

Distribución hipergeométrica multivariada

El modelo de urna con canicas verdes y rojas se puede extender al caso en el que existan más de dos colores de canicas. Si hay K i canicas de color i en la urna y se toman n canicas al azar sin reemplazo, entonces el número de canicas de cada color en la muestra ( k 1 , k 2 ,..., k c ) tiene el valor multivariado distribución hipergeométrica:

Esto tiene la misma relación con la distribución multinomial que la distribución hipergeométrica tiene con la distribución binomial: la distribución multinomial es la distribución "con reemplazo" y la hipergeométrica multivariada es la distribución "sin reemplazo".

Las propiedades de esta distribución se dan en la tabla adyacente, [8] donde c es el número de colores diferentes y es el número total de canicas en la urna.

Ejemplo

Supongamos que hay 5 canicas negras, 10 blancas y 15 rojas en una urna. Si se eligen seis canicas sin reemplazo, la probabilidad de que se elijan exactamente dos de cada color es

Ocurrencia y aplicaciones

Solicitud para auditar elecciones

Muestras utilizadas para auditorías electorales y la posibilidad resultante de pasar por alto un problema

Las auditorías electorales generalmente prueban una muestra de distritos electorales contados por máquina para ver si los recuentos hechos a mano o por máquina coinciden con los conteos originales. Las discrepancias dan lugar a un informe o a un recuento mayor. Las tasas de muestreo generalmente están definidas por la ley, no por el diseño estadístico, por lo que para un tamaño de muestra n definido legalmente , ¿cuál es la probabilidad de pasar por alto un problema que está presente en K recintos, como un hack o un error? Esta es la probabilidad de que k = 0. Los errores suelen ser oscuros y un hacker puede minimizar la detección afectando sólo a unos pocos distritos electorales, lo que seguirá afectando las elecciones cerradas, por lo que un escenario plausible es que K sea del orden del 5% de N. Las auditorías generalmente cubren del 1% al 10% de los distritos (a menudo el 3%), [9] [10] [11] por lo que tienen una alta probabilidad de pasar por alto un problema. Por ejemplo, si un problema está presente en 5 de 100 distritos, una muestra del 3% tiene un 86% de probabilidad de que k = 0, por lo que el problema no se notará, y solo un 14% de probabilidad de que el problema aparezca en la muestra ( k positivo ) :

La muestra necesitaría 45 distritos para tener una probabilidad inferior al 5% de que k  = 0 en la muestra y, por lo tanto, tener una probabilidad superior al 95% de encontrar el problema:

Aplicación al póquer Texas Hold'em

En el poker Hold'em , los jugadores hacen la mejor mano posible combinando las dos cartas de su mano con las 5 cartas (cartas comunitarias) que finalmente aparecen sobre la mesa. La baraja tiene 52 y hay 13 de cada palo. Para este ejemplo, supongamos que un jugador tiene 2 tréboles en la mano y hay 3 cartas en la mesa, 2 de las cuales también son tréboles. Al jugador le gustaría saber la probabilidad de que una de las siguientes 2 cartas que se muestran sea un trébol para completar el color .
(Tenga en cuenta que la probabilidad calculada en este ejemplo supone que no se conoce información sobre las cartas en las manos de los otros jugadores; sin embargo, los jugadores de póquer experimentados pueden considerar cómo los otros jugadores hacen sus apuestas (pasar, igualar, subir o retirarse) al considerar la probabilidad para cada escenario Estrictamente hablando, el enfoque para calcular las probabilidades de éxito descrito aquí es preciso en un escenario donde hay solo un jugador en la mesa en un juego multijugador, esta probabilidad podría ajustarse de alguna manera según las apuestas de los oponentes; .)

Se muestran 4 clubes, por lo que aún quedan 9 clubes sin ver. Se muestran 5 cartas (2 en la mano y 3 en la mesa), por lo que aún no se ven.

La probabilidad de que una de las siguientes dos cartas volteadas sea un trébol se puede calcular usando hipergeometría con y . (alrededor del 31,64%)

La probabilidad de que las siguientes dos cartas volteadas sean tréboles se puede calcular usando hipergeometría con y . (alrededor del 3,33%)

La probabilidad de que ninguna de las siguientes dos cartas volteadas sean tréboles se puede calcular usando hipergeometría con y . (alrededor del 65,03%)

Aplicación al Keno

La distribución hipergeométrica es indispensable para calcular las probabilidades de Keno . En Keno, se extraen 20 bolas al azar de una colección de 80 bolas numeradas en un contenedor, algo así como el bingo americano . Antes de cada sorteo, un jugador selecciona un número determinado de puestos marcando un formulario en papel suministrado a tal efecto. Por ejemplo, un jugador puede jugar un juego de 6 puntos marcando 6 números, cada uno de un rango del 1 al 80 inclusive. Luego (después de que todos los jugadores hayan llevado sus formularios al cajero, se les haya entregado un duplicado del formulario marcado y hayan pagado su apuesta), se extraen 20 bolas. Algunas de las bolas extraídas pueden coincidir con algunas o todas las bolas seleccionadas por el jugador. En términos generales, cuantos más aciertos (bolas extraídas que coincidan con los números de los jugadores seleccionados), mayor será la recompensa.

Por ejemplo, si un cliente apuesta ("juega") $1 por un 6-spot (un ejemplo no poco común) y acierta 4 de los 6, el casino pagaría $4. Los pagos pueden variar de un casino a otro, pero $4 es un valor típico aquí. La probabilidad de este evento es:

De manera similar, la posibilidad de alcanzar 5 lugares de 6 seleccionados es mientras que un pago típico podría ser de $88. El pago por acertar los 6 sería de alrededor de $1500 (probabilidad ≈ 0,000128985 o 7752 a 1). El único otro pago distinto de cero podría ser $1 por acertar 3 números (es decir, recuperarás tu apuesta), lo que tiene una probabilidad cercana a 0,129819548.

Tomando la suma de los productos de los pagos por las probabilidades correspondientes, obtenemos un rendimiento esperado de 0,70986492 o aproximadamente el 71% para un 6-spot, para una ventaja de la casa del 29%. Otros anuncios jugados tienen un rendimiento esperado similar. Este rendimiento tan pobre (para el jugador) suele explicarse por los grandes gastos generales (espacio, equipamiento, personal) necesarios para el juego.

Ver también

Referencias

Citas

  1. ^ Arroz, John A. (2007). Estadística Matemática y Análisis de Datos (Tercera ed.). Prensa de Duxbury. pag. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ URL básica PDF ]
  3. ^ ab Hoeffding, Wassily (1963), "Desigualdades de probabilidad para sumas de variables aleatorias acotadas" (PDF) , Revista de la Asociación Estadounidense de Estadística , 58 (301): 13–30, doi :10.2307/2282952, JSTOR  2282952.
  4. ^ ab "Otra cola de la distribución hipergeométrica". wordpress.com . 8 de diciembre de 2015 . Consultado el 19 de marzo de 2018 .
  5. ^ Serfling, Robert (1974), "Desigualdades de probabilidad para la suma en muestreo sin reemplazo", The Annals of Statistics , 2 (1): 39–48, doi : 10.1214/aos/1176342611.
  6. ^ Rivales, yo; Personnaz, L.; Taing, L.; Potier, M.-C (2007). "Enriquecimiento o agotamiento de una categoría GO dentro de una clase de genes: ¿qué prueba?". Bioinformática . 23 (4): 401–407. doi : 10.1093/bioinformática/btl633 . PMID  17182697.
  7. ^ K. Preacher y N. Briggs. "Cálculo de la prueba exacta de Fisher: una herramienta de cálculo interactiva para la prueba de probabilidad exacta de Fisher para tablas 2 x 2 (página interactiva)".
  8. ^ Duan, XG "Mejor comprensión de la distribución hipergeométrica multivariada con implicaciones en el muestreo de encuestas basado en diseño". Preimpresión de arXiv arXiv:2101.00548 (2021). (pdf)
  9. ^ Glazer, Amanda; Spertus, Jacob (10 de febrero de 2020) [8 de marzo de 2020]. Comience a difundir la noticia: la auditoría postelectoral de Nueva York tiene fallas importantes (documento técnico). Elsevier. doi :10.2139/ssrn.3536011. SSRN  3536011. SSRN 3536011 . Consultado el 4 de diciembre de 2023 , a través de SSRN.com.
  10. ^ "Leyes de auditoría estatal". Votación verificada . 10 de febrero de 2017 . Consultado el 2 de abril de 2018 .
  11. ^ "Auditorías postelectorales". ncsl.org . Conferencia Nacional de Legislaturas Estatales . Consultado el 2 de abril de 2018 .

Fuentes

enlaces externos