stringtranslate.com

Distribución hipergeométrica

En teoría de probabilidad y estadística , la distribución hipergeométrica es una distribución de probabilidad discreta que describe la probabilidad de éxitos (extracciones aleatorias en las que el objeto extraído tiene una característica específica) en extracciones, sin reemplazo, de una población finita de tamaño que contiene exactamente objetos con esa característica, donde cada extracción es un éxito o un fracaso. Por el contrario, la distribución binomial describe la probabilidad de éxitos en extracciones con reemplazo.

Definiciones

Función de masa de probabilidad

Las siguientes condiciones caracterizan la distribución hipergeométrica:

Una variable aleatoria sigue la distribución hipergeométrica si su función de masa de probabilidad (pmf) está dada por [1]

dónde

La función de masa de probabilidad es positiva cuando .

Una variable aleatoria distribuida hipergeométricamente con parámetros , y se escribe y tiene función de masa de probabilidad arriba.

Identidades combinatorias

Según sea necesario, tenemos

lo cual se desprende esencialmente de la identidad de Vandermonde a partir de la combinatoria .

Tenga en cuenta también que

Esta identidad se puede demostrar expresando los coeficientes binomiales en términos de factoriales y reordenando estos últimos. Además, se deduce de la simetría del problema, descrita de dos maneras diferentes pero intercambiables.

Por ejemplo, considere dos rondas de extracción sin reposición. En la primera ronda, se extraen de una urna canicas neutrales sin reposición y se colorean de verde. Luego, se devuelven las canicas de color. En la segunda ronda, se extraen canicas sin reposición y se colorean de rojo. Entonces, el número de canicas con ambos colores (es decir, el número de canicas que se han extraído dos veces) tiene la distribución hipergeométrica. La simetría en y se deriva del hecho de que las dos rondas son independientes, y uno podría haber comenzado extrayendo bolas y coloreándolas primero de rojo.

Nótese que nos interesa la probabilidad de éxito en los sorteos sin reposición , ya que la probabilidad de éxito en cada ensayo no es la misma, ya que el tamaño de la población restante cambia a medida que retiramos cada canica. Recuerde no confundir con la distribución binomial , que describe la probabilidad de éxito en los sorteos con reposición.

Propiedades

Ejemplo de trabajo

La aplicación clásica de la distribución hipergeométrica es el muestreo sin reemplazo . Piense en una urna con dos colores de canicas , roja y verde. Defina sacar una canica verde como un éxito y sacar una canica roja como un fracaso. Sea N el número de todas las canicas en la urna (vea la tabla de contingencia a continuación) y K el número de canicas verdes , entonces N  −  K corresponde al número de canicas rojas . Ahora, de pie junto a la urna, cierra los ojos y saca n canicas sin reemplazo. Defina X como una variable aleatoria cuyo resultado es k , el número de canicas verdes extraídas en el experimento. Esta situación se ilustra con la siguiente tabla de contingencia :

De hecho, nos interesa calcular la probabilidad de sacar k canicas verdes en n extracciones, dado que hay K canicas verdes de un total de N canicas. Para este ejemplo, supongamos que hay 5 canicas verdes y 45 rojas en la urna. De pie junto a la urna, cierras los ojos y sacas 10 canicas sin reposición. ¿Cuál es la probabilidad de que exactamente 4 de las 10 sean verdes?

Este problema se resume en la siguiente tabla de contingencia:

Para encontrar la probabilidad de sacar k canicas verdes en exactamente n extracciones de un total de N extracciones , identificamos a X como una variable aleatoria hipergeométrica para utilizar la fórmula

Para explicar intuitivamente la fórmula dada, considere los dos problemas simétricos representados por la identidad

  1. Lado izquierdo: se extraen de la urna solo n canicas en total. Queremos hallar la probabilidad de obtener k canicas verdes de un total de K canicas verdes y nk canicas rojas de un total de NK canicas rojas en estas n rondas.
  2. lado derecho - alternativamente, sacar todas las N canicas de la urna. Queremos encontrar la probabilidad del resultado de sacar k canicas verdes en n extracciones de las N extracciones totales, y Kk canicas verdes en las Nn extracciones restantes.

Volviendo a los cálculos, utilizamos la fórmula anterior para calcular la probabilidad de sacar exactamente k canicas verdes.

Intuitivamente, esperaríamos que fuera aún más improbable que las 5 canicas verdes estuvieran entre las 10 extraídas.

Como era de esperar, la probabilidad de sacar 5 canicas verdes es aproximadamente 35 veces menor que la de sacar 4.

Simetrías

Intercambiando los roles de las canicas verdes y rojas:

Intercambiando los roles de las canicas extraídas y las no extraídas:

Intercambiando los roles de las canicas verdes y dibujadas:

Estas simetrías generan el grupo diedro .

Orden de sorteos

La probabilidad de sacar cualquier conjunto de canicas verdes y rojas (distribución hipergeométrica) depende únicamente de la cantidad de canicas verdes y rojas, no del orden en que aparecen; es decir, es una distribución intercambiable . Como resultado, la probabilidad de sacar una canica verde en el sorteo es [2]

Esta es una probabilidad ex ante , es decir, se basa en no conocer los resultados de los sorteos anteriores.

Límites de cola

Sea y . Entonces, para podemos derivar los siguientes límites: [3]

dónde

es la divergencia de Kullback-Leibler y se utiliza que . [4]

Nota : Para derivar los límites anteriores, hay que empezar observando que donde son variables aleatorias dependientes con una distribución específica . Como la mayoría de los teoremas sobre límites en la suma de variables aleatorias se refieren a secuencias independientes de ellas, primero hay que crear una secuencia de variables aleatorias independientes con la misma distribución y aplicar los teoremas a . Luego, se demuestra a partir de Hoeffding [3] que los resultados y límites obtenidos mediante este proceso también son válidos para .

Si n es mayor que N /2, puede ser útil aplicar simetría para "invertir" los límites, lo que da lo siguiente: [4] [5]

Inferencia estadística

Prueba hipergeométrica

La prueba hipergeométrica utiliza la distribución hipergeométrica para medir la significancia estadística de haber extraído una muestra que consta de un número específico de éxitos (de un total de extracciones) de una población de tamaño que contiene éxitos. En una prueba de sobrerrepresentación de éxitos en la muestra, el valor p hipergeométrico se calcula como la probabilidad de extraer aleatoriamente o más éxitos de la población en el total de extracciones. En una prueba de subrepresentación, el valor p es la probabilidad de extraer aleatoriamente o menos éxitos.

El biólogo y estadístico Ronald Fisher

La prueba basada en la distribución hipergeométrica (prueba hipergeométrica) es idéntica a la versión unilateral correspondiente de la prueba exacta de Fisher . [6] Recíprocamente, el valor p de una prueba exacta de Fisher bilateral se puede calcular como la suma de dos pruebas hipergeométricas apropiadas (para obtener más información, consulte [7] ).

La prueba se utiliza a menudo para identificar qué subpoblaciones están sobrerrepresentadas o subrepresentadas en una muestra. Esta prueba tiene una amplia gama de aplicaciones. Por ejemplo, un grupo de marketing podría utilizar la prueba para comprender su base de clientes mediante la prueba de un conjunto de clientes conocidos para determinar la sobrerrepresentación de varios subgrupos demográficos (por ejemplo, mujeres, personas menores de 30 años).

Distribuciones relacionadas

Sea y .

¿Dónde está la función de distribución normal estándar?

La siguiente tabla describe cuatro distribuciones relacionadas con el número de éxitos en una secuencia de sorteos:

Distribución hipergeométrica multivariante

El modelo de una urna con canicas verdes y rojas se puede extender al caso en que haya más de dos colores de canicas. Si hay K i canicas del color i en la urna y se toman n canicas al azar sin reposición, entonces el número de canicas de cada color en la muestra ( k 1 , k 2 ,..., k c ) tiene la distribución hipergeométrica multivariada:

Esto tiene la misma relación con la distribución multinomial que la distribución hipergeométrica tiene con la distribución binomial: la distribución multinomial es la distribución "con reemplazo" y la hipergeométrica multivariada es la distribución "sin reemplazo".

Las propiedades de esta distribución se dan en la tabla adyacente, [8] donde c es el número de colores diferentes y es el número total de canicas en la urna.

Ejemplo

Supongamos que en una urna hay 5 canicas negras, 10 blancas y 15 rojas. Si se eligen seis canicas sin reposición, la probabilidad de que se elijan exactamente dos de cada color es

Ocurrencia y aplicaciones

Aplicación a la auditoría de elecciones

Muestras utilizadas para auditorías electorales y la posibilidad de no detectar un problema

Las auditorías electorales suelen probar una muestra de distritos contados a máquina para ver si los recuentos a mano o a máquina coinciden con los recuentos originales. Las discordancias dan como resultado un informe o un recuento más grande. Las tasas de muestreo generalmente se definen por ley, no por diseño estadístico, por lo que para un tamaño de muestra definido legalmente n , ¿cuál es la probabilidad de pasar por alto un problema presente en K distritos, como un ataque o un error? Esta es la probabilidad de que k = 0. Los errores a menudo son oscuros, y un hacker puede minimizar la detección al afectar solo a unos pocos distritos, lo que aún afectará a elecciones reñidas, por lo que un escenario plausible es que K sea del orden del 5% de N. Las auditorías generalmente cubren entre el 1% y el 10% de los distritos (a menudo el 3%), [9] [10] [11] por lo que tienen una alta probabilidad de pasar por alto un problema. Por ejemplo, si un problema está presente en 5 de 100 distritos, una muestra del 3% tiene un 86% de probabilidad de que k = 0 , por lo que el problema no se notaría, y solo un 14% de probabilidad de que el problema aparezca en la muestra ( k positivo ):

La muestra necesitaría 45 distritos para tener una probabilidad menor del 5% de que k  = 0 en la muestra y, por lo tanto, tener una probabilidad mayor del 95% de encontrar el problema:

Aplicación para el póquer Texas Hold'em

En el póquer Hold'em , los jugadores forman la mejor mano que pueden combinando las dos cartas de su mano con las 5 cartas (cartas comunitarias) que finalmente aparecen sobre la mesa. La baraja tiene 52 y hay 13 de cada palo. Para este ejemplo, supongamos que un jugador tiene 2 tréboles en la mano y hay 3 cartas expuestas sobre la mesa, 2 de las cuales también son tréboles. El jugador desearía saber la probabilidad de que una de las siguientes 2 cartas que se muestren sea un trébol para completar el color .
(Tenga en cuenta que la probabilidad calculada en este ejemplo supone que no se conoce información sobre las cartas en manos de los otros jugadores; sin embargo, los jugadores de póquer experimentados pueden considerar cómo realizan sus apuestas los otros jugadores (pasar, igualar, subir o retirarse) al considerar la probabilidad para cada escenario. Estrictamente hablando, el enfoque para calcular las probabilidades de éxito descritas aquí es preciso en un escenario en el que solo hay un jugador en la mesa; en un juego de varios jugadores, esta probabilidad puede ajustarse un poco en función del juego de apuestas de los oponentes).

Hay 4 tréboles a la vista, por lo que todavía quedan 9 tréboles sin ver. Hay 5 cartas a la vista (2 en la mano y 3 sobre la mesa), por lo que todavía quedan 9 cartas sin ver.

La probabilidad de que una de las dos cartas siguientes sea un trébol se puede calcular utilizando la ecuación hipergeométrica con y (aproximadamente 31,64 %).

La probabilidad de que las dos cartas siguientes que se den vuelta sean tréboles se puede calcular utilizando la ecuación hipergeométrica con y (aproximadamente 3,33 %).

La probabilidad de que ninguna de las dos cartas que se den vuelta a continuación sean tréboles se puede calcular utilizando la ecuación hipergeométrica con y . (aproximadamente 65,03 %).

Solicitud de Keno

La distribución hipergeométrica es indispensable para calcular las probabilidades del Keno . En el Keno, se extraen 20 bolas al azar de una colección de 80 bolas numeradas en un recipiente, de forma similar al Bingo americano . Antes de cada sorteo, un jugador selecciona una cierta cantidad de puntos marcando un formulario de papel proporcionado para este propósito. Por ejemplo, un jugador puede jugar a 6 puntos marcando 6 números, cada uno de un rango de 1 a 80 inclusive. Luego (después de que todos los jugadores hayan llevado sus formularios a un cajero y hayan recibido un duplicado de su formulario marcado, y hayan pagado su apuesta) se extraen 20 bolas. Algunas de las bolas extraídas pueden coincidir con algunas o todas las bolas seleccionadas por el jugador. En términos generales, cuanto más aciertos (bolas extraídas que coincidan con los números seleccionados por el jugador) mayor será el premio.

Por ejemplo, si un cliente apuesta ("juega") $1 por un 6 (un ejemplo bastante común) y acierta 4 de los 6, el casino pagaría $4. Los pagos pueden variar de un casino a otro, pero $4 es un valor típico en este caso. La probabilidad de este evento es:

De manera similar, la probabilidad de acertar 5 de los 6 números seleccionados es de 88 dólares, mientras que el pago típico sería de 1500 dólares (probabilidad ≈ 0,000128985 o 7752 a 1). El único otro pago distinto de cero podría ser de 1 dólar por acertar 3 números (es decir, recuperarías tu apuesta), lo que tiene una probabilidad cercana a 0,129819548.

Si sumamos los productos de los pagos por las probabilidades correspondientes, obtenemos un rendimiento esperado de 0,70986492 o aproximadamente el 71 % para un 6-spot, lo que supone una ventaja de la casa del 29 %. Otros juegos de 6-spot tienen un rendimiento esperado similar. Este rendimiento tan bajo (para el jugador) suele explicarse por los grandes gastos generales (espacio, equipamiento, personal) que requiere el juego.

Véase también

Referencias

Citas

  1. ^ Rice, John A. (2007). Estadística matemática y análisis de datos (tercera edición). Duxbury Press. pág. 42.
  2. ^ http://www.stat.yale.edu/~pollard/Courses/600.spring2010/Handouts/Symmetry%5BPolyaUrn%5D.pdf [ URL desnuda PDF ]
  3. ^ ab Hoeffding, Wassily (1963), "Desigualdades de probabilidad para sumas de variables aleatorias acotadas" (PDF) , Journal of the American Statistical Association , 58 (301): 13–30, doi :10.2307/2282952, JSTOR  2282952.
  4. ^ ab "Otra cola de la distribución hipergeométrica". wordpress.com . 8 de diciembre de 2015 . Consultado el 19 de marzo de 2018 .
  5. ^ Serfling, Robert (1974), "Desigualdades de probabilidad para la suma en muestreo sin reemplazo", The Annals of Statistics , 2 (1): 39–48, doi : 10.1214/aos/1176342611.
  6. ^ Rivals, I.; Personnaz, L.; Taing, L.; Potier, M.-C (2007). "Enriquecimiento o depleción de una categoría GO dentro de una clase de genes: ¿qué prueba?". Bioinformática . 23 (4): 401–407. doi : 10.1093/bioinformatics/btl633 . PMID  17182697.
  7. ^ K. Preacher y N. Briggs. "Cálculo para la prueba exacta de Fisher: una herramienta de cálculo interactiva para la prueba de probabilidad exacta de Fisher para tablas 2 x 2 (página interactiva)".
  8. ^ Duan, XG (2021). "Mejor comprensión de la distribución hipergeométrica multivariada con implicaciones en el muestreo de encuestas basado en diseño". Preimpresión de ArXiv . arXiv : 2101.00548 .
  9. ^ Glazer, Amanda; Spertus, Jacob (10 de febrero de 2020) [8 de marzo de 2020]. Empiecen a difundir la noticia: la auditoría posterior a las elecciones de Nueva York tiene fallas importantes (informe técnico). Elsevier. doi :10.2139/ssrn.3536011. SSRN  3536011. SSRN 3536011. Recuperado el 4 de diciembre de 2023 – vía SSRN.com.
  10. ^ "Leyes de auditoría del Estado". Votación verificada . 10 de febrero de 2017. Archivado desde el original el 4 de enero de 2020 . Consultado el 2 de abril de 2018 .
  11. ^ "Auditorías postelectorales". ncsl.org . Conferencia Nacional de Legislaturas Estatales . Consultado el 2 de abril de 2018 .

Fuentes

Enlaces externos