Intervalo de confianza estadística para recuentos de éxito
En estadística , un intervalo de confianza de proporción binomial es un intervalo de confianza para la probabilidad de éxito calculado a partir del resultado de una serie de experimentos de éxito-fracaso ( ensayos de Bernoulli ). En otras palabras, un intervalo de confianza de proporción binomial es una estimación de intervalo de una probabilidad de éxito cuando solo se conocen el número de experimentos y el número de éxitos .
Existen varias fórmulas para un intervalo de confianza binomial, pero todas ellas se basan en el supuesto de una distribución binomial . En general, una distribución binomial se aplica cuando un experimento se repite un número fijo de veces, cada ensayo del experimento tiene dos resultados posibles (éxito y fracaso), la probabilidad de éxito es la misma para cada ensayo y los ensayos son estadísticamente independientes . Debido a que la distribución binomial es una distribución de probabilidad discreta (es decir, no continua) y difícil de calcular para un gran número de ensayos, se utiliza una variedad de aproximaciones para calcular este intervalo de confianza, todas con sus propias compensaciones en precisión e intensidad computacional.
Un ejemplo sencillo de distribución binomial es el conjunto de distintos resultados posibles y sus probabilidades para la cantidad de caras que se observan cuando se lanza una moneda diez veces. La proporción binomial observada es la fracción de los lanzamientos que resultan caras. Dada esta proporción observada, el intervalo de confianza para la probabilidad real de que la moneda caiga en cara es un rango de proporciones posibles, que pueden o no contener la proporción real. Un intervalo de confianza del 95% para la proporción, por ejemplo, contendrá la proporción real el 95% de las veces que se emplee el procedimiento para construir el intervalo de confianza. [1]
Problemas con el uso de una aproximación normal o "intervalo de Wald"
Una fórmula comúnmente utilizada para un intervalo de confianza binomial se basa en la aproximación de la distribución del error sobre una observación distribuida binomialmente, , con una distribución normal . [3]
La aproximación normal depende del teorema de De Moivre-Laplace (la versión original, solo binomial , del teorema del límite central ) y se vuelve poco confiable cuando viola las premisas de los teoremas, ya que el tamaño de la muestra se vuelve pequeño o la probabilidad de éxito crece cerca de 0 o 1 . [4]
Utilizando la aproximación normal, la probabilidad de éxito se estima mediante
donde es la proporción de éxitos en un proceso de ensayo de Bernoulli y un estimador para en la distribución de Bernoulli subyacente . La fórmula equivalente en términos de recuentos de observaciones es
donde los datos son los resultados de ensayos que arrojaron resultados exitosos y fallidos. El argumento de la función de distribución es el cuartil de una distribución normal estándar (es decir, la probit ) correspondiente a la tasa de error objetivo. Para un nivel de confianza del 95%, el error es y
Al utilizar la fórmula de Wald para estimar , o simplemente considerar los posibles resultados de este cálculo, inmediatamente se hacen evidentes dos problemas:
En primer lugar, al aproximarse a 1 o 0 , el intervalo se estrecha a un ancho cero (lo que implica falsamente certeza).
En segundo lugar, para valores de (probabilidad demasiado baja / demasiado cercana a 0 ), los límites del intervalo exceden ( sobrepasan ).
(Otra versión del segundo problema, el del sobreimpulso, surge cuando en cambio cae por debajo del mismo límite superior: probabilidad demasiado alta/demasiado cercana a 1 ).
Una derivación teórica importante de este intervalo de confianza implica la inversión de una prueba de hipótesis. Según esta formulación, el intervalo de confianza representa aquellos valores del parámetro de población que tendrían valores grandes si se probaran como una proporción de población hipotética . [ aclaración necesaria ] El conjunto de valores para los que es válida la aproximación normal se puede representar como
Dado que la prueba en el medio de la desigualdad es una prueba de Wald , el intervalo de aproximación normal a veces se denomina intervalo de Wald o método de Wald , en honor a Abraham Wald , pero fue descrito por primera vez por Laplace (1812). [5]
Entre corchetes del intervalo de confianza
Extendiendo los conceptos de aproximación normal y de intervalo de Wald-Laplace, Michael Short ha demostrado que las desigualdades en el error de aproximación entre la distribución binomial y la distribución normal se pueden utilizar para delimitar con precisión la estimación del intervalo de confianza alrededor de [6].
con
y donde es nuevamente la proporción (desconocida) de éxitos en un proceso de ensayo de Bernoulli (en oposición a que la estima) medida con ensayos que arrojan éxitos, es el cuantil de una distribución normal estándar (es decir, el probit) correspondiente a la tasa de error objetivo y las constantes y son funciones algebraicas simples de [6] Para un fijo (y por lo tanto ), las desigualdades anteriores dan intervalos unilaterales o bilaterales fácilmente calculables que enmarcan los límites de confianza binomiales superior e inferior exactos correspondientes a la tasa de error
Error estándar de una estimación de proporción al utilizar datos ponderados
Sea una muestra aleatoria simple donde cada uno es iid de una distribución Bernoulli (p) y el peso es el peso para cada observación, con los pesos (positivos) normalizados para que sumen 1. La proporción de muestra ponderada es: Dado que cada uno de los es independiente de todos los demás, y cada uno tiene varianza para cada uno, la varianza de muestreo de la proporción es: [7]
El error estándar de es la raíz cuadrada de esta cantidad. Como no lo sabemos, tenemos que estimarlo. Aunque hay muchos estimadores posibles, uno convencional es utilizar la media de la muestra e introducirla en la fórmula. Esto da:
Para datos que de otro modo no estarían ponderados, los pesos efectivos son uniformes, lo que conduce a las fórmulas familiares, que muestran que el cálculo para datos ponderados es una generalización directa de ellas.
Intervalo de puntuación de Wilson
El intervalo de puntuación de Wilson fue desarrollado por EB Wilson (1927). [8]
Es una mejora con respecto al intervalo de aproximación normal en múltiples aspectos: a diferencia del intervalo de aproximación normal simétrico (arriba), el intervalo de puntuación de Wilson es asimétrico y no sufre los problemas de sobreimpulso e intervalos de ancho cero que afectan al intervalo normal. Se puede emplear de forma segura con muestras pequeñas y observaciones sesgadas. [3] La probabilidad de cobertura observada es consistentemente más cercana al valor nominal, [2]
Al igual que el intervalo normal, el intervalo se puede calcular directamente a partir de una fórmula.
Wilson comenzó con la aproximación normal al binomio:
donde es el ancho medio del intervalo normal estándar correspondiente a la confianza deseada La fórmula analítica para una desviación estándar de muestra binomial es
Combinando los dos y elevando al cuadrado el radical, se obtiene una ecuación que es cuadrática en
o
Transformando la relación en una ecuación cuadrática de forma estándar para tratar y como valores conocidos de la muestra (ver sección anterior), y usando el valor de que corresponde a la confianza deseada para la estimación de se obtiene lo siguiente:
donde todos los valores entre paréntesis son cantidades conocidas. La solución para estima los límites superior e inferior del intervalo de confianza para Por lo tanto, la probabilidad de éxito se estima mediante y con la confianza entre paréntesis en el intervalo.
¿Dónde está la abreviatura de?
Una expresión equivalente que utiliza los recuentos de observaciones es
con los recuentos anteriores: el recuento de "éxitos" observados, el recuento de "fracasos" observados, y su suma es el número total de observaciones
En pruebas prácticas de los resultados de la fórmula, los usuarios encuentran que este intervalo tiene buenas propiedades incluso para un pequeño número de ensayos y/o los extremos de la estimación de probabilidad, [2] [3] [9]
Intuitivamente, el valor central de este intervalo es el promedio ponderado de y con un peso mayor a medida que aumenta el tamaño de la muestra. Formalmente, el valor central corresponde a utilizar un pseudoconteo del número de desviaciones estándar del intervalo de confianza: agregue este número tanto al recuento de éxitos como al de fracasos para obtener la estimación de la razón. Para las dos desviaciones estándar comunes en cada intervalo de dirección (aproximadamente una cobertura del 95%, que en sí misma es aproximadamente 1,96 desviaciones estándar), esto produce la estimación que se conoce como la "regla del más cuatro".
Aunque la ecuación cuadrática se puede resolver explícitamente, en la mayoría de los casos las ecuaciones de Wilson también se pueden resolver numéricamente utilizando la iteración de punto fijo.
(con el cuartil inferior ) se puede resolver para producir el intervalo de puntuación de Wilson. La prueba en el medio de la desigualdad es una prueba de puntuación .
El principio de igualdad de intervalos
Dado que el intervalo se deriva resolviendo la aproximación normal a la binomial, el intervalo de puntuación de Wilson tiene la propiedad de garantizar que se obtenga el mismo resultado que la prueba z o la prueba de chi-cuadrado equivalentes .
Esta propiedad se puede visualizar trazando la función de densidad de probabilidad para el intervalo de puntuación de Wilson ( ver Wallis). [9] (pp 297-313)
Después de eso, también se traza una función de densidad de probabilidad normal a lo largo de cada límite. Las áreas de cola de las distribuciones de Wilson y normal resultantes representan la probabilidad de un resultado significativo, en esa dirección, deben ser iguales.
El intervalo de puntuación de Wilson corregido por continuidad y el intervalo de Clopper-Pearson también cumplen con esta propiedad. La importancia práctica es que estos intervalos pueden emplearse como pruebas de significación , con resultados idénticos a la prueba original, y se pueden derivar nuevas pruebas por geometría. [9]
Intervalo de puntuación de Wilson con corrección de continuidad
El intervalo de Wilson se puede modificar empleando una corrección de continuidad , con el fin de alinear la probabilidad de cobertura mínima , en lugar de la probabilidad de cobertura promedio, con el valor nominal.
Las siguientes fórmulas para los límites inferior y superior del intervalo de puntuación de Wilson con corrección de continuidad se derivan de Newcombe: [2]
para y
Si entonces debe establecerse en su lugar si entonces debe establecerse en su lugar
Wallis (2021) [9] identifica un método más simple para calcular intervalos de Wilson corregidos por continuidad que emplea una función especial basada en la fórmula de límite inferior de Wilson: En la notación de Wallis, para el límite inferior, sea
¿Dónde está el nivel de error tolerable seleccionado para Entonces?
Este método tiene la ventaja de ser aún más descomponible.
Intervalo de Jeffreys
El intervalo de Jeffreys tiene una derivación bayesiana, pero buenas propiedades frecuentistas (supera a la mayoría de las construcciones frecuentistas). En particular, tiene propiedades de cobertura similares a las del intervalo de Wilson, pero es uno de los pocos intervalos con la ventaja de ser de colas iguales (por ejemplo, para un intervalo de confianza del 95%, las probabilidades de que el intervalo se encuentre por encima o por debajo del valor verdadero son ambas cercanas al 2,5%). En contraste, el intervalo de Wilson tiene un sesgo sistemático tal que está centrado demasiado cerca de [10]
Cuando y el intervalo de Jeffreys se toma como el intervalo de probabilidad posterior de cola igual, es decir, los cuantiles y de una distribución Beta con parámetros
Para evitar que la probabilidad de cobertura tienda a cero cuando o 1 , cuando el límite superior se calcula como antes pero el límite inferior se establece en 0 , y cuando el límite inferior se calcula como antes pero el límite superior se establece en 1. [4 ]
El intervalo de Jeffreys también puede considerarse como un intervalo frecuentista basado en la inversión del valor p de la prueba G después de aplicar la corrección de Yates para evitar un valor potencialmente infinito para la estadística de prueba.
Intervalo de Clopper-Pearson
El intervalo de Clopper-Pearson es un método temprano y muy común para calcular intervalos de confianza binomiales. [11]
A menudo se lo denomina método "exacto", ya que alcanza el nivel de cobertura nominal en un sentido exacto, lo que significa que el nivel de cobertura nunca es menor que el nominal [2].
El intervalo de Clopper-Pearson se puede escribir como
o equivalentemente,
con
y
donde es el número de éxitos observados en la muestra y es una variable aleatoria binomial con ensayos y probabilidad de éxito
De manera equivalente podemos decir que el intervalo de Clopper-Pearson tiene un nivel de confianza si es el ínfimo de aquellos tales que las siguientes pruebas de hipótesis tienen éxito con significancia
H 0 : con H A :
H 0 : con H A :
Debido a una relación entre la distribución binomial y la distribución beta , el intervalo de Clopper-Pearson a veces se presenta en un formato alternativo que utiliza cuantiles de la distribución beta. [12]
donde es el número de éxitos, es el número de ensayos y es el p -ésimo cuartil de una distribución beta con parámetros de forma y
Cuando es 0 o hay expresiones de forma cerrada disponibles para los límites del intervalo: cuando el intervalo es
Y cuando es
[12]
La distribución beta está, a su vez, relacionada con la distribución F , por lo que se puede escribir una tercera formulación del intervalo de Clopper-Pearson utilizando cuantiles F :
donde es el número de éxitos, es el número de ensayos y es el cuantil de una distribución F con y grados de libertad. [13]
El intervalo de Clopper-Pearson es un intervalo "exacto", ya que se basa directamente en la distribución binomial en lugar de cualquier aproximación a la distribución binomial. Este intervalo nunca tiene una cobertura menor que la nominal para cualquier proporción de la población, pero eso significa que generalmente es conservador. Por ejemplo, la tasa de cobertura real de un intervalo de Clopper-Pearson del 95% puede ser muy superior al 95%, dependiendo de y [4] Por lo tanto, el intervalo puede ser más amplio de lo que necesita ser para lograr una confianza del 95%, y más amplio que otros intervalos. En contraste, vale la pena señalar que otros intervalos de confianza pueden tener niveles de cobertura que son inferiores al nominal , es decir, el intervalo de aproximación normal (o "estándar"), el intervalo de Wilson, [8] el intervalo de Agresti-Coull, [13]
etc., con una cobertura nominal del 95% puede de hecho cubrir menos del 95%, [4] incluso para tamaños de muestra grandes. [12]
La definición del intervalo de Clopper-Pearson también se puede modificar para obtener intervalos de confianza exactos para diferentes distribuciones. Por ejemplo, también se puede aplicar al caso en el que las muestras se extraen sin reemplazo de una población de un tamaño conocido, en lugar de extracciones repetidas de una distribución binomial. En este caso, la distribución subyacente sería la distribución hipergeométrica .
Los límites de intervalo se pueden calcular con las funciones numéricas qbeta [14]
en R y scipy.stats.beta.ppf [15]
en Python.
desde scipy.stats importar beta k = 20 n = 400 alfa = 0,05 p_u , p_o = beta . ppf ([ alfa / 2 , 1 - alfa / 2 ], [ k , k + 1 ], [ n - k + 1 , n - k ])
Intervalo de Agresti-Coull
El intervalo de Agresti-Coull es también otro intervalo de confianza binomial aproximado. [13]
Dados los éxitos en los ensayos, definir
y
Entonces, un intervalo de confianza para viene dado por
donde es el cuantil de una distribución normal estándar, como antes (por ejemplo, un intervalo de confianza del 95% requiere produciendo ). Según Brown , Cai y DasGupta (2001), [4] tomar en lugar de 1,96 produce el intervalo de "suma de 2 éxitos y 2 fracasos" descrito previamente por Agresti y Coull . [13]
Este intervalo se puede resumir empleando el ajuste del punto central del intervalo de puntuación de Wilson y luego aplicando la aproximación normal a este punto. [3] [4]
Transformación de arcoseno
La transformación del arcoseno tiene el efecto de extraer los extremos de la distribución. [16]
Si bien puede estabilizar la varianza (y, por lo tanto, los intervalos de confianza) de los datos de proporción, su uso ha sido criticado en varios contextos. [17]
Sea el número de éxitos en los ensayos y sea La varianza de es
Utilizando la transformada del arcoseno , la varianza del arcoseno de es [18]
Entonces, el intervalo de confianza en sí tiene la forma
donde es el cuantil de una distribución normal estándar.
Este método se puede utilizar para estimar la varianza de pero su uso es problemático cuando está cerca de 0 o 1 .
aatransformar
Sea la proporción de éxitos.
Esta familia es una generalización de la transformada logit, que es un caso especial con a = 1 y se puede utilizar para transformar una distribución de datos proporcional en una distribución aproximadamente normal . El parámetro a debe estimarse para el conjunto de datos.
Regla de tres: para cuando no se observan éxitos
La regla de tres se utiliza para proporcionar una forma sencilla de indicar un intervalo de confianza aproximado del 95 % para el caso especial de que no se hayan observado éxitos ( ). [19]
El intervalo es
Por simetría, en el caso de solo éxitos ( ), el intervalo es
Comparación y discusión
Hay varios artículos de investigación que comparan estos y otros intervalos de confianza para la proporción binomial. [3] [2] [20] [21]
Tanto Ross (2003) [22]
como Agresti & Coull (1998) [13]
señalan que los métodos exactos como el intervalo de Clopper-Pearson pueden no funcionar tan bien como algunas aproximaciones. El intervalo de aproximación normal y su presentación en los libros de texto ha sido duramente criticado, y muchos estadísticos abogan por que no se lo utilice. [4]
Los principales problemas son el sobrepaso (los límites exceden ), los intervalos de ancho cero en o 1 (lo que implica falsamente certeza), [2] y la inconsistencia general con las pruebas de significancia. [3]
De las aproximaciones enumeradas anteriormente, los métodos de intervalo de puntuación de Wilson (con o sin corrección de continuidad) han demostrado ser los más precisos y los más robustos, [3] [4] [2] aunque algunos prefieren el enfoque de Agresti y Coulls para tamaños de muestra más grandes. [4] Los métodos de Wilson y Clopper-Pearson obtienen resultados consistentes con las pruebas de significancia de la fuente, [9] y esta propiedad es decisiva para muchos investigadores.
Muchos de estos intervalos se pueden calcular en R utilizando paquetes como binom . [23]
^ Sullivan, Lisa (27 de octubre de 2017). "Intervalos de confianza". sphweb.bumc.bu.edu (notas del curso). Boston, MA: Facultad de Salud Pública de la Universidad de Boston . BS704.
^ abcdefgh Newcombe, RG (1998). "Intervalos de confianza bilaterales para la proporción única: comparación de siete métodos". Estadística en Medicina . 17 (8): 857–872. doi :10.1002/(SICI)1097-0258(19980430)17:8<857::AID-SIM777>3.0.CO;2-E. PMID 9595616.
^ abcdefg Wallis, Sean A. (2013). "Intervalos de confianza binomiales y pruebas de contingencia: fundamentos matemáticos y evaluación de métodos alternativos" (PDF) . Revista de lingüística cuantitativa . 20 (3): 178–208. doi :10.1080/09296174.2013.799918. S2CID 16741749.
^ abcdefghi Brown, Lawrence D. ; Cai, T. Tony ; DasGupta, Anirban (2001). "Estimación de intervalo para una proporción binomial". Ciencia estadística . 16 (2): 101–133. CiteSeerX 10.1.1.50.3025 . doi :10.1214/ss/1009213286. MR 1861069. Zbl 1059.62533.
^ Laplace, PS (1812). Théorie analytique des probabilités [ Teoría analítica de la probabilidad ] (en francés). Ve. Mensajero. pag. 283.
^ ab Short, Michael (8 de noviembre de 2021). "Sobre límites cuantiles y proporcionales binomiales: con aplicaciones en ingeniería e informática". Comunicaciones en estadística: teoría y métodos . 52 (12): 4183–4199. doi : 10.1080/03610926.2021.1986540 . ISSN 0361-0926. S2CID 243974180.
^ "¿Cómo calcular el error estándar de una proporción usando datos ponderados?". stats.stackexchange.com . 159220 / 253.
^ ab Wilson, EB (1927). "Inferencia probable, ley de sucesión e inferencia estadística". Revista de la Asociación Estadounidense de Estadística . 22 (158): 209–212. doi :10.1080/01621459.1927.10502953. JSTOR 2276774.
^ abcde Wallis, Sean A. (2021). Estadísticas en lingüística de corpus: un nuevo enfoque. Nueva York, NY: Routledge. ISBN9781138589384.
^ Clopper, C.; Pearson, ES (1934). "El uso de límites de confianza o fiduciales ilustrados en el caso del binomio". Biometrika . 26 (4): 404–413. doi :10.1093/biomet/26.4.404.
^ abc Thulin, Måns (1 de enero de 2014). "El costo de usar intervalos de confianza exactos para una proporción binomial". Revista electrónica de estadística . 8 (1): 817–840. arXiv : 1303.1288 . doi :10.1214/14-EJS909. ISSN 1935-7524. S2CID 88519382.
^ abcde Agresti, Alan ; Coull, Brent A. (1998). "Aproximación es mejor que 'exacta' para la estimación de intervalos de proporciones binomiales". The American Statistician . 52 (2): 119–126. doi :10.2307/2685469. JSTOR 2685469. MR 1628435.
^ "La distribución Beta". stat.ethz.ch (documentación del software). Manual de R. Consultado el 2 de diciembre de 2023 .
^ "scipy.stats.beta". Manual de SciPy. docs.scipy.org (documento de software) (edición 1.11.4) . Consultado el 2 de diciembre de 2023 .
^ Holland, Steven. "Transformaciones de proporciones y porcentajes". strata.uga.edu . Consultado el 8 de septiembre de 2020 .
^ Warton, David I.; Hui, Francis KC (enero de 2011). "El arcoseno es estúpido: el análisis de proporciones en ecología". Ecología . 92 (1): 3–10. Bibcode :2011Ecol...92....3W. doi :10.1890/10-0340.1. hdl : 1885/152287 . ISSN 0012-9658. PMID 21560670.
^ Shao, J. (1998). Estadística matemática . Nueva York, NY: Springer.
^ Simon, Steve (2010). "Intervalo de confianza con cero eventos". Ask Professor Mean. Kansas City, MO: The Children's Mercy Hospital. Archivado desde el original el 15 de octubre de 2011.Temas de estadísticas sobre investigación médica
^ Sauro, J.; Lewis, JR (2005). Calculadora comparativa de intervalos de Wald, Adj-Wald, exactos y de Wilson (PDF) . Human Factors and Ergonomics Society, 49.ª reunión anual (HFES 2005). Orlando, FL. pp. 2100–2104. Archivado desde el original (PDF) el 18 de junio de 2012.
^ Reiczigel, J. (2003). "Intervalos de confianza para el parámetro binomial: algunas nuevas consideraciones" (PDF) . Estadísticas en Medicina . 22 (4): 611–621. doi :10.1002/sim.1320. PMID 12590417. S2CID 7715293.
^ Ross, TD (2003). "Intervalos de confianza precisos para la estimación de la proporción binomial y la tasa de Poisson". Computers in Biology and Medicine . 33 (6): 509–531. doi :10.1016/S0010-4825(03)00019-2. PMID 12878234.
^ Dorai-Raj, Sundar (2 de mayo de 2022). binom: Intervalos de confianza binomiales para varias parametrizaciones (documento de software) . Consultado el 2 de diciembre de 2023 .