Intervalo de confianza

En estadística, se llama intervalo de confianza a un intervalo dentro del cual se estima, con un determinado nivel de confianza, que estará el valor de cierto parámetro poblacional desconocido.

Formalmente, los extremos del intervalo, se calculan a partir de los datos de una muestra correspondiente a un estimador del parámetro poblacional.

es el llamado error aleatorio o nivel de significancia, esto es, el número de intervalos sobre 100 que no contienen el valor.

[2]​ El nivel de confianza y la amplitud del intervalo varían conjuntamente, de forma que un intervalo más amplio tendrá más probabilidad de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumenta su probabilidad de error.

Para la construcción de un determinado intervalo de confianza es necesario conocer la distribución teórica que sigue el parámetro a estimar, θ.

[3]​ Es habitual que el parámetro presente una distribución normal.

que sigue una determinada distribución de probabilidad, es una expresión del tipo

Cada una de estas muestras tiene a su vez una media.

Pero además, si el tamaño de las muestras es suficientemente grande,[5]​ o la distribución poblacional es normal, la distribución de medias muestrales es, prácticamente, una distribución normal (o gaussiana) con media

y una desviación típica dada por la siguiente expresión esto se representa como Si estandarizamos, se sigue que En una distribución

puede calcularse fácilmente un intervalo dentro del cual caiga un determinado porcentaje de las observaciones, esto es, es sencillo hallar

es el porcentaje deseado (véase el uso de las tablas en una distribución normal).

A este valor se le llamará

es el error que se cometerá, un término opuesto).

Estos puntos delimitan la probabilidad para el intervalo, como se muestra en la siguiente imagen: Dicho punto es el número tal que: Y en la versión estandarizada se cumple que: Así: De lo cual se obtendrá el intervalo de confianza Obsérvese que el intervalo de confianza viene dado por la media muestral

[8]​ Una máquina llena tazas con helado, y se supone que está ajustada para verter la cantidad de 250 g. Como la máquina no puede llenar cada taza con exactamente 250 g, el contenido que se añade a cada taza individual presenta cierta variación y se le asigna una variable aleatoria X.

La medición resultante es X1, ..., X25, una muestra aleatoria procedente de  X.

Al tomar otra muestra de 25 tazas, es esperable, de igual manera, que la masa presente valores como 250.4 o 251.1 gramos.

Hay un intervalo en torno al valor observado de 250.2 gramos de la media muestral, para el que si la media de la población completa efectivamente toma un valor en este rango, los datos observados no podrían ser considerados particularmente inusuales.

Los extremos del intervalo deben calcularse a partir de la muestra para que resulten funciones estadísticas de la muestra X1, ..., X25 y de este modo son variables aleatorias a su vez.

En este caso, se determinarán los extremos considerando la media muestral X que como proviene de una distribución normal está también normalmente distribuida con la misma esperanza μ, pero con un error estándar de: Por estandarización, se obtiene una variable aleatoria: dependiente del parámetro μ que debe ser estimado, pero con una distribución normal estándar independiente del parámetro μ.

Por lo tanto, es posible hallar números −z y z, independientes de μ, entre los cuales está Z con probabilidad 1 − α, una medida de cuán confiados queremos estar.

Cada vez que se repitan las mediciones, darán otro valor para la media X de la muestra.

El intervalo calculado tiene límites fijos, donde μ podría o no estar acotado.

No es posible decir: "con probabilidad (1 − α) el parámetro μ está en el intervalo de confianza."

Sólo sabemos que por repetición en 100(1 − α) % de los casos, μ estará en el intervalo calculado.

En 100α% de los casos, sin embargo esto no sucede.

Desafortunadamente, no se conoce en cuáles de los casos esto sucede.

El error máximo se calcula como 0.98 dado que es la diferencia ente el valor en que se conserva la confianza dentro de los límites superior e inferior.

Si aleatoriamente se selecciona una realización, la probabilidad es del 95% de finalmente haber elegido un intervalo que contenga el parámetro; sin embargo, podría darse la desafortunada situación de haber elegido la errónea.

Las líneas verticales representan 50 construcciones diferentes de intervalos de confianza para la estimación del valor μ.
Una línea de montaje de fábrica llena las tazas de helado hasta los 250 g +/- 2.5 g deseados.
El segmento vertical representa 50 realizaciones de un intervalo de confianza para μ .