Región de confianza

En estadística , una región de confianza es una generalización multidimensional de un intervalo de confianza . Es un conjunto de puntos en un espacio de n dimensiones, a menudo representado como un elipsoide alrededor de un punto que es una solución estimada a un problema, aunque pueden ocurrir otras formas.

Interpretación

La región de confianza se calcula de tal manera que si un conjunto de mediciones se repitiera muchas veces y una región de confianza se calculara de la misma manera en cada conjunto de mediciones, entonces un cierto porcentaje de las veces (por ejemplo, 95%) la región de confianza sería incluya el punto que representa los valores "verdaderos" del conjunto de variables que se estiman. Sin embargo, a menos que se hagan ciertas suposiciones sobre las probabilidades anteriores , cuando se ha calculado una región de confianza, no significa que haya un 95% de probabilidad de que los valores "verdaderos" se encuentren dentro de la región, ya que no asumimos ninguna probabilidad particular. distribución de los valores "verdaderos" y podemos o no tener otra información sobre dónde es probable que se encuentren.

El caso de errores independientes, idénticamente distribuidos normalmente

Supongamos que hemos encontrado una solución al siguiente problema sobredeterminado: ${\boldsymbol {\beta }}$

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

donde Y es un vector columna de n dimensiones que contiene los valores observados de la variable dependiente , X es una matriz n por p de valores observados de variables independientes (que puede representar un modelo físico) que se supone que se conoce exactamente, es una vector de columna que contiene los p parámetros que se van a estimar, y es un vector de columna de errores de n dimensiones que se supone que están distribuidos independientemente con distribuciones normales con media cero y cada uno con la misma varianza desconocida . ${\boldsymbol {\beta }}$ ${\boldsymbol {\varepsilon }}$ $\sigma ^{2}$

Una región de confianza conjunta de 100(1 − α ) % para los elementos de está representada por el conjunto de valores del vector b que satisfacen la siguiente desigualdad: ^[1] ${\boldsymbol {\beta }}$

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {X} ^{\operatorname {T} }\mathbf {X} ( {\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq ps^{2}F_{1-\alpha }(p,\nu ),

donde la variable b representa cualquier punto en la región de confianza, p es el número de parámetros, es decir, el número de elementos del vector es el vector de parámetros estimados, y s ² es el chi-cuadrado reducido , una estimación insesgada de igual a ${\boldsymbol {\beta }},$ ${\boldsymbol {\sombrero {\beta }}}$ $\sigma ^{2}$

s^{2}={\frac {\varepsilon ^{\operatorname {T} }\varepsilon }{np}}.

Además, F es la función cuantil de la distribución F , con p y grados de libertad , es el nivel de significancia estadística , y el símbolo significa la transpuesta de . $\nu =np$ $\alpha$ $X^{\operatorname {T} }$ $X$

La expresión se puede reescribir como:

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {C} _{\mathbf {\beta } }^{-1} ({\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq pF_{1-\alpha }(p,\nu ),

¿Dónde está la matriz de covarianza escalada por mínimos cuadrados de ? $\mathbf {C} _ {\mathbf {\beta } }=s^{2}\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right)^{- 1}$ ${\boldsymbol {\sombrero {\beta }}}$

La desigualdad anterior define una región elipsoidal en el espacio de parámetros cartesiano p -dimensional R ^p . El centro del elipsoide está en la estimación . Según Press et al., es más fácil trazar el elipsoide después de realizar la descomposición en valores singulares . Las longitudes de los ejes del elipsoide son proporcionales a los recíprocos de los valores en las diagonales de la matriz diagonal, y las direcciones de estos ejes están dadas por las filas de la tercera matriz de la descomposición. ${\boldsymbol {\sombrero {\beta }}}$

Mínimos cuadrados ponderados y generalizados

Consideremos ahora el caso más general en el que algunos elementos distintos de tienen una covarianza conocida distinta de cero (en otras palabras, los errores en las observaciones no se distribuyen independientemente) y/o las desviaciones estándar de los errores no son todas iguales. Supongamos que la matriz de covarianza de es , donde V es una matriz no singular de n por n que era igual a en el caso más específico tratado en la sección anterior (donde I es la matriz identidad ), pero aquí se permite tener un valor distinto de cero. -elementos diagonales que representan la covarianza de pares de observaciones individuales, además de no tener necesariamente todos los elementos diagonales iguales. ${\boldsymbol {\varepsilon }}$ ${\boldsymbol {\varepsilon }}$ $\mathbf {V} \sigma ^{2}$ $\mathbf {I}$

Es posible encontrar ^[2] una matriz simétrica no singular P tal que

\mathbf {P} ^{\prime }\mathbf {P} =\mathbf {P} \mathbf {P} =\mathbf {V}

En efecto, P es una raíz cuadrada de la matriz de covarianza V.

El problema de los mínimos cuadrados

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

luego se puede transformar multiplicando por la izquierda cada término por el inverso de P , formando la nueva formulación del problema

\mathbf {Z} =\mathbf {Q} {\boldsymbol {\beta }}+\mathbf {f} ,

dónde

\mathbf {Z} =\mathbf {P} ^{-1}\mathbf {Y}

\mathbf {Q} =\mathbf {P} ^{-1}\mathbf {X}

\mathbf {f} =\mathbf {P} ^{-1}{\boldsymbol {\varepsilon }}

Una región de confianza conjunta para los parámetros, es decir, para los elementos de , está entonces limitada por el elipsoide dado por: ^[3] ${\boldsymbol {\beta }}$

(\mathbf {b} -{\boldsymbol {\hat {\beta }}})^{\prime }\mathbf {Q} ^{\prime }\mathbf {Q} (\mathbf {b} - {\boldsymbol {\hat {\beta }}})={\frac {p}{np}}(\mathbf {Z} ^{\prime }\mathbf {Z} -\mathbf {b} ^{\prime }\mathbf {Q} ^{\prime }\mathbf {Z} )F_{1-\alpha }(p,np).

Aquí F representa el punto porcentual de la distribución F y las cantidades p y np son los grados de libertad que son los parámetros de esta distribución.

Problemas no lineales

Las regiones de confianza se pueden definir para cualquier distribución de probabilidad. El experimentador puede elegir el nivel de significancia y la forma de la región, y luego el tamaño de la región está determinado por la distribución de probabilidad. Una elección natural es utilizar como límite un conjunto de puntos con valores constantes ( chi-cuadrado ). $\chi^{2}$

Un enfoque consiste en utilizar una aproximación lineal al modelo no lineal, que puede ser una aproximación cercana en las proximidades de la solución, y luego aplicar el análisis de un problema lineal para encontrar una región de confianza aproximada. Este puede ser un enfoque razonable si la región de confianza no es muy grande y las segundas derivadas del modelo tampoco son muy grandes.

También se pueden utilizar enfoques de bootstrapping . ^[4]

Ver también

Notas

^ Draper y Smith (1981, pág.94)
^ Draper y Smith (1981, pág.108)
^ Draper y Smith (1981, pág.109)
^ Hutton TJ, Buxton BF, Hammond P, Potts HWW (2003). Estimación de trayectorias de crecimiento promedio en el espacio de forma mediante suavizado de kernel. Transacciones IEEE sobre imágenes médicas , 22 (6): 747-53

Referencias

Draper, NR; H. Smith (1981) [1966]. Análisis de regresión aplicada (2ª ed.). Estados Unidos: John Wiley and Sons Ltd. ISBN 0-471-02995-5.
Prensa, WH; SA Teukolsky; WT Vetterling; BP Flannery (1992) [1988]. Recetas numéricas en C: el arte de la informática científica (2ª ed.). Cambridge Reino Unido: Cambridge University Press.