Región de confianza

En estadística , una región de confianza es una generalización multidimensional de un intervalo de confianza . Es un conjunto de puntos en un espacio n -dimensional, a menudo representado como un elipsoide alrededor de un punto que es una solución estimada a un problema, aunque pueden aparecer otras formas.

Interpretación

La región de confianza se calcula de tal manera que si un conjunto de mediciones se repitiera muchas veces y se calculara una región de confianza de la misma manera en cada conjunto de mediciones, entonces un cierto porcentaje de las veces (por ejemplo, el 95 %) la región de confianza incluiría el punto que representa los valores "verdaderos" del conjunto de variables que se están estimando. Sin embargo, a menos que se hagan ciertas suposiciones sobre probabilidades previas , esto no significa que, cuando se ha calculado una región de confianza, exista una probabilidad del 95 % de que los valores "verdaderos" se encuentren dentro de la región, ya que no suponemos ninguna distribución de probabilidad particular de los valores "verdaderos" y podemos o no tener otra información sobre dónde es probable que se encuentren.

El caso de errores independientes, distribuidos de manera idéntica y normal

Supongamos que hemos encontrado una solución al siguiente problema sobredeterminado: ${\boldsymbol {\beta }}$

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

donde Y es un vector de columna n -dimensional que contiene valores observados de la variable dependiente , X es una matriz n por p de valores observados de variables independientes (que pueden representar un modelo físico) que se supone que se conoce con exactitud, es un vector de columna que contiene los p parámetros que se deben estimar, y es un vector de columna n -dimensional de errores que se supone que se distribuyen independientemente con distribuciones normales con media cero y cada una con la misma varianza desconocida . ${\boldsymbol {\beta }}$ ${\boldsymbol {\varepsilon }}$ $\sigma ^{2}$

Una región de confianza conjunta del 100(1 − α ) % para los elementos de está representada por el conjunto de valores del vector b que satisfacen la siguiente desigualdad: ^[1] ${\boldsymbol {\beta }}$

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {X} ^{\operatorname {T} }\mathbf {X} ({\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq ps^{2}F_{1-\alpha }(p,\nu ),

donde la variable b representa cualquier punto en la región de confianza, p es el número de parámetros, es decir, el número de elementos del vector es el vector de parámetros estimados, y s ² es el chi-cuadrado reducido , una estimación imparcial de igual a ${\boldsymbol {\beta }},$ ${\boldsymbol {\sombrero {\beta }}}$ $\sigma ^{2}$

s^{2}={\frac {\varepsilon ^{\operatorname {T} }\varepsilon }{np}}.

Además, F es la función cuantil de la distribución F , con p y grados de libertad , es el nivel de significancia estadística y el símbolo significa la transpuesta de . $\nu =np$ ${\estilo de visualización \alpha}$ $X^{\nombre del operador {T} }$ ${\estilo de visualización X}$

La expresión se puede reescribir como:

({\boldsymbol {\hat {\beta }}}-\mathbf {b} )^{\operatorname {T} }\mathbf {C} _{\mathbf {\beta } }^{-1}({\boldsymbol {\hat {\beta }}}-\mathbf {b} )\leq pF_{1-\alpha }(p,\nu ),

donde es la matriz de covarianza escalada de mínimos cuadrados de . $\mathbf {C} _{\mathbf {\beta } }=s^{2}\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right)^{-1}$ ${\boldsymbol {\sombrero {\beta }}}$

La desigualdad anterior define una región elipsoidal en el espacio de parámetros cartesianos de dimensión p R ^p . El centro del elipsoide está en la estimación . Según Press et al., es más fácil trazar el elipsoide después de realizar la descomposición en valores singulares . Las longitudes de los ejes del elipsoide son proporcionales a los recíprocos de los valores en las diagonales de la matriz diagonal, y las direcciones de estos ejes están dadas por las filas de la tercera matriz de la descomposición. ${\boldsymbol {\sombrero {\beta }}}$

Mínimos cuadrados ponderados y generalizados

Consideremos ahora el caso más general en el que algunos elementos distintos de tienen una covarianza distinta de cero conocida (en otras palabras, los errores en las observaciones no se distribuyen de forma independiente) y/o las desviaciones estándar de los errores no son todas iguales. Supongamos que la matriz de covarianza de es , donde V es una matriz no singular de n por n que era igual a en el caso más específico tratado en la sección anterior, (donde I es la matriz identidad ,) pero aquí se permite que tenga elementos fuera de la diagonal distintos de cero que representen la covarianza de pares de observaciones individuales, así como no tener necesariamente todos los elementos de la diagonal iguales. ${\boldsymbol {\varepsilon }}$ ${\boldsymbol {\varepsilon }}$ $\mathbf {V} \sigma ^{2}$ $\mathbf {yo}$

Es posible encontrar ^[2] una matriz simétrica no singular P tal que

\mathbf {P} ^{\prime }\mathbf {P} =\mathbf {P} \mathbf {P} =\mathbf {V}

En efecto, P es una raíz cuadrada de la matriz de covarianza V.

El problema de los mínimos cuadrados

\mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

luego se puede transformar multiplicando por la izquierda cada término por el inverso de P , formando la nueva formulación del problema.

\mathbf {Z} =\mathbf {Q} {\boldsymbol {\beta }}+\mathbf {f} ,

dónde

\mathbf {Z} =\mathbf {P} ^{-1}\mathbf {Y}

\mathbf {Q} =\mathbf {P} ^{-1}\mathbf {X}

\mathbf {f} =\mathbf {P} ^{-1}{\boldsymbol {\varepsilon }}

Una región de confianza conjunta para los parámetros, es decir para los elementos de , está entonces delimitada por el elipsoide dado por: ^[3] ${\boldsymbol {\beta }}$

(\mathbf {b} -{\boldsymbol {\hat {\beta }}})^{\prime }\mathbf {Q} ^{\prime }\mathbf {Q} (\mathbf {b} - {\boldsymbol {\hat {\beta }}})={\frac {p}{np}}(\mathbf {Z} ^{\prime }\mathbf {Z} -\mathbf {b} ^{\prime }\mathbf {Q} ^{\prime }\mathbf {Z} )F_{1-\alpha }(p,np).

Aquí F representa el punto porcentual de la distribución F y las cantidades p y np son los grados de libertad que son los parámetros de esta distribución.

Problemas no lineales

Se pueden definir regiones de confianza para cualquier distribución de probabilidad. El experimentador puede elegir el nivel de significación y la forma de la región, y luego el tamaño de la región se determina mediante la distribución de probabilidad. Una opción natural es utilizar como límite un conjunto de puntos con valores constantes ( chi-cuadrado ). $\chi ^{2}$

Un enfoque consiste en utilizar una aproximación lineal al modelo no lineal, que puede ser una aproximación cercana a la solución, y luego aplicar el análisis a un problema lineal para encontrar una región de confianza aproximada. Este puede ser un enfoque razonable si la región de confianza no es muy grande y las derivadas secundarias del modelo tampoco lo son.

También se pueden utilizar métodos de bootstrap . ^[4]

Véase también

Notas

^ Draper y Smith (1981, pág. 94)
^ Draper y Smith (1981, pág. 108)
^ Draper y Smith (1981, pág. 109)
^ Hutton TJ, Buxton BF, Hammond P, Potts HWW (2003). Estimación de trayectorias de crecimiento promedio en el espacio de formas mediante suavizado de kernel. IEEE Transactions on Medical Imaging , 22 (6):747-53

Referencias

Draper, NR; H. Smith (1981) [1966]. Análisis de regresión aplicada (2.ª ed.). Estados Unidos: John Wiley and Sons Ltd. ISBN 0-471-02995-5.
Press, WH; SA Teukolsky; WT Vetterling; BP Flannery (1992) [1988]. Recetas numéricas en C: el arte de la computación científica (2.ª ed.). Cambridge, Reino Unido: Cambridge University Press.