Estadísticas de alta dimensión

En teoría estadística , el campo de las estadísticas de alta dimensión estudia datos cuya dimensión es mayor (en relación con el número de puntos de datos) que la que se considera típicamente en el análisis multivariante clásico . El área surgió debido a la aparición de muchos conjuntos de datos modernos en los que la dimensión de los vectores de datos puede ser comparable o incluso mayor que el tamaño de la muestra , de modo que faltaba justificación para el uso de técnicas tradicionales, a menudo basadas en argumentos asintóticos con la dimensión fija a medida que aumentaba el tamaño de la muestra. ^[1]^[2]

Existen varias nociones de análisis de alta dimensión de métodos estadísticos, entre ellas:

Resultados no asintóticos que se aplican para números finitos (número de puntos de datos y tamaño de dimensión, respectivamente). ${\estilo de visualización n,p}$
Asíntotica de Kolmogorov que estudia el comportamiento asintótico donde la relación converge a un valor finito específico. ^[3] ${\estilo de visualización n/p}$

Ejemplos

Estimación de parámetros en modelos lineales

El modelo estadístico más básico para la relación entre un vector de covariable y una variable de respuesta es el modelo lineal. $x\in \mathbb {R} ^{p}$ $y\in \mathbb {R}$

y=x^{\top }\beta +\epsilon ,

donde es un vector de parámetros desconocido, y es ruido aleatorio con media cero y varianza . Dadas respuestas independientes , con covariables correspondientes , de este modelo, podemos formar el vector de respuesta , y la matriz de diseño . Cuando y la matriz de diseño tiene rango de columna completo (es decir, sus columnas son linealmente independientes ), el estimador de mínimos cuadrados ordinarios de es $\beta \in \mathbb {R} ^{p}$ $\épsilon$ $\sigma ^{2}$ $Y_{1},\ldots ,Y_{n}$ $x_{1},\ldots ,x_{n}$ $Y=(Y_{1},\ldots ,Y_{n})^{\top }$ $X=(x_{1},\ldots ,x_{n})^{\top }\in \mathbb {R} ^{n\times p}$ $n\geq p$ ${\estilo de visualización \beta}$

{\hat {\beta }}:=(X^{\top }X)^{-1}X^{\top }Y.

Cuando , se sabe que . Por lo tanto, es un estimador insesgado de , y el teorema de Gauss-Markov nos dice que es el mejor estimador lineal insesgado . $\epsilon \sim N(0,\sigma ^{2})$ ${\hat {\beta }}\sim N_{p}{\bigl (}\beta ,\sigma ^{2}(X^{\top }X)^{-1}{\bigr )}$ ${\sombrero {\beta }}$ ${\estilo de visualización \beta}$

Sin embargo, el sobreajuste es un problema cuando es de magnitud comparable a : la matriz en la definición de puede llegar a estar mal condicionada , con un valor propio mínimo pequeño . En tales circunstancias será grande (ya que la traza de una matriz es la suma de sus valores propios). Peor aún, cuando , la matriz es singular . (Véase la Sección 1.2 y el Ejercicio 1.2 en ^[1] .) ${\estilo de visualización p}$ ${\estilo de visualización n}$ $X^{\top }X$ ${\sombrero {\beta }}$ $\mathbb {E} (\|{\hat {\beta }}-\beta \|^{2})=\sigma ^{2}\mathrm {tr} {\bigl (}(X^{\top }X)^{-1}{\bigr )}$ $p>n$ $X^{\top }X$

Es importante señalar que el deterioro en el rendimiento de la estimación en altas dimensiones observado en el párrafo anterior no se limita al estimador de mínimos cuadrados ordinarios. De hecho, la inferencia estadística en altas dimensiones es intrínsecamente difícil, un fenómeno conocido como la maldición de la dimensionalidad , y se puede demostrar que ningún estimador puede hacerlo mejor en el peor de los casos sin información adicional (véase el Ejemplo 15.10 ^[2] ). Sin embargo, la situación en las estadísticas de alta dimensión puede no ser desesperada cuando los datos poseen alguna estructura de baja dimensión. Un supuesto común para la regresión lineal de alta dimensión es que el vector de coeficientes de regresión es escaso , en el sentido de que la mayoría de las coordenadas de son cero. Se han propuesto muchos procedimientos estadísticos, incluido el Lasso , para ajustar modelos lineales de alta dimensión bajo tales supuestos de escasez. ${\estilo de visualización \beta}$

Estimación de la matriz de covarianza

Otro ejemplo de un fenómeno estadístico de alta dimensión se puede encontrar en el problema de estimación de la matriz de covarianza . Supongamos que observamos , que son valores iid extraídos de alguna distribución de media cero con una matriz de covarianza desconocida . Un estimador insesgado natural de es la matriz de covarianza de la muestra. $X_{1},\ldots ,X_{n}\in \mathbb {R} ^{p}$ $\Sigma \en \mathbb {R} ^{p\times p}$ ${\estilo de visualización \Sigma}$

{\widehat {\Sigma }}:={\frac {1}{n}}\sum _{i=1}^{n}X_{i}X_{i}^{\top }.

En el entorno de baja dimensión donde aumenta y se mantiene fijo, es un estimador consistente de en cualquier norma matricial . Cuando crece con , por otro lado, este resultado de consistencia puede no cumplirse. Como ilustración, supongamos que cada y . Si se estimara consistentemente , entonces los valores propios de deberían acercarse a uno a medida que aumenta. Resulta que este no es el caso en este entorno de alta dimensión. De hecho, los valores propios más grandes y más pequeños de se concentran alrededor de y , respectivamente, de acuerdo con la distribución límite derivada por Tracy y Widom , y estos se desvían claramente de los valores propios unitarios de . Se puede obtener más información sobre el comportamiento asintótico de los valores propios de a partir de la ley de Marchenko-Pastur . Desde un punto de vista no asintótico, el valor propio máximo de satisface ${\estilo de visualización n}$ ${\estilo de visualización p}$ ${\widehat {\Sigma}}$ ${\estilo de visualización \Sigma}$ ${\estilo de visualización p}$ ${\estilo de visualización n}$ $X_{i}\sim N_{p}(0,I)$ $p/n\rightarrow \alpha \en (0,1)$ ${\widehat {\Sigma}}$ $\Sigma = I$ ${\widehat {\Sigma}}$ ${\estilo de visualización n}$ ${\widehat {\Sigma}}$ $(1+{\sqrt {\alpha }})^{2}$ $(1-{\sqrt {\alpha }})^{2}$ ${\estilo de visualización \Sigma}$ ${\widehat {\Sigma}}$ $\lambda _{\mathrm {máximo}}({\widehat {\Sigma }})$ ${\widehat {\Sigma}}$

\mathbb {P} \left(\lambda _{\mathrm {max} }({\widehat {\Sigma }})\geq (1+{\sqrt {p/n}}+\delta )^ {2}\right)\leq e^{-n\delta ^{2}/2},

para todas y cada una de las opciones de pares de . ^[2] $\delta \geq 0$ ${\estilo de visualización n,p}$

Nuevamente, se necesita una estructura adicional de baja dimensión para una estimación exitosa de la matriz de covarianza en dimensiones altas. Ejemplos de tales estructuras incluyen la escasez , el bajo rango y el bandeo . Se aplican observaciones similares cuando se estima una matriz de covarianza inversa (matriz de precisión) .

Historia

Desde una perspectiva aplicada, la investigación en estadística de alta dimensión fue motivada por la constatación de que los avances en la tecnología informática habían aumentado drásticamente la capacidad de recopilar y almacenar datos , y que las técnicas estadísticas tradicionales como las descritas en los ejemplos anteriores a menudo estaban mal equipadas para manejar los desafíos resultantes. Los avances teóricos en el área se remontan al notable resultado de Charles Stein en 1956, ^[4] donde demostró que el estimador habitual de una media normal multivariada era inadmisible con respecto a la pérdida de error al cuadrado en tres o más dimensiones. De hecho, el estimador de James-Stein ^[5] proporcionó la idea de que en entornos de alta dimensión, se puede obtener un mejor rendimiento de estimación a través de la contracción, que reduce la varianza a expensas de introducir una pequeña cantidad de sesgo. Esta compensación sesgo-varianza fue explotada aún más en el contexto de los modelos lineales de alta dimensión por Hoerl y Kennard en 1970 con la introducción de la regresión de cresta . ^[6] Otro impulso importante para el campo fue proporcionado por el trabajo de Robert Tibshirani en Lasso en 1996, que utilizó la regularización para lograr la selección simultánea del modelo y la estimación de parámetros en la regresión lineal dispersa de alta dimensión. ^[7] Desde entonces, se han propuesto una gran cantidad de otros estimadores de contracción para explotar diferentes estructuras de baja dimensión en una amplia gama de problemas estadísticos de alta dimensión. $\ell _{1}$

Temas de estadística de alta dimensión

Los siguientes son ejemplos de temas que han recibido considerable atención en la literatura de estadística de alta dimensión en los últimos años:

Modelos lineales en altas dimensiones. Los modelos lineales son una de las herramientas más utilizadas en estadística y sus aplicaciones. Como tal, la regresión lineal dispersa es uno de los temas más estudiados en la investigación estadística de alta dimensión. Basándose en trabajos anteriores sobre regresión de cresta y Lasso , se han propuesto y estudiado varios otros estimadores de contracción en este y otros problemas relacionados. Entre ellos se incluyen
- El selector Dantzig, que minimiza la correlación máxima covariable-residuo, en lugar de la suma residual de cuadrados como en el Lasso, sujeto a una restricción en los coeficientes. ^[8] $\ell _{1}$
- Red elástica , que combina la regularización del Lasso con la regularización de la regresión de cresta para permitir que se seleccionen simultáneamente covariables altamente correlacionadas con coeficientes de regresión similares. ^[9] $\ell _{1}$ $\ell _{2}$
- El lazo de grupo , que permite seleccionar de forma conjunta grupos predefinidos de covariables. ^[10]
- El lazo fusionado , que regulariza la diferencia entre coeficientes cercanos cuando los coeficientes de regresión reflejan relaciones espaciales o temporales, a fin de imponer una estructura constante por partes. ^[11]
Selección de variables de alta dimensión . Además de estimar el parámetro subyacente en los modelos de regresión, otro tema importante es tratar de identificar los coeficientes no nulos, ya que estos corresponden a las variables que se necesitan en un modelo final. Cada una de las técnicas enumeradas en el apartado anterior se puede utilizar para este propósito y, a veces, se combinan con ideas como el submuestreo mediante la selección de estabilidad. ^[12]^[13]
Estimación de matrices de precisión y covarianza de alta dimensión. Estos problemas se presentaron anteriormente; consulte también estimación de contracción . Los métodos incluyen estimadores de reducción gradual ^[14] y el estimador de minimización restringida. ^[15] $\ell _{1}$
Análisis de componentes principales dispersos . El análisis de componentes principales es otra técnica que se descompone en dimensiones altas; más precisamente, bajo condiciones apropiadas, el vector propio principal de la matriz de covarianza de la muestra es un estimador inconsistente de su contraparte poblacional cuando la relación entre el número de variables y el número de observaciones está acotada lejos de cero. ^[16] Bajo el supuesto de que este vector propio principal es disperso (lo que puede ayudar a la interpretabilidad), se puede restaurar la consistencia. ^[17] ${\estilo de visualización p}$ ${\estilo de visualización n}$
Completar matrices . Este tema, que trata de completar las entradas faltantes de una matriz parcialmente observada, se hizo popular en gran parte debido al premio Netflix por predecir las calificaciones de los usuarios sobre las películas.
Clasificación de alta dimensión. El análisis discriminante lineal no se puede utilizar cuando , porque la matriz de covarianza de la muestra es singular . Se han propuesto enfoques alternativos basados en Bayes ingenuo , ^[18] selección de características ^[19] y proyecciones aleatorias . ^[20] $p>n$
Modelos gráficos para datos de alta dimensión . Los modelos gráficos se utilizan para codificar la estructura de dependencia condicional entre diferentes variables. Bajo un supuesto de gaussianidad, el problema se reduce al de estimar una matriz de precisión dispersa, como se analizó anteriormente.

Notas

^ de Lederer, Johannes (2022). Fundamentos de estadística de alta dimensión: con ejercicios y laboratorios de R. Springer Textbooks in Statistics. doi :10.1017/9781108627771. ISBN 9781108498029.S2CID128095693 .
^ abc Wainwright, Martin J. (2019). Estadística de alta dimensión: un punto de vista no asintótico . Cambridge University Press. doi :10.1017/9781108627771. ISBN 9781108498029.S2CID128095693 .
^ Wainwright MJ. Estadísticas de alta dimensión: un punto de vista no asintótico. Cambridge: Cambridge University Press; 2019. doi:10.1017/9781108627771
^ Stein, C. (1956), "Inadmisibilidad del estimador usual para la media de una distribución multivariada", Proc. Third Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 197–206, MR 0084922, Zbl 0073.35602
^ James, W.; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Fourth Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 361–379, MR 0133191
^ Hoerl, Arthur E. y Robert W. Kennard. “Ridge Regression: Biased Estimation for Nonorthogonal Problems”. Technometrics , vol. 12, núm. 1, 1970, págs. 55–67. [www.jstor.org/stable/1267351 JSTOR]. Consultado el 13 de marzo de 2021.
^ Tibshirani, Robert (1996). "Regresión, contracción y selección mediante el método Lasso". Revista de la Royal Statistical Society . Serie B (metodológica). 58 (1). Wiley: 267–88. JSTOR 2346178.
^ Candes, Emmanuel ; Tao, Terence (2007). "El selector Dantzig: estimación estadística cuando p es mucho mayor que n ". Anales de Estadística . 35 (6): 2313–2351. arXiv : math/0506081 . doi :10.1214/009053606000001523. MR 2382644. S2CID 88524200.
^ Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Royal Statistical Society . Serie B (metodología estadística). 67 (2). Wiley: 301–20. doi : 10.1111/j.1467-9868.2005.00503.x . JSTOR 3647580.
^ Yuan, Ming; Lin, Yi (2006). "Selección de modelos y estimación en regresión con variables agrupadas". Revista de la Royal Statistical Society . Serie B (metodología estadística). 68 (1). Wiley: 49–67. doi : 10.1111/j.1467-9868.2005.00532.x . JSTOR 3647556. S2CID 6162124.
^ Tibshirani, Robert, Michael Saunders, Saharon Rosset, Ji Zhu y Keith Knight. 2005. “Escasez y suavidad a través del lazo fusionado”. Revista de la Royal Statistical Society. Serie B (metodología estadística) 67 (1). Wiley: 91–108. https://www.jstor.org/stable/3647602.
^ Meinshausen, Nicolai; Bühlmann, Peter (2010). "Selección de estabilidad". Revista de la Royal Statistical Society, Serie B (Metodología estadística) . 72 (4): 417–473. doi : 10.1111/j.1467-9868.2010.00740.x . ISSN 1467-9868. S2CID 1231300.
^ Shah, Rajen D.; Samworth, Richard J. (2013). "Selección de variables con control de errores: otra mirada a la selección de estabilidad". Revista de la Royal Statistical Society. Serie B (Metodología estadística) . 75 (1): 55–80. arXiv : 1105.5578 . doi : 10.1111/j.1467-9868.2011.01034.x . ISSN 1369-7412. JSTOR 23361014. S2CID 18211609.
^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (agosto de 2010). "Tasas óptimas de convergencia para la estimación de la matriz de covarianza". Anales de estadística . 38 (4): 2118–2144. arXiv : 1010.3866 . doi :10.1214/09-AOS752. ISSN 0090-5364. S2CID 14038500 . Consultado el 6 de abril de 2021 .
^ Cai, Tony; Liu, Weidong; Luo, Xi (1 de junio de 2011). "Un enfoque de minimización de ℓ 1 {\displaystyle \ell _{1}} restringido para la estimación de matrices de precisión dispersa". Revista de la Asociación Estadounidense de Estadística . 106 (494): 594–607. arXiv : 1102.2233 . doi :10.1198/jasa.2011.tm10155. ISSN 0162-1459. S2CID 15900101 . Consultado el 6 de abril de 2021 .
^ Johnstone, Iain M.; Lu, Arthur Yu (1 de junio de 2009). "Sobre la consistencia y la escasez para el análisis de componentes principales en altas dimensiones". Revista de la Asociación Estadounidense de Estadística . 104 (486): 682–693. doi :10.1198/jasa.2009.0121. ISSN 0162-1459. PMC 2898454. PMID 20617121 .
^ Vu, Vincent Q.; Lei, Jing (diciembre de 2013). "Estimación del subespacio principal disperso minimax en altas dimensiones". Anales de estadística . 41 (6): 2905–2947. arXiv : 1211.0373 . doi : 10.1214/13-AOS1151 . ISSN 0090-5364. S2CID 562591.
^ Bickel, Peter J. ; Levina, Elizaveta (2004). "Algunas teorías para la función discriminante lineal de Fisher, Bayes ingenuo y algunas alternativas cuando hay muchas más variables que observaciones". Bernoulli . 10 (6): 989–1010. doi : 10.3150/bj/1106314847 .
^ Fan, Jianqing; Fan, Yingying (diciembre de 2008). "Clasificación de alta dimensión utilizando reglas de independencia recocida de características". Anales de estadística . 36 (6): 2605–2637. arXiv : math/0701108 . doi : 10.1214/07-AOS504 . PMC 2630123 . PMID 19169416. S2CID 2982392.
^ Cannings, Timothy I.; Samworth, Richard J. (2017). "Clasificación de conjuntos mediante proyección aleatoria". Revista de la Royal Statistical Society, Serie B (Metodología estadística) . 79 (4): 959–1035. arXiv : 1504.04595 . doi : 10.1111/rssb.12228 . S2CID : 88520328.

Referencias

Johannes Lederer (2022). Fundamentos de estadística de alta dimensión . Cham: Springer.
Christophe Giraud (2015). Introducción a la estadística de alta dimensión . Filadelfia: Chapman and Hall/CRC.
T. Tony Cai, Xiaotong Shen, ed. (2011). Análisis de datos de alta dimensión . Frontiers of Statistics. Singapur: World Scientific.
Peter Bühlmann y Sara van de Geer (2011). Estadísticas para datos de alta dimensión: métodos, teoría y aplicaciones . Heidelberg; Nueva York: Springer.
Martin J. Wainwright (2019). Estadística de alta dimensión: un punto de vista no asintótico . Cambridge, Reino Unido: Cambridge University Press.