stringtranslate.com

Estadísticas de alta dimensión

En teoría estadística , el campo de las estadísticas de alta dimensión estudia datos cuya dimensión es mayor (en relación con el número de puntos de datos) que la que se considera típicamente en el análisis multivariante clásico . El área surgió debido a la aparición de muchos conjuntos de datos modernos en los que la dimensión de los vectores de datos puede ser comparable o incluso mayor que el tamaño de la muestra , de modo que faltaba justificación para el uso de técnicas tradicionales, a menudo basadas en argumentos asintóticos con la dimensión fija a medida que aumentaba el tamaño de la muestra. [1] [2]

Existen varias nociones de análisis de alta dimensión de métodos estadísticos, entre ellas:

Ejemplos

Estimación de parámetros en modelos lineales

Ilustración del modelo lineal en grandes dimensiones: un conjunto de datos consta de un vector de respuesta y una matriz de diseño con . Nuestro objetivo es estimar el vector desconocido de coeficientes de regresión donde a menudo se supone que es escaso , en el sentido de que la cardinalidad del conjunto es pequeña en comparación con .

El modelo estadístico más básico para la relación entre un vector de covariable y una variable de respuesta es el modelo lineal.

donde es un vector de parámetros desconocido, y es ruido aleatorio con media cero y varianza . Dadas respuestas independientes , con covariables correspondientes , de este modelo, podemos formar el vector de respuesta , y la matriz de diseño . Cuando y la matriz de diseño tiene rango de columna completo (es decir, sus columnas son linealmente independientes ), el estimador de mínimos cuadrados ordinarios de es

Cuando , se sabe que . Por lo tanto, es un estimador insesgado de , y el teorema de Gauss-Markov nos dice que es el mejor estimador lineal insesgado .

Sin embargo, el sobreajuste es un problema cuando es de magnitud comparable a : la matriz en la definición de puede llegar a estar mal condicionada , con un valor propio mínimo pequeño . En tales circunstancias será grande (ya que la traza de una matriz es la suma de sus valores propios). Peor aún, cuando , la matriz es singular . (Véase la Sección 1.2 y el Ejercicio 1.2 en [1] .)

Es importante señalar que el deterioro en el rendimiento de la estimación en altas dimensiones observado en el párrafo anterior no se limita al estimador de mínimos cuadrados ordinarios. De hecho, la inferencia estadística en altas dimensiones es intrínsecamente difícil, un fenómeno conocido como la maldición de la dimensionalidad , y se puede demostrar que ningún estimador puede hacerlo mejor en el peor de los casos sin información adicional (véase el Ejemplo 15.10 [2] ). Sin embargo, la situación en las estadísticas de alta dimensión puede no ser desesperada cuando los datos poseen alguna estructura de baja dimensión. Un supuesto común para la regresión lineal de alta dimensión es que el vector de coeficientes de regresión es escaso , en el sentido de que la mayoría de las coordenadas de son cero. Se han propuesto muchos procedimientos estadísticos, incluido el Lasso , para ajustar modelos lineales de alta dimensión bajo tales supuestos de escasez.

Estimación de la matriz de covarianza

Otro ejemplo de un fenómeno estadístico de alta dimensión se puede encontrar en el problema de estimación de la matriz de covarianza . Supongamos que observamos , que son valores iid extraídos de alguna distribución de media cero con una matriz de covarianza desconocida . Un estimador insesgado natural de es la matriz de covarianza de la muestra.

En el entorno de baja dimensión donde aumenta y se mantiene fijo, es un estimador consistente de en cualquier norma matricial . Cuando crece con , por otro lado, este resultado de consistencia puede no cumplirse. Como ilustración, supongamos que cada y . Si se estimara consistentemente , entonces los valores propios de deberían acercarse a uno a medida que aumenta. Resulta que este no es el caso en este entorno de alta dimensión. De hecho, los valores propios más grandes y más pequeños de se concentran alrededor de y , respectivamente, de acuerdo con la distribución límite derivada por Tracy y Widom , y estos se desvían claramente de los valores propios unitarios de . Se puede obtener más información sobre el comportamiento asintótico de los valores propios de a partir de la ley de Marchenko-Pastur . Desde un punto de vista no asintótico, el valor propio máximo de satisface

para todas y cada una de las opciones de pares de . [2]

Nuevamente, se necesita una estructura adicional de baja dimensión para una estimación exitosa de la matriz de covarianza en altas dimensiones. Ejemplos de tales estructuras incluyen la escasez , el bajo rango y el bandeo . Se aplican observaciones similares cuando se estima una matriz de covarianza inversa (matriz de precisión) .

Historia

Desde una perspectiva aplicada, la investigación en estadística de alta dimensión fue motivada por la constatación de que los avances en la tecnología informática habían aumentado drásticamente la capacidad de recopilar y almacenar datos , y que las técnicas estadísticas tradicionales como las descritas en los ejemplos anteriores a menudo estaban mal equipadas para manejar los desafíos resultantes. Los avances teóricos en el área se remontan al notable resultado de Charles Stein en 1956, [4] donde demostró que el estimador habitual de una media normal multivariada era inadmisible con respecto a la pérdida de error al cuadrado en tres o más dimensiones. De hecho, el estimador de James-Stein [5] proporcionó la idea de que en entornos de alta dimensión, se puede obtener un mejor rendimiento de estimación a través de la contracción, que reduce la varianza a expensas de introducir una pequeña cantidad de sesgo. Esta compensación sesgo-varianza fue explotada aún más en el contexto de los modelos lineales de alta dimensión por Hoerl y Kennard en 1970 con la introducción de la regresión de cresta . [6] Otro impulso importante para el campo fue proporcionado por el trabajo de Robert Tibshirani en Lasso en 1996, que utilizó la regularización para lograr la selección simultánea del modelo y la estimación de parámetros en la regresión lineal dispersa de alta dimensión. [7] Desde entonces, se han propuesto una gran cantidad de otros estimadores de contracción para explotar diferentes estructuras de baja dimensión en una amplia gama de problemas estadísticos de alta dimensión.

Temas de estadística de alta dimensión

Los siguientes son ejemplos de temas que han recibido considerable atención en la literatura de estadística de alta dimensión en los últimos años:

Notas

  1. ^ de Lederer, Johannes (2022). Fundamentos de estadística de alta dimensión: con ejercicios y laboratorios de R. Springer Textbooks in Statistics. doi :10.1017/9781108627771. ISBN 9781108498029.S2CID128095693  .​
  2. ^ abc Wainwright, Martin J. (2019). Estadística de alta dimensión: un punto de vista no asintótico . Cambridge University Press. doi :10.1017/9781108627771. ISBN 9781108498029.S2CID128095693  .​
  3. ^ Wainwright MJ. Estadísticas de alta dimensión: un punto de vista no asintótico. Cambridge: Cambridge University Press; 2019. doi:10.1017/9781108627771
  4. ^ Stein, C. (1956), "Inadmisibilidad del estimador usual para la media de una distribución multivariada", Proc. Third Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 197–206, MR  0084922, Zbl  0073.35602
  5. ^ James, W.; Stein, C. (1961), "Estimación con pérdida cuadrática", Proc. Fourth Berkeley Symp. Math. Statist. Prob., vol. 1, págs. 361–379, MR  0133191
  6. ^ Hoerl, Arthur E. y Robert W. Kennard. “Ridge Regression: Biased Estimation for Nonorthogonal Problems”. Technometrics , vol. 12, núm. 1, 1970, págs. 55–67. [www.jstor.org/stable/1267351 JSTOR]. Consultado el 13 de marzo de 2021.
  7. ^ Tibshirani, Robert (1996). "Regresión, contracción y selección mediante el método Lasso". Revista de la Royal Statistical Society . Serie B (metodológica). 58 (1). Wiley: 267–88. JSTOR  2346178.
  8. ^ Candes, Emmanuel ; Tao, Terence (2007). "El selector de Dantzig: estimación estadística cuando p es mucho mayor que n ". Anales de Estadística . 35 (6): 2313–2351. arXiv : math/0506081 . doi :10.1214/009053606000001523. MR  2382644. S2CID  88524200.
  9. ^ Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Royal Statistical Society . Serie B (metodología estadística). 67 (2). Wiley: 301–20. doi : 10.1111/j.1467-9868.2005.00503.x . JSTOR  3647580.
  10. ^ Yuan, Ming; Lin, Yi (2006). "Selección de modelos y estimación en regresión con variables agrupadas". Revista de la Royal Statistical Society . Serie B (metodología estadística). 68 (1). Wiley: 49–67. doi : 10.1111/j.1467-9868.2005.00532.x . JSTOR  3647556. S2CID  6162124.
  11. ^ Tibshirani, Robert, Michael Saunders, Saharon Rosset, Ji Zhu y Keith Knight. 2005. “Escasez y suavidad a través del lazo fusionado”. Revista de la Real Sociedad de Estadística. Serie B (Metodología estadística) 67 (1). Wiley: 91-108. https://www.jstor.org/stable/3647602.
  12. ^ Meinshausen, Nicolai; Bühlmann, Peter (2010). "Selección de estabilidad". Revista de la Royal Statistical Society, Serie B (Metodología estadística) . 72 (4): 417–473. doi : 10.1111/j.1467-9868.2010.00740.x . ISSN  1467-9868. S2CID  1231300.
  13. ^ Shah, Rajen D.; Samworth, Richard J. (2013). "Selección de variables con control de errores: otra mirada a la selección de estabilidad". Revista de la Royal Statistical Society. Serie B (Metodología estadística) . 75 (1): 55–80. arXiv : 1105.5578 . doi : 10.1111/j.1467-9868.2011.01034.x . ISSN  1369-7412. JSTOR  23361014. S2CID  18211609.
  14. ^ Cai, T. Tony; Zhang, Cun-Hui; Zhou, Harrison H. (agosto de 2010). "Tasas óptimas de convergencia para la estimación de la matriz de covarianza". Anales de estadística . 38 (4): 2118–2144. arXiv : 1010.3866 . doi :10.1214/09-AOS752. ISSN  0090-5364. S2CID  14038500 . Consultado el 6 de abril de 2021 .
  15. ^ Cai, Tony; Liu, Weidong; Luo, Xi (1 de junio de 2011). "Un enfoque de minimización de ℓ 1 {\displaystyle \ell _{1}} restringido para la estimación de matrices de precisión dispersa". Revista de la Asociación Estadounidense de Estadística . 106 (494): 594–607. arXiv : 1102.2233 . doi :10.1198/jasa.2011.tm10155. ISSN  0162-1459. S2CID  15900101 . Consultado el 6 de abril de 2021 .
  16. ^ Johnstone, Iain M.; Lu, Arthur Yu (1 de junio de 2009). "Sobre la consistencia y la escasez para el análisis de componentes principales en altas dimensiones". Revista de la Asociación Estadounidense de Estadística . 104 (486): 682–693. doi :10.1198/jasa.2009.0121. ISSN  0162-1459. PMC 2898454. PMID 20617121  . 
  17. ^ Vu, Vincent Q.; Lei, Jing (diciembre de 2013). "Estimación del subespacio principal disperso minimax en altas dimensiones". Anales de estadística . 41 (6): 2905–2947. arXiv : 1211.0373 . doi : 10.1214/13-AOS1151 . ISSN  0090-5364. S2CID  562591.
  18. ^ Bickel, Peter J. ; Levina, Elizaveta (2004). "Algunas teorías para la función discriminante lineal de Fisher, Bayes ingenuo y algunas alternativas cuando hay muchas más variables que observaciones". Bernoulli . 10 (6): 989–1010. doi : 10.3150/bj/1106314847 .
  19. ^ Fan, Jianqing; Fan, Yingying (diciembre de 2008). "Clasificación de alta dimensión utilizando reglas de independencia recocida de características". Anales de estadística . 36 (6): 2605–2637. arXiv : math/0701108 . doi : 10.1214/07-AOS504 . PMC 2630123 . PMID  19169416. S2CID  2982392. 
  20. ^ Cannings, Timothy I.; Samworth, Richard J. (2017). "Clasificación de conjuntos por proyección aleatoria". Revista de la Royal Statistical Society, Serie B (Metodología estadística) . 79 (4): 959–1035. arXiv : 1504.04595 . doi : 10.1111/rssb.12228 . S2CID  : 88520328.

Referencias