stringtranslate.com

Reducción suficiente de la dimensión

En estadística , la reducción de dimensión suficiente (SDR) es un paradigma para analizar datos que combina las ideas de reducción de dimensión con el concepto de suficiencia .

La reducción de dimensión ha sido durante mucho tiempo un objetivo principal del análisis de regresión . Dada una variable de respuesta y y un vector predictor p -dimensional , el análisis de regresión tiene como objetivo estudiar la distribución de , la distribución condicional de dado . Una reducción de dimensión es una función que se asigna a un subconjunto de , k  <  p , reduciendo así la dimensión de . [1] Por ejemplo, pueden ser una o más combinaciones lineales de .

Se dice que una reducción de dimensión es suficiente si la distribución de es la misma que la de . En otras palabras, no se pierde información sobre la regresión al reducir la dimensión de si la reducción es suficiente. [1]

Motivación gráfica

En un contexto de regresión, suele ser útil resumir gráficamente la distribución de . Por ejemplo, se puede considerar un diagrama de dispersión de versus uno o más de los predictores o una combinación lineal de los predictores. Un diagrama de dispersión que contiene toda la información de regresión disponible se denomina diagrama de resumen suficiente .

Cuando es de alta dimensión, particularmente cuando , se vuelve cada vez más difícil construir e interpretar visualmente gráficos de resumen de suficiencia sin reducir los datos. Incluso los gráficos de dispersión tridimensionales deben verse a través de un programa de computadora, y la tercera dimensión solo se puede visualizar rotando los ejes de coordenadas. Sin embargo, si existe una reducción de dimensión suficiente con una dimensión lo suficientemente pequeña, se puede construir un gráfico de resumen suficiente de versus e interpretarlo visualmente con relativa facilidad.

Por lo tanto, una reducción de dimensión suficiente permite una intuición gráfica acerca de la distribución de , que de otro modo no habría estado disponible para datos de alta dimensión.

La mayor parte de la metodología gráfica se centra principalmente en la reducción de dimensión que implica combinaciones lineales de . El resto de este artículo trata únicamente de dichas reducciones.

Subespacio de reducción de dimensión

Supongamos que hay una reducción de dimensión suficiente, donde es una matriz con rango . Entonces, la información de regresión para se puede inferir estudiando la distribución de , y el gráfico de versus es un gráfico resumen suficiente.

Sin pérdida de generalidad , sólo se debe considerar el espacio abarcado por las columnas de . Sea una base para el espacio columna de , y sea el espacio abarcado por denotado por . De la definición de una reducción de dimensión suficiente se deduce que

donde denota la función de distribución apropiada . Otra forma de expresar esta propiedad es

o es condicionalmente independiente de , dado . Entonces el subespacio se define como un subespacio de reducción de dimensión (DRS) . [2]

Dimensionalidad estructural

Para una regresión , la dimensión estructural , , es el número más pequeño de combinaciones lineales distintas de necesarias para preservar la distribución condicional de . En otras palabras, la reducción de dimensión más pequeña que aún es suficiente se asigna a un subconjunto de . La DRS correspondiente será d -dimensional. [2]

Subespacio de reducción de dimensión mínima

Se dice que un subespacio es un DRS mínimo para si es un DRS y su dimensión es menor o igual que la de todos los demás DRS para . Un DRS mínimo no es necesariamente único, pero su dimensión es igual a la dimensión estructural de , por definición. [2]

Si tiene base y es un DRS mínimo, entonces un gráfico de y versus es un gráfico de resumen mínimo suficiente , y es ( d  + 1)-dimensional.

Subespacio central

Si un subespacio es un DRS para , y si para todos los demás DRS , entonces es un subespacio de reducción de dimensión central , o simplemente un subespacio central , y se denota por . En otras palabras, existe un subespacio central para si y solo si la intersección de todos los subespacios de reducción de dimensión es también un subespacio de reducción de dimensión, y esa intersección es el subespacio central . [2]

El subespacio central no existe necesariamente porque la intersección no es necesariamente un DRS. Sin embargo, si existe , entonces también es el único subespacio de reducción de dimensión mínima. [2]

Existencia del subespacio central

Si bien la existencia del subespacio central no está garantizada en todas las situaciones de regresión, existen algunas condiciones bastante generales en las que su existencia se desprende directamente de ellas. Por ejemplo, considere la siguiente proposición de Cook (1998):

Sean y subespacios de reducción de dimensión para . Si tiene densidad para todos y en cualquier otro lugar, donde es convexo , entonces la intersección también es un subespacio de reducción de dimensión.

De esta proposición se deduce que el subespacio central existe para tal . [2]

Métodos para la reducción de dimensión

Existen muchos métodos para la reducción de dimensión, tanto gráficos como numéricos. Por ejemplo, la regresión inversa por cortes (SIR) y la estimación de varianza promedio por cortes (SAVE) se introdujeron en la década de 1990 y siguen utilizándose ampliamente. [3] Aunque la SIR se diseñó originalmente para estimar un subespacio de reducción de dimensión eficaz , ahora se entiende que estima solo el subespacio central, que generalmente es diferente.

Los métodos más recientes para la reducción de dimensión incluyen la reducción de dimensión suficiente basada en verosimilitud , [4] la estimación del subespacio central basándose en el tercer momento inverso (o k- ésimo momento), [5] la estimación del espacio de solución central, [6] la regresión gráfica, [2] el modelo de envolvente y la máquina de vectores de soporte principal. [7] Para obtener más detalles sobre estos y otros métodos, consulte la literatura estadística.

El análisis de componentes principales (PCA) y métodos similares para la reducción de dimensión no se basan en el principio de suficiencia.

Ejemplo: regresión lineal

Considere el modelo de regresión

Nótese que la distribución de es la misma que la distribución de . Por lo tanto, el lapso de es un subespacio de reducción de dimensión. Además, es unidimensional (a menos que ), por lo que la dimensión estructural de esta regresión es .

La estimación MCO de es consistente y, por lo tanto, el lapso de es un estimador consistente de . El gráfico de versus es un gráfico resumen suficiente para esta regresión.

Véase también

Notas

  1. ^ ab Cook y Adragni (2009) Reducción de dimensión suficiente y predicción en regresión En: Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences , 367(1906): 4385–4405
  2. ^ abcdefg Cook, RD (1998) Gráficos de regresión: ideas para estudiar regresiones a través de gráficos , Wiley ISBN  0471193658
  3. ^ Li, KC. (1991) Regresión inversa por rebanadas para reducción de dimensión En: Journal of the American Statistical Association , 86(414): 316–327
  4. ^ Cook, RD y Forzani, L. (2009) "Reducción de dimensión suficiente basada en verosimilitud", Journal of the American Statistical Association , 104(485): 197–208
  5. ^ Yin, X. y Cook, RD (2003) Estimación de subespacios centrales mediante momentos terceros inversos En: Biometrika , 90(1): 113–125
  6. ^ Li, B. y Dong, YD (2009) Reducción de dimensión para predictores distribuidos no elípticamente En: Annals of Statistics , 37(3): 1272–1298
  7. ^ Li, Bing; Artemiou, Andreas; Li, Lexin (2011). "Principales máquinas de vectores de soporte para reducción de dimensión suficiente lineal y no lineal". Anales de estadística . 39 (6): 3182–3210. arXiv : 1203.2790 . doi :10.1214/11-AOS932. S2CID  88519106.

Referencias

Enlaces externos