stringtranslate.com

Regresión de mínimos cuadrados parciales

La regresión de mínimos cuadrados parciales ( regresión PLS ) es un método estadístico que guarda cierta relación con la regresión de componentes principales ; en lugar de encontrar hiperplanos de varianza máxima entre la respuesta y las variables independientes, encuentra un modelo de regresión lineal proyectando las variables predichas y las variables observables a un nuevo espacio. Debido a que tanto los datos X como Y se proyectan a nuevos espacios, la familia de métodos PLS se conoce como modelos factoriales bilineales. El análisis discriminante de mínimos cuadrados parciales (PLS-DA) es una variante que se utiliza cuando la Y es categórica.

PLS se utiliza para encontrar las relaciones fundamentales entre 2 matrices ( X e Y ), es decir, un enfoque de variable latente para modelar las estructuras de covarianza en estos dos espacios. Un modelo PLS intentará encontrar la dirección multidimensional en el espacio X que explique la dirección de la varianza multidimensional máxima en el espacio Y. La regresión PLS es particularmente adecuada cuando la matriz de predictores tiene más variables que observaciones y cuando existe multicolinealidad entre los valores de X. Por el contrario, la regresión estándar fallará en estos casos (a menos que esté regularizada ).

Los mínimos cuadrados parciales fueron introducidos por el estadístico sueco Herman OA Wold , quien luego lo desarrolló con su hijo, Svante Wold. Un término alternativo para PLS es proyección a estructuras latentes , [1] [2] pero el término mínimos cuadrados parciales sigue siendo dominante en muchas áreas. Aunque las aplicaciones originales estaban en las ciencias sociales, la regresión PLS se utiliza hoy en día más ampliamente en quimiometría y áreas relacionadas. También se utiliza en bioinformática , sensometría , neurociencia y antropología .

Idea principal

Idea central de PLS. Los vectores de carga en el espacio de entrada y salida están dibujados en rojo (no normalizados para una mejor visibilidad). Cuando aumenta (independiente de ) y aumenta.

Dadas muestras aleatorias pareadas . En el primer paso , la regresión de mínimos cuadrados parcial busca la dirección normalizada , de modo que se maximice la correlación [3] . Tenga en cuenta que a continuación el algoritmo se indica en notación matricial.

Modelo subyacente

El modelo subyacente general de PLS multivariado con componentes es

dónde

Las descomposiciones de X e Y se realizan de manera que se maximice la covarianza entre T y U.

Tenga en cuenta que esta covarianza se define par por par: la covarianza de la columna i de T (longitud n) con la columna i de U (longitud n) se maximiza. Además, la covarianza de la columna i de T con la columna j de U (con ) es cero.

En PLSR, las cargas se eligen de modo que las puntuaciones formen una base ortogonal. Ésta es una diferencia importante con el PCA, donde se impone la ortogonalidad a las cargas (y no a las puntuaciones).

Algoritmos

Existen varias variantes de PLS para estimar el factor y las matrices de carga T , U, P y Q. La mayoría de ellos construye estimaciones de la regresión lineal entre X e Y como . Algunos algoritmos PLS solo son apropiados para el caso en el que Y es un vector columna, mientras que otros tratan el caso general de una matriz Y. Los algoritmos también difieren en cuanto a si estiman la matriz de factores T como una matriz ortogonal (es decir, ortonormal ) o no. [4] [5] [6] [7] [8] [9] La predicción final será la misma para todas estas variedades de PLS, pero los componentes serán diferentes.

PLS se compone de repetir iterativamente los siguientes pasos k veces (para k componentes):

  1. encontrar las direcciones de covarianza máxima en el espacio de entrada y salida
  2. realizar una regresión de mínimos cuadrados en la puntuación de entrada
  3. desinflar la entrada y/o el objetivo

PLS1

PLS1 es un algoritmo ampliamente utilizado apropiado para el caso del vector Y. Estima T como una matriz ortonormal. (Precaución: los vectores t en el código siguiente pueden no estar normalizados adecuadamente; consulte la charla). En pseudocódigo se expresa a continuación (las letras mayúsculas son matrices, las letras minúsculas son vectores si están en superíndice y escalares si están en subíndice).

1 función PLS1( X, y, l ) 2 3 , una estimación inicial de w . 4 for  to   5 6 (tenga en cuenta que esto es un escalar) 7 8 9 (tenga en cuenta que esto es un escalar)
10 if
11 , rompa el bucle for
12 if
13
14
15 end for
16 defina W como la matriz con columnas .  Haz lo mismo para formar la matriz P y el vector q .    17
18
19 volver 

Esta forma del algoritmo no requiere centrar las entradas X e Y , ya que el algoritmo lo realiza implícitamente. Este algoritmo presenta la 'deflación' de la matriz X (resta de ), pero no se realiza la deflación del vector y , ya que no es necesaria (se puede demostrar que deflactar y produce los mismos resultados que no deflactar [10] ). La variable l proporcionada por el usuario es el límite del número de factores latentes en la regresión; si es igual al rango de la matriz X , el algoritmo producirá las estimaciones de regresión de mínimos cuadrados para B y

Interpretación geométrica del paso de deflación en el espacio de entrada.

Extensiones

OPLS

En 2002 se publicó un nuevo método llamado proyecciones ortogonales a estructuras latentes (OPLS). En OPLS, los datos de variables continuas se separan en información predictiva y no correlacionada (ortogonal). Esto conduce a diagnósticos mejorados, así como a una visualización más fácilmente interpretada. Sin embargo, estos cambios sólo mejoran la interpretabilidad, no la predictividad, de los modelos PLS. [11] De manera similar, OPLS-DA (análisis discriminante) se puede aplicar cuando se trabaja con variables discretas, como en estudios de clasificación y biomarcadores.

El modelo subyacente general de OPLS es

o en O2-PLS [12]

L-PLS

Otra extensión de la regresión PLS, denominada L-PLS por sus matrices en forma de L, conecta 3 bloques de datos relacionados para mejorar la previsibilidad. [13] En resumen, se agrega una nueva matriz Z , con el mismo número de columnas que la matriz X , al análisis de regresión PLS y puede ser adecuada para incluir información adicional sobre la interdependencia de las variables predictoras.

3PRF

En 2015, los mínimos cuadrados parciales se relacionaron con un procedimiento llamado filtro de regresión de tres pasos (3PRF). [14] Suponiendo que el número de observaciones y variables es grande, el 3PRF (y por lo tanto el PLS) es asintóticamente normal para el "mejor" pronóstico implícito en un modelo lineal de factores latentes. En los datos del mercado de valores, se ha demostrado que PLS proporciona pronósticos precisos fuera de la muestra de rendimientos y crecimiento del flujo de efectivo. [15]

SVD de mínimos cuadrados parciales

Una versión de PLS basada en la descomposición de valores singulares (SVD) proporciona una implementación eficiente de la memoria que se puede utilizar para abordar problemas de alta dimensión, como relacionar millones de marcadores genéticos con miles de características de imágenes en genética de imágenes, en hardware de consumo. [dieciséis]

Correlación PLS

La correlación PLS (PLSC) es otra metodología relacionada con la regresión PLS, [17] que se ha utilizado en neuroimagen [17] [18] [19] y ciencias del deporte, [20] para cuantificar la fuerza de la relación entre conjuntos de datos. Normalmente, PLSC divide los datos en dos bloques (subgrupos), cada uno de los cuales contiene una o más variables, y luego utiliza la descomposición en valores singulares (SVD) para establecer la solidez de cualquier relación (es decir, la cantidad de información compartida) que pueda existir entre los datos. dos subgrupos de componentes. [21] Para ello, utiliza SVD para determinar la inercia (es decir, la suma de los valores singulares) de la matriz de covarianza de los subgrupos considerados. [21] [17]

Ver también

Referencias

  1. ^ Mundo, S; Sjöström, M.; Eriksson, L. (2001). "Regresión PLS: una herramienta básica de quimiometría". Quimiometría y Sistemas Inteligentes de Laboratorio . 58 (2): 109-130. doi :10.1016/S0169-7439(01)00155-1. S2CID  11920190.
  2. ^ Abdi, Hervé (2010). "Regresión de mínimos cuadrados parciales y proyección sobre regresión de estructura latente (regresión PLS)". Estadísticas computacionales de WIRE . 2 : 97-106. doi :10.1002/wics.51. S2CID  122685021.
  3. ^ Ver conferencia https://www.youtube.com/watch?v=Px2otK2nZ1c&t=46s
  4. ^ Lindgren, F; Geladi, P; Mundo, S (1993). "El algoritmo del núcleo para PLS". J. Quimiometría . 7 : 45–59. doi :10.1002/cem.1180070104. S2CID  122950427.
  5. ^ de Jong, S.; ter Braak, CJF (1994). "Comentarios sobre el algoritmo del kernel PLS". J. Quimiometría . 8 (2): 169-174. doi :10.1002/cem.1180080208. S2CID  221549296.
  6. ^ Dayal, BS; MacGregor, JF (1997). "Algoritmos PLS mejorados". J. Quimiometría . 11 (1): 73–85. doi :10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#. S2CID  120753851.
  7. ^ de Jong, S. (1993). "SIMPLS: un enfoque alternativo a la regresión de mínimos cuadrados parciales". Quimiometría y Sistemas Inteligentes de Laboratorio . 18 (3): 251–263. doi :10.1016/0169-7439(93)85002-X.
  8. ^ Rannar, S.; Lindgren, F.; Geladi, P.; Mundo, S. (1994). "Un algoritmo de kernel PLS para conjuntos de datos con muchas variables y menos objetos. Parte 1: teoría y algoritmo". J. Quimiometría . 8 (2): 111-125. doi :10.1002/cem.1180080204. S2CID  121613293.
  9. ^ Abdi, H. (2010). "Regresión de mínimos cuadrados parciales y proyección sobre regresión de estructura latente (Regresión PLS)". Revisiones interdisciplinarias de Wiley: estadística computacional . 2 : 97-106. doi :10.1002/wics.51. S2CID  122685021.
  10. ^ Höskuldsson, Agnar (1988). "Métodos de regresión PLS". Revista de quimiometría . 2 (3): 219. doi :10.1002/cem.1180020306. S2CID  120052390.
  11. ^ Trygg, J; Mundo, S (2002). "Proyecciones ortogonales a estructuras latentes". Revista de quimiometría . 16 (3): 119-128. doi :10.1002/cem.695. S2CID  122699039.
  12. ^ Eriksson, S. Wold y J. Tryg. "O2PLS® para un mejor análisis y visualización de datos complejos". https://www.dynacentrix.com/telecharg/SimcaP/O2PLS.pdf
  13. ^ Sæbøa, S.; Almoya, T.; Flatbergb, A.; Aastveita, AH; Martens, H. (2008). "Regresión LPLS: un método de predicción y clasificación bajo la influencia de información de fondo sobre variables predictivas". Quimiometría y Sistemas Inteligentes de Laboratorio . 91 (2): 121-132. doi :10.1016/j.chemolab.2007.10.006.
  14. ^ Kelly, Bryan; Pruitt, Seth (1 de junio de 2015). "El filtro de regresión de tres pasos: un nuevo enfoque para la previsión utilizando muchos predictores". Revista de Econometría . Problemas de altas dimensiones en econometría. 186 (2): 294–316. doi :10.1016/j.jeconom.2015.02.011.
  15. ^ Kelly, Bryan; Pruitt, Seth (1 de octubre de 2013). "Expectativas del mercado en la sección transversal de los valores actuales". La Revista de Finanzas . 68 (5): 1721-1756. CiteSeerX 10.1.1.498.5973 . doi :10.1111/jofi.12060. ISSN  1540-6261. 
  16. ^ Lorenzi, Marco; Altmann, André; Gutman, Boris; Wray, Selina; Arber, Charles; Hibar, Derek P.; Jahanshad, Neda; Schott, Jonathan M.; Alejandro, Daniel C. (20 de marzo de 2018). "Susceptibilidad de la atrofia cerebral a TRIB3 en la enfermedad de Alzheimer, evidencia de la priorización funcional en genética de imágenes". Procedimientos de la Academia Nacional de Ciencias . 115 (12): 3162–3167. doi : 10.1073/pnas.1706100115 . ISSN  0027-8424. PMC 5866534 . PMID  29511103. 
  17. ^ abc Krishnan, Anjali; Williams, Lynne J.; McIntosh, Anthony Randal; Abdi, Hervé (mayo de 2011). "Métodos de mínimos cuadrados parciales (PLS) para neuroimagen: un tutorial y una revisión". NeuroImagen . 56 (2): 455–475. doi : 10.1016/j.neuroimage.2010.07.034. PMID  20656037. S2CID  8796113.
  18. ^ McIntosh, Anthony R.; Mišić, Bratislav (3 de enero de 2013). "Análisis estadísticos multivariados para datos de neuroimagen". Revista Anual de Psicología . 64 (1): 499–525. doi : 10.1146/annurev-psych-113011-143804. ISSN  0066-4308. PMID  22804773.
  19. ^ Suplica, Clive B.; Magnano, Cristóbal; Belov, Pavel; Krawiecki, Jacqueline; Ramasamy, Deepa P.; Hagemeier, Jesper; Zivadinov, Robert (2 de mayo de 2016). de Castro, Fernando (ed.). "Área transversal de la vena yugular interna y pulsatilidad del líquido cefalorraquídeo en el acueducto de Silvio: un estudio comparativo entre sujetos sanos y pacientes con esclerosis múltiple". MÁS UNO . 11 (5): e0153960. Código Bib : 2016PLoSO..1153960B. doi : 10.1371/journal.pone.0153960 . ISSN  1932-6203. PMC 4852898 . PMID  27135831. 
  20. ^ Tejiendo, Dan; Jones, Ben; Ireton, Matt; Cabeza blanca, Sarah; Hasta, Kevin; Suplica, Clive B. (14 de febrero de 2019). Connaboy, Chris (ed.). "Superar el problema de la multicolinealidad en los datos de rendimiento deportivo: una aplicación novedosa del análisis de correlación de mínimos cuadrados parciales". MÁS UNO . 14 (2): e0211776. Código Bib : 2019PLoSO..1411776W. doi : 10.1371/journal.pone.0211776 . ISSN  1932-6203. PMC 6375576 . PMID  30763328. 
  21. ^ ab Abdi, Hervé; Williams, Lynne J. (2013), Reisfeld, Brad; Mayeno, Arthur N. (eds.), "Métodos de mínimos cuadrados parciales: correlación de mínimos cuadrados parciales y regresión de mínimos cuadrados parciales", Toxicología computacional , Humana Press, vol. 930, págs. 549–579, doi :10.1007/978-1-62703-059-5_23, ISBN 9781627030588, PMID  23086857

Literatura

enlaces externos