stringtranslate.com

Regresión de mínimos cuadrados parciales

La regresión de mínimos cuadrados parciales (PLS) es un método estadístico que guarda cierta relación con la regresión de componentes principales ; en lugar de encontrar hiperplanos de varianza máxima entre la respuesta y las variables independientes, encuentra un modelo de regresión lineal al proyectar las variables predichas y las variables observables a un nuevo espacio. Debido a que tanto los datos X como los Y se proyectan a nuevos espacios, la familia de métodos PLS se conoce como modelos factoriales bilineales. El análisis discriminante de mínimos cuadrados parciales (PLS-DA) es una variante que se utiliza cuando Y es categórica.

PLS se utiliza para encontrar las relaciones fundamentales entre dos matrices ( X e Y ), es decir, un enfoque de variable latente para modelar las estructuras de covarianza en estos dos espacios. Un modelo PLS intentará encontrar la dirección multidimensional en el espacio X que explica la dirección de varianza multidimensional máxima en el espacio Y. La regresión PLS es particularmente adecuada cuando la matriz de predictores tiene más variables que observaciones y cuando hay multicolinealidad entre los valores X. Por el contrario, la regresión estándar fallará en estos casos (a menos que esté regularizada ).

Los mínimos cuadrados parciales fueron introducidos por el estadístico sueco Herman OA Wold , quien luego los desarrolló con su hijo, Svante Wold. Un término alternativo para PLS es proyección a estructuras latentes , [1] [2] pero el término mínimos cuadrados parciales sigue siendo dominante en muchas áreas. Aunque las aplicaciones originales fueron en las ciencias sociales, la regresión PLS es hoy más utilizada en quimiometría y áreas relacionadas. También se utiliza en bioinformática , sensometría , neurociencia y antropología .

Idea central

Idea central de PLS. Los vectores de carga en el espacio de entrada y salida se dibujan en rojo (no normalizados para una mejor visibilidad). Cuando aumenta (independientemente de ), y aumentan.

Se nos da una muestra de observaciones pareadas . En el primer paso , la regresión de mínimos cuadrados parciales busca la dirección normalizada que maximiza la covarianza [3]

Nótese a continuación que el algoritmo se denota en notación matricial.

Modelo subyacente

El modelo general subyacente del PLS multivariado con componentes es

dónde

Las descomposiciones de X e Y se realizan de manera de maximizar la covarianza entre T y U.

Obsérvese que esta covarianza se define par por par: la covarianza de la columna i de T (longitud n ) con la columna i de U (longitud n ) se maximiza. Además, la covarianza de la columna i de T con la columna j de U (con ) es cero.

En PLSR, las cargas se eligen de modo que las puntuaciones formen una base ortogonal. Esta es una diferencia importante con el PCA, donde la ortogonalidad se impone a las cargas (y no a las puntuaciones).

Algoritmos

Existen varias variantes de PLS para estimar las matrices factoriales y de carga T, U, P y Q. La mayoría de ellas construyen estimaciones de la regresión lineal entre X e Y como . Algunos algoritmos PLS solo son apropiados para el caso en que Y es un vector columna, mientras que otros tratan el caso general de una matriz Y. Los algoritmos también difieren en si estiman la matriz factorial T como una matriz ortogonal (es decir, ortonormal ) o no. [4] [5] [6] [7] [8] [9] La predicción final será la misma para todas estas variedades de PLS, pero los componentes diferirán.

PLS se compone de repetir iterativamente los siguientes pasos k veces (para k componentes):

  1. Encontrar las direcciones de covarianza máxima en el espacio de entrada y salida.
  2. Realizar una regresión de mínimos cuadrados sobre la puntuación de entrada
  3. desinflando la entrada y/o el objetivo

Por favor 1

PLS1 es un algoritmo ampliamente utilizado, apropiado para el caso del vector Y. Estima T como una matriz ortonormal. (Precaución: los vectores t en el código a continuación pueden no estar normalizados apropiadamente; vea la discusión). En pseudocódigo se expresa a continuación (las letras mayúsculas son matrices, las letras minúsculas son vectores si están en superíndice y escalares si están en subíndice).

1 función PLS1( X, y, ℓ ) 2 3 , una estimación inicial de w . 4 para    5 6 (tenga en cuenta que esto es un escalar) 7 8 9 (tenga en cuenta que esto es un escalar)
10 si
11 , rompa el bucle for
12 si
13
14
15 fin para
16 defina W como la matriz con columnas . Haga lo mismo para formar la matriz P y el vector q .    17
18
19 volver 

Esta forma del algoritmo no requiere centrar las entradas X e Y , ya que esto lo realiza implícitamente el algoritmo. Este algoritmo incluye la 'deflación' de la matriz X (resta de ), pero no se realiza la deflación del vector y , ya que no es necesaria (se puede demostrar que deflactar y produce los mismos resultados que no deflactar [10] ). La variable proporcionada por el usuario l es el límite del número de factores latentes en la regresión; si es igual al rango de la matriz X , el algoritmo producirá las estimaciones de regresión de mínimos cuadrados para B y

Interpretación geométrica del paso de deflación en el espacio de entrada

Extensiones

OPLS

En 2002 se publicó un nuevo método llamado proyecciones ortogonales a estructuras latentes (OPLS). En OPLS, los datos de variables continuas se separan en información predictiva y no correlacionada (ortogonal). Esto conduce a un mejor diagnóstico, así como a una visualización más fácil de interpretar. Sin embargo, estos cambios solo mejoran la interpretabilidad, no la predictividad, de los modelos PLS. [11] De manera similar, OPLS-DA (análisis discriminante) puede aplicarse cuando se trabaja con variables discretas, como en los estudios de clasificación y biomarcadores.

El modelo general subyacente de OPLS es

o en O2-PLS [12]

L-PLS

Otra extensión de la regresión PLS, denominada L-PLS por sus matrices en forma de L, conecta tres bloques de datos relacionados para mejorar la previsibilidad. [13] En resumen, se agrega una nueva matriz Z , con el mismo número de columnas que la matriz X , al análisis de regresión PLS y puede ser adecuada para incluir información de fondo adicional sobre la interdependencia de las variables predictoras.

3PRF

En 2015, los mínimos cuadrados parciales se relacionaron con un procedimiento llamado filtro de regresión de tres pasos (3PRF). [14] Suponiendo que el número de observaciones y variables es grande, el 3PRF (y, por lo tanto, el PLS) es asintóticamente normal para el "mejor" pronóstico implícito en un modelo de factor latente lineal. En los datos del mercado de valores, se ha demostrado que el PLS proporciona pronósticos precisos fuera de la muestra de los rendimientos y el crecimiento del flujo de efectivo. [15]

Mínimos cuadrados parciales SVD

Una versión de PLS basada en la descomposición en valores singulares (SVD) proporciona una implementación que hace un uso eficiente de la memoria y que se puede utilizar para abordar problemas de alta dimensión, como relacionar millones de marcadores genéticos con miles de características de imágenes en la genética de imágenes, en hardware de consumo. [16]

Correlación PLS

La correlación PLS (PLSC) es otra metodología relacionada con la regresión PLS, [17] que se ha utilizado en neuroimagen [17] [18] [19] y en ciencias del deporte [20] para cuantificar la fuerza de la relación entre conjuntos de datos. Normalmente, la PLSC divide los datos en dos bloques (subgrupos), cada uno de los cuales contiene una o más variables, y luego utiliza la descomposición en valores singulares (SVD) para establecer la fuerza de cualquier relación (es decir, la cantidad de información compartida) que pueda existir entre los dos subgrupos componentes. [21] Esto se hace utilizando SVD para determinar la inercia (es decir, la suma de los valores singulares) de la matriz de covarianza de los subgrupos en consideración. [21] [17]

Véase también

Referencias

  1. ^ Wold, S; Sjöström, M.; Eriksson, L. (2001). "Regresión PLS: una herramienta básica de la quimiometría". Quimiometría y sistemas de laboratorio inteligentes . 58 (2): 109–130. doi :10.1016/S0169-7439(01)00155-1. S2CID  11920190.
  2. ^ Abdi, Hervé (2010). "Regresión de mínimos cuadrados parciales y proyección sobre regresión de estructura latente (Regresión PLS)". WIREs Computational Statistics . 2 : 97–106. doi :10.1002/wics.51. S2CID  122685021.
  3. ^ Ver conferencia https://www.youtube.com/watch?v=Px2otK2nZ1c&t=46s
  4. ^ Lindgren, F; Geladi, P; Wold, S (1993). "El algoritmo kernel para PLS". J. Chemometrics . 7 : 45–59. doi :10.1002/cem.1180070104. S2CID  122950427.
  5. ^ de Jong, S.; ter Braak, CJF (1994). "Comentarios sobre el algoritmo de núcleo PLS". J. Chemometrics . 8 (2): 169–174. doi :10.1002/cem.1180080208. S2CID  221549296.
  6. ^ Dayal, BS; MacGregor, JF (1997). "Algoritmos PLS mejorados". J. Chemometrics . 11 (1): 73–85. doi :10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#. S2CID  120753851.
  7. ^ de Jong, S. (1993). "SIMPLS: un enfoque alternativo a la regresión de mínimos cuadrados parciales". Quimiometría y sistemas de laboratorio inteligentes . 18 (3): 251–263. doi :10.1016/0169-7439(93)85002-X.
  8. ^ Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). "Un algoritmo de núcleo PLS para conjuntos de datos con muchas variables y menos objetos. Parte 1: teoría y algoritmo". J. Chemometrics . 8 (2): 111–125. doi :10.1002/cem.1180080204. S2CID  121613293.
  9. ^ Abdi, H. (2010). "Regresión de mínimos cuadrados parciales y proyección sobre regresión de estructura latente (PLS-Regression)". Wiley Interdisciplinary Reviews: Computational Statistics . 2 : 97–106. doi :10.1002/wics.51. S2CID  122685021.
  10. ^ Höskuldsson, Agnar (1988). "Métodos de regresión PLS". Revista de quimiometría . 2 (3): 219. doi :10.1002/cem.1180020306. S2CID  120052390.
  11. ^ Trygg, J; Wold, S (2002). "Proyecciones ortogonales a estructuras latentes". Revista de quimiometría . 16 (3): 119–128. doi :10.1002/cem.695. S2CID  122699039.
  12. ^ Eriksson, S. Wold y J. Tryg. "O2PLS® para un mejor análisis y visualización de datos complejos". https://www.dynacentrix.com/telecharg/SimcaP/O2PLS.pdf
  13. ^ Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, AH; Martens, H. (2008). "LPLS-regresión: un método para la predicción y clasificación bajo la influencia de la información de fondo sobre las variables predictoras". Quimiometría y sistemas de laboratorio inteligentes . 91 (2): 121–132. doi :10.1016/j.chemolab.2007.10.006.
  14. ^ Kelly, Bryan; Pruitt, Seth (1 de junio de 2015). "El filtro de regresión de tres pasos: un nuevo enfoque para la previsión utilizando muchos predictores". Journal of Econometrics . Problemas de alta dimensión en econometría. 186 (2): 294–316. doi :10.1016/j.jeconom.2015.02.011.
  15. ^ Kelly, Bryan; Pruitt, Seth (1 de octubre de 2013). "Expectativas del mercado en la sección transversal de valores actuales". The Journal of Finance . 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973 . doi :10.1111/jofi.12060. ISSN  1540-6261. 
  16. ^ Lorenzi, Marco; Altmann, Andre; Gutman, Boris; Wray, Selina; Arber, Charles; Hibar, Derrek P.; Jahanshad, Neda; Schott, Jonathan M.; Alexander, Daniel C. (20 de marzo de 2018). "Susceptibilidad de la atrofia cerebral a TRIB3 en la enfermedad de Alzheimer, evidencia de la priorización funcional en la genética de imágenes". Actas de la Academia Nacional de Ciencias . 115 (12): 3162–3167. Bibcode :2018PNAS..115.3162L. doi : 10.1073/pnas.1706100115 . ISSN  0027-8424. PMC 5866534 . PMID  29511103. 
  17. ^ abc Krishnan, Anjali; Williams, Lynne J.; McIntosh, Anthony Randal; Abdi, Hervé (mayo de 2011). "Métodos de mínimos cuadrados parciales (PLS) para neuroimagen: un tutorial y una revisión". NeuroImage . 56 (2): 455–475. doi :10.1016/j.neuroimage.2010.07.034. PMID  20656037. S2CID  8796113.
  18. ^ McIntosh, Anthony R.; Mišić, Bratislav (3 de enero de 2013). "Análisis estadísticos multivariados para datos de neuroimagen". Revista anual de psicología . 64 (1): 499–525. doi :10.1146/annurev-psych-113011-143804. ISSN  0066-4308. PMID  22804773.
  19. ^ Beggs, Clive B.; Magnano, Christopher; Belov, Pavel; Krawiecki, Jacqueline; Ramasamy, Deepa P.; Hagemeier, Jesper; Zivadinov, Robert (2016-05-02). de Castro, Fernando (ed.). "Área transversal de la vena yugular interna y pulsatilidad del líquido cefalorraquídeo en el acueducto de Silvio: un estudio comparativo entre sujetos sanos y pacientes con esclerosis múltiple". PLOS ONE . ​​11 (5): e0153960. Bibcode :2016PLoSO..1153960B. doi : 10.1371/journal.pone.0153960 . ISSN  1932-6203. PMC 4852898 . PMID  27135831. 
  20. ^ Weaving, Dan; Jones, Ben; Ireton, Matt; Whitehead, Sarah; Till, Kevin; Beggs, Clive B. (14 de febrero de 2019). Connaboy, Chris (ed.). "Superar el problema de la multicolinealidad en los datos de rendimiento deportivo: una nueva aplicación del análisis de correlación de mínimos cuadrados parciales". PLOS ONE . ​​14 (2): e0211776. Bibcode :2019PLoSO..1411776W. doi : 10.1371/journal.pone.0211776 . ISSN  1932-6203. PMC 6375576 ​​. PMID  30763328. 
  21. ^ ab Abdi, Hervé; Williams, Lynne J. (2013), Reisfeld, Brad; Mayeno, Arthur N. (eds.), "Métodos de mínimos cuadrados parciales: correlación de mínimos cuadrados parciales y regresión de mínimos cuadrados parciales", Computational Toxicology , vol. 930, Humana Press, págs. 549–579, doi :10.1007/978-1-62703-059-5_23, ISBN 9781627030588, PMID23086857 ​

Literatura

Enlaces externos