En estadística , las variables latentes (del latín : participio presente de lateo , “yacen ocultas”) son variables que sólo pueden inferirse indirectamente a través de un modelo matemático a partir de otras variables observables que pueden observarse o medirse directamente . [1] Estos modelos de variables latentes se utilizan en muchas disciplinas, incluidas la ingeniería , la medicina , la ecología , la física , el aprendizaje automático / inteligencia artificial , el procesamiento del lenguaje natural , la bioinformática , la quimiometría , la demografía , la economía , la gestión , las ciencias políticas , la psicología y las ciencias sociales. .
Las variables latentes pueden corresponder a aspectos de la realidad física. En principio, estos podrían medirse, pero es posible que no lo sean por razones prácticas. Entre las primeras expresiones de esta idea se encuentra la polémica clásica de Sir Francis Bacon , el Novum Organum , que en sí mismo es un desafío a la lógica más tradicional expresada en el Organon de Aristóteles .
Pero el proceso latente del que hablamos está lejos de ser obvio para las mentes de los hombres, asediados como están ahora. Porque no nos referimos a las medidas, síntomas o grados de cualquier proceso que pueda manifestarse en los cuerpos mismos, sino simplemente a un proceso continuo que, en su mayor parte, escapa a la observación de los sentidos.
— Sir Francis Bacon , Novum Organum [2]
En esta situación, se utiliza comúnmente el término variables ocultas (lo que refleja el hecho de que las variables son significativas, pero no observables). Otras variables latentes corresponden a conceptos abstractos, como categorías, estados mentales o de comportamiento, o estructuras de datos. En estas situaciones se pueden utilizar los términos variables hipotéticas o constructos hipotéticos .
El uso de variables latentes puede servir para reducir la dimensionalidad de los datos. Se pueden agregar muchas variables observables en un modelo para representar un concepto subyacente, lo que facilita la comprensión de los datos. En este sentido, cumplen una función similar a la de las teorías científicas. Al mismo tiempo, las variables latentes vinculan los datos " subsimbólicos " observables en el mundo real con los datos simbólicos en el mundo modelado.
Las variables latentes, creadas mediante métodos de análisis factorial, generalmente representan la varianza "compartida", o el grado en que las variables "se mueven" juntas. Las variables que no tienen correlación no pueden dar lugar a un constructo latente basado en el modelo de factor común . [4]
Ejemplos de variables latentes del campo de la economía incluyen la calidad de vida , la confianza empresarial, la moral, la felicidad y el conservadurismo: todas ellas son variables que no se pueden medir directamente. Pero al vincular estas variables latentes con otras variables observables, los valores de las variables latentes pueden inferirse a partir de mediciones de las variables observables. La calidad de vida es una variable latente que no se puede medir directamente, por lo que se utilizan variables observables para inferir la calidad de vida. Las variables observables para medir la calidad de vida incluyen riqueza, empleo, medio ambiente, salud física y mental, educación, recreación y tiempo libre, y pertenencia social.
La metodología de variables latentes se utiliza en muchas ramas de la medicina . Una clase de problemas que naturalmente se prestan a enfoques de variables latentes son los estudios longitudinales donde la escala de tiempo (por ejemplo, la edad del participante o el tiempo transcurrido desde el inicio del estudio) no está sincronizada con el rasgo que se está estudiando. Para tales estudios, se puede modelar una escala de tiempo no observada que esté sincronizada con el rasgo que se está estudiando como una transformación de la escala de tiempo observada utilizando variables latentes. Ejemplos de esto incluyen modelos de progresión de enfermedades y modelos de crecimiento (ver cuadro).
Existe una variedad de diferentes clases de modelos y metodologías que utilizan variables latentes y permiten inferir en presencia de variables latentes. Los modelos incluyen:
Los métodos de análisis e inferencia incluyen:
La estadística bayesiana se utiliza a menudo para inferir variables latentes.