Un modelo de variable latente es un modelo estadístico que relaciona un conjunto de variables observables (también llamadas variables manifiestas o indicadores ) [1] con un conjunto de variables latentes . Los modelos de variables latentes se aplican en una amplia gama de campos, como la biología, la informática y las ciencias sociales. [2] Los casos de uso comunes para los modelos de variables latentes incluyen aplicaciones en psicometría (por ejemplo, resumir las respuestas a un conjunto de preguntas de la encuesta con un modelo de análisis factorial que postula un número menor de atributos psicológicos, como el rasgo extraversión , que se presume que causan las respuestas a las preguntas de la encuesta), [3] y procesamiento del lenguaje natural (por ejemplo, un modelo de temas que resume un corpus de textos con una serie de "temas"). [4]
Se supone que las respuestas a los indicadores o variables manifiestas son el resultado de la posición de un individuo en la(s) variable(s) latente(s), y que las variables manifiestas no tienen nada en común después de controlar la variable latente ( independencia local ).
Se pueden agrupar diferentes tipos de modelos de variables latentes según si las variables manifiestas y latentes son categóricas o continuas: [5]
El modelo de Rasch representa la forma más simple de la teoría de respuesta a los ítems. Los modelos de mezcla son fundamentales para el análisis de perfiles latentes.
En el análisis factorial y el análisis de rasgos latentes [nota 1] las variables latentes se tratan como variables distribuidas normalmente de forma continua, y en el análisis de perfiles latentes y el análisis de clases latentes como si se tratara de una distribución multinomial . [7] Las variables manifiestas en el análisis factorial y el análisis de perfiles latentes son continuas y, en la mayoría de los casos, se supone que su distribución condicional, dadas las variables latentes, es normal. En el análisis de rasgos latentes y el análisis de clases latentes, las variables manifiestas son discretas. Estas variables pueden ser dicotómicas, ordinales o nominales. Se supone que sus distribuciones condicionales son binomiales o multinomiales.