En estadística , un modelo de clase latente ( LCM ) es un modelo para agrupar datos discretos multivariados. Se supone que los datos surgen de una mezcla de distribuciones discretas, dentro de cada una de las cuales las variables son independientes. Se le llama modelo de clase latente porque la clase a la que pertenece cada punto de datos no es observada o está latente.
El análisis de clases latentes ( LCA ) es un subconjunto del modelado de ecuaciones estructurales , utilizado para encontrar grupos o subtipos de casos en datos categóricos multivariados . Estos subtipos se denominan "clases latentes". [1] [2]
Ante la siguiente situación, un investigador podría optar por utilizar el ACV para comprender los datos: imagine que los síntomas y se han medido en una variedad de pacientes con enfermedades X, Y y Z, y que la enfermedad X está asociada con la presencia de síntomas a, byc, enfermedad Y con síntomas b, c, d, y enfermedad Z con síntomas a, cy d.
El ACV intentará detectar la presencia de clases latentes (las entidades patológicas), creando patrones de asociación en los síntomas. Al igual que en el análisis factorial , el ACV también se puede utilizar para clasificar los casos según su pertenencia a una clase de máxima probabilidad . [1] [3]
Porque el criterio para resolver el ACV es alcanzar clases latentes dentro de las cuales ya no existe asociación de un síntoma con otro (porque la clase es la enfermedad que provoca su asociación), y el conjunto de enfermedades que tiene un paciente (o clase a caso es miembro de) causa la asociación de síntomas, los síntomas serán "condicionalmente independientes", es decir, condicionados a la pertenencia a una clase, ya no están relacionados. [1]
Dentro de cada clase latente, las variables observadas son estadísticamente independientes . Este es un aspecto importante. Generalmente las variables observadas son estadísticamente dependientes. Al introducir la variable latente, se restablece la independencia en el sentido de que dentro de las clases las variables son independientes ( independencia local ). Decimos entonces que la asociación entre las variables observadas se explica por las clases de la variable latente (McCutcheon, 1987).
En una forma, el modelo de clases latentes se escribe como
donde es el número de clases latentes y son las llamadas probabilidades de reclutamiento o incondicionales que deben sumar uno. son las probabilidades marginales o condicionales.
Para un modelo de clases latentes bidireccional, la forma es
Este modelo bidireccional está relacionado con el análisis semántico latente probabilístico y la factorización matricial no negativa .
El modelo de probabilidad utilizado en LCA está estrechamente relacionado con el clasificador Naive Bayes . La principal diferencia es que en LCA, la pertenencia a una clase de un individuo es una variable latente, mientras que en los clasificadores Naive Bayes la pertenencia a una clase es una etiqueta observada.
Hay varios métodos con nombres y usos distintos que comparten una relación común. El análisis de conglomerados , al igual que el ACV, se utiliza para descubrir grupos de casos similares a taxones en los datos. La estimación de mezcla multivariada (MME) es aplicable a datos continuos y supone que dichos datos surgen de una mezcla de distribuciones: imagine un conjunto de alturas que surgen de una mezcla de hombres y mujeres. Si una estimación de mezcla multivariada está restringida de modo que las medidas no deben estar correlacionadas dentro de cada distribución, se denomina análisis de perfil latente . Modificado para manejar datos discretos, este análisis restringido se conoce como ACV. Los modelos discretos de rasgos latentes restringen aún más las clases para que se formen a partir de segmentos de una sola dimensión: esencialmente asignan miembros a clases en esa dimensión: un ejemplo sería asignar casos a clases sociales en una dimensión de habilidad o mérito.
Como ejemplo práctico, las variables podrían ser elementos de opción múltiple de un cuestionario político. Los datos en este caso consisten en una tabla de contingencia de N vías con respuestas a los ítems para varios encuestados. En este ejemplo, la variable latente se refiere a la opinión política y las clases latentes a los grupos políticos. Dada la pertenencia a un grupo, las probabilidades condicionales especifican la posibilidad de que se elijan determinadas respuestas.
El ACV se puede utilizar en muchos campos, tales como: filtrado colaborativo , [4] Genética del comportamiento [5] y Evaluación de pruebas de diagnóstico. [6]
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)