Modelo de clase latente

En estadística , un modelo de clase latente ( LCM ) es un modelo para agrupar datos discretos multivariados. Se supone que los datos surgen de una mezcla de distribuciones discretas, dentro de cada una de las cuales las variables son independientes. Se le llama modelo de clase latente porque la clase a la que pertenece cada punto de datos no es observada o está latente.

El análisis de clases latentes ( LCA ) es un subconjunto del modelado de ecuaciones estructurales , utilizado para encontrar grupos o subtipos de casos en datos categóricos multivariados . Estos subtipos se denominan "clases latentes". ^[1]^[2]

Ante la siguiente situación, un investigador podría optar por utilizar el ACV para comprender los datos: imagine que los síntomas y se han medido en una variedad de pacientes con enfermedades X, Y y Z, y que la enfermedad X está asociada con la presencia de síntomas a, byc, enfermedad Y con síntomas b, c, d, y enfermedad Z con síntomas a, cy d.

El ACV intentará detectar la presencia de clases latentes (las entidades patológicas), creando patrones de asociación en los síntomas. Al igual que en el análisis factorial , el ACV también se puede utilizar para clasificar los casos según su pertenencia a una clase de máxima probabilidad . ^[1]^[3]

Porque el criterio para resolver el ACV es alcanzar clases latentes dentro de las cuales ya no existe asociación de un síntoma con otro (porque la clase es la enfermedad que provoca su asociación), y el conjunto de enfermedades que tiene un paciente (o clase a caso es miembro de) causa la asociación de síntomas, los síntomas serán "condicionalmente independientes", es decir, condicionados a la pertenencia a una clase, ya no están relacionados. ^[1]

Modelo

Dentro de cada clase latente, las variables observadas son estadísticamente independientes . Este es un aspecto importante. Generalmente las variables observadas son estadísticamente dependientes. Al introducir la variable latente, se restablece la independencia en el sentido de que dentro de las clases las variables son independientes ( independencia local ). Decimos entonces que la asociación entre las variables observadas se explica por las clases de la variable latente (McCutcheon, 1987).

En una forma, el modelo de clases latentes se escribe como

p_{i_{1},i_{2},\ldots ,i_{N}}\approx \sum _{t}^{T}p_{t}\,\prod _{n}^{N }p_{i_{n},t}^{n},

donde es el número de clases latentes y son las llamadas probabilidades de reclutamiento o incondicionales que deben sumar uno. son las probabilidades marginales o condicionales. $T$ $p_{t}$ $p_{i_{n},t}^{n}$

Para un modelo de clases latentes bidireccional, la forma es

p_{ij}\approx \sum _{t}^{T}p_{t}\,p_{it}\,p_{jt}.

Este modelo bidireccional está relacionado con el análisis semántico latente probabilístico y la factorización matricial no negativa .

El modelo de probabilidad utilizado en LCA está estrechamente relacionado con el clasificador Naive Bayes . La principal diferencia es que en LCA, la pertenencia a una clase de un individuo es una variable latente, mientras que en los clasificadores Naive Bayes la pertenencia a una clase es una etiqueta observada.

Métodos relacionados

Hay varios métodos con nombres y usos distintos que comparten una relación común. El análisis de conglomerados , al igual que el ACV, se utiliza para descubrir grupos de casos similares a taxones en los datos. La estimación de mezcla multivariada (MME) es aplicable a datos continuos y supone que dichos datos surgen de una mezcla de distribuciones: imagine un conjunto de alturas que surgen de una mezcla de hombres y mujeres. Si una estimación de mezcla multivariada está restringida de modo que las medidas no deben estar correlacionadas dentro de cada distribución, se denomina análisis de perfil latente . Modificado para manejar datos discretos, este análisis restringido se conoce como ACV. Los modelos discretos de rasgos latentes restringen aún más las clases para que se formen a partir de segmentos de una sola dimensión: esencialmente asignan miembros a clases en esa dimensión: un ejemplo sería asignar casos a clases sociales en una dimensión de habilidad o mérito.

Como ejemplo práctico, las variables podrían ser elementos de opción múltiple de un cuestionario político. Los datos en este caso consisten en una tabla de contingencia de N vías con respuestas a los ítems para varios encuestados. En este ejemplo, la variable latente se refiere a la opinión política y las clases latentes a los grupos políticos. Dada la pertenencia a un grupo, las probabilidades condicionales especifican la posibilidad de que se elijan determinadas respuestas.

Solicitud

El ACV se puede utilizar en muchos campos, tales como: filtrado colaborativo , ^[4] Genética del comportamiento^[5] y Evaluación de pruebas de diagnóstico. ^[6]

Referencias

^ abc Lazarsfeld, PF y Henry, NW (1968) Análisis de estructura latente . Boston: Houghton Mifflin
^ Formann , Alaska (1984). Análisis de clases latentes: Einführung in die Theorie und Anwendung [Análisis de clases latentes: Introducción a la teoría y aplicación] . Weinheim: Beltz.
^ Teichert, Thorsten (2000). "Das Latent-Ciass Verfahren zur Segmentierung von wahlbasierten Conjoint-Daten. Befunde einer empirischen Anwendung". Comercialización ZFP . 22 (3): 227–240. doi :10.15358/0344-1369-2000-3-227. ISSN 0344-1369.
^ Cheung, Kwok-Wai; Tsui, Kwok Ching; Liu, Jiming (2004). "Modelos de clases latentes extendidas para recomendación colaborativa". Transacciones IEEE sobre sistemas, hombre y cibernética - Parte A: Sistemas y humanos . 34 (1): 143–148. CiteSeerX 10.1.1.6.2234 . doi :10.1109/TSMCA.2003.818877. S2CID 11628144.
^ Eaves, LJ, Silberg, JL, Hewitt, JK, Rutter, M., Meyer, JM, Neale, MC y Pickles, A (1993). "Análisis del parecido de gemelos en datos de múltiples síntomas: aplicaciones genéticas de un modelo de clase latente para síntomas de trastorno de conducta en niños jóvenes". Genética del comportamiento . 23 (1): 5-19. doi :10.1007/bf01067550. PMID 8476390. S2CID 40678009.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Bermingham, ML, Handel, IG, Glass, EJ, Woolliams, JA, de Clare Bronsvoort, BM, McBride, SH, Skuce, RA, Allen, A. R., McDowell, SWJ y Bishop, SC (2015). "El modelo de clase latente de Hui y Walter ampliado para estimar las propiedades de las pruebas de diagnóstico a partir de datos de vigilancia: un modelo latente para datos latentes". Informes científicos . 5 : 11861. Código bibliográfico : 2015NatSR...511861B. doi :10.1038/srep11861. PMC 4493568 . PMID 26148538. {{cite journal}}: CS1 maint: multiple names: authors list (link)

Linda M. Collins; Stephanie T. Lanza (2010). Análisis de clase latente y transición latente para las ciencias sociales, del comportamiento y de la salud . Nueva York: Wiley . ISBN 978-0-470-22839-5.
Allan L. McCutcheon (1987). Análisis de clases latentes . Serie Aplicaciones cuantitativas en ciencias sociales No. 64. Thousand Oaks, California: Publicaciones SAGE . ISBN 978-0-521-59451-6.
Leo A. Goodman (1974). "Análisis exploratorio de estructuras latentes utilizando modelos tanto identificables como no identificables". Biometrika . 61 (2): 215–231. doi :10.1093/biomet/61.2.215.
Paul F. Lazarsfeld , Neil W. Henry (1968). Análisis de estructura latente .

enlaces externos

Statistical Innovations, página de inicio, 2016. Sitio web con software de clase latente (Latent GOLD 5.1), demostraciones gratuitas, tutoriales, guías de usuario y publicaciones para descargar. También se incluyen: cursos en línea, preguntas frecuentes y otro software relacionado.
The Methodology Center, Latent Class Analysis, un centro de investigación en Penn State , software libre, preguntas frecuentes
John Uebersax, Latent Class Analysis, 2006. Un sitio web con bibliografía, software, enlaces y preguntas frecuentes para el análisis de clases latentes.