En el aprendizaje automático , el análisis semántico de un corpus es la tarea de construir estructuras que se aproximen a los conceptos de un gran conjunto de documentos. Generalmente no implica una comprensión semántica previa de los documentos. Un metalenguaje basado en la lógica de predicados puede analizar el habla de los humanos. [1] : 93- Otra estrategia para comprender la semántica de un texto es la fundamentación simbólica . Si el lenguaje está fundamentado, es igual a reconocer un significado legible por máquina. Para el dominio restringido del análisis espacial, se demostró un sistema de comprensión del lenguaje basado en computadora. [2] : 123
El análisis semántico latente (a veces denominado indexación semántica latente) es una clase de técnicas en las que los documentos se representan como vectores en el espacio de términos. Un ejemplo destacado es PLSI .
La asignación de Dirichlet latente implica atribuir términos del documento a temas.
Los n-gramas y los modelos ocultos de Markov funcionan representando el flujo de términos como una cadena de Markov donde cada término se deriva de los pocos términos anteriores.