Indexación Semántica Latente

La indexación semántica latente (ISL) es un método de indexación y recuperación que utiliza un método numérico llamado descomposición en valores singulares (SVD por sus siglas en inglés) para identificar patrones en las relaciones entre los términos contenidos en una colección de textos no estructurados.La ISL se basa en el principio de que las palabras que se utilizan en el mismo contexto tienden a tener significados similares.La característica fundamental de la ISL es su habilidad para extraer el contenido conceptual de un documento, estableciendo asociaciones entre aquellos términos que ocurran en contextos similares.La ISL fue patentada en 1988 por Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum y Lynn Streeter.La idea principal es emparejar por conceptos en lugar de por términos, o sea, un documento podría ser recuperado si comparte conceptos con otro que es relevante para la consulta dada.Para esto se elige una forma de análisis denominada Descomposición en Valores Singulares (SVD).La ISL es una variación del Modelo Vectorial, en la que los documentos se representan a partir de vectores de pesos no binarios, al igual que las consultas, la función de similitud es el coseno del ángulo entre el vector del documento y el de la consulta y se trabaja como framework con el álgebra vectorial.A continuación se describirá el comportamiento del modelo.Los pesos anteriores pueden ser calculados de diversas formas como se muestran en las tablas a continuación.En esa aproximación se va a obtener información que no estaba disponible directamente en la matrizdebe ser lo suficientemente grande para evitar que se escape información relevante a la hora de hacer una consulta, pero a la vez debe ser lo suficientemente pequeño para permitir filtrar todos los detalles no relevantes.Para esto se realiza una transformación del vector de consultaa su representación en el espacio ISL mediante: Se puede notar que la ecuación anterior no depende en ninguna medida de que q sea una consulta; este es simplemente un vector en el espacio de los términos.Por supuesto, esto puede ser peligroso puesto que no se actualiza la frecuencia de los términos existentes en el sistema y no se adicionan los nuevos términos que posee el documento.Se puede utilizar para realizar una categorización automática de los documentos y particionarlos.Dado que es estrictamente matemático, es independiente del lenguaje, por lo tanto, puede extraer el contenido de cualquier documento independientemente del idioma en que está escrito sin estructuras auxiliares como los diccionarios y permite la búsqueda de términos de un idioma en documentos redactados en otro o varios idiomas, devolviendo resultados conceptualmente similares.Maneja efectivamente datos diversos, ambiguos y contradictorios.Mientras menor sea la nueva dimensión mayor será el recobrado e increíblemente un valor en los cientos puede incrementar la precisión.Al igual que el modelo vectorial permite el macheo parcial y el ranking, además tiene en cuenta la dependencia entre términos.Inicialmente, los mayores problemas de la ISL fueron la escalabilidad y el rendimiento, pues el costo temporal y espacial es relativamente alto con respecto a otras técnicas.También resulta problemático determinar el valor óptimo de la nueva dimensión a utilizar, aunque experimentalmente se ha comprobado la efectividad de los valores propuestos previamente.Funciona mejor en aplicaciones donde haya poco solapamiento entre las consultas y los documentos.En resumen, ISL resuelve dos de las más problemáticas restricciones del Modelo Booleano, la sinonimia y la polisemia.La agrupación dinámica, basada en el contenido contextual de los documentos también es una tarea que puede ser lograda con ISL.