La comprensión de consultas es el proceso de inferir la intención de un usuario de un motor de búsqueda extrayendo el significado semántico de las palabras clave del buscador. [1] Los métodos de comprensión de consultas generalmente tienen lugar antes de que el motor de búsqueda recupere y clasifique los resultados. Está relacionado con el procesamiento del lenguaje natural , pero se centra específicamente en la comprensión de las consultas de búsqueda. La comprensión de consultas es el núcleo de tecnologías como Amazon Alexa , [2] Siri de Apple , [3] Google Assistant , [4] Watson de IBM , [5] y Cortana de Microsoft . [6]
La tokenización es el proceso de dividir una cadena de texto en palabras u otros elementos significativos llamados tokens. Normalmente, la tokenización se produce a nivel de palabra. Sin embargo, a veces es difícil definir qué se entiende por "palabra". A menudo, un tokenizador se basa en heurísticas simples, como dividir la cadena en caracteres de puntuación y espacios en blanco . La tokenización es más complicada en idiomas sin espacios entre palabras, como el chino y el japonés . La tokenización de texto en estos idiomas requiere el uso de algoritmos de segmentación de palabras . [7]
La corrección ortográfica es el proceso de detección y corrección automática de errores ortográficos en las consultas de búsqueda. La mayoría de los algoritmos de corrección ortográfica se basan en un modelo de lenguaje , que determina la probabilidad a priori de una consulta prevista, y un modelo de error (normalmente un modelo de canal ruidoso ), que determina la probabilidad de un error ortográfico concreto, dada una consulta prevista. [8]
Muchos idiomas, pero no todos, flexibilizan las palabras para reflejar su papel en el enunciado en el que aparecen: una palabra como *care* puede aparecer, además de en su forma básica, como *cares*, *cared*, *caring* y otras. Es probable que la variación entre las distintas formas de una palabra tenga poca importancia para el modelo relativamente burdo de significado que implica un sistema de recuperación y, por esta razón, la tarea de combinar las distintas formas de una palabra es una técnica potencialmente útil para aumentar la evocación de un sistema de recuperación. [9]
Los idiomas del mundo varían en la cantidad de variación morfológica que exhiben, y para algunos idiomas hay métodos simples para reducir una palabra en consulta a su lema o forma raíz o su raíz . Para algunos otros idiomas, esta operación implica un procesamiento de cadenas no trivial. Un sustantivo en inglés aparece típicamente en cuatro variantes: *cat* *cat's* *cats* *cats'* o *child* *child´s* *children* *children's*. Otros idiomas tienen más variación. El finés , por ejemplo, exhibe potencialmente alrededor de 5000 formas para un sustantivo, [10] y para muchos idiomas las formas flexivas no se limitan a afijos sino que cambian el núcleo de la palabra misma.
Los algoritmos de derivación, también conocidos como lematizadores, suelen utilizar una colección de reglas simples para eliminar sufijos destinados a modelar las reglas de flexión del idioma. [11]
Los métodos más avanzados, los métodos de lematización , agrupan las formas flexivas de una palabra mediante conjuntos de reglas más complejos basados en la parte gramatical de una palabra o su registro en una base de datos léxica , transformando una palabra flexiva mediante una búsqueda o una serie de transformaciones de su lema. Durante mucho tiempo, se consideró demostrado que la normalización morfológica en general no ayudaba al rendimiento de la recuperación. [12]
Una vez que la atención del campo de recuperación de información se trasladó a otros idiomas además del inglés, se descubrió que para algunos idiomas se podían encontrar ganancias obvias. [13]
El reconocimiento de entidades es el proceso de localizar y clasificar entidades dentro de una cadena de texto. El reconocimiento de entidades con nombre se centra específicamente en entidades con nombre , como nombres de personas, lugares y organizaciones. Además, el reconocimiento de entidades incluye la identificación de conceptos en consultas que pueden estar representados por frases de varias palabras. Los sistemas de reconocimiento de entidades suelen utilizar técnicas lingüísticas basadas en gramática o modelos de aprendizaje automático estadístico . [14]
La reescritura de consultas es el proceso de reformular automáticamente una consulta de búsqueda para capturar con mayor precisión su intención. La expansión de consultas agrega términos de consulta adicionales, como sinónimos, para recuperar más documentos y, por lo tanto, aumentar la recuperación. La relajación de consultas elimina los términos de consulta para reducir los requisitos de que un documento coincida con la consulta, lo que también aumenta la recuperación . Otras formas de reescritura de consultas, como la conversión automática de términos de consulta consecutivos en frases y la restricción de los términos de consulta a campos específicos , tienen como objetivo aumentar la precisión . El motor de búsqueda Apache Lucene [15] utiliza la reescritura de consultas para transformar consultas complejas en consultas más primitivas, como expresiones con comodines (por ejemplo, quer*) en una consulta booleana de los términos coincidentes del índice (como consultas OR). [16]
{{cite book}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )Lennon, Martin; Peirce, David; Tarry, Brian D; Willett, Peter (1981). "Una evaluación de algunos algoritmos de combinación para la recuperación de información". Científico de la información . 3 (4). SAGE.