stringtranslate.com

Búsqueda de conceptos

Una búsqueda de conceptos (o búsqueda conceptual ) es un método automatizado de recuperación de información que se utiliza para buscar en texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) información que sea conceptualmente similar a la información proporcionada en un consulta de busqueda . En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.

Desarrollo

Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas cuando se trata de colecciones de texto digitales grandes y no estructuradas. Las búsquedas de palabras clave a menudo arrojan resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . Sinonimia significa que una de dos o más palabras en el mismo idioma tienen el mismo significado, y polisemia significa que muchas palabras individuales tienen más de un significado.

La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan abordar el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar el empleo; lanzar o excitar (como en encender). De los 200 términos más polisémicos del inglés, el verbo típico tiene más de doce significados o sentidos comunes. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. [1]

Además de los problemas de polisemia y sinonimia, las búsquedas de palabras clave pueden excluir palabras mal escritas inadvertidamente , así como variaciones en las raíces (por ejemplo, strike versus strike). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominados texto ruidoso ) durante el proceso de escaneo.

Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), [2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave. .

Enfoques

En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos categorías amplias: semántica y estadística. Los sistemas de recuperación de información que caen en la categoría semántica intentarán implementar cierto grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (ver también lingüística computacional ). Los sistemas que entran en la categoría estadística encontrarán resultados basados ​​en medidas estadísticas de qué tan estrechamente coinciden con la consulta. Sin embargo, los sistemas de la categoría semántica también suelen depender de métodos estadísticos para ayudarles a encontrar y recuperar información. [3]

Los esfuerzos para proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico han utilizado básicamente tres enfoques:

Estructuras auxiliares

Se han aplicado al procesamiento semántico una variedad de técnicas basadas en inteligencia artificial (IA) y procesamiento del lenguaje natural (PNL), y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar a las consultas términos más amplios, términos más específicos y términos relacionados. [4] Los vocabularios controlados son una forma de superar algunas de las limitaciones más severas de las consultas de palabras clave booleanas. A lo largo de los años, se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . [5] Se demostró que la búsqueda de conceptos basada en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente reutilizando modelos de recuperación y estructuras de datos de recuperación de información clásica. [6] Enfoques posteriores han implementado la gramática para ampliar la gama de construcciones semánticas. En los últimos años también se ha implementado la creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos.

Los vocabularios controlados hechos a mano contribuyen a la eficiencia y la amplitud de la recuperación de información y las operaciones de análisis de texto relacionadas, pero funcionan mejor cuando los temas están definidos de manera estricta y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco se adaptan bien a los crecientes volúmenes de texto no estructurado que cubre una cantidad ilimitada de temas y contiene miles de términos únicos porque es necesario introducir nuevos términos y temas constantemente. Los vocabularios controlados también son propensos a capturar una visión del mundo particular en un momento específico, lo que los hace difíciles de modificar si cambian los conceptos en un área temática determinada. [7]

Estadísticas de coocurrencia local

Los sistemas de recuperación de información que incorporan este enfoque cuentan el número de veces que grupos de términos aparecen juntos (co-ocurren) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones utilizada para determinar la coexistencia de términos es relativamente pequeña.

Este enfoque es simple, pero captura sólo una pequeña porción de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente sólo una cuarta parte de la información contenida en el texto es de naturaleza local. [8] Además, para ser más efectivo, este método requiere conocimiento previo sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructurados. [7]

Transformar técnicas

Algunos de los enfoques más potentes del procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición de matrices han sido las más exitosas. Algunas técnicas de descomposición de matrices ampliamente utilizadas incluyen las siguientes: [9]

Las técnicas de descomposición matricial se basan en datos, lo que evita muchos de los inconvenientes asociados con las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de extraer y representar información semántica mucho más sólida que las técnicas basadas en estadísticas de coocurrencia local. [7]

El análisis de componentes independientes es una técnica que crea representaciones dispersas de forma automatizada, [10] y los enfoques matriciales semidiscretos y no negativos sacrifican la precisión de la representación para reducir la complejidad computacional. [7]

La descomposición de valores singulares (SVD) se aplicó por primera vez al texto en los Laboratorios Bell a finales de los años 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI) debido a su capacidad para encontrar el significado semántico latente en una colección de texto. Al principio, la adopción del SVD tardó en adoptarse debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se superaron desafíos anteriores en escalabilidad y rendimiento. [11] e incluso de código abierto. [12] LSI se utiliza en una variedad de aplicaciones de procesamiento de texto y recuperación de información, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. [13]

Usos

Búsqueda efectiva

La eficacia de una búsqueda de conceptos puede depender de una variedad de elementos, incluido el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar las consultas y mostrar los resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para ciertos tipos de consultas:

Al igual que con todas las estrategias de búsqueda, los buscadores experimentados generalmente refinan sus consultas a través de múltiples búsquedas, comenzando con una consulta inicial para obtener resultados conceptualmente relevantes que luego pueden usarse para componer y/o refinar consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, utilizar los conceptos de consulta que se encuentran en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función similar de búsqueda . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia de los resultados se denomina expansión de consulta . [19] Se ha estudiado el uso de ontologías como WordNet para ampliar consultas con palabras relacionadas conceptualmente. [20]

Comentarios de relevancia

La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados de sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información indicada, no porque simplemente contenga todas las palabras de la consulta. [21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. [21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.

En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados ​​en la consulta y los conceptos contenidos en los resultados devueltos por la consulta. Cuanto más similares sean los conceptos de los resultados a los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados generalmente se clasifican y ordenan por relevancia, de modo que los resultados más relevantes estén en la parte superior de la lista de resultados y los resultados menos relevantes estén al final de la lista.

Se ha demostrado que la retroalimentación sobre relevancia es muy efectiva para mejorar la relevancia de los resultados. [21] Una búsqueda de conceptos reduce el riesgo de perder elementos de resultados importantes porque se devolverán todos los elementos relacionados con los conceptos de la consulta, contengan o no las mismas palabras utilizadas en la consulta. [15]

La clasificación seguirá siendo parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de datos heterogéneos, escala y tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, y no sólo sistemas independientes, requerirán nuevos tipos. de las respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que es posible que no revelen las relaciones que existen entre algunos de los elementos de los resultados. [22]

Pautas para evaluar un motor de búsqueda de conceptos

  1. Los elementos de resultado deben ser relevantes para la necesidad de información expresada por los conceptos contenidos en las declaraciones de la consulta, incluso si la terminología utilizada por los elementos de resultado es diferente de la terminología utilizada en la consulta.
  2. Los elementos de los resultados deben ordenarse y clasificarse por relevancia.
  3. Los elementos de resultados relevantes deben localizarse y mostrarse rápidamente. Incluso las consultas complejas deberían arrojar resultados relevantes con bastante rapidez.
  4. La longitud de la consulta no debe ser fija , es decir, una consulta puede ser tan larga como se considere necesario. Se puede enviar como consulta una oración, un párrafo o incluso un documento completo.
  5. Una consulta de concepto no debería requerir ninguna sintaxis especial o compleja. Los conceptos contenidos en la consulta se pueden expresar de forma clara y destacada sin utilizar reglas especiales.
  6. Deben permitirse consultas combinadas que utilicen conceptos, palabras clave y metadatos. [23]
  7. Las partes relevantes de los elementos de resultados deben poder utilizarse como texto de consulta simplemente seleccionando el elemento e indicando al motor de búsqueda que busque elementos similares .
  8. Los índices listos para consultas deben crearse con relativa rapidez.
  9. El motor de búsqueda debería ser capaz de realizar búsquedas federadas . La búsqueda federada permite utilizar consultas de conceptos para buscar simultáneamente información en múltiples fuentes de datos , que luego se fusiona, clasifica y muestra en los resultados.
  10. Una búsqueda de conceptos no debe verse afectada por palabras mal escritas, errores tipográficos o errores de escaneo OCR en el texto de la consulta o en el texto del conjunto de datos que se busca.

Conferencias y foros

La evaluación formalizada de los motores de búsqueda se lleva realizando desde hace muchos años. Por ejemplo, la Conferencia de recuperación de textos (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de textos. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. [24]

En 1997, se lanzó una contraparte japonesa de TREC, llamada Instituto Nacional de Colección de Pruebas de Informática para Sistemas IR (NTCIR). NTCIR lleva a cabo una serie de talleres de evaluación para investigaciones en recuperación de información, respuesta a preguntas, resumen automático , etc. En 2001 se inició una serie europea de talleres llamada Foro de Evaluación Translingüe (CLEF) para ayudar a la investigación en acceso a información multilingüe. En 2002, se creó la Iniciativa para la Evaluación de la Recuperación XML (INEX) para la evaluación de sistemas de recuperación XML orientados a contenidos .

La precisión y la recuperación han sido dos de las medidas de desempeño tradicionales para evaluar sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para las necesidades de información del usuario. La retirada se define como la fracción de documentos relevantes de toda la colección que se devuelven como documentos de resultado. [21]

Aunque los talleres y las colecciones de pruebas disponibles públicamente utilizadas para las pruebas y evaluaciones de los motores de búsqueda han proporcionado conocimientos sustanciales sobre cómo se gestiona y recupera la información, el campo sólo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones al encontrar, gestionar y utilizar la información. ahora que hay tanta información disponible. [22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles hoy en día aún están incompletos porque las metodologías de investigación experimental no han podido mantenerse al día con el rápido ritmo del cambio. Aún es necesario abordar muchos desafíos, como la búsqueda contextualizada, la gestión de la información personal, la integración de la información y el soporte de tareas. [22]

Ver también

Referencias

  1. ^ Bradford, RB, Desambiguación del sentido de las palabras, Content Analyst Company, LLC, patente de EE. UU. 7415462, 2008.
  2. ^ R. Navigli, Desambiguación del sentido de las palabras: una encuesta, ACM Computing Surveys, 41 (2), 2009.
  3. ^ Greengrass, E., Recuperación de información: una encuesta, 2000.
  4. ^ Dubois, C., El uso de tesauros en la recuperación en línea, Journal of Information Science, 8 (2), marzo de 1984, págs.
  5. ^ Miller, G., Número especial, WordNet: una base de datos léxica en línea, Internacional. Revista de Lexicografía, 3(4), 1990.
  6. ^ Fausto Giunchiglia, Uladzimir Kharkevich e Ilya Zaihrayeu. Búsqueda de conceptos Archivado el 10 de febrero de 2014 en Wayback Machine , en las actas de la Conferencia europea sobre web semántica, 2009.
  7. ^ abcd Bradford, RB, ¿Por qué LSI? Indexación semántica latente y recuperación de información, documento técnico, Content Analyst Company, LLC, 2008.
  8. ^ Landauer, T. y Dumais, S., Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento, Psychoological Review, 1997, 104 (2), págs.
  9. ^ Skillicorn, D., Comprensión de conjuntos de datos complejos: minería de datos con descomposición matricial, CRC Publishing, 2007.
  10. ^ Honkela, T., Hyvarinen, A. y Vayrynen, J. WordICA - Aparición de representaciones lingüísticas de palabras mediante análisis de componentes independientes. Ingeniería del lenguaje natural, 16(3):277-308, 2010
  11. ^ Řehůřek, Radim (2011). "Escalabilidad del análisis semántico en el procesamiento del lenguaje natural" (PDF) . Consultado el 27 de enero de 2015 .
  12. ^ Software de código abierto Gensim
  13. ^ Dumais, S., Análisis semántico latente, ARIST Review of Information Science and Technology, vol. 38, Capítulo 4, 2004.
  14. ^ Juez magistrado John M. Facciola del Tribunal de Distrito de los Estados Unidos para el Distrito de Washington, DC Consejo de Derechos de las Personas con Discapacidad contra la Autoridad de Tránsito Metropolitana de Washington, 242 FRD 139 (DDC 2007), citando a George L. Paul y Jason R. Baron, "Información Inflación: ¿Puede adaptarse el sistema jurídico?" 13 Rico. JL y tecnología. 10 (2007).
  15. ^ abc Laplanche, R., Delgado, J., Turck, M., La tecnología de búsqueda de conceptos va más allá de las palabras clave, Information Outlook, julio de 2004.
  16. ^ ab Lew, MS, Sebe, N., Djeraba, C., Jain, R., Recuperación de información multimedia basada en contenido: estado del arte y desafíos, Transacciones ACM sobre informática, comunicaciones y aplicaciones multimedia, febrero de 2006.
  17. ^ Datta R., Joshi, D., Li J., Wang, JZ, Recuperación de imágenes: ideas, influencias y tendencias de la nueva era, ACM Computing Surveys, vol. 40, núm. 2, abril de 2008.
  18. ^ "Mir 2004". www.liacs.nl . Archivado desde el original el 7 de marzo de 2014 . Consultado el 12 de enero de 2022 .
  19. ^ Robertson, SE , Spärck Jones, K. , Enfoques simples y probados para la recuperación de textos, Informe técnico, Laboratorio de Computación de la Universidad de Cambridge, diciembre de 1994.
  20. ^ Navigli, R., Velardi, P. Un análisis de estrategias de expansión de consultas basadas en ontologías Archivado el 26 de abril de 2012 en Wayback Machine . Proc. del Taller sobre Extracción y Minería de Texto Adaptativo (ATEM 2003) , en la 14ª Conferencia Europea sobre Aprendizaje Automático (ECML 2003) , Cavtat-Dubrovnik, Croacia, 22-26 de septiembre de 2003, págs. 42–49
  21. ^ abcd Manning, CD, Raghavan P., Schütze H., Introducción a la recuperación de información, Cambridge University Press, 2008.
  22. ^ abc Callan, J., Allan, J., Clarke, CLA, Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Reunión de las MENTES: una agenda de investigación de recuperación de información, ACM, Foro SIGIR, vol. 41 N° 2, diciembre de 2007.
  23. ^ Rehurek, R., Un sistema combinado para búsqueda de similitud de vectores basado en el índice de texto completo invertido, ScaleText Search Engine, patente estadounidense pendiente 15726803, 2017.
  24. ^ Croft, B., Metzler, D., Strohman, T., Motores de búsqueda, recuperación de información en la práctica, Addison Wesley, 2009.

enlaces externos