Indexación automática

La indexación automática es el proceso informático de escanear grandes volúmenes de documentos contra un vocabulario controlado , taxonomía , tesauro u ontología y usar esos términos controlados para indexar de manera rápida y efectiva grandes depósitos de documentos electrónicos . Estas palabras clave o lenguaje se aplican entrenando un sistema en las reglas que determinan qué palabras hacer coincidir. Hay partes adicionales para esto, como la sintaxis, el uso, la proximidad y otros algoritmos basados en el sistema y lo que se requiere para la indexación. Esto se tiene en cuenta utilizando declaraciones booleanas para recopilar y capturar la información de indexación del texto. ^[1] A medida que el número de documentos aumenta exponencialmente con la proliferación de Internet , la indexación automática se volverá esencial para mantener la capacidad de encontrar información relevante en un mar de información irrelevante. Los sistemas de lenguaje natural se utilizan para entrenar un sistema basado en siete métodos diferentes para ayudar con este mar de información irrelevante. Estos métodos son morfológico, léxico, sintáctico, numérico, fraseológico, semántico y pragmático. Cada uno de estos aspectos y partes de la misma tienen diferentes velocidades y términos para construir un dominio para la información específica que se está cubriendo para la indexación. Esto se utiliza en el proceso automatizado de indexación. ^[1]

El proceso automatizado puede encontrar problemas, que se deben principalmente a dos factores: 1) la complejidad del lenguaje y 2) la falta de intuición y la dificultad de la tecnología informática para extrapolar conceptos a partir de enunciados. ^[2] Se trata principalmente de desafíos lingüísticos y problemas específicos que involucran aspectos semánticos y sintácticos del lenguaje. ^[2] Estos problemas ocurren en función de palabras clave definidas. Con estas palabras clave, puede determinar la precisión del sistema en función de aciertos, errores y ruido. Estos términos se relacionan con coincidencias exactas, palabras clave que un sistema informático no detectó y que un humano no detectaría, y palabras clave que la computadora seleccionó y que un humano no habría detectado. La estadística de precisión basada en esto debería ser superior al 85 % para los aciertos sobre el 100 % para la indexación humana. Esto hace que los errores y el ruido combinados sean del 15 % o menos. Esta escala proporciona una base para lo que se considera un buen sistema de indexación automática y muestra dónde se encuentran los problemas. ^[1]

Historia

Hay académicos que citan que el tema de la indexación automática atrajo la atención ya en la década de 1950, particularmente con la demanda de un acceso más rápido y completo a la literatura científica y de ingeniería. ^[3] Esta atención en la indexación comenzó con el procesamiento de texto entre 1957 y 1959 por HP Lunh a través de una serie de artículos que se publicaron. Lunh propuso que una computadora podría manejar la coincidencia de palabras clave, la clasificación y el análisis de contenido. Este fue el comienzo de la indexación automática y la fórmula para extraer palabras clave del texto en función del análisis de frecuencia. Más tarde se determinó que la frecuencia por sí sola no era suficiente para buenos descriptores, sin embargo, esto inició el camino hacia donde estamos ahora con la indexación automática. ^[4] Esto se destacó por la explosión de la información, que se predijo en la década de 1960 ^[5] y llegó a través del surgimiento de la tecnología de la información y la World Wide Web. La predicción fue preparada por Mooers, donde se creó un esquema con el papel esperado que tendría la informática para el procesamiento de texto y la recuperación de información. Esta predicción decía que se utilizarían máquinas para el almacenamiento de documentos en grandes colecciones y que utilizaríamos estas máquinas para realizar búsquedas. Mooers también predijo el aspecto en línea y el entorno de recuperación para la indexación de bases de datos. Esto llevó a Mooers a predecir una máquina de inferencia por inducción que revolucionaría la indexación. ^[4] Este fenómeno requirió el desarrollo de un sistema de indexación que pueda hacer frente al desafío de almacenar y organizar una gran cantidad de datos y pueda facilitar el acceso a la información. ^[6]^[7] El nuevo hardware electrónico avanzó aún más la indexación automatizada, ya que superó la barrera impuesta por los viejos archivos en papel, permitiendo la codificación de la información a nivel molecular. ^[5] Con este nuevo hardware electrónico se desarrollaron herramientas para ayudar a los usuarios. Estas se usaban para administrar archivos y se organizaban en diferentes categorías, como suites PDM como Outlook o Lotus Note y herramientas de mapas mentales como MindManager y Freemind. Estas permiten a los usuarios centrarse en el almacenamiento y la construcción de un modelo cognitivo. ^[8] La indexación automática también está impulsada en parte por el surgimiento del campo llamado lingüística computacional , que dirigió la investigación que eventualmente produjo técnicas como la aplicación del análisis informático a la estructura y el significado de los idiomas. ^[3]^[9] La indexación automática está impulsada además por la investigación y el desarrollo en el área de la inteligencia artificial y el sistema autoorganizado también conocido como máquina pensante. ^[3]

Medicamento

La indexación automática tiene muchas aplicaciones prácticas, como por ejemplo en el campo de la medicina. En una investigación publicada en 2009, los investigadores hablan sobre cómo se puede utilizar la indexación automática para crear un portal de información donde los usuarios puedan encontrar información fiable sobre un fármaco. CISMeF es uno de esos portales de salud que está diseñado para proporcionar información sobre fármacos. El sitio web utiliza el tesauro MeSH para indexar los artículos científicos de la base de datos MEDLINE y los metadatos Dublin Core. El sistema crea un metatérmino fármaco y lo utiliza como criterio de búsqueda para encontrar toda la información sobre un fármaco específico. El sitio web utiliza la búsqueda simple y avanzada. La búsqueda simple le permite buscar por nombre de marca o por cualquier código dado por los fármacos. La búsqueda avanzada permite una búsqueda más específica al permitirle ingresar todo lo que describa el fármaco que está buscando. ^[10]

Véase también

Indexación temática : proceso que se automatiza mediante la indexación automática.
Etiqueta ( metadatos )
Indexación web

Referencias

^ abc Hlava, Marjorie M. (31 de enero de 2005). «Indexación automática: una cuestión de grado». Boletín de la Sociedad Americana de Ciencias de la Información y Tecnología . 29 (1): 12–15. doi : 10.1002/bult.261 .
^ ab Cleveland, Ana; Cleveland, Donald (2013). Introducción a la indexación y la elaboración de resúmenes: cuarta edición . Santa Bárbara, CA: ABC-CLIO. pág. 289. ISBN 9781598849769.
^ abc Riaz, Muhammad (1989). Prácticas avanzadas de indexación y resumen . Delhi: Atlantic Publishers & Distributors. pág. 263.
^ ab Nota histórica: Los últimos treinta años en la recuperación de información Salton, Gerard Journal of the American Society for Information Science (1986-1998); septiembre de 1987; 38, 5; ProQuest pág. 375
^ ab Torres-Moreno, Juan-Manuel (2014). Resumen automático de texto . Hoboken, NJ: John Wiley & Sons. pp. xii. ISBN 9781848216686.
^ Kapetanios, Epaminondas; Sugumaran, Vijayan; Spiliopoulou, Myra (2008). Lenguaje natural y sistemas de información: 13.ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2008 Londres, Reino Unido, 24-27 de junio de 2008, Actas . Berlín: Springer Science & Business Media. pág. 350. ISBN. 978-3-540-69857-9.
^ Basch, Reva (1996). Secretos de los superbuscadores de la red: reflexiones, revelaciones y sabiduría adquirida con esfuerzo de 35 de los mejores investigadores de Internet del mundo . Medford, NJ: Information Today, Inc., págs. 271. ISBN 0910965226.
^ Jayaweera, YD; Johar, Dr. Gapar MD; Perera, SN "Sistemas de revistas abiertas".
^ Armstrong, Susan (1994). Uso de grandes corpus . Cambridge, MA: MIT Press. pág. 291. ISBN 0262510820.
^ Sakji, Saoussen; Letord, Catherine; Dahamna, Badisse; Kergourlay, Ivan; Pereira, Suzanne; Joubert, Michel; Darmoni, Stéfan (2009). "Indexación automática en un portal de información sobre medicamentos". Estudios en Tecnología e Informática de la Salud . 148 : 112–122. ISSN 0926-9630. PMID 19745241.