Indexación automática

La indexación automática es el proceso computarizado de escanear grandes volúmenes de documentos comparándolos con un vocabulario , taxonomía , tesauro u ontología controlados y utilizar esos términos controlados para indexar de manera rápida y efectiva grandes depósitos de documentos electrónicos . Estas palabras clave o lenguaje se aplican entrenando un sistema sobre las reglas que determinan qué palabras deben coincidir. Hay partes adicionales, como la sintaxis, el uso, la proximidad y otros algoritmos basados en el sistema y lo que se requiere para la indexación. Esto se tiene en cuenta mediante declaraciones booleanas para recopilar y capturar la información de indexación del texto. ^[1] A medida que el número de documentos aumenta exponencialmente con la proliferación de Internet , la indexación automática será esencial para mantener la capacidad de encontrar información relevante en un mar de información irrelevante . Los sistemas de lenguaje natural se utilizan para entrenar un sistema basado en siete métodos diferentes para ayudar con este mar de información irrelevante. Estos métodos son Morfológico, Léxico, Sintáctico, Numérico, Fraseológico, Semántico y Pragmático. Cada uno de estos aspectos tiene diferentes partes de velocidad y términos para crear un dominio para la información específica que se cubre para la indexación. Esto se utiliza en el proceso automatizado de indexación. ^[1]

El proceso automatizado puede encontrar problemas y estos son causados principalmente por dos factores: 1) la complejidad del lenguaje; y, 2) la falta de intuición y la dificultad para extrapolar conceptos a partir de enunciados por parte de la tecnología informática. ^[2] Estos son principalmente desafíos lingüísticos y problemas específicos e involucran aspectos semánticos y sintácticos del lenguaje. ^[2] Estos problemas ocurren según palabras clave definidas. Con estas palabras clave podrá determinar la precisión del sistema en función de los aciertos, los fallos y el ruido. Estos términos se relacionan con coincidencias exactas, palabras clave que un sistema computarizado omitió y que un humano no tendría, y palabras clave que la computadora seleccionó y que un humano no tendría. La estadística de precisión basada en esto debería estar por encima del 85% para aciertos sobre 100% para la indexación humana. Esto hace que los fallos y el ruido combinados sean del 15% o menos. Esta escala proporciona una base para lo que se considera un buen sistema de indexación automática y muestra dónde se encuentran los problemas. ^[1]

Historia

Hay académicos que citan que el tema de la indexación automática atrajo atención ya en la década de 1950, particularmente con la demanda de un acceso más rápido y completo a la literatura científica y de ingeniería. ^[3] Esta atención en la indexación comenzó con el procesamiento de textos entre 1957 y 1959 por HP Lunh a través de una serie de artículos que fueron publicados. Lunh propuso que una computadora podría manejar la coincidencia, clasificación y análisis de contenido de palabras clave. Este fue el comienzo de la indexación automática y la fórmula para extraer palabras clave del texto basándose en el análisis de frecuencia. Más tarde se determinó que la frecuencia por sí sola no era suficiente para obtener buenos descriptores; sin embargo, esto inició el camino hacia donde nos encontramos ahora con la indexación automática. ^[4] Esto se puso de relieve con la explosión de la información, que se predijo en la década de 1960 ^[5] y se produjo gracias al surgimiento de la tecnología de la información y la World Wide Web. La predicción fue preparada por Mooers donde se creó un esquema con el papel esperado que tendría la informática para el procesamiento de textos y la recuperación de información. Esta predicción decía que las máquinas se usarían para almacenar documentos en grandes colecciones y que usaríamos estas máquinas para realizar búsquedas. Mooers también predijo el aspecto en línea y el entorno de recuperación para las bases de datos indexadas. Esto llevó a Mooers a predecir una máquina de inferencia de inducción que revolucionaría la indexación. ^[4] Este fenómeno requirió el desarrollo de un sistema de indexación que pueda hacer frente al desafío de almacenar y organizar una gran cantidad de datos y pueda facilitar el acceso a la información. ^[6]^[7] El nuevo hardware electrónico avanzó aún más en la indexación automatizada, ya que superó la barrera impuesta por los antiguos archivos en papel, permitiendo la codificación de información a nivel molecular. ^[5] Con este nuevo hardware electrónico se desarrollaron herramientas para ayudar a los usuarios. Estos se utilizaron para administrar archivos y se organizaron en diferentes categorías, como PDM Suites como Outlook o Lotus Note y herramientas de mapas mentales como MindManager y Freemind. Estos permiten a los usuarios centrarse en el almacenamiento y crear un modelo cognitivo. ^[8] La indexación automática también está impulsada en parte por el surgimiento del campo llamado lingüística computacional , que dirigió la investigación que finalmente produjo técnicas como la aplicación del análisis informático a la estructura y el significado de las lenguas. ^[3]^[9] La indexación automática se ve impulsada aún más por la investigación y el desarrollo en el área de la inteligencia artificial y el sistema autoorganizado, también conocido como máquina pensante. ^[3]

Medicamento

La indexación automática tiene muchas aplicaciones prácticas, como por ejemplo en el campo de la medicina. En una investigación publicada en 2009, los investigadores hablan de cómo se puede utilizar la indexación automática para crear un portal de información donde los usuarios puedan encontrar información confiable sobre un medicamento. CISMeF es uno de esos portales de salud diseñado para brindar información sobre medicamentos. El sitio web utiliza el tesauro MeSH para indexar los artículos científicos de la base de datos MEDLINE y Dublin Core Metadata. El sistema crea un metatérmino de fármaco y lo utiliza como criterio de búsqueda para encontrar toda la información sobre un fármaco específico. El sitio web utiliza búsqueda simple y avanzada. La búsqueda simple le permite buscar por marca o por cualquier código proporcionado por el medicamento. La búsqueda avanzada permite una búsqueda más específica al permitirle ingresar todo lo que describe el medicamento que está buscando. ^[10]

Ver también

Indexación de materias : el proceso que se automatiza mediante la indexación automática
Etiqueta ( metadatos )
indexación web

Referencias

^ abc Hlava, Marjorie M. (31 de enero de 2005). "Indización automática: una cuestión de grado". Boletín de la Sociedad Estadounidense de Ciencia y Tecnología de la Información . 29 (1): 12-15. doi : 10.1002/bult.261 .
^ ab Cleveland, Ana; Cleveland, Donald (2013). Introducción a la indexación y la elaboración de resúmenes: cuarta edición . Santa Bárbara, CA: ABC-CLIO. pag. 289.ISBN 9781598849769.
^ abc Riaz, Mahoma (1989). Prácticas avanzadas de indexación y resúmenes . Delhi: Editores y distribuidores del Atlántico. pag. 263.
^ ab Nota histórica: Los últimos treinta años en la recuperación de información Salton, Gerard Journal de la Sociedad Estadounidense de Ciencias de la Información (1986-1998); septiembre de 1987; 38, 5; ProQuest pág. 375
^ ab Torres-Moreno, Juan-Manuel (2014). Resumen automático de texto . Hoboken, Nueva Jersey: John Wiley & Sons. págs.xii. ISBN 9781848216686.
^ Kapetanos, Epaminondas; Sugumaran, Vijayan; Lenguaje natural y sistemas de información: 13.ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2008 Londres, Reino Unido, 24 al 27 de junio de 2008, Actas, Myra (2008). Lenguaje natural y sistemas de información: 13ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2008 Londres, Reino Unido, 24 al 27 de junio de 2008, Actas . Berlín: Springer Science & Business Media. pag. 350.ISBN 978-3-540-69857-9.{{cite book}}: CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link)
^ Basch, Reva (1996). Secretos de los súper buscadores de la red: las reflexiones, revelaciones y la sabiduría obtenida con tanto esfuerzo de 35 de los principales investigadores de Internet del mundo . Medford, Nueva Jersey: Information Today, Inc. págs. 271. ISBN 0910965226.
^ Jayaweera, YD; Johar, Dr. Gapar MD; Perera, SN "Sistemas de revistas abiertas". {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Armstrong, Susan (1994). Usando corpus grandes . Cambridge, MA: MIT Press. pag. 291.ISBN 0262510820.
^ Sakji, Saoussen; Letord, Catalina; Dahamna, Badisse; Kergourlay, Iván; Pereira, Susana; Joubert, Michel; Darmoni, Stéfan (2009). "Indización automática en un portal de información sobre medicamentos". Estudios en Tecnología e Informática de la Salud . 148 : 112-122. ISSN 0926-9630. PMID 19745241.