La indexación automática es el proceso informático de escanear grandes volúmenes de documentos contra un vocabulario controlado , taxonomía , tesauro u ontología y usar esos términos controlados para indexar de manera rápida y efectiva grandes depósitos de documentos electrónicos . Estas palabras clave o lenguaje se aplican entrenando un sistema en las reglas que determinan qué palabras hacer coincidir. Hay partes adicionales para esto, como la sintaxis, el uso, la proximidad y otros algoritmos basados en el sistema y lo que se requiere para la indexación. Esto se tiene en cuenta utilizando declaraciones booleanas para recopilar y capturar la información de indexación del texto. [1] A medida que el número de documentos aumenta exponencialmente con la proliferación de Internet , la indexación automática se volverá esencial para mantener la capacidad de encontrar información relevante en un mar de información irrelevante. Los sistemas de lenguaje natural se utilizan para entrenar un sistema basado en siete métodos diferentes para ayudar con este mar de información irrelevante. Estos métodos son morfológico, léxico, sintáctico, numérico, fraseológico, semántico y pragmático. Cada uno de estos aspectos y partes de la misma tienen diferentes velocidades y términos para construir un dominio para la información específica que se está cubriendo para la indexación. Esto se utiliza en el proceso automatizado de indexación. [1]
El proceso automatizado puede encontrar problemas, que se deben principalmente a dos factores: 1) la complejidad del lenguaje y 2) la falta de intuición y la dificultad de la tecnología informática para extrapolar conceptos a partir de enunciados. [2] Se trata principalmente de desafíos lingüísticos y problemas específicos que involucran aspectos semánticos y sintácticos del lenguaje. [2] Estos problemas ocurren en función de palabras clave definidas. Con estas palabras clave, puede determinar la precisión del sistema en función de aciertos, errores y ruido. Estos términos se relacionan con coincidencias exactas, palabras clave que un sistema informático no detectó y que un humano no detectaría, y palabras clave que la computadora seleccionó y que un humano no habría detectado. La estadística de precisión basada en esto debería ser superior al 85 % para los aciertos sobre el 100 % para la indexación humana. Esto hace que los errores y el ruido combinados sean del 15 % o menos. Esta escala proporciona una base para lo que se considera un buen sistema de indexación automática y muestra dónde se encuentran los problemas. [1]
Hay académicos que citan que el tema de la indexación automática atrajo la atención ya en la década de 1950, particularmente con la demanda de un acceso más rápido y completo a la literatura científica y de ingeniería. [3] Esta atención en la indexación comenzó con el procesamiento de texto entre 1957 y 1959 por HP Lunh a través de una serie de artículos que se publicaron. Lunh propuso que una computadora podría manejar la coincidencia de palabras clave, la clasificación y el análisis de contenido. Este fue el comienzo de la indexación automática y la fórmula para extraer palabras clave del texto en función del análisis de frecuencia. Más tarde se determinó que la frecuencia por sí sola no era suficiente para buenos descriptores, sin embargo, esto inició el camino hacia donde estamos ahora con la indexación automática. [4] Esto se destacó por la explosión de la información, que se predijo en la década de 1960 [5] y llegó a través del surgimiento de la tecnología de la información y la World Wide Web. La predicción fue preparada por Mooers, donde se creó un esquema con el papel esperado que tendría la informática para el procesamiento de texto y la recuperación de información. Esta predicción decía que se utilizarían máquinas para el almacenamiento de documentos en grandes colecciones y que utilizaríamos estas máquinas para realizar búsquedas. Mooers también predijo el aspecto en línea y el entorno de recuperación para la indexación de bases de datos. Esto llevó a Mooers a predecir una máquina de inferencia por inducción que revolucionaría la indexación. [4] Este fenómeno requirió el desarrollo de un sistema de indexación que pueda hacer frente al desafío de almacenar y organizar una gran cantidad de datos y pueda facilitar el acceso a la información. [6] [7] El nuevo hardware electrónico avanzó aún más la indexación automatizada, ya que superó la barrera impuesta por los viejos archivos en papel, permitiendo la codificación de la información a nivel molecular. [5] Con este nuevo hardware electrónico se desarrollaron herramientas para ayudar a los usuarios. Estas se usaban para administrar archivos y se organizaban en diferentes categorías, como suites PDM como Outlook o Lotus Note y herramientas de mapas mentales como MindManager y Freemind. Estas permiten a los usuarios centrarse en el almacenamiento y la construcción de un modelo cognitivo. [8] La indexación automática también está impulsada en parte por el surgimiento del campo llamado lingüística computacional , que dirigió la investigación que eventualmente produjo técnicas como la aplicación del análisis informático a la estructura y el significado de los idiomas. [3] [9] La indexación automática está impulsada además por la investigación y el desarrollo en el área de la inteligencia artificial y el sistema autoorganizado también conocido como máquina pensante. [3]
La indexación automática tiene muchas aplicaciones prácticas, como por ejemplo en el campo de la medicina. En una investigación publicada en 2009, los investigadores hablan sobre cómo se puede utilizar la indexación automática para crear un portal de información donde los usuarios puedan encontrar información fiable sobre un fármaco. CISMeF es uno de esos portales de salud que está diseñado para proporcionar información sobre fármacos. El sitio web utiliza el tesauro MeSH para indexar los artículos científicos de la base de datos MEDLINE y los metadatos Dublin Core. El sistema crea un metatérmino fármaco y lo utiliza como criterio de búsqueda para encontrar toda la información sobre un fármaco específico. El sitio web utiliza la búsqueda simple y avanzada. La búsqueda simple le permite buscar por nombre de marca o por cualquier código dado por los fármacos. La búsqueda avanzada permite una búsqueda más específica al permitirle ingresar todo lo que describa el fármaco que está buscando. [10]