La indexación automática es el proceso computarizado de escanear grandes volúmenes de documentos comparándolos con un vocabulario , taxonomía , tesauro u ontología controlados y utilizar esos términos controlados para indexar de manera rápida y efectiva grandes depósitos de documentos electrónicos . Estas palabras clave o lenguaje se aplican entrenando un sistema sobre las reglas que determinan qué palabras deben coincidir. Hay partes adicionales, como la sintaxis, el uso, la proximidad y otros algoritmos basados en el sistema y lo que se requiere para la indexación. Esto se tiene en cuenta mediante declaraciones booleanas para recopilar y capturar la información de indexación del texto. [1] A medida que el número de documentos aumenta exponencialmente con la proliferación de Internet , la indexación automática será esencial para mantener la capacidad de encontrar información relevante en un mar de información irrelevante . Los sistemas de lenguaje natural se utilizan para entrenar un sistema basado en siete métodos diferentes para ayudar con este mar de información irrelevante. Estos métodos son Morfológico, Léxico, Sintáctico, Numérico, Fraseológico, Semántico y Pragmático. Cada uno de estos aspectos tiene diferentes partes de velocidad y términos para crear un dominio para la información específica que se cubre para la indexación. Esto se utiliza en el proceso automatizado de indexación. [1]
El proceso automatizado puede encontrar problemas y estos son causados principalmente por dos factores: 1) la complejidad del lenguaje; y, 2) la falta de intuición y la dificultad para extrapolar conceptos a partir de enunciados por parte de la tecnología informática. [2] Estos son principalmente desafíos lingüísticos y problemas específicos e involucran aspectos semánticos y sintácticos del lenguaje. [2] Estos problemas ocurren según palabras clave definidas. Con estas palabras clave podrá determinar la precisión del sistema en función de los aciertos, los fallos y el ruido. Estos términos se relacionan con coincidencias exactas, palabras clave que un sistema computarizado omitió y que un humano no tendría, y palabras clave que la computadora seleccionó y que un humano no tendría. La estadística de precisión basada en esto debería estar por encima del 85% para aciertos sobre 100% para la indexación humana. Esto hace que los fallos y el ruido combinados sean del 15% o menos. Esta escala proporciona una base para lo que se considera un buen sistema de indexación automática y muestra dónde se encuentran los problemas. [1]
Hay académicos que citan que el tema de la indexación automática atrajo atención ya en la década de 1950, particularmente con la demanda de un acceso más rápido y completo a la literatura científica y de ingeniería. [3] Esta atención en la indexación comenzó con el procesamiento de textos entre 1957 y 1959 por HP Lunh a través de una serie de artículos que fueron publicados. Lunh propuso que una computadora podría manejar la coincidencia, clasificación y análisis de contenido de palabras clave. Este fue el comienzo de la indexación automática y la fórmula para extraer palabras clave del texto basándose en el análisis de frecuencia. Más tarde se determinó que la frecuencia por sí sola no era suficiente para obtener buenos descriptores; sin embargo, esto inició el camino hacia donde nos encontramos ahora con la indexación automática. [4] Esto se puso de relieve con la explosión de la información, que se predijo en la década de 1960 [5] y se produjo gracias al surgimiento de la tecnología de la información y la World Wide Web. La predicción fue preparada por Mooers donde se creó un esquema con el papel esperado que tendría la informática para el procesamiento de textos y la recuperación de información. Esta predicción decía que las máquinas se usarían para almacenar documentos en grandes colecciones y que usaríamos estas máquinas para realizar búsquedas. Mooers también predijo el aspecto en línea y el entorno de recuperación para las bases de datos indexadas. Esto llevó a Mooers a predecir una máquina de inferencia de inducción que revolucionaría la indexación. [4] Este fenómeno requirió el desarrollo de un sistema de indexación que pueda hacer frente al desafío de almacenar y organizar una gran cantidad de datos y pueda facilitar el acceso a la información. [6] [7] El nuevo hardware electrónico avanzó aún más en la indexación automatizada, ya que superó la barrera impuesta por los antiguos archivos en papel, permitiendo la codificación de información a nivel molecular. [5] Con este nuevo hardware electrónico se desarrollaron herramientas para ayudar a los usuarios. Estos se utilizaron para administrar archivos y se organizaron en diferentes categorías, como PDM Suites como Outlook o Lotus Note y herramientas de mapas mentales como MindManager y Freemind. Estos permiten a los usuarios centrarse en el almacenamiento y crear un modelo cognitivo. [8] La indexación automática también está impulsada en parte por el surgimiento del campo llamado lingüística computacional , que dirigió la investigación que finalmente produjo técnicas como la aplicación del análisis informático a la estructura y el significado de las lenguas. [3] [9] La indexación automática se ve impulsada aún más por la investigación y el desarrollo en el área de la inteligencia artificial y el sistema autoorganizado, también conocido como máquina pensante. [3]
La indexación automática tiene muchas aplicaciones prácticas, como por ejemplo en el campo de la medicina. En una investigación publicada en 2009, los investigadores hablan de cómo se puede utilizar la indexación automática para crear un portal de información donde los usuarios puedan encontrar información confiable sobre un medicamento. CISMeF es uno de esos portales de salud diseñado para brindar información sobre medicamentos. El sitio web utiliza el tesauro MeSH para indexar los artículos científicos de la base de datos MEDLINE y Dublin Core Metadata. El sistema crea un metatérmino de fármaco y lo utiliza como criterio de búsqueda para encontrar toda la información sobre un fármaco específico. El sitio web utiliza búsqueda simple y avanzada. La búsqueda simple le permite buscar por marca o por cualquier código proporcionado por el medicamento. La búsqueda avanzada permite una búsqueda más específica al permitirle ingresar todo lo que describe el medicamento que está buscando. [10]
{{cite book}}
: CS1 maint: multiple names: authors list (link) CS1 maint: numeric names: authors list (link){{cite journal}}
: Citar diario requiere |journal=
( ayuda )