La indización temática es el acto de describir o clasificar un documento mediante términos de índice , palabras clave u otros símbolos con el fin de indicar de qué tratan los diferentes documentos , resumir su contenido o aumentar la facilidad de búsqueda . En otras palabras, se trata de identificar y describir el tema de los documentos. Los índices se construyen, por separado, en tres niveles distintos: términos en un documento como un libro; objetos en una colección como una biblioteca; y documentos (como libros y artículos) dentro de un campo de conocimiento.
La indexación por materias se utiliza en la recuperación de información , especialmente para crear índices bibliográficos con el fin de recuperar documentos sobre un tema en particular. Algunos ejemplos de servicios de indexación académica son Zentralblatt MATH , Chemical Abstracts y PubMed . Los términos de indexación fueron asignados principalmente por expertos, pero las palabras clave de los autores también son comunes.
El proceso de indexación comienza con el análisis del tema del documento. El indexador debe identificar los términos que identifican adecuadamente el tema, ya sea extrayendo palabras directamente del documento o asignando palabras de un vocabulario controlado . [1] Los términos del índice se presentan luego en un orden sistemático.
Los indexadores deben decidir cuántos términos incluir y cuán específicos deben ser. En conjunto, esto le da profundidad a la indexación.
El primer paso en la indexación es decidir el tema del documento. En la indexación manual, el indexador consideraría el tema en términos de respuesta a un conjunto de preguntas como "¿El documento trata de un producto, condición o fenómeno específico?". [2] Como el análisis está influenciado por el conocimiento y la experiencia del indexador, se deduce que dos indexadores pueden analizar el contenido de manera diferente y, por lo tanto, llegar a diferentes términos de indexación. Esto afectará el éxito de la recuperación.
La indexación automática sigue procesos establecidos de análisis de frecuencias de patrones de palabras y comparación de resultados con otros documentos para asignar categorías temáticas. Esto no requiere comprensión del material que se está indexando. Esto conduce a una indexación más uniforme, pero a expensas del significado verdadero que se está interpretando. Un programa de computadora no entenderá el significado de las declaraciones y, por lo tanto, puede no asignar algunos términos relevantes o asignarlos incorrectamente. Los indexadores humanos centran su atención en ciertas partes del documento, como el título, el resumen, el sumario y las conclusiones, ya que analizar el texto completo en profundidad es costoso y requiere mucho tiempo [3]. Un sistema automatizado elimina el límite de tiempo y permite analizar todo el documento, pero también tiene la opción de ser dirigido a partes particulares del documento.
La segunda etapa de la indexación implica la traducción del análisis temático a un conjunto de términos de indexación . Esto puede implicar la extracción del documento o la asignación de un vocabulario controlado . Con la capacidad de realizar una búsqueda de texto completo ampliamente disponible, muchas personas han llegado a confiar en su propia experiencia para realizar búsquedas de información y la búsqueda de texto completo se ha vuelto muy popular. La indexación temática y sus expertos, indexadores profesionales, catalogadores y bibliotecarios , sigue siendo crucial para la organización y recuperación de la información. Estos expertos entienden los vocabularios controlados y pueden encontrar información que no se puede localizar mediante una búsqueda de texto completo . El costo del análisis experto para crear una indexación temática no se compara fácilmente con el costo del hardware, el software y la mano de obra para fabricar un conjunto comparable de materiales de texto completo y totalmente buscables. Con las nuevas aplicaciones web que permiten a cada usuario anotar documentos, el etiquetado social ha ganado popularidad, especialmente en la Web. [4]
Una aplicación de la indexación, el índice de libros , permanece relativamente inalterada a pesar de la revolución de la información .
La indexación por extracción implica tomar palabras directamente del documento. Utiliza lenguaje natural y se presta bien a técnicas automatizadas en las que se calculan las frecuencias de las palabras y se utilizan como términos de índice aquellas con una frecuencia superior a un umbral predeterminado. Se haría referencia a una lista de palabras de exclusión que contenga palabras comunes (como "el", "y") y dichas palabras de exclusión se excluirían como términos de índice.
La indexación por extracción automática puede provocar la pérdida de significado de los términos al indexar palabras individuales en lugar de frases. Aunque es posible extraer frases que aparecen con frecuencia, resulta más difícil si los conceptos clave están redactados de forma inconsistente en las frases. La indexación por extracción automática también tiene el problema de que, incluso con el uso de una lista de exclusión para eliminar palabras comunes, algunas palabras frecuentes pueden no ser útiles para permitir la discriminación entre documentos. Por ejemplo, es probable que el término glucosa aparezca con frecuencia en cualquier documento relacionado con la diabetes. Por lo tanto, el uso de este término probablemente devolvería la mayoría o todos los documentos de la base de datos. La indexación poscoordinada, en la que los términos se combinan en el momento de la búsqueda, reduciría este efecto, pero la responsabilidad de vincular los términos apropiados recaería en el investigador, en lugar del profesional de la información. Además, los términos que aparecen con poca frecuencia pueden ser muy significativos; por ejemplo, un nuevo fármaco puede mencionarse con poca frecuencia, pero la novedad del tema hace que cualquier referencia sea significativa. Un método para permitir que se incluyan términos poco comunes y se excluyan palabras comunes mediante técnicas automatizadas sería un enfoque de frecuencia relativa en el que la frecuencia de una palabra en un documento se compara con la frecuencia en la base de datos en su conjunto. Por lo tanto, un término que aparece con más frecuencia en un documento de lo que podría esperarse en función del resto de la base de datos podría utilizarse como término de índice, y los términos que aparecen con la misma frecuencia en todo el documento se excluirán.
Otro problema con la extracción automatizada es que no reconoce cuando se discute un concepto pero no está identificado en el texto por una palabra clave indexable. [5]
Dado que este proceso se basa en una simple comparación de cadenas y no implica ningún análisis intelectual, el producto resultante se conoce más apropiadamente como concordancia que como índice.
Una alternativa es la indexación por asignación, en la que los términos del índice se toman de un vocabulario controlado. Esto tiene la ventaja de controlar los sinónimos , ya que el término preferido se indexa y los sinónimos o términos relacionados dirigen al usuario al término preferido. Esto significa que el usuario puede encontrar artículos independientemente del término específico utilizado por el autor y le ahorra al usuario tener que conocer y verificar todos los sinónimos posibles. [6] También elimina cualquier confusión causada por homógrafos mediante la inclusión de un término calificador. Una tercera ventaja es que permite la vinculación de términos relacionados, ya sea que estén vinculados por jerarquía o asociación, por ejemplo, una entrada de índice para un medicamento oral puede enumerar otros medicamentos orales como términos relacionados en el mismo nivel de la jerarquía, pero también se vincularía a términos más amplios como tratamiento. La indexación por asignación se utiliza en la indexación manual para mejorar la coherencia entre indexadores, ya que diferentes indexadores tendrán un conjunto controlado de términos para elegir. Los vocabularios controlados no eliminan por completo las inconsistencias, ya que dos indexadores aún pueden interpretar el tema de manera diferente. [2]
La fase final de la indexación consiste en presentar las entradas en un orden sistemático, lo que puede implicar la vinculación de las mismas. En un índice precoordinado, el indexador determina el orden en el que se vinculan los términos de una entrada teniendo en cuenta cómo puede formular su búsqueda el usuario. En un índice poscoordinado, las entradas se presentan de forma individual y el usuario puede vincularlas mediante búsquedas, que suelen realizarse mediante software informático. La poscoordinación produce una pérdida de precisión en comparación con la precoordinación [7].
Los indexadores deben tomar decisiones sobre qué entradas deben incluirse y cuántas entradas debe incorporar un índice. La profundidad de la indexación describe la minuciosidad del proceso de indexación con referencia a la exhaustividad y la especificidad [8].
Un índice exhaustivo es aquel que enumera todos los términos posibles del índice. Una mayor exhaustividad proporciona una mayor recuperación , o más probabilidad de recuperar todos los artículos relevantes, sin embargo, esto ocurre a expensas de la precisión . Esto significa que el usuario puede recuperar una mayor cantidad de documentos irrelevantes o documentos que solo tratan el tema en poca profundidad. En un sistema manual, un mayor nivel de exhaustividad conlleva un mayor costo ya que se requieren más horas-hombre. El tiempo adicional que se necesita en un sistema automatizado sería mucho menos significativo. En el otro extremo de la escala, en un índice selectivo solo se cubren los aspectos más importantes. [9] La recuperación se reduce en un índice selectivo ya que si un indexador no incluye suficientes términos, puede pasarse por alto un artículo altamente relevante. Por lo tanto, los indexadores deben esforzarse por lograr un equilibrio y considerar para qué se puede utilizar el documento. También pueden tener que considerar las implicaciones de tiempo y gasto.
La especificidad describe qué tan cerca los términos del índice coinciden con los temas que representan [10]. Se dice que un índice es específico si el indexador utiliza descriptores paralelos al concepto del documento y refleja los conceptos con precisión. [11] La especificidad tiende a aumentar con la exhaustividad, ya que cuantos más términos se incluyan, más limitados serán esos términos.
Hjørland (2011) [12] descubrió que las teorías de indexación están conectadas en el nivel más profundo con diferentes teorías del conocimiento:
El núcleo de la indexación es, como afirman Rowley y Farrow [16] , evaluar la contribución de un artículo al conocimiento e indexarlo en consecuencia. O, en palabras de Hjørland (1992, [17] 1997), indexar su potencial informativo.
"Para lograr una indexación buena y consistente, el indexador debe tener una apreciación profunda de la estructura del tema y la naturaleza de la contribución que el documento está haciendo al avance del conocimiento". (Rowley y Farrow, 2000, [16] p. 99).