indexación de materias

La indexación por materias es el acto de describir o clasificar un documento mediante términos de índice , palabras clave u otros símbolos para indicar de qué tratan los diferentes documentos , resumir su contenido o aumentar la capacidad de búsqueda . En otras palabras, se trata de identificar y describir el tema de los documentos. Los índices se construyen, por separado, en tres niveles distintos: términos en un documento como un libro; objetos de una colección como una biblioteca; y documentos (como libros y artículos) dentro de un campo de conocimiento.

La indexación de materias se utiliza en la recuperación de información , especialmente para crear índices bibliográficos para recuperar documentos sobre un tema en particular. Ejemplos de servicios de indexación académica son Zentralblatt MATH , Chemical Abstracts y PubMed . Los términos del índice fueron asignados en su mayoría por expertos, pero las palabras clave de los autores también son comunes.

El proceso de indexación comienza con cualquier análisis del tema del documento. Luego, el indexador debe identificar términos que identifiquen apropiadamente al tema, ya sea extrayendo palabras directamente del documento o asignando palabras de un vocabulario controlado . ^[1] Los términos del índice se presentan luego en un orden sistemático.

Los indexadores deben decidir cuántos términos incluir y qué tan específicos deben ser. En conjunto, esto proporciona una profundidad de indexación.

Análisis de tema

El primer paso en la indexación es decidir sobre el tema del documento. En la indexación manual, el indexador consideraría el tema en términos de respuesta a una serie de preguntas como "¿El documento trata sobre un producto, condición o fenómeno específico?". ^[2] Como el análisis está influenciado por el conocimiento y la experiencia del indexador, se deduce que dos indexadores pueden analizar el contenido de manera diferente y, por lo tanto, generar diferentes términos de índice. Esto afectará el éxito de la recuperación.

Análisis de sujetos automático versus manual

La indexación automática sigue procesos establecidos de análisis de frecuencias de patrones de palabras y comparación de resultados con otros documentos para asignarlos a categorías temáticas. Esto no requiere comprensión del material que se indexa. Esto conduce a una indexación más uniforme, pero a expensas de la interpretación del verdadero significado. Un programa de computadora no comprenderá el significado de las declaraciones y, por lo tanto, puede no asignar algunos términos relevantes o asignarlos incorrectamente. Los indexadores humanos centran su atención en determinadas partes del documento como el título, el resumen, el resumen y las conclusiones, ya que analizar el texto completo en profundidad es costoso y requiere mucho tiempo ^[3] Un sistema automatizado elimina el límite de tiempo y permite que todo el documento a analizar, pero también tiene la opción de ser dirigido a partes particulares del documento.

Selección de términos

La segunda etapa de la indexación implica la traducción del análisis temático en un conjunto de términos indexados . Esto puede implicar extraer del documento o asignar un vocabulario controlado . Dado que la capacidad de realizar una búsqueda de texto completo está ampliamente disponible, muchas personas han llegado a confiar en su propia experiencia para realizar búsquedas de información y la búsqueda de texto completo se ha vuelto muy popular. La indexación de materias y sus expertos, indexadores, catalogadores y bibliotecarios profesionales , sigue siendo crucial para la organización y recuperación de la información. Estos expertos comprenden vocabularios controlados y pueden encontrar información que no se puede localizar mediante una búsqueda de texto completo . El costo del análisis de expertos para crear una indexación temática no se compara fácilmente con el costo del hardware, el software y la mano de obra para fabricar un conjunto comparable de materiales de texto completo y con capacidad de búsqueda completa. Con las nuevas aplicaciones web que permiten a cada usuario anotar documentos, el etiquetado social ha ganado popularidad, especialmente en la Web. ^[4]

Una aplicación de la indexación, el índice de libros , permanece relativamente sin cambios a pesar de la revolución de la información .

Extracción/indexación derivada

La indexación por extracción implica tomar palabras directamente del documento. Utiliza lenguaje natural y se adapta bien a técnicas automatizadas en las que se calculan las frecuencias de las palabras y aquellas con una frecuencia superior a un umbral predeterminado se utilizan como términos índice. Se haría referencia a una lista de palabras vacías que contenga palabras comunes (como "el", "y") y dichas palabras vacías se excluirían como términos de índice.

La indexación de extracción automatizada puede provocar la pérdida de significado de los términos al indexar palabras individuales en lugar de frases. Aunque es posible extraer frases comunes, resulta más difícil si los conceptos clave están redactados de manera inconsistente en las frases. La indexación de extracción automatizada también tiene el problema de que, incluso con el uso de una lista de exclusión para eliminar palabras comunes, algunas palabras frecuentes pueden no ser útiles para permitir la discriminación entre documentos. Por ejemplo, es probable que el término glucosa aparezca con frecuencia en cualquier documento relacionado con la diabetes. Por lo tanto, el uso de este término probablemente devolvería la mayoría o todos los documentos de la base de datos. La indexación poscoordinada en la que los términos se combinan en el momento de la búsqueda reduciría este efecto, pero la responsabilidad de vincular los términos apropiados recaería en el buscador y no en el profesional de la información. Además, los términos que aparecen con poca frecuencia pueden ser muy significativos, por ejemplo, un nuevo medicamento puede mencionarse con poca frecuencia pero la novedad del tema hace que cualquier referencia sea significativa. Un método para permitir que se incluyan términos más raros y se excluyan palabras comunes mediante técnicas automatizadas sería un enfoque de frecuencia relativa en el que se compara la frecuencia de una palabra en un documento con la frecuencia en la base de datos en su conjunto. Por lo tanto, un término que aparece con más frecuencia en un documento de lo que podría esperarse según el resto de la base de datos podría usarse como término índice, y se excluirán los términos que aparezcan con la misma frecuencia en todo el documento.

Otro problema con la extracción automatizada es que no reconoce cuándo se discute un concepto pero no se identifica en el texto mediante una palabra clave indexable. ^[5]

Dado que este proceso se basa en una simple coincidencia de cadenas y no implica ningún análisis intelectual, el producto resultante se conoce más apropiadamente como concordancia que como índice.

Indexación de tareas

Una alternativa es la indexación de tareas, donde los términos del índice se toman de un vocabulario controlado. Esto tiene la ventaja de controlar los sinónimos a medida que el término preferido está indexado y los sinónimos o términos relacionados dirigen al usuario al término preferido. Esto significa que el usuario puede encontrar artículos independientemente del término específico utilizado por el autor y le evita tener que conocer y comprobar todos los sinónimos posibles. ^[6] También elimina cualquier confusión causada por homógrafos mediante la inclusión de un término calificativo. Una tercera ventaja es que permite vincular términos relacionados, ya sea que estén vinculados por jerarquía o asociación; por ejemplo, una entrada de índice para un medicamento oral puede enumerar otros medicamentos orales como términos relacionados en el mismo nivel de la jerarquía, pero también se vincularía a términos más amplios. términos como tratamiento. La indexación de tareas se utiliza en la indexación manual para mejorar la coherencia entre indexadores, ya que los diferentes indexadores tendrán un conjunto controlado de términos para elegir. Los vocabularios controlados no eliminan por completo las inconsistencias, ya que dos indexadores aún pueden interpretar el tema de manera diferente. ^[2]

Presentación del índice

La fase final de la indexación es presentar las entradas en un orden sistemático. Esto puede implicar vincular entradas. En un índice precoordinado, el indexador determina el orden en que se vinculan los términos en una entrada considerando cómo un usuario puede formular su búsqueda. En un índice poscoordinado, las entradas se presentan individualmente y el usuario puede vincularlas mediante búsquedas, realizadas normalmente mediante software informático. La poscoordinación produce una pérdida de precisión en comparación con la precoordinación ^[7]

Profundidad de indexación

Los indexadores deben tomar decisiones sobre qué entradas deben incluirse y cuántas entradas debe incorporar un índice. La profundidad de la indexación describe la minuciosidad del proceso de indexación con referencia a la exhaustividad y la especificidad ^[8]

Exhaustividad

Un índice exhaustivo es aquel que enumera todos los términos posibles del índice. Una mayor exhaustividad proporciona una mayor recuperación , o más probabilidad de recuperar todos los artículos relevantes; sin embargo, esto ocurre a expensas de la precisión . Esto significa que el usuario puede recuperar una mayor cantidad de documentos irrelevantes o que tratan el tema con poca profundidad. En un sistema manual un mayor nivel de exhaustividad trae consigo un mayor coste al requerirse más horas hombre. El tiempo adicional necesario en un sistema automatizado sería mucho menos significativo. En el otro extremo de la escala, en un índice selectivo sólo se cubren los aspectos más importantes. ^[9] La recuperación se reduce en un índice selectivo, ya que si un indexador no incluye suficientes términos, un artículo muy relevante puede pasarse por alto. Por lo tanto, los indexadores deben esforzarse por lograr un equilibrio y considerar qué documento se puede utilizar. Es posible que también tengan que considerar las implicaciones de tiempo y gastos.

Especificidad

La especificidad describe qué tan estrechamente coinciden los términos del índice con los temas que representan ^[10] Se dice que un índice es específico si el indexador utiliza descriptores paralelos al concepto del documento y refleja los conceptos con precisión. ^[11] La especificidad tiende a aumentar con la exhaustividad, ya que cuantos más términos incluya, más limitados serán.

Teoría de la indexación

Hjørland (2011) ^[12] encontró que las teorías de indexación están conectadas en el nivel más profundo con diferentes teorías del conocimiento:

Las teorías racionalistas de indexación (como la teoría de Ranganathan) sugieren que los sujetos se construyen lógicamente a partir de un conjunto fundamental de categorías. El método básico de análisis de temas es entonces "analítico-sintético", para aislar un conjunto de categorías básicas (=análisis) y luego construir el tema de cualquier documento determinado combinando esas categorías de acuerdo con algunas reglas (=síntesis).
Las teorías empiristas de la indexación se basan en la selección de documentos similares en función de sus propiedades, en particular mediante la aplicación de técnicas estadísticas numéricas.
Las teorías historicistas y hermenéuticas de la indexación sugieren que el tema de un documento determinado es relativo a un discurso o dominio determinado, por lo que la indexación debe reflejar la necesidad de un discurso o dominio en particular. Según la hermenéutica es un documento siempre escrito e interpretado desde un horizonte particular. Lo mismo ocurre con los sistemas de organización del conocimiento y con todos los usuarios que buscan en dichos sistemas. Cualquier pregunta que se plantee a tal sistema se plantea desde un horizonte particular. Todos esos horizontes pueden estar más o menos en consenso o en conflicto. Indexar un documento es intentar contribuir a la recuperación de documentos “relevantes” conociendo esos diferentes horizontes.
Las teorías pragmáticas y críticas de la indexación (como Hjørland, 1997) ^[13] están de acuerdo con el punto de vista historicista de que los sujetos son relativos a discursos específicos, pero enfatiza que el análisis de los sujetos debe respaldar objetivos y valores determinados y debe considerar las consecuencias de la indexación. De una manera u otra. Estas teorías creen que la indexación no puede ser neutral y que es un objetivo equivocado intentar indexar de manera neutral. La indexación es un acto (y la indexación basada en computadora actúa de acuerdo con las intenciones de los programadores). Los actos sirven a los objetivos humanos. Las bibliotecas y los servicios de información también sirven a los objetivos humanos, por lo que su indexación debe realizarse de manera que respalde estos objetivos tanto como sea posible. A primera vista esto parece extraño porque el objetivo de las bibliotecas y los servicios de información es identificar cualquier documento o información. Sin embargo, cualquier forma específica de indexación siempre admite algún tipo de uso a expensas de otros. Los documentos que se indexarán pretenden cumplir algunos propósitos específicos en una comunidad. Básicamente, la indexación debería tener el mismo propósito. Los documentos primarios y secundarios y los servicios de información son partes del mismo sistema social general. En un sistema de este tipo pueden estar en juego diferentes teorías, epistemologías, visiones del mundo, etc., y los usuarios deben poder orientarse y navegar entre esas diferentes visiones. Esto exige un mapeo de las diferentes epistemologías en el campo y una clasificación del documento único en dicho mapa. Excelentes ejemplos de paradigmas tan diferentes y sus consecuencias para los sistemas de indexación y clasificación se encuentran en el ámbito del arte por Ørom (2003) ^[14] y en la música por Abrahamsen (2003). ^[15]

El núcleo de la indexación es, como afirman Rowley y Farrow ^[16] , evaluar la contribución de un artículo al conocimiento e indexarlo en consecuencia. O, con palabras de Hjørland (1992, ^[17] 1997) para indexar sus potenciales informativos.

"Para lograr una indexación buena y consistente, el indexador debe tener una apreciación profunda de la estructura del tema y la naturaleza de la contribución que el documento hace al avance del conocimiento". (Rowley y Farrow, 2000, ^[16] pág. 99).

Ver también

Wikimedia Commons tiene medios relacionados con la indexación de materias .

Servicio de indexación y resúmenes.
Clasificación de documentos
Metadatos
Sobrecategorización
Tomás de Irlanda , un pionero medieval en la indexación de materias

Referencias

^ FW Lancaster (2003): "Indización y resúmenes en teoría y práctica". Tercera edicion. Londres, Faceta ISBN 1-85604-482-3 . página 6
^ ab GG Chowdhury (2004): "Introducción a la recuperación de información moderna". Tercera edicion. Londres, Faceta. ISBN 1-85604-480-7 . página 71
^ FW Lancaster (2003): "Indización y resúmenes en teoría y práctica". Tercera edicion. Londres, Faceta ISBN 1-85604-482-3 . página 24
^ Voss, Jakob (2007). "Etiquetado, folksonomía y compañía: ¿renacimiento de la indexación manual?". Actas del Simposio Internacional de Ciencias de la Información . págs. 234-254. arXiv : cs/0701072 . Código Bib : 2007cs.......1072V.
^ J. Lamb (2008): ¿ Índices producidos por humanos o por computadora? Archivado el 4 de junio de 2014 en Wayback Machine [en línea] Sheffield, Society of Indexers. Consultado el 15 de enero de 2009.
^ C. Tenopir (1999): "La indexación humana o automatizada es importante". Diario de la biblioteca 124 (18) páginas 34-38.
^ D. Bodoff y A. Kambil, (1998): "Coordinación parcial. I. Lo mejor de la precoordinación y poscoordinación". Revista de la Sociedad Estadounidense de Ciencias de la Información , 49 (14), 1254-1269.
^ DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3ª edición. Englewood, bibliotecas ilimitadas, Inc. ISBN 1-56308-641-7 . página 105
^ BH Weinberg (1990): "Exhaustividad de los índices: libros, revistas y textos completos electrónicos; resumen de un taller presentado en la Conferencia Anual de la ASI de 1999". Palabras clave , 7 (5), páginas 1+.
^ JD Anderson (1997): Directrices para índices y dispositivos de recuperación de información relacionada [en línea]. Bethesda, Maryland, Prensa Niso. 10 de diciembre de 2008.
^ DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3ª edición. Englewood, bibliotecas ilimitadas, Inc. ISBN 1-56308-641-7 . página 106
^ Hjørland, Birger (2011). La importancia de las teorías del conocimiento: indexación y recuperación de información como ejemplo. Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información , 62(1,), 72-77.
^ Hjørland, B. (1997). Búsqueda de información y representación de sujetos. Un enfoque teórico de la actividad a las ciencias de la información. Westport y Londres: Greenwood Press.
^ Ørom, Anders (2003). Organización del conocimiento en el ámbito de los estudios de arte: historia, transición y cambios conceptuales. Organización del conocimiento. 30(3/4), 128-143.
^ Abrahamsen, Knut T. (2003). Indexación de Géneros Musicales. Una perspectiva epistemológica. Organización del conocimiento, 30(3/4), 144-169.
^ ab Rowley, JE y Farrow, J. (2000). Organización del conocimiento: una introducción a la gestión del acceso a la información. 3er. Alderstot: empresa editorial Gower
^ Hjørland, Birger (1992). El concepto de "sujeto" en las ciencias de la información. Revista de Documentación. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

Otras lecturas

Fugman, Robert (1993). Análisis temático e indexación. Fundamento teórico y consejos prácticos . Fráncfort del Meno: Index Verlag.
Frohmann, B. (1990). "Reglas de indexación: una crítica del mentalismo en la teoría de la recuperación de información". Revista de Documentación . 46 (2): 81-101. doi :10.1108/eb026855.