Vocabulario controlado

Los vocabularios controlados proporcionan una manera de organizar el conocimiento para su posterior recuperación. Se utilizan en esquemas de indexación de materias , encabezamientos de materias , tesauros , ^[1]^[2] taxonomías y otros sistemas de organización del conocimiento . Los esquemas de vocabulario controlado exigen el uso de términos preferidos predefinidos que han sido preseleccionados por los diseñadores de los esquemas, en contraste con los vocabularios del lenguaje natural , que no tienen tal restricción.

En biblioteconomía y ciencias de la información

En biblioteconomía y ciencias de la información , el vocabulario controlado es una lista cuidadosamente seleccionada de palabras y frases , que se utilizan para etiquetar unidades de información (documento o trabajo) para que puedan recuperarse más fácilmente mediante una búsqueda. ^[3]^[4] Los vocabularios controlados resuelven los problemas de homógrafos , sinónimos y polisemas mediante una biyección entre conceptos y términos preferidos. En resumen, los vocabularios controlados reducen la ambigüedad inherente a los lenguajes humanos normales, donde al mismo concepto se le pueden dar diferentes nombres y garantizar la coherencia.

Por ejemplo, en los encabezamientos de materia de la Biblioteca del Congreso ^[5] (un sistema de encabezamientos de materia que utiliza un vocabulario controlado), los términos preferidos (en este caso, encabezamientos de materia) deben elegirse para manejar las opciones entre variantes ortográficas de la misma palabra (en inglés, American versus británico), elección entre términos científicos y populares ( cucaracha versus Periplaneta americana ), y elección entre sinónimos ( automóvil versus automóvil ), entre otras cuestiones difíciles.

La elección de los términos preferidos se basa en los principios de garantía del usuario (qué términos es probable que utilicen los usuarios), garantía literaria (qué términos se utilizan generalmente en la literatura y los documentos) y garantía estructural (términos elegidos considerando la estructura, el alcance de el vocabulario controlado).

Los vocabularios controlados también suelen abordar el problema de los homógrafos con calificadores. Por ejemplo, el término piscina debe calificarse para referirse a piscina o juego de billar para garantizar que cada término o título preferido se refiera a un solo concepto.

Tipos utilizados en bibliotecas

Hay dos tipos principales de herramientas de vocabulario controlado que se utilizan en las bibliotecas: títulos de materia y tesauros . Si bien las diferencias entre los dos están disminuyendo, todavía existen algunas diferencias menores. Históricamente, los catalogadores diseñaban los encabezamientos de materia para describir libros en los catálogos de las bibliotecas, mientras que los indexadores utilizaban los tesauros para aplicar términos de indexación a documentos y artículos. Los títulos de materia tienden a tener un alcance más amplio y describen libros completos, mientras que los tesauros tienden a ser más especializados y abarcan disciplinas muy específicas. También debido al sistema de catálogo de tarjetas, los encabezamientos de materia tienden a tener términos en orden indirecto (aunque con el auge de los sistemas automatizados esto se está eliminando), mientras que los términos del tesauro siempre están en orden directo. Los encabezamientos de materia también tienden a utilizar una mayor coordinación previa de términos, de modo que el diseñador del vocabulario controlado combinará varios conceptos para formar un encabezamiento de materia preferido. (por ejemplo, niños y terrorismo), mientras que los tesauros tienden a utilizar términos directos singulares. Por último, los tesauros enumeran no sólo términos equivalentes sino también términos más restringidos y amplios y términos relacionados entre varios términos preferidos y no preferidos (pero potencialmente sinónimos), mientras que históricamente la mayoría de los encabezamientos temáticos no lo hacían. Por ejemplo, el Encabezamiento de Materia de la Biblioteca del Congreso en sí no tuvo mucha estructura sindética hasta 1943, y no fue hasta 1985 cuando comenzó a adoptar el término tipo tesauro " Término más amplio " y " Término restringido ".

Los términos son elegidos y organizados por profesionales capacitados (incluidos bibliotecarios y científicos de la información) que poseen experiencia en el área temática. Los términos de vocabulario controlado pueden describir con precisión de qué trata realmente un documento determinado, incluso si los términos en sí no aparecen dentro del texto del documento. Los sistemas de encabezados de materias bien conocidos incluyen el sistema de la Biblioteca del Congreso , los encabezados de materias médicas (MeSH) creados por la Biblioteca Nacional de Medicina de los Estados Unidos y Sears . Los tesauros más conocidos incluyen el Tesauro de Arte y Arquitectura y el Tesauro ERIC .

Al seleccionar términos para un vocabulario controlado, el diseñador debe considerar la especificidad del término elegido, si se utilizará la entrada directa, la interconsistencia y la estabilidad del lenguaje.

Por último, la cantidad de precoordinación (en cuyo caso el grado de enumeración versus síntesis se convierte en un problema) y poscoordinación en el sistema es otra cuestión importante. Los elementos de vocabulario controlado (términos/frases) empleados como etiquetas , para ayudar en el proceso de identificación del contenido de documentos u otras entidades del sistema de información (por ejemplo, DBMS, servicios web) califican como metadatos .

Idiomas de indexación

Hay tres tipos principales de lenguajes de indexación.

Lenguaje de indexación controlado: el indexador solo puede utilizar términos aprobados para describir el documento.
Lenguaje de indexación en lenguaje natural : cualquier término del documento en cuestión se puede utilizar para describir el documento.
Lenguaje de indexación gratuito: se puede utilizar cualquier término (no solo del documento) para describir el documento.

Al indexar un documento, el indexador también tiene que elegir el nivel de exhaustividad de la indexación, el nivel de detalle con el que se describe el documento. Por ejemplo, al utilizar una indexación baja y exhaustiva, los aspectos menores del trabajo no se describirán con términos de indexación. En general, cuanto mayor sea la exhaustividad de la indexación, más términos se indexarán para cada documento.

En los últimos años se ha popularizado la búsqueda de texto libre como medio de acceso a documentos. Esto implica utilizar indexación en lenguaje natural con una indexación exhaustivamente establecida al máximo (cada palabra del texto está indexada ). Se han realizado muchos estudios ^{[ cita necesaria ]} para comparar la eficiencia y efectividad de las búsquedas de texto libre con documentos indexados por expertos utilizando algunos descriptores de vocabulario controlados bien elegidos.

Ventajas

A menudo se afirma que los vocabularios controlados mejoran la precisión de la búsqueda de texto libre, por ejemplo, para reducir los elementos irrelevantes en la lista de recuperación. Estos elementos irrelevantes ( falsos positivos ) suelen ser causados por la ambigüedad inherente del lenguaje natural . Tomemos como ejemplo la palabra inglesa fútbol . Fútbol es el nombre que reciben varios deportes de equipo diferentes . En todo el mundo, el más popular de estos deportes de equipo es el fútbol de asociación , que en varios países también se llama fútbol . La palabra fútbol también se aplica al fútbol de rugby ( rugby union y rugby league ), al fútbol americano , al fútbol australiano , al fútbol gaélico y al fútbol canadiense . Por lo tanto, una búsqueda de fútbol recuperará documentos sobre varios deportes completamente diferentes. El vocabulario controlado resuelve este problema etiquetando los documentos de tal manera que se eliminen las ambigüedades.

En comparación con la búsqueda de texto libre, el uso de un vocabulario controlado puede aumentar drásticamente el rendimiento de un sistema de recuperación de información, si el rendimiento se mide por la precisión (el porcentaje de documentos en la lista de recuperación que son realmente relevantes para el tema de búsqueda).

En algunos casos, el vocabulario controlado también puede mejorar la recuperación, porque a diferencia de los esquemas de lenguaje natural, una vez que se busca el término preferido correcto, no es necesario buscar otros términos que puedan ser sinónimos de ese término.

Problemas

Una búsqueda de vocabulario controlada puede conducir a una recuperación insatisfactoria , en el sentido de que no podrá recuperar algunos documentos que son realmente relevantes para la pregunta de búsqueda.

Esto es particularmente problemático cuando la pregunta de búsqueda involucra términos que son lo suficientemente tangenciales al área temática como para que el indexador haya decidido etiquetarlo usando un término diferente (pero el buscador podría considerar el mismo). Básicamente, esto sólo puede evitarlo un usuario experimentado de vocabulario controlado cuya comprensión del vocabulario coincida con la del indexador.

Otra posibilidad es que el indexador simplemente no etiquete el artículo porque la exhaustividad de la indexación es baja. Por ejemplo, un artículo podría mencionar el fútbol como un tema secundario y el indexador podría decidir no etiquetarlo con "fútbol" porque no es lo suficientemente importante en comparación con el tema principal. Pero resulta que para el buscador ese artículo es relevante y, por lo tanto, la recuperación falla. Una búsqueda de texto libre seleccionaría automáticamente ese artículo independientemente.

Por otro lado, las búsquedas de texto libre tienen una alta exhaustividad (se busca cada palabra), por lo que, aunque tienen una precisión mucho menor, tienen potencial para una alta recuperación siempre que el buscador supere el problema de los sinónimos ingresando cada combinación.

Los vocabularios controlados pueden quedar obsoletos rápidamente en campos del conocimiento en rápido desarrollo, a menos que los términos preferidos se actualicen periódicamente. Incluso en un escenario ideal, un vocabulario controlado suele ser menos específico que las palabras del texto mismo. Los indexadores que intentan elegir los términos de índice apropiados pueden malinterpretar al autor, mientras que este problema preciso no es un factor en un texto libre, ya que utiliza las propias palabras del autor.

El uso de vocabularios controlados puede resultar costoso en comparación con las búsquedas de texto libre porque se necesitan expertos humanos o costosos sistemas automatizados para indexar cada entrada. Además, el usuario debe estar familiarizado con el esquema de vocabulario controlado para aprovechar al máximo el sistema. Pero como ya se mencionó, el control de sinónimos y homógrafos puede ayudar a aumentar la precisión.

Se han desarrollado numerosas metodologías para ayudar en la creación de vocabularios controlados, incluida la clasificación por facetas , que permite describir un registro de datos o un documento determinado de múltiples maneras.

La elección de palabras en los vocabularios elegidos no es neutral y el indexador debe considerar cuidadosamente la ética de sus elecciones de palabras. Por ejemplo, los términos tradicionalmente colonialistas han sido a menudo los términos preferidos en los vocabularios elegidos cuando se debaten cuestiones de las Primeras Naciones, lo que ha causado controversia. ^[6]

Aplicaciones

Los vocabularios controlados, como los títulos de materias de la Biblioteca del Congreso , son un componente esencial de la bibliografía , el estudio y la clasificación de libros. Inicialmente se desarrollaron en biblioteconomía y ciencias de la información . En la década de 1950, las agencias gubernamentales comenzaron a desarrollar vocabularios controlados para la floreciente literatura periodística en campos especializados; un ejemplo son los Medical Subject Headings (MeSH) desarrollados por la Biblioteca Nacional de Medicina de EE. UU . Posteriormente, surgieron empresas con fines de lucro (llamadas servicios de indexación y resúmenes) para indexar la literatura en rápido crecimiento en todos los campos del conocimiento. En la década de 1960, se desarrolló una industria de bases de datos bibliográficas en línea basada en redes telefónicas X.25 . Estos servicios rara vez se pusieron a disposición del público porque eran difíciles de utilizar; bibliotecarios especializados llamados intermediarios de búsqueda se encargaban del trabajo de búsqueda. En la década de 1980 aparecieron las primeras bases de datos de texto completo ; estas bases de datos contienen el texto completo de los artículos indexados así como la información bibliográfica. Las bases de datos bibliográficas en línea han migrado a Internet y ahora están disponibles públicamente; sin embargo, la mayoría son propietarios y su uso puede resultar costoso. Los estudiantes matriculados en colegios y universidades pueden acceder a algunos de estos servicios sin cargo; algunos de estos servicios pueden ser accesibles sin cargo en una biblioteca pública.

Comunicacion tecnica

En organizaciones grandes, se pueden introducir vocabularios controlados para mejorar la comunicación técnica . El uso de vocabulario controlado garantiza que todos utilicen la misma palabra para significar lo mismo. Esta coherencia de términos es uno de los conceptos más importantes en la redacción técnica y la gestión del conocimiento , donde se hace un esfuerzo por utilizar la misma palabra en todo un documento u organización en lugar de otras ligeramente diferentes para referirse a lo mismo.

Web semántica y datos estructurados

La búsqueda en la Web podría mejorarse drásticamente mediante el desarrollo de un vocabulario controlado para describir páginas Web; El uso de dicho vocabulario podría culminar en una Web Semántica , en la que el contenido de las páginas Web se describe utilizando un esquema de metadatos legible por máquina . Una de las primeras propuestas para un plan de este tipo es la Iniciativa Dublin Core . Un ejemplo de vocabulario controlado que se puede utilizar para indexar páginas web es PSH .

Es poco probable que un único esquema de metadatos logre alguna vez describir el contenido de toda la Web. ^[7] Para crear una Web Semántica, puede ser necesario recurrir a dos o más sistemas de metadatos para describir el contenido de una página Web. El lenguaje de metadatos facetados intercambiables (XFML) está diseñado para permitir a los creadores de vocabulario controlado publicar y compartir sistemas de metadatos. XFML está diseñado según principios de clasificación por facetas . ^[8]^{[ se necesita fuente no primaria ]}

Los vocabularios controlados de la Web Semántica definen los conceptos y relaciones (términos) utilizados para describir un campo de interés o área de preocupación. Por ejemplo, para declarar una persona en un formato legible por máquina, se necesita un vocabulario que tenga la definición formal de "Persona", como el vocabulario Amigo de un Amigo ( FOAF ), que tiene una clase Persona que define las propiedades típicas de una persona que incluye, entre otros, nombre, prefijo honorífico, afiliación, dirección de correo electrónico y página de inicio, o el vocabulario de persona de Schema.org . ^[9] De manera similar, un libro se puede describir usando el vocabulario de libros de Schema.org ^[10] y términos generales de publicación del vocabulario Dublin Core , ^[11] un evento con el vocabulario de eventos de Schema.org , ^[12] y así en.

Para utilizar términos legibles por máquina de cualquier vocabulario controlado, los diseñadores web pueden elegir entre una variedad de formatos de anotación, incluidos RDFa, Microdatos HTML5 o JSON-LD en el marcado, o serializaciones RDF (RDF/XML, Turtle, N3, TriG, TriX) en archivos externos.

Ver también

Control de autoridad : encabezados únicos utilizados para información bibliográfica
Lenguaje natural controlado : subconjunto de un lenguaje natural.
Definición de vocabulario : lista de palabras utilizadas por los lexicógrafos para escribir definiciones de diccionario
Intercambio de definiciones de vocabulario de IMS : lenguaje de marcado (o gramática) para vocabularios controlados desarrollado por IMS Global
Reconocimiento de entidades nombradas : extracción de menciones de entidades nombradas en texto no estructurado en categorías predefinidas
Nomenclatura : sistema de nombres o términos en un campo particular de las artes o las ciencias.
Ontología (informática) – Especificación de una conceptualización
Terminología : disciplina académica que estudia los términos y sus usos generales.
Marco universal de elementos de datos : vocabulario controlado
Transformación basada en vocabulario : transformación asistida por declaraciones de equivalencia semántica dentro de un vocabulario controlado.

Referencias

^ Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación.
^ Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación utilizados en el ámbito de la agricultura, la pesca, la silvicultura, etc.
^ Amy Warner, Introducción a la taxonomía // enlace muerto Archivado el 5 de marzo de 2016 en Wayback Machine .
^ "Karl Fast, Fred Leise y Mike Steckel". Archivado desde el original el 17 de noviembre de 2017 . Consultado el 15 de septiembre de 2014 .
^ "Vocabularios controlados | Bibliotecarios | Biblioteca del Congreso". La Biblioteca del Congreso . Archivado desde el original el 16 de noviembre de 2019 . Consultado el 22 de mayo de 2018 .
^ Smith, Catherine (3 de abril de 2021). "Vocabularios controlados: pasado, presente y futuro del acceso a materias". Catalogación y clasificación trimestral . 59 (2–3): 186–202. doi :10.1080/01639374.2021.1881007. ISSN 0163-9374. S2CID 233205938.
↑ Cory Doctorow, Metacrap Archivado el 8 de mayo de 2007 en Wayback Machine .
^ Mark Pilgrim, lenguaje de metadatos facetados intercambiables Archivado el 8 de febrero de 2012 en Wayback Machine .
^ "El vocabulario de personas de Schema.org". Archivado desde el original el 28 de julio de 2015 . Consultado el 13 de marzo de 2015 .
^ "El vocabulario del libro de Schema.org". Archivado desde el original el 11 de marzo de 2015 . Consultado el 13 de marzo de 2015 .
^ "Conjunto de elementos de metadatos básicos de Dublin, versión 1.1". Archivado desde el original el 16 de agosto de 2013 . Consultado el 13 de marzo de 2015 .
^ "El vocabulario de eventos de Schema.org". Archivado desde el original el 13 de marzo de 2015 . Consultado el 13 de marzo de 2015 .

enlaces externos

Directorio de vocabularios abiertos vinculados (LOV)