Los sistemas de archivos semánticos son sistemas de archivos que se utilizan para la persistencia de la información y que estructuran los datos según su semántica e intención, en lugar de la ubicación, como sucede con los sistemas de archivos actuales. Permiten acceder a los datos por su contenido (acceso asociativo). Los sistemas de archivos jerárquicos tradicionales tienden a imponer una carga, por ejemplo, cuando el diseño de un subdirectorio contradice la percepción del usuario sobre dónde se almacenarían los archivos. Tener una interfaz basada en etiquetas alivia este problema de jerarquía y permite a los usuarios consultar datos de forma intuitiva.
Los sistemas de archivos semánticos plantean desafíos de diseño técnico ya que se deben crear índices de palabras, etiquetas o signos elementales de algún tipo y actualizarlos, mantenerlos y almacenarlos en caché constantemente para lograr un rendimiento que ofrezca el acceso aleatorio y multivariable deseado a los archivos, además del sistema de archivos subyacente, mayoritariamente tradicional, basado en bloques.
Un sistema de archivos semántico puede concebirse como parte de un escritorio semántico .
El concepto de sistema de archivos semántico fue propuesto en 1991 por investigadores del MIT y de la École des Mines de Paris . [1] Propusieron un sistema integrado cuya interfaz de consulta principal se parecía a la interfaz de un sistema de archivos tradicional a través de un sistema de directorio virtual que interpretaba una ruta como una consulta conjuntiva . Su implementación tenía extracción automática de los metadatos relevantes a través de lo que llamaron transductores específicos del tipo de archivo .
A partir de 2004 aproximadamente, surgió una nueva ola de implementaciones centradas en el etiquetado manual de archivos y carpetas.
En 2008, los investigadores propusieron integrar sistemas de archivos semánticos con tecnologías de la Web Semántica . [2]
Se pueden utilizar etiquetas en lugar de carpetas para eludir los límites de un modelo jerárquico.
Gifford et al. [1] sugirieron la idea de metadatos específicos del tipo de archivo extraídos automáticamente por un transductor específico del tipo de archivo.
Por ejemplo, en el caso de un archivo de texto con código fuente, los metadatos podrían incluir los nombres de los procedimientos que el programa exporta o importa, los tipos de procedimientos y los archivos incluidos por el programa. En el caso de un documento, su fecha, autor, título y estructura (secciones y subsecciones). En el caso de un correo electrónico, su remitente, destinatario y asunto.
En los flujos de trabajo científicos, la procedencia de un archivo de datos es importante. Un científico podría querer seleccionar un archivo de resultados filtrando por el conjunto de datos de entrada.
Vasudevan y Pazandak [3] introducen la distinción entre enfoques integrados y aumentados:
Sugieren que la arquitectura de sistemas abiertos se adapta bien a las implementaciones de sistemas de archivos semánticos.
Incluso los sistemas de archivos semánticos integrados pueden optar por exponer una interfaz para lograr compatibilidad con los protocolos de sistemas de archivos locales o distribuidos existentes . Por ejemplo, la implementación de 1991 de Gifford et al. era totalmente compatible con NFS . [1]
Los atributos de archivo extendidos proporcionados por el sistema de archivos pueden ser una forma de almacenar los metadatos.
Una base de datos relacional es otra forma muy frecuente de almacenar los metadatos.
Investigación y especificaciones