En tecnología de la información , un repositorio de información o simplemente un repositorio es "un lugar central en el que se guarda y mantiene una agregación de datos de manera organizada, generalmente en un almacenamiento informático ". [1] "Puede ser simplemente la agregación de datos en sí en algún lugar de almacenamiento accesible o también puede implicar alguna capacidad para extraer datos de forma selectiva". [1]
El concepto de una biblioteca digital universal fue descrito como "al alcance" por una Directiva de Derechos de Autor de la Unión Europea de 2012 [2] que hablaba de los intentos de Google de "digitalizar en masa" las denominadas "obras huérfanas" (es decir, obras protegidas por derechos de autor que están fuera de catálogo).
La Oficina de Derechos de Autor de Estados Unidos y la legislación sobre derechos de autor de la Unión Europea han estado trabajando en este tema. Google ha llegado a acuerdos en Francia que "permiten al editor elegir qué obras pueden escanearse o venderse". En cambio, Google ha estado intentando en Estados Unidos un acuerdo de "digitalización y venta libre de cualquier obra a menos que los titulares de los derechos de autor opten por no hacerlo" y aún no ha tenido éxito. [3]
Desde hace décadas se han llevado a cabo intentos de desarrollar lo que se denomina un repositorio de información :
Un repositorio de información federado es una manera sencilla de implementar un nivel secundario de almacenamiento de datos que puede incluir múltiples tecnologías de almacenamiento de datos en red que se ejecutan en diversos sistemas operativos , donde los datos que ya no necesitan estar en el almacenamiento primario se protegen, se clasifican según los metadatos capturados , se procesan, se eliminan los duplicados y luego se eliminan automáticamente, según los objetivos y requisitos del nivel de servicio de datos. En los repositorios de información federados, los recursos de almacenamiento de datos se virtualizan como conjuntos de almacenamiento compuestos y funcionan como un entorno federado . [7]
Los repositorios de información federados se desarrollaron para mitigar los problemas que surgen de la proliferación de datos y eliminar la necesidad de implementar soluciones de almacenamiento de datos por separado debido a la implementación simultánea de diversas tecnologías de almacenamiento que ejecutan diversos sistemas operativos. Ofrecen una gestión centralizada de todos los recursos de almacenamiento de datos implementados. Son autónomos, admiten recursos de almacenamiento heterogéneos, admiten la gestión de recursos para agregar, mantener, reciclar y finalizar medios, realizan un seguimiento de los medios fuera de línea y funcionan de forma autónoma.
Dado que una de las principales razones para la implementación de un repositorio de información federado es reducir la carga de trabajo de mantenimiento que los sistemas de almacenamiento de datos tradicionales imponen al personal de TI, los repositorios de información federados están automatizados. La automatización se logra mediante políticas que pueden procesar datos en función del tiempo, los eventos, la antigüedad de los datos y el contenido de los datos. Las políticas gestionan lo siguiente:
Los datos se procesan según el tipo de medio, el grupo de almacenamiento y la tecnología de almacenamiento .
Debido a que los repositorios de información federados están destinados a reducir la carga de trabajo del personal de TI, están diseñados para ser fáciles de implementar y ofrecer flexibilidad de configuración, extensibilidad prácticamente ilimitada, redundancia y conmutación por error confiable.
Los repositorios de información federados cuentan con sólidas capacidades de búsqueda y recuperación de datos basadas en el cliente que, en función de los permisos, permiten a los usuarios finales buscar en el repositorio de información, ver el contenido del repositorio de información, incluidos los datos en medios fuera de línea, y recuperar archivos individuales o múltiples archivos en su computadora de red original o en otra computadora de red.