stringtranslate.com

Preservación de bases de datos

La preservación de una base de datos generalmente implica convertir la información almacenada en una base de datos a una forma que pueda ser accesible a largo plazo a medida que cambia la tecnología , sin perder las características iniciales (contexto, contenido, estructura, apariencia y comportamiento) de los datos. [1]

Con el predominio de las bases de datos, se han desarrollado diferentes métodos para ayudar en la preservación de las bases de datos y su contenido. Estos métodos varían según las características de la base de datos y las necesidades de conservación. [2]

Hay tres métodos básicos de preservación de bases de datos: migración, XML y emulación. [1] También hay ciertas herramientas, software y proyectos que se han creado para ayudar en la preservación de bases de datos, incluidos SIARD, Digital Preservation Toolkit, CHRONOS y RODA.

Características de la base de datos

Las características de la propia base de datos se tienen en cuenta al intentar conservar dicha base de datos. Las bases de datos relacionales se componen de tablas que contienen datos en registros y estas tablas luego se conectan entre sí a través de puntos de datos comunes que se almacenan en sus registros. [3] Sin embargo, con la aparición del big data, la nueva base de datos NoSQL también está entrando en juego. [4] Las bases de datos se caracterizan por ser abiertas o cerradas y estáticas o dinámicas. Cuando una base de datos se considera abierta significa que está abierta a que se agreguen datos adicionales; sin embargo, cuando se considera que una base de datos está cerrada significa lo contrario: que está cerrada a nuevos datos debido a su naturaleza completa. Una base de datos se considera estática cuando contiene registros que no se editan o modifican después de su inclusión inicial, sin embargo, una base de datos se considera dinámica cuando contiene registros que pueden editarse en el futuro. El hecho de que una base de datos sea abierta y estática, abierta y dinámica, cerrada y estática o cerrada y dinámica afectará los métodos utilizados para la preservación. Es más difícil preservar una base de datos dinámica que una estática porque los datos cambian constantemente, y es más difícil preservar una base de datos abierta que una cerrada porque los datos se agregan constantemente. Cuanto más a menudo cambia una base de datos, ya sea dentro de un registro o agregando un registro, más a menudo se deben tomar medidas para capturar ese cambio para su preservación. [2]

Métodos de conservación de bases de datos.

También se pueden aplicar tres métodos básicos de preservación digital a la preservación de bases de datos. Estos métodos incluyen migración , XML y emulación . [1]

Migración

El método de migración (también conocido como archivo inactivo) [3] implica transferir datos desde un programa de base de datos obsoleto a un formato más nuevo. Hay tres métodos de migración : compatibilidad con versiones anteriores, interoperabilidad y conversión a estándares. La compatibilidad con versiones anteriores implica el uso de versiones más nuevas de software o hardware para abrir, acceder y leer un documento creado con una versión anterior. La interoperabilidad implica disminuir la posibilidad de obsolescencia al garantizar que se pueda acceder a un archivo en particular con más de una combinación de software y hardware. La conversión a estándares implica transferir el almacenamiento de datos de un formato propietario a un formato abierto, más accesible y ampliamente utilizado. [1]

XML

El método XML (también conocido como normalización XML) [3] implica convertir la información de la base de datos original al formato estándar XML . XML como formato no requiere un hardware o software en particular (más allá de un editor de texto o un procesador de textos) y es legible tanto por humanos como por máquinas, lo que lo convierte en un formato sostenible para fines de preservación y almacenamiento. [1] Sin embargo, al convertir datos al formato XML, se pierde cierta funcionalidad interactiva de la base de datos, como la capacidad de realizar consultas. [3]

Emulación

El método de emulación implica recrear un entorno informático más antiguo con tecnologías y software más nuevos. Esto permite que el software, hardware o formatos de archivos obsoletos sigan siendo accesibles en sistemas nuevos. Por lo tanto, una base de datos obsoleta podría ejecutarse en un emulador que imite el entorno en el que se creó originalmente la base de datos. [1]

Herramientas de preservación

SIARD

La versión 1.0 del formato Software Independent Archiving of Relational Databases (SIARD) fue desarrollada por los Archivos Federales Suizos en 2007. Fue diseñada para archivar bases de datos relacionales de forma independiente del proveedor. Un archivo SIARD es un paquete de archivos ZIP basado en XML y SQL:1999. Un archivo SIARD incorpora tanto el contenido de la base de datos como también metadatos estructurales procesables por máquina que registran la estructura de las tablas de la base de datos y sus relaciones. El archivo ZIP contiene un archivo XML que describe la estructura de la base de datos (metadata.xml), así como una colección de archivos XML, uno por tabla, que captura el contenido de la tabla. El archivo SIARD también puede contener archivos de texto y archivos binarios que representan objetos grandes de bases de datos (BLOB y CLOB). SIARD permite el acceso directo a tablas individuales explorando con herramientas ZIP. Un archivo SIARD no es una base de datos operativa, pero admite la reintegración de la base de datos archivada en otro sistema de gestión de bases de datos relacionales (RDBMS) que admita SQL:1999. Además, SIARD admite la adición de metadatos descriptivos y contextuales que no están registrados en la propia base de datos y la incorporación de archivos de documentación en el archivo. [5] SIARD Versión 1.0 fue homologada como norma eCH-0165 en 2013. [6]

La versión 2.0 del formato de preservación SIARD fue diseñada y desarrollada por los Archivos Federales Suizos bajo los auspicios del proyecto E-ARK. [7] La ​​versión 2.0 se basa en la versión 1.0 y define un formato que es compatible con versiones anteriores de la versión 1.0. Las nuevas características de la versión 2.0 incluyen:

DBML (lenguaje de marcado de base de datos)

El investigador José Carlos Ramalho de la Universidad de Minho creó un esquema XML para capturar información de tablas y datos de una base de datos relacional. Fue publicado en 2007. [8]

CRONO

CHRONOS es un producto de software que sirve como herramienta de preservación de bases de datos. [4] CSP Chronos Archiving representa una solución patentada para la preservación de bases de datos. CHRONOS fue desarrollado entre 2004 y 2006 por CSP en colaboración con el departamento de informática de la Universidad de Ciencias Aplicadas de Landshut . [4] [9] CHRONOS extrae datos de un sistema de gestión de bases de datos y los almacena en un archivo CHRONOS como archivos de texto o XML. Por lo tanto, se puede acceder y leer todos los datos sin un sistema de gestión de bases de datos (DBMS) o el propio CHRONOS, ya que están en formato de texto sin formato. Esto elimina la necesidad de mantener un DBMS únicamente para leer bases de datos estáticas conservadas, así como la necesidad de migrar archivos de bases de datos, potencialmente riesgosos, a formatos de bases de datos más nuevos. [9] Aunque CHRONOS almacena datos en formato de texto plano, sus capacidades de consulta se consideran comparables a las de una base de datos relacional. [4]

Kit de herramientas de preservación de bases de datos

Una serie de pasos, creados por el proyecto RODA para ingerir y preservar bases de datos relacionales en un formato normalizado, representan el Database Preservation Toolkit o dbtoolkit: un instrumento diseñado para la preservación y el acceso a bases de datos archivadas. Utilizando el kit de herramientas de preservación de bases de datos, para lograr la normalización de las bases de datos relacionales, los datos se convierten a DBML ( lenguaje de marcado de bases de datos ) o SIARD, ya que ambos utilizan XML, un formato estándar que no requiere software o hardware específico o propietario, ideal para un formato de preservación. . [10]

El kit de herramientas de preservación de bases de datos (DBPTK) permite la conversión entre formatos de bases de datos, incluida la conexión a sistemas activos, con el fin de preservar las bases de datos digitalmente. El kit de herramientas permite la conversión de bases de datos activas o respaldadas a formatos de preservación como SIARD, un formato basado en XML creado con el fin de preservar la base de datos. En este proceso de conversión, el kit de herramientas extrae información DBMS única utilizando conectores específicos de DBMS. Estos conectores se emparejan con un DBMS particular, extraen sus datos y los representan en formato XML, lo que luego conduce a la representación en DBML y SIARD. También se pueden crear nuevos conectores para la ingesta de nuevos DBMS. [10] El conjunto de herramientas también permite la conversión de los formatos de preservación nuevamente a sistemas activos para permitir la funcionalidad completa de las bases de datos. Por ejemplo, admite una exportación especializada a MySQL, optimizada para PhpMyAdmin, por lo que se puede experimentar completamente la base de datos utilizando una interfaz web.

Este conjunto de herramientas fue originalmente parte del proyecto RODA [11] y luego se lanzó por sí solo. Se ha desarrollado aún más en el proyecto E-ARK junto con una nueva versión del formato de preservación SIARD.

El kit de herramientas utiliza módulos de entrada y salida. Cada módulo admite lectura y/o escritura en un formato de base de datos particular o sistema en vivo. Se pueden agregar fácilmente nuevos módulos implementando una nueva interfaz y agregando nuevos controladores. [12]

Proyectos de preservación de bases de datos.

Los proyectos de investigación en este sentido incluyen:

Repositorio de Objetos Digitales Auténticos (RODA)

RODA, o Repositorio de Objetos Digitales Auténticos, fue un proyecto lanzado en Portugal en 2006 por los Archivos Nacionales portugueses, con el fin de preservar aquellos objetos digitales producidos por las instituciones gubernamentales de Portugal. El proyecto tenía como objetivo combinar varios tipos de objetos digitales en un solo repositorio, incluidas bases de datos relacionales. Como depósito singular de muchos tipos diferentes de objetos digitales, RODA tiene como objetivo normalizar todos los objetos ingeridos, es decir, minimizar los tipos de formato utilizados para almacenar documentos y preservar documentos similares en formatos similares. [10]

El proyecto RODA hizo hincapié en la creación de un método estandarizado para preservar bases de datos como objetos digitales. La preservación de bases de datos plantea un desafío único ya que el proceso de preservación se divide en tres capas: datos, estructura (lógica) y semántica (interfaz). [17] Es decir, se determinó que los datos de las bases de datos, así como su estructura y semántica, deben ser preservados. Para preservar estos tres elementos, el proyecto RODA desarrolló el kit de herramientas de preservación de bases de datos. [10]

Ver también

Referencias

  1. ^ Banco de pruebas de preservación digital abcdef. (2003). De la volatilidad digital a la permanencia digital: preservando las bases de datos. Fundación ICTU. https://web.archive.org/web/20130531200744/http://en.nationaalarchief.nl/sites/default/files/docs/kennisbank/volatility-permanence-databases-en.pdf
  2. ^ ab Ashley, K. (2004). La preservación de las bases de datos. VID, 34 (2), 66-70. https://doi.org/10.1108/03055720410551075
  3. ^ abcd Brogan, M. y Brown, J. (sin fecha). Retos en la preservación digital: Bases de datos relacionales . Facultad de Informática y Ciencias de la Información, Universidad Edith Cowan. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.89.886&rep=rep1&type=pdf
  4. ^ abcd Lindley, A. (2013, 3 al 5 de septiembre). Informe de evaluación de preservación de bases de datos - SIARD vs. CHRONOS: ¿Preservar estructuras complejas como bases de datos a través de un enfoque centrado en registros? [Presentación del trabajo]. iPRES 2013 - Décima Conferencia Internacional sobre Preservación de Objetos Digitales, Lisboa, Portugal. https://doi.org/10.13140/2.1.3272.8005
  5. ^ "SIARD (archivado independiente de software de bases de datos relacionales) versión 1.0". 30 de mayo de 2015.
  6. ^ Bruggisser, H., Büchler, G., Dubois, A., Kaiser, M., Kansy, L., Lischer, M., Röthlisberger-Jourdan, C., Thomas, H. y Voss, A. (2015 ). eCH-0165 Especificación de formato SIARD 2.0 (borrador) . Normas gubernamentales eCH E. https://www.eark-project.com/resources/specificationdocs/32-specification-for-siard-format-v20/STAN_e_FINAL_2015-07-04_eCH-0165_V2%200_SIARD-Format.pdf
  7. ^ "Proyecto E-ARK".
  8. ^ José Carlos Ramalho; Miguel Ferreira; Luis Faria; Rui Castro (7 de agosto de 2007). "Preservación de bases de datos relacionales mediante modelado XML" (PDF) . Lenguajes de marcado extremos . Consultado el 16 de abril de 2017 .
  9. ^ ab Brandl, S. y Keller-Marxer, P. (23 de marzo de 2007). Archivado a largo plazo de bases de datos relacionales con Chronos [Presentación del artículo]. Primer taller internacional sobre preservación de bases de datos (PresDB'07), Edimburgo, Escocia. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.459.5158&rep=rep1&type=pdf
  10. ^ abcd Ramalho, JC, Faria, L., Helder, S. y Coutada, M. (31 de diciembre de 2013). Kit de herramientas de preservación de bases de datos: una herramienta flexible para normalizar y dar acceso a bases de datos . Universidad de Miño. https://core.ac.uk/display/55635702?source=1&algorithmId=15&similarToDoc=55614406&similarToDocKey=CORE&recSetID=f3ffea4d-1504-45e9-bfd6-a0495f5c8f9c&position=2&recommendation_type=same_repo&otherRecs=55 614407,55635702,55607961,55613627,2255664
  11. ^ "Comunidad RODA - Repositorio de objetos digitales auténticos".
  12. ^ ab "db-preservation-toolkit de keep".
  13. ^ Heuscher, Stephan; Jaermann, Stephan; Keller-Marxer, Peter; Moehle, Frank (2004). "Proporcionar acceso auténtico a archivos a largo plazo a datos relacionales complejos". Actas PV-2004: Garantizar la preservación a largo plazo y agregar valor a los datos científicos y técnicos, 5 al 7 de octubre de 2004 . págs. 241–261. arXiv : cs/0408054 . Código Bib : 2004cs.......8054H.
  14. ^ "RODA y Crib: un repositorio digital orientado a servicios" (PDF) .
  15. ^ "Duurzaam beheer van digitaal archiefmateriaal - Nationaal Archief" (PDF) .
  16. ^ "LOCKSS: muchas copias mantienen las cosas seguras". Universidad Stanford . Consultado el 16 de abril de 2017 .
  17. ^ Ribeiro, C. y David, G. (11 de marzo de 2009). Conservación de bases de datos . Preservación digital en Europa. https://digitalpreservationeurope.eu/publications/briefs/database_preservation_ribiero_david.pdf