Darwin Core Archive (DwC-A) es un estándar de datos informáticos de biodiversidad que utiliza los términos de Darwin Core para producir un conjunto de datos único e independiente sobre la ocurrencia de especies, listas de verificación, eventos de muestreo o datos de muestras de material. Básicamente, es un conjunto de archivos de texto (CSV) con un descriptor simple (meta.xml) para informar a otros cómo se organizan sus archivos. El formato se define en las Directrices de texto de Darwin Core. [1] Es el formato preferido para publicar datos en la red GBIF .
El estándar Darwin Core [2] se ha utilizado para movilizar la gran mayoría de registros de ocurrencia y observación de especímenes dentro de la red GBIF. [3] El estándar Darwin Core fue concebido originalmente para facilitar el descubrimiento, la recuperación y la integración de información sobre especímenes biológicos modernos, su ocurrencia espacio-temporal y su evidencia de respaldo alojada en colecciones (físicas o digitales).
En la actualidad, Darwin Core tiene un alcance más amplio. Su objetivo es proporcionar una referencia estándar y estable para compartir información sobre la diversidad biológica. Como glosario de términos, Darwin Core proporciona definiciones semánticas estables con el objetivo de que sea lo más reutilizable posible en una variedad de contextos. Esto significa que Darwin Core puede seguir utilizándose de la misma manera que se ha utilizado históricamente, pero también puede servir como base para crear formatos de intercambio más complejos, al tiempo que se garantiza la interoperabilidad a través de un conjunto común de términos.
La idea central de un archivo es que sus archivos de datos estén organizados de manera lógica en forma de estrella, con un archivo de datos central rodeado por cualquier número de "extensiones". Cada registro de extensión (o "fila de archivo de extensión") apunta a un registro en el archivo central; de esta manera, pueden existir de cero a muchos registros de extensión para cada registro central, un método más eficiente en términos de espacio para la transferencia de datos que la alternativa de incluir todos los datos dentro de una sola tabla que, de lo contrario, podría contener muchas celdas vacías.
Los detalles sobre las extensiones recomendadas se pueden encontrar en sus respectivas subsecciones y se documentarán ampliamente en el registro GBIF, que catalogará todas las extensiones disponibles.
Compartir conjuntos de datos completos en lugar de utilizar servicios web paginables como DiGIR y TAPIR permite una transferencia de datos mucho más sencilla y eficiente. Por ejemplo, recuperar 260.000 registros a través de TAPIR lleva aproximadamente nueve horas, y se requieren 1.300 solicitudes http para transferir 500 MB de datos con formato XML. El mismo conjunto de datos, codificado como DwC-A y comprimido, se convierte en un archivo de 3 MB. Por lo tanto, GBIF recomienda encarecidamente comprimir un archivo mediante ZIP o GZIP al generar un DwC-A.
Un archivo requiere identificadores estables para los registros principales, pero no para las extensiones. Por lo tanto, para cualquier tipo de datos compartidos es necesario tener algún tipo de identificadores de registro locales. Es una buena práctica mantener, junto con los datos originales, identificadores que sean estables en el tiempo y que no se vuelvan a utilizar después de que se elimine el registro. Si puede, proporcione identificadores únicos globales en lugar de locales.
Para completar.
Un archivo Darwin Core debe contener un archivo con metadatos que describan todo el conjunto de datos. El lenguaje de metadatos ecológicos (EML) es el formato más común para esto, pero también se utilizan archivos Dublin Core simples.