La curación de datos es la organización e integración de datos recopilados de diversas fuentes. Implica anotación, publicación y presentación de los datos para que el valor de los datos se mantenga a lo largo del tiempo y los datos permanezcan disponibles para su reutilización y preservación. La curación de datos incluye "todos los procesos necesarios para la creación, el mantenimiento y la gestión de datos controlados y basados en principios , junto con la capacidad de agregar valor a los datos". [1] En ciencia, la curación de datos puede indicar el proceso de extracción de información importante de textos científicos, como artículos de investigación de expertos, para convertirlos a un formato electrónico, como una entrada de una base de datos biológica . [2]
En la era moderna del big data , la conservación de datos se ha vuelto más prominente, particularmente para el software que procesa sistemas de datos complejos y de gran volumen. [3] El término también se utiliza en las humanidades, [4] donde el aumento de datos culturales y académicos de proyectos de humanidades digitales requiere la experiencia y las prácticas analíticas de curación de datos. [5] En términos generales, curación significa una variedad de actividades y procesos realizados para crear, gestionar, mantener y validar un componente . [6] Específicamente, la curación de datos es el intento de determinar qué información vale la pena guardar y por cuánto tiempo. [7]
El usuario , en lugar de la propia base de datos, normalmente inicia la curación de datos y mantiene los metadatos . [8] Según la Escuela de Graduados en Bibliotecología y Ciencias de la Información de la Universidad de Illinois , "La curación de datos es la gestión activa y continua de datos a lo largo de su ciclo de vida de interés y utilidad para la erudición, la ciencia y la educación; las actividades de curación permiten que los datos descubrimiento y recuperación, mantener la calidad, agregar valor y permitir la reutilización a lo largo del tiempo". [9] El flujo de trabajo de curación de datos es distinto de la gestión de la calidad de los datos , la protección de los datos , la gestión del ciclo de vida y el movimiento de los datos . [8]
Los datos del censo han estado disponibles en forma de tarjetas perforadas tabuladas desde principios del siglo XX y han sido electrónicos desde la década de 1960. [10] El sitio web del Consorcio Interuniversitario para la Investigación Política y Social (ICPSR) marca 1962 como la fecha de su primer Archivo de Datos de Encuestas. [11]
En una edición de 1982 de la revista de Illinois, Library Trends, aparecieron antecedentes profundos sobre las bibliotecas de datos. [12] Para conocer los antecedentes históricos del movimiento de archivos de datos, consulte "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura de archivos de datos internacionales". [13] El proceso de curación exacto que se lleva a cabo dentro de cualquier organización depende del volumen de datos, de cuánto ruido contienen y de lo que significa el uso futuro esperado de los datos para su difusión. [3]
La crisis de los datos espaciales llevó a la creación en 1999 del modelo Open Archival Information System (OAIS) , [14] administrado por el Comité Consultivo para Sistemas de Datos Espaciales (CCSDS) , que se formó en 1982. [15]
El término curación de datos se utiliza a veces en el contexto de bases de datos biológicas , donde primero se obtiene información biológica específica de una variedad de artículos de investigación y luego se almacena dentro de una categoría específica de base de datos. Por ejemplo, la información sobre los medicamentos antidepresivos se puede obtener de varias fuentes y, después de verificar si están disponibles como base de datos o no, se guardan en la categoría antidepresiva de la base de datos de medicamentos. Las empresas también están utilizando la curación de datos dentro de sus procesos operativos y estratégicos para garantizar la calidad y precisión de los datos. [16] [17]
El proyecto Paquetes de información de difusión (DIPS) para la reutilización de información (DIPIR) estudia datos de investigación producidos y utilizados por científicos sociales cuantitativos, arqueólogos y zoólogos. El público objetivo son los investigadores que utilizan datos secundarios y los curadores digitales, administradores de repositorios digitales, personal del centro de datos y otras personas que recopilan, administran y almacenan información digital. [18]
El Banco de Datos de Proteínas se estableció en 1971 en el Laboratorio Nacional Brookhaven y ha crecido hasta convertirse en un proyecto global. [19] La PDB, una base de datos para datos estructurales tridimensionales de proteínas y otras moléculas biológicas grandes, contiene más de 120.000 estructuras, todas estandarizadas, validadas con datos experimentales y anotadas.
FlyBase , el principal depósito de datos genéticos y moleculares de la familia de insectos Drosophilidae , se remonta a 1992. FlyBase anota todo el genoma de Drosophila melanogaster . [20]
El Linguistic Data Consortium es un depósito de datos lingüísticos que data de 1992. [21]
El Sloan Digital Sky Survey comenzó a estudiar el cielo nocturno en 2000. [22] El informático Jim Gray , mientras trabajaba en la arquitectura de datos del SDSS, defendió la idea de la curación de datos en las ciencias. [23]
DataNet era un programa de investigación de la Oficina de Infraestructura Cibernética de la Fundación Nacional de Ciencias de EE. UU., que financiaba proyectos de gestión de datos en las ciencias. [24] DataONE (Red de Observación de Datos para la Tierra) es uno de los proyectos financiados a través de DataNet , que ayuda a la comunidad de ciencias ambientales a preservar y compartir datos. [25]