Curación de datos

La curación de datos es la organización e integración de datos recopilados de diversas fuentes. Implica anotación, publicación y presentación de los datos para que el valor de los datos se mantenga a lo largo del tiempo y los datos permanezcan disponibles para su reutilización y preservación. La curación de datos incluye "todos los procesos necesarios para la creación, el mantenimiento y la gestión de datos controlados y basados en principios , junto con la capacidad de agregar valor a los datos". ^[1] En ciencia, la curación de datos puede indicar el proceso de extracción de información importante de textos científicos, como artículos de investigación de expertos, para convertirlos a un formato electrónico, como una entrada de una base de datos biológica . ^[2]

En la era moderna del big data , la conservación de datos se ha vuelto más prominente, particularmente para el software que procesa sistemas de datos complejos y de gran volumen. ^[3] El término también se utiliza en las humanidades, ^[4] donde el aumento de datos culturales y académicos de proyectos de humanidades digitales requiere la experiencia y las prácticas analíticas de curación de datos. ^[5] En términos generales, curación significa una variedad de actividades y procesos realizados para crear, gestionar, mantener y validar un componente . ^[6] Específicamente, la curación de datos es el intento de determinar qué información vale la pena guardar y por cuánto tiempo. ^[7]

Historia y practica

El usuario , en lugar de la propia base de datos, normalmente inicia la curación de datos y mantiene los metadatos . ^[8] Según la Escuela de Graduados en Bibliotecología y Ciencias de la Información de la Universidad de Illinois , "La curación de datos es la gestión activa y continua de datos a lo largo de su ciclo de vida de interés y utilidad para la erudición, la ciencia y la educación; las actividades de curación permiten que los datos descubrimiento y recuperación, mantener la calidad, agregar valor y permitir la reutilización a lo largo del tiempo". ^[9] El flujo de trabajo de curación de datos es distinto de la gestión de la calidad de los datos , la protección de los datos , la gestión del ciclo de vida y el movimiento de los datos . ^[8]

Los datos del censo han estado disponibles en forma de tarjetas perforadas tabuladas desde principios del siglo XX y han sido electrónicos desde la década de 1960. ^[10] El sitio web del Consorcio Interuniversitario para la Investigación Política y Social (ICPSR) marca 1962 como la fecha de su primer Archivo de Datos de Encuestas. ^[11]

En una edición de 1982 de la revista de Illinois, Library Trends, aparecieron antecedentes profundos sobre las bibliotecas de datos. ^[12] Para conocer los antecedentes históricos del movimiento de archivos de datos, consulte "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura de archivos de datos internacionales". ^[13] El proceso de curación exacto que se lleva a cabo dentro de cualquier organización depende del volumen de datos, de cuánto ruido contienen y de lo que significa el uso futuro esperado de los datos para su difusión. ^[3]

La crisis de los datos espaciales llevó a la creación en 1999 del modelo Open Archival Information System (OAIS) , ^[14] administrado por el Comité Consultivo para Sistemas de Datos Espaciales (CCSDS) , que se formó en 1982. ^[15]

El término curación de datos se utiliza a veces en el contexto de bases de datos biológicas , donde primero se obtiene información biológica específica de una variedad de artículos de investigación y luego se almacena dentro de una categoría específica de base de datos. Por ejemplo, la información sobre los medicamentos antidepresivos se puede obtener de varias fuentes y, después de verificar si están disponibles como base de datos o no, se guardan en la categoría antidepresiva de la base de datos de medicamentos. Las empresas también están utilizando la curación de datos dentro de sus procesos operativos y estratégicos para garantizar la calidad y precisión de los datos. ^[16]^[17]

Proyectos y estudios

El proyecto Paquetes de información de difusión (DIPS) para la reutilización de información (DIPIR) estudia datos de investigación producidos y utilizados por científicos sociales cuantitativos, arqueólogos y zoólogos. El público objetivo son los investigadores que utilizan datos secundarios y los curadores digitales, administradores de repositorios digitales, personal del centro de datos y otras personas que recopilan, administran y almacenan información digital. ^[18]

El Banco de Datos de Proteínas se estableció en 1971 en el Laboratorio Nacional Brookhaven y ha crecido hasta convertirse en un proyecto global. ^[19] La PDB, una base de datos para datos estructurales tridimensionales de proteínas y otras moléculas biológicas grandes, contiene más de 120.000 estructuras, todas estandarizadas, validadas con datos experimentales y anotadas.

FlyBase , el principal depósito de datos genéticos y moleculares de la familia de insectos Drosophilidae , se remonta a 1992. FlyBase anota todo el genoma de Drosophila melanogaster . ^[20]

El Linguistic Data Consortium es un depósito de datos lingüísticos que data de 1992. ^[21]

El Sloan Digital Sky Survey comenzó a estudiar el cielo nocturno en 2000. ^[22] El informático Jim Gray , mientras trabajaba en la arquitectura de datos del SDSS, defendió la idea de la curación de datos en las ciencias. ^[23]

DataNet era un programa de investigación de la Oficina de Infraestructura Cibernética de la Fundación Nacional de Ciencias de EE. UU., que financiaba proyectos de gestión de datos en las ciencias. ^[24] DataONE (Red de Observación de Datos para la Tierra) es uno de los proyectos financiados a través de DataNet , que ayuda a la comunidad de ciencias ambientales a preservar y compartir datos. ^[25]

Ver también

Biocurador
Arqueología de datos
Degradación de datos
Gestión de formato de datos.
Conservación de datos
Gestión de datos
Disputa de datos
Curación digital : la curación de documentos publicados, en lugar de datos sin procesar ^[7]
Preservación digital
Informacionista : una persona con amplia experiencia en curación de datos.

Referencias

^ Renée J. Miller , “Big Data Curation” en la 20.ª Conferencia Internacional sobre Gestión de Datos (COMAD) 2014, Hyderabad, India, 17 al 19 de diciembre de 2014
^ Glosario bio creativo. Recuperado el 3 de octubre de 2016.
^ ab Furht, Borko; Armando Escalante (2011). Manual de informática intensiva en datos. Medios de ciencia y negocios de Springer. pag. 32.ISBN 9781461414155. Consultado el 2 de octubre de 2016 .
^ Sabharwal, Arjun (2015). Curación digital en humanidades digitales: preservación y promoción de archivos y colecciones especiales. Editorial Chandos. pag. 60.ISBN 9780081001783. Consultado el 2 de octubre de 2016 .
^ "Introducción a la curación de datos humanitarios" por Julia Flanders y Trevor Muñoz http://guide.dhcuration.org/intro/. Ya no está disponible: archive.org
^ Glosario de Pilin. Ya no está disponible: archive.org
^ ab Borgman, C (2015). Big data, little data, no data: Becas en el mundo en red. Cambridge, Massachusetts: MIT Press. págs.13. ISBN 978-0-262-02856-1.
^ ab Chessell, Mandy; Nigel L Jones; Jay Limburn; David Radley; Kevin caña (2015). Diseño y operación de un depósito de datos. Libros rojos de IBM. págs. 111-113. ISBN 9780837440668. Consultado el 2 de octubre de 2016 .
^ Cragin, Melissa; Heidorn, P. Bryan; Palmer, Carole L.; Smith, Linda C. (2007). "Un programa educativo sobre conservación de datos". Conferencia de la Sección de Ciencia y Tecnología de ALA . Consultado el 7 de octubre de 2013 .
^ "Informe Preservación de la Información Digital (PDI)" (PDF) . 1996 . Consultado el 13 de marzo de 2018 .
^ "ICPSR: Historia". www.icpsr.umich.edu . Consultado el 15 de marzo de 2018 .
^ Heim, Kathleen M. (29 de noviembre de 1982). "Library Trends 30 (3) Invierno de 1982: Bibliotecas de datos para las ciencias sociales". Tendencias bibliotecarias : a través de www.ideals.illinois.edu.
^ Kathleen M. Heim, "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura de archivos de datos internacionales". en Collection Management 9 (primavera de 1987): 1-53.
^ "El modelo de referencia de la OAIS". 2015-12-09 . Consultado el 15 de marzo de 2018 .
^ "CCSDS.org - El Comité Consultivo para Sistemas de Datos Espaciales (CCSDS)". public.ccsds.org . Consultado el 14 de marzo de 2018 .
^ E. Curry, A. Freitas y S. O'Riáin, "El papel de la conservación de datos impulsada por la comunidad para las empresas", archivado el 23 de enero de 2012 en Wayback Machine en la vinculación de datos empresariales, D. Wood, Ed. Boston, MA: Springer US, 2010, págs. 25-47. ISBN 978-1-4419-7664-2
^ A. Freitas, E. Curry, “Big Data Curation”, archivado el 13 de septiembre de 2016 en Wayback Machine en New Horizons for a Data-Driven Economy, Springer (acceso abierto), 2015.
^ Proyecto de paquetes de información de difusión para la reutilización de información (DIPIR) http://www.oclc.org/research/themes/user-studies/dipir.html
^ "RCSB PDB: Acerca del archivo PDB y RCSB PDB". Sobre el Archivo PDB y el PDB RCSB . Consultado el 15 de marzo de 2018 .
^ Gramates, LS; Marygold, SJ; dos Santos, G; Urbano, JM; Antonazzo, G; Matthews, BB; Rey, AJ; Tabone, CJ; Crosby, MA; Emmert, DB; Caídas, K; Goodman, JL; Hu, Y; Ponting, L; Schroeder, AJ; Strelets, VB; Thurmond, J; Zhou, P; Consorcio FlyBase (2017). "lyBase a los 25: mirando hacia el futuro". Ácidos nucleicos Res . 45 (D1): D663–D671. doi :10.1093/nar/gkw1016. PMC 5210523 . PMID 27799470.
^ "Acerca de los PMA". Consorcio de Datos Lingüísticos . Consultado el 15 de marzo de 2018 .
^ "Encuesta Sloan Digital Sky". SDSS . Consultado el 15 de marzo de 2018 .
^ Palmer, Carole L.; Weber, Nicolás M.; Muñoz, Trevor; Renear, Allen H. (junio de 2013). "Fundamentos de la curación de datos: la pedagogía y la práctica del" trabajo con propósito "con datos de investigación". Diario de archivo . 3 . hdl :2142/78099.
^ "Resumen del programa de socios de red de acceso y preservación de datos digitales sostenibles (DataNet)". Fundación Nacional de Ciencias. 28 de septiembre de 2007 . Consultado el 15 de marzo de 2018 .
^ "¿Qué es DataONE?". ¿Qué es DataONE? . Archivado desde el original el 26 de abril de 2019 . Consultado el 15 de marzo de 2018 .

Enlaces externos

Curación de datos ecológicos y ambientales: DataONE
Herramientas y servicios de gestión de datos que abarcan múltiples disciplinas científicas: DataConservancy