La publicación de datos (también publicación de datos ) es el acto de publicar datos de investigación en forma publicada para que otros los utilicen. Es una práctica que consiste en preparar ciertos datos o conjuntos de datos para uso público y así ponerlos a disposición de todos para que los utilicen como deseen. Esta práctica es una parte integral del movimiento de ciencia abierta . Existe un consenso amplio y multidisciplinario sobre los beneficios que se derivan de esta práctica. [1] [2] [3]
El objetivo principal es elevar los datos para que sean resultados de investigación de primera clase. [4] Hay una serie de iniciativas en marcha, así como puntos de consenso y cuestiones aún en disputa. [5]
Hay varias formas distintas de hacer que los datos de la investigación estén disponibles, entre ellas:
Publicar datos como material complementario asociado con un artículo de investigación , generalmente con los archivos de datos alojados por el editor del artículo.
alojar datos en un sitio web disponible públicamente, con archivos disponibles para descargar
alojar datos en un repositorio que ha sido desarrollado para soportar la publicación de datos, por ejemplo, figshare , Dryad , Dataverse , Zenodo . Existe una gran cantidad de repositorios de datos generales y especializados (por ejemplo, por tema de investigación). [6] Por ejemplo, el Servicio de Datos del Reino Unido permite a los usuarios depositar colecciones de datos y volver a compartirlas con fines de investigación.
publicar un artículo de datos sobre el conjunto de datos, que puede publicarse como preimpresión, en una revista regular o en una revista de datos dedicada a respaldar artículos de datos. Los datos pueden estar alojados en la revista o alojados por separado en un repositorio de datos.
La publicación de datos permite a los investigadores ponerlos a disposición de otros para que los utilicen y permite citar los conjuntos de datos de manera similar a otros tipos de publicaciones de investigación (como artículos o libros), lo que permite a los productores de conjuntos de datos obtener crédito académico por su trabajo.
Las motivaciones para publicar datos pueden variar desde el deseo de hacer que la investigación sea más accesible, permitir la citabilidad de conjuntos de datos, o mandatos de los financiadores o editores de la investigación que requieren la publicación de datos abiertos. El Servicio de Datos del Reino Unido es una organización clave que trabaja con otras para resaltar la importancia de citar datos correctamente [7] y ayudar a los investigadores a hacerlo.
Se han propuesto soluciones para preservar la privacidad en la publicación de datos, incluidos algoritmos de protección de la privacidad, métodos de "enmascaramiento" de datos y algoritmos de cálculo del nivel de privacidad regional. [8]
Métodos para publicar datos.
Archivos de datos como material complementario.
Un gran número de revistas y editoriales apoyan el envío de material complementario a los artículos de investigación, incluidos conjuntos de datos. Aunque históricamente dicho material podría haberse distribuido sólo a pedido o en microformato a las bibliotecas, hoy en día las revistas suelen alojar dicho material en línea. El material complementario está disponible para los suscriptores de la revista o, si el artículo o la revista es de acceso abierto, para todos.
Repositorios de datos
Existe una gran cantidad de repositorios de datos, tanto de temas generales como especializados. Muchos repositorios son repositorios disciplinarios , centrados en una disciplina de investigación particular, como el Servicio de Datos del Reino Unido, que es un repositorio digital confiable de datos sociales, económicos y humanitarios. Los repositorios pueden ser gratuitos para que los investigadores carguen sus datos o pueden cobrar una tarifa única o continua por alojar los datos. Estos repositorios ofrecen una interfaz web de acceso público para buscar y explorar conjuntos de datos alojados, y pueden incluir características adicionales como un identificador de objeto digital , para la cita permanente de los datos y enlaces a artículos y códigos publicados asociados.
artículos de datos
Los artículos de datos o artículos de datos son “publicaciones académicas de un documento de metadatos con capacidad de búsqueda que describe un conjunto de datos particular accesible en línea, o un grupo de conjuntos de datos, publicado de acuerdo con las prácticas académicas estándar”. [9] Su objetivo final es proporcionar “información sobre el qué, dónde, por qué, cómo y quién de los datos”. [4] La intención de un documento de datos es ofrecer información descriptiva sobre los conjuntos de datos relacionados centrándose en la recopilación de datos, las características distintivas, el acceso y la posible reutilización en lugar de en el procesamiento y análisis de datos. [10] Debido a que los artículos sobre datos se consideran publicaciones académicas que no se diferencian de otros tipos de artículos, permiten a los científicos que comparten datos recibir crédito en una moneda reconocible dentro del sistema académico, "haciendo que el intercambio de datos cuente". [11] Esto proporciona no sólo un incentivo adicional para compartir datos, sino que también, a través del proceso de revisión por pares , aumenta la calidad de los metadatos y, por tanto, la reutilización de los datos compartidos.
Por lo tanto, los artículos sobre datos representan el enfoque de comunicación académica para el intercambio de datos . A pesar de su potencial, los artículos sobre datos no son la solución definitiva y completa para todos los problemas de intercambio y reutilización de datos y, en algunos casos, se considera que inducen falsas expectativas en la comunidad investigadora. [12]
Diarios de datos
Los artículos de datos están respaldados por una amplia gama de revistas de datos , algunas de las cuales son "puras", es decir, se dedican a publicar artículos de datos únicamente, mientras que otras (la mayoría) son "mixtas", es decir, publican varios tipos de artículos, incluidos documentos de datos.
Está disponible una encuesta completa sobre las revistas de datos. [13] El personal de la Universidad de Edimburgo ha compilado una lista no exhaustiva de revistas de datos. [14]
Ejemplos de revistas de datos "puros" son: Earth System Science Data , Journal of Open Archaeology Data , Open Health Data , Polar Data Journal y Scientific Data .
Un artículo de 2011 informó sobre la incapacidad de determinar con qué frecuencia se citaban datos en las ciencias sociales. [17]
Los artículos de 2012-13 informaron que la cita de datos se estaba volviendo más común, pero la práctica no era estándar. [18] [19] [20]
En 2014, FORCE 11 publicó la Declaración Conjunta de Principios de Citación de Datos que cubre el propósito, la función y los atributos de la cita de datos. [21]
En octubre de 2018, CrossRef expresó su apoyo a la catalogación de conjuntos de datos y recomendar su cita. [22]
Una popular revista orientada a datos informó en abril de 2019 que ahora utilizaría citas de datos. [23]
Un artículo de junio de 2019 sugirió que una mayor cita de datos hará que la práctica sea más valiosa para todos al fomentar el intercambio de datos y también al aumentar el prestigio de las personas que los comparten. [24]
La citación de datos es un tema emergente en informática y se ha definido como un problema computacional. [25] De hecho, citar datos plantea importantes desafíos a los informáticos y los principales problemas a abordar están relacionados con: [26]
^ Costello MJ (2009). "Motivar la publicación online de datos". Biociencia . 59 (5): 418–427. doi :10.1525/bio.2009.59.5.9. hdl : 2292/7173 . S2CID 55591360.
^ Smith contra (2009). "Publicación de datos: hacia una base de datos de todo". Notas de investigación de BMC . 2 (113): 113. doi : 10.1186/1756-0500-2-113 . PMC 2702265 . PMID 19552813.
^ Lorenzo, B; Jones, C.; Matthews, B.; Pepler, S.; Callaghan, S. (2011). "Cita y revisión por pares de datos: avanzar hacia la publicación formal de datos". Revista Internacional de Curación Digital . 6 (2): 4–37. doi : 10.2218/ijdc.v6i2.205 .
^ ab Callaghan S, Donegan S, Pepler S, Thorley M, Cunningham N, Kirsch P, Ault L, Bell P, Bowie R, Leadbetter A, Lowry R, Moncoiffé G, Harrison K, Smith-Haddon B, Weatherby A, Wright D (2012). "Hacer de los datos una producción científica de primera clase: citación y publicación de datos por parte de los centros de datos ambientales de NERC". Revista Internacional de Curación Digital . 7 (1): 107–113. doi : 10.2218/ijdc.v7i1.218 .
^ Kratz J, Strasser C (2014). "Consensos y controversias en la publicación de datos". F1000Investigación . 3 (94): 94. doi : 10.12688/f1000research.4518 . PMC 4097345 . PMID 25075301.
^ Assante, M.; Candela, L.; Castelli, D.; Tani, A. (2016). "¿Los repositorios de datos científicos están haciendo frente a la publicación de datos de investigación?". Revista de ciencia de datos . 15 . doi : 10.5334/dsj-2016-006 .
^ Servicio, datos del Reino Unido. "Nuevo en el uso de datos". Servicio de datos del Reino Unido .
^ Zhang, Longbin; Wang, Yuxiang; Xu, Xiaoliang (agosto de 2017). "Muestreo gaussiano basado en partición lógica para agregación en línea". 2017 Quinta Conferencia Internacional sobre Nube Avanzada y Big Data (CBD) . IEEE. págs. 182-187. doi :10.1109/cbd.2017.39. ISBN978-1-5386-1072-5. S2CID 40025084.
^ Chavan, V. y Penev, L. (2011). "El artículo de datos: un mecanismo para incentivar la publicación de datos en la ciencia de la biodiversidad". Bioinformática BMC . 12 (15): T2. doi : 10.1186/1471-2105-12-S15-S2 . PMC 3287445 . PMID 22373175.
^ Newman Pablo; Corke Peter (2009). "Artículos de datos: publicación revisada por pares de conjuntos de datos de alta calidad". Revista Internacional de Investigación en Robótica . 28 (5): 587. doi : 10.1177/0278364909104283 . S2CID 209308576.
^ Gorgolewski KJ, Margulies DS, Milham MP (2013). "Hacer que el intercambio de datos cuente: una solución basada en publicaciones". Fronteras en Neurociencia . 7 : 9. doi : 10.3389/fnins.2013.00009 . PMC 3565154 . PMID 23390412.
^ Parsons, MA; Fox, Pensilvania (2013). "¿Es la publicación de datos la metáfora correcta?". Revista de ciencia de datos . 12 : WDS31–WDS46. doi : 10.2481/dsj.WDS-042 .
^ Candela L, Castelli D, Manghi P, Tani A (2015). "Revistas de datos: una encuesta". Revista de la Asociación de Ciencia y Tecnología de la Información . 66 (1): 1747-1762. doi :10.1002/asi.23358. S2CID 31358007.
^ "Fuentes de revisión por pares de conjuntos de datos - intercambio de datos - Servicio Wiki".
^ Servicio Nacional de Datos de Australia: Conciencia de citas de datos Archivado el 7 de marzo de 2012 en Wayback Machine (consultado el 20 de marzo de 2012).
^ Ball, A., Duque, M. (2011). 'Cita y vinculación de datos'. Documentos informativos del DCC. Edimburgo: Centro de curación digital. Disponible en línea: http://www.dcc.ac.uk/resources/briefing-papers/
^ MOONEY, Hailey (abril de 2011). "Citar fuentes de datos en las ciencias sociales: ¿lo hacen los autores?". Publicaciones aprendidas . 24 (2): 99-108. doi : 10.1087/20110204 . S2CID 34513423.
^ Edmunds, Scott C.; Pollard, Tom J.; Agujero, Brian; Basford, Alexandra T. (2 de julio de 2012). "Aventuras en la cita de datos: los datos del genoma del sorgo ejemplifican el nuevo estándar de oro". Notas de investigación de BMC . 5 (1): 223. doi : 10.1186/1756-0500-5-223 . ISSN 1756-0500. PMC 3392744 . PMID 22571506.
^ "Fuera de cita, fuera de la mente: el estado actual de la práctica, las políticas y la tecnología para la cita de datos". Revista de ciencia de datos . 12 : CIDCR1–CIDCR75. 2013. doi : 10.2481/dsj.OSOM13-043 .
^ Mooney, Hailey; Newton, Mark P. (2012). "La anatomía de una cita de datos: descubrimiento, reutilización y crédito". Comunes Académicos . 1 (1). Universidad de Columbia: eP1035. doi :10.7916/D8MW2STM.
^ Grupo de síntesis de citas de datos (2014). Martone, M. (ed.). "Declaración conjunta de principios de citación de datos". San Diego: Instituto de Comunicación Académica Force11 . doi :10.25490/a97f-egyk.{{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Lin, Jennifer (4 de octubre de 2018). "Cita de datos: hagamos esto". Referencia cruzada .
^ "Se necesita cita de datos". Datos científicos . 6 (1): 27, 10 de abril de 2019. Bibcode : 2019NatSD...6...27.. doi : 10.1038/s41597-019-0026-5. PMC 6472333 . PMID 30971699.
^ Pierce, Heather H.; Dev, Anurupa; Statham, Emily; Bierer, Barbara E. (4 de junio de 2019). "Generadores de datos crediticios para reutilización de datos". Naturaleza . 570 (7759): 30–32. Código Bib :2019Natur.570...30P. doi : 10.1038/d41586-019-01715-4 . PMID 31164773. S2CID 174809246.
^ Buneman, Peter; Davidson, Susan; Frew, James (septiembre de 2016). "Por qué la cita de datos es un problema computacional". Comunicaciones de la ACM . 59 (9): 50–57. doi :10.1145/2893181. ISSN 0001-0782. PMC 5687090 . PMID 29151602.
^ Silvello, G. (2018). 'Teoría y práctica de la cita de datos'. Revista de la Asociación de Ciencia y Tecnología de la Información (JASIST) (AIS Review), vol. 69 número 1, págs. 6-20, 2018. Disponible en línea (acceso abierto): https://onlinelibrary.wiley.com/doi/full/10.1002/asi.23917
^ Buneman, P. y Silvello, G. (2010). "Un sistema de citas basado en reglas para conjuntos de datos estructurados y en evolución". Boletín IEEE del Comité Técnico de Ingeniería de Datos, vol. 3, No. 3. IEEE Computer Society, págs. 33-41, septiembre de 2010. Disponible en línea: http://sites.computer.org/debull/A10sept/buneman.pdf
^ Silvello, G. (2017). 'Marco para aprender a citar: cómo construir automáticamente citas para datos jerárquicos'. Revista de la Asociación de Ciencia y Tecnología de la Información (JASIST), Volumen 68, número 6, págs. 1505-1524, junio de 2017. Disponible en línea: http://www.dei.unipd.it/~silvello/papers/2016-DataCitation -JASIST-Silvello.pdf
^ Silvello, G. (2015). "Una metodología para citar subconjuntos de datos abiertos vinculados". Revista D-Lib 21 (1/2), 2015. Disponible en línea: http://www.dlib.org/dlib/january15/silvello/01silvello.html
^ Buneman, P. (2006). "Cómo citar bases de datos seleccionadas y cómo hacerlas citables". En Proc. de la 18ª Conferencia Internacional sobre Gestión de Bases de Datos Científicas y Estadísticas, SSDBM 2006, páginas 195–203, 2006.