La publicación de datos (también conocida como data publication ) es el acto de publicar datos de investigación para que otros los utilicen. Se trata de una práctica que consiste en preparar ciertos datos o conjuntos de datos para uso público, de modo que todos puedan usarlos como deseen. Esta práctica es parte integral del movimiento de ciencia abierta . Existe un amplio consenso multidisciplinario sobre los beneficios que se derivan de esta práctica. [1] [2] [3]
El objetivo principal es elevar los datos para que se conviertan en resultados de investigación de primera clase. [4] Hay una serie de iniciativas en marcha, así como puntos de consenso y cuestiones que aún están en disputa. [5]
Existen varias formas distintas de hacer disponibles los datos de investigación, entre ellas:
Publicar datos como material complementario asociado con un artículo de investigación , generalmente con los archivos de datos alojados por el editor del artículo.
alojar datos en un sitio web disponible públicamente, con archivos disponibles para descargar
alojar datos en un repositorio que se ha desarrollado para respaldar la publicación de datos, por ejemplo , figshare , Dryad , Dataverse o Zenodo . Existe una gran cantidad de repositorios de datos generales y especializados (por ejemplo, por tema de investigación). [6] Por ejemplo, el Servicio de datos del Reino Unido permite a los usuarios depositar colecciones de datos y volver a compartirlas con fines de investigación.
Publicar un artículo sobre el conjunto de datos, que puede publicarse como preimpresión, en una revista regular o en una revista de datos dedicada a respaldar artículos sobre datos. Los datos pueden estar alojados en la revista o por separado en un repositorio de datos.
La publicación de datos permite a los investigadores poner sus datos a disposición de otros para su uso y permite que los conjuntos de datos se citen de manera similar a otros tipos de publicaciones de investigación (como artículos o libros), lo que permite a los productores de conjuntos de datos obtener crédito académico por su trabajo.
Las motivaciones para publicar datos pueden ir desde el deseo de hacer más accesible la investigación, hasta la posibilidad de citar conjuntos de datos o los mandatos de los financiadores o editores de investigaciones que exigen la publicación de datos abiertos. El Servicio de Datos del Reino Unido es una organización clave que trabaja con otras para aumentar la importancia de citar los datos correctamente [7] y ayudar a los investigadores a hacerlo.
Se han propuesto soluciones para preservar la privacidad en la publicación de datos, incluidos algoritmos de protección de la privacidad, métodos de “enmascaramiento” de datos y algoritmos de cálculo del nivel de privacidad regional. [8]
Métodos para publicar datos
Archivos de datos como material complementario
Un gran número de revistas y editoriales admiten la inclusión de material complementario en los artículos de investigación, incluidos los conjuntos de datos. Aunque históricamente este tipo de material se distribuía únicamente a petición o en microformatos a las bibliotecas, hoy en día las revistas suelen alojarlo en línea. El material complementario está disponible para los suscriptores de la revista o, si el artículo o la revista son de acceso abierto, para todo el mundo.
Repositorios de datos
Existe una gran cantidad de repositorios de datos, tanto sobre temas generales como especializados. Muchos repositorios son repositorios disciplinarios , centrados en una disciplina de investigación en particular, como el Servicio de Datos del Reino Unido , que es un repositorio digital confiable de datos sociales, económicos y de humanidades. Los repositorios pueden ser gratuitos para que los investigadores carguen sus datos o pueden cobrar una tarifa única o continua por alojar los datos. Estos repositorios ofrecen una interfaz web de acceso público para buscar y explorar conjuntos de datos alojados, y pueden incluir características adicionales como un identificador de objeto digital , para citar permanentemente los datos y vincularlos a artículos y códigos publicados asociados.
Documentos de datos
Los artículos de datos son “publicaciones académicas de un documento de metadatos que se puede buscar y que describe un conjunto de datos en línea accesible, o un grupo de conjuntos de datos, publicado de acuerdo con las prácticas académicas estándar”. [9] Su objetivo final es proporcionar “información sobre el qué, dónde, por qué, cómo y quién de los datos”. [4] La intención de un artículo de datos es ofrecer información descriptiva sobre el conjunto o conjuntos de datos relacionados, centrándose en la recopilación de datos, las características distintivas, el acceso y la posible reutilización en lugar de en el procesamiento y análisis de datos. [10] Debido a que los artículos de datos se consideran publicaciones académicas que no se diferencian de otros tipos de artículos, permiten que los científicos que comparten datos reciban crédito en una moneda reconocible dentro del sistema académico, lo que “hace que el intercambio de datos cuente”. [11] Esto proporciona no solo un incentivo adicional para compartir datos, sino que también, a través del proceso de revisión por pares , aumenta la calidad de los metadatos y, por lo tanto, la reutilización de los datos compartidos.
Por lo tanto, los artículos de datos representan el enfoque de comunicación académica para compartir datos . A pesar de su potencial, los artículos de datos no son la solución definitiva y completa para todos los problemas de intercambio y reutilización de datos y, en algunos casos, se considera que inducen falsas expectativas en la comunidad de investigación. [12]
Revistas de datos
Los artículos de datos están respaldados por una amplia gama de revistas de datos , algunas de las cuales son "puras", es decir, se dedican solo a publicar artículos de datos, mientras que otras (la mayoría) son "mixtas", es decir, publican varios tipos de artículos, incluidos artículos de datos.
Hay disponible una encuesta exhaustiva sobre revistas de datos. [13] El personal de la Universidad de Edimburgo ha compilado una lista no exhaustiva de revistas de datos. [14]
Un artículo de 2011 informó sobre la incapacidad de determinar con qué frecuencia se citaban datos en las ciencias sociales. [17]
Los artículos de 2012-2013 informaron que la citación de datos se estaba volviendo más común, pero la práctica no era estándar. [18] [19] [20]
En 2014, FORCE 11 publicó la Declaración conjunta de principios de citación de datos que abarca el propósito, la función y los atributos de la citación de datos. [21]
En octubre de 2018, CrossRef expresó su apoyo a la catalogación de conjuntos de datos y recomendó su citación. [22]
Una revista popular orientada a datos informó en abril de 2019 que ahora utilizaría citas de datos. [23]
Un artículo de junio de 2019 sugirió que una mayor cita de datos hará que la práctica sea más valiosa para todos al fomentar el intercambio de datos y también al aumentar el prestigio de las personas que los comparten. [24]
La citación de datos es un tema emergente en la informática y se ha definido como un problema computacional. [25] De hecho, la citación de datos plantea desafíos importantes para los científicos informáticos y los principales problemas a abordar están relacionados con: [26]
^ Costello MJ (2009). "Motivación de la publicación de datos en línea". BioScience . 59 (5): 418–427. doi :10.1525/bio.2009.59.5.9. hdl : 2292/7173 . S2CID 55591360.
^ Smith VS (2009). "Publicación de datos: hacia una base de datos de todo". BMC Research Notes . 2 (113): 113. doi : 10.1186/1756-0500-2-113 . PMC 2702265 . PMID 19552813.
^ Lawrence, B; Jones, C.; Matthews, B.; Pepler, S.; Callaghan, S. (2011). "Citación y revisión por pares de datos: hacia la publicación formal de datos". Revista internacional de curación digital . 6 (2): 4–37. doi : 10.2218/ijdc.v6i2.205 .
^ ab Callaghan S, Donegan S, Pepler S, Thorley M, Cunningham N, Kirsch P, Ault L, Bell P, Bowie R, Leadbetter A, Lowry R, Moncoiffé G, Harrison K, Smith-Haddon B, Weatherby A, Wright D (2012). "Hacer de los datos un resultado científico de primera clase: citación y publicación de datos por parte de los centros de datos ambientales de NERC". Revista internacional de curación digital . 7 (1): 107–113. doi : 10.2218/ijdc.v7i1.218 .
^ Kratz J, Strasser C (2014). "Consenso y controversias en la publicación de datos". F1000Research . 3 (94): 94. doi : 10.12688/f1000research.4518 . PMC 4097345 . PMID 25075301.
^ Assante, M.; Candela, L.; Castelli, D.; Tani, A. (2016). "¿Están los repositorios de datos científicos a la altura de la publicación de datos de investigación?". Data Science Journal . 15 . doi : 10.5334/dsj-2016-006 .
^ Servicio de datos del Reino Unido. "Novedades en el uso de datos". Servicio de datos del Reino Unido .
^ Zhang, Longbin; Wang, Yuxiang; Xu, Xiaoliang (agosto de 2017). "Muestreo gaussiano basado en partición lógica para agregación en línea". Quinta Conferencia internacional sobre nube avanzada y big data (CBD) de 2017. IEEE. págs. 182–187. doi :10.1109/cbd.2017.39. ISBN .978-1-5386-1072-5.S2CID40025084 .
^ Chavan, V. y Penev, L. (2011). "El artículo de datos: un mecanismo para incentivar la publicación de datos en la ciencia de la biodiversidad". BMC Bioinformatics . 12 (15): S2. doi : 10.1186/1471-2105-12-S15-S2 . PMC 3287445 . PMID 22373175.
^ Newman Paul; Corke Peter (2009). "Documentos sobre datos: publicación revisada por pares de conjuntos de datos de alta calidad". Revista internacional de investigación en robótica . 28 (5): 587. doi : 10.1177/0278364909104283 . S2CID 209308576.
^ Gorgolewski KJ, Margulies DS, Milham MP (2013). "Hacer que el intercambio de datos cuente: una solución basada en publicaciones". Frontiers in Neuroscience . 7 : 9. doi : 10.3389/fnins.2013.00009 . PMC 3565154 . PMID 23390412.
^ Parsons, MA; Fox, PA (2013). "¿Es la publicación de datos la metáfora correcta?". Data Science Journal . 12 : WDS31–WDS46. doi : 10.2481/dsj.WDS-042 .
^ Candela L, Castelli D, Manghi P, Tani A (2015). "Revistas de datos: una encuesta". Revista de la Asociación de Ciencia y Tecnología de la Información . 66 (1): 1747–1762. doi :10.1002/asi.23358. S2CID 31358007.
^ "Fuentes de revisión por pares de conjuntos de datos - datashare - Wiki Service".
^ Servicio Nacional de Datos de Australia: Conciencia de citación de datos Archivado el 7 de marzo de 2012 en Wayback Machine (consultado el 20 de marzo de 2012)
^ Ball, A., Duke, M. (2011). 'Data Citation and Linking'. Documentos informativos del DCC. Edimburgo: Digital Curation Centre. Disponible en línea: http://www.dcc.ac.uk/resources/briefing-papers/
^ MOONEY, Hailey (abril de 2011). "Citar fuentes de datos en las ciencias sociales: ¿lo hacen los autores?". Learned Publishing . 24 (2): 99–108. doi : 10.1087/20110204 . S2CID 34513423.
^ Edmunds, Scott C.; Pollard, Tom J.; Hole, Brian; Basford, Alexandra T. (2 de julio de 2012). "Aventuras en la citación de datos: los datos del genoma del sorgo ejemplifican el nuevo estándar de oro". BMC Research Notes . 5 (1): 223. doi : 10.1186/1756-0500-5-223 . ISSN 1756-0500. PMC 3392744 . PMID 22571506.
^ "Fuera de cita, fuera de mente: el estado actual de la práctica, la política y la tecnología para la citación de datos". Revista de ciencia de datos . 12 : CIDCR1–CIDCR75. 2013. doi : 10.2481/dsj.OSOM13-043 .
^ Mooney, Hailey; Newton, Mark P. (2012). "La anatomía de una cita de datos: descubrimiento, reutilización y crédito". Academic Commons . 1 (1). Universidad de Columbia: eP1035. doi :10.7916/D8MW2STM.
^ Data Citation Synthesis Group (2014). Martone, M. (ed.). "Declaración conjunta de principios de citación de datos". San Diego: Force11 Scholarly Communication Institute . doi :10.25490/a97f-egyk.{{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Lin, Jennifer (4 de octubre de 2018). «Cita de datos: hagámoslo». Crossref .
^ "Se necesita cita de datos". Scientific Data . 6 (1): 27. 10 abril 2019. Bibcode :2019NatSD...6...27.. doi :10.1038/s41597-019-0026-5. PMC 6472333 . PMID 30971699.
^ Pierce, Heather H.; Dev, Anurupa; Statham, Emily; Bierer, Barbara E. (4 de junio de 2019). "Generadores de datos de crédito para la reutilización de datos". Nature . 570 (7759): 30–32. Bibcode :2019Natur.570...30P. doi : 10.1038/d41586-019-01715-4 . PMID 31164773. S2CID 174809246.
^ Buneman, Peter; Davidson, Susan; Frew, James (septiembre de 2016). "Por qué la citación de datos es un problema computacional". Comunicaciones de la ACM . 59 (9): 50–57. doi :10.1145/2893181. ISSN 0001-0782. PMC 5687090 . PMID 29151602.
^ Silvello, G. (2018). 'Teoría y práctica de la citación de datos'. Revista de la Asociación de Ciencias de la Información y Tecnología (JASIST) (AIS Review), vol. 69, número 1, págs. 6-20, 2018. Disponible en línea (acceso abierto): https://onlinelibrary.wiley.com/doi/full/10.1002/asi.23917
^ Buneman, P. y Silvello, G. (2010). 'Un sistema de citas basado en reglas para conjuntos de datos estructurados y en evolución'. Boletín IEEE del Comité Técnico de Ingeniería de Datos, vol. 3, n.º 3. IEEE Computer Society, págs. 33-41, septiembre de 2010. Disponible en línea: http://sites.computer.org/debull/A10sept/buneman.pdf
^ Silvello, G. (2017). 'Learning to Cite Framework: How to Automatically Construct Citations for Hierarchical Data' (Marco para aprender a citar: cómo construir citas automáticamente para datos jerárquicos). Journal of the Association for Information Science and Technology (JASIST), volumen 68, número 6, págs. 1505-1524, junio de 2017. Disponible en línea: http://www.dei.unipd.it/~silvello/papers/2016-DataCitation-JASIST-Silvello.pdf
^ Silvello, G. (2015). 'Una metodología para citar subconjuntos de datos abiertos vinculados'. D-Lib Magazine 21 (1/2), 2015. Disponible en línea: http://www.dlib.org/dlib/january15/silvello/01silvello.html
^ Buneman, P. (2006). 'Cómo citar bases de datos seleccionadas y cómo hacerlas citables'. En Proc. de la 18.ª Conferencia internacional sobre gestión de bases de datos científicas y estadísticas, SSDBM 2006, páginas 195-203, 2006.