stringtranslate.com

Datos científicos abiertos

Los datos científicos abiertos o datos de investigación abiertos son un tipo de datos abiertos enfocados en la publicación de observaciones y resultados de actividades científicas disponibles para que cualquiera pueda analizarlos y reutilizarlos. Uno de los principales objetivos de la iniciativa de datos abiertos es permitir la verificación de afirmaciones científicas, permitiendo que otros observen la reproducibilidad de los resultados [1] y permitir que los datos de muchas fuentes se integren para generar nuevos conocimientos [2] .

El concepto moderno de datos científicos surgió en la segunda mitad del siglo XX, con el desarrollo de una gran infraestructura de conocimiento para computar información y observaciones científicas. El intercambio y la distribución de datos se identificaron desde el principio como una cuestión importante, pero se vieron obstaculizados por las limitaciones técnicas de la infraestructura y la falta de estándares comunes para la comunicación de datos. La World Wide Web se concibió inmediatamente como un protocolo universal para el intercambio de datos científicos, especialmente los procedentes de la física de altas energías.

Definición

Datos científicos

El concepto de datos científicos abiertos se ha desarrollado en paralelo al concepto de datos científicos .

Los datos científicos no se definieron formalmente hasta finales del siglo XX. Antes de la generalización del análisis computacional, los datos eran en su mayoría términos informales, que se usaban con frecuencia de manera intercambiable con conocimiento o información. [3] Los discursos institucionales y epistemológicos favorecían conceptos y perspectivas alternativas sobre las actividades científicas: "Incluso las historias de la ciencia y los comentarios epistemológicos mencionan los datos solo de pasada. Otros trabajos fundamentales sobre la construcción de significados en la ciencia analizan hechos, representaciones, inscripciones y publicaciones, con poca atención a los datos en sí". [4]

La primera definición influyente de datos científicos apareció en 1999, cuando las Academias Nacionales de Ciencias describieron los datos como "hechos, letras, números o símbolos que describen un objeto, condición, situación u otros factores". [5] Las terminologías han seguido evolucionando: en 2011, las Academias Nacionales actualizaron la definición para incluir una gran variedad de objetos datificados , como "datos espectrográficos, de secuenciación genómica y de microscopía electrónica; datos de observación, como datos de teledetección, geoespaciales y socioeconómicos; y otras formas de datos generados o compilados por humanos o máquinas", así como "representación digital de literatura" [5]

Si bien las formas y los formatos de los datos siguen siendo amplios e inestables, las definiciones y políticas estándar han tendido recientemente a restringir los datos científicos a los datos computacionales o digitales. [6] El proyecto piloto de datos abiertos de Horizonte 2020 se ha restringido voluntariamente a la investigación digital: "Los 'datos de investigación digital' son información en formato digital (en particular, hechos o números), recopilada para ser examinada y utilizada como base para el razonamiento, el debate o el cálculo; esto incluye estadísticas, resultados de experimentos, mediciones, observaciones resultantes del trabajo de campo, resultados de encuestas, grabaciones de entrevistas e imágenes" [7]

En general, el estatus de los datos científicos sigue siendo un punto flexible de discusión entre investigadores individuales, comunidades y formuladores de políticas: "En términos más amplios, cualquier 'dato' que sea de interés para los investigadores debe ser tratado como 'datos de investigación'" [6] Informes de políticas importantes, como la síntesis colectiva de 2012 de las Academias Nacionales de Ciencias sobre la citación de datos, han adoptado intencionalmente una definición relativa y nominalista de los datos: "dedicaremos poco tiempo a cuestiones de definición (por ejemplo, ¿qué son los datos?), excepto para reconocer que los datos a menudo existen a los ojos del observador". [8] Para Christine Borgman , la cuestión principal no es definir los datos científicos ("qué son los datos") sino contextualizar el punto en el que los datos se convirtieron en un punto focal de discusión dentro de una disciplina, una institución o un programa de investigación nacional ("cuándo son datos"). [9] En la década de 2010, la expansión de las fuentes de datos disponibles y la sofisticación del método de análisis de datos ha ampliado la gama de disciplinas afectadas principalmente por problemas de gestión de datos a " ciencias sociales computacionales , humanidades digitales , datos de redes sociales , proyectos de investigación de ciencia ciudadana y ciencia política ". [10]

Datos científicos abiertos

La apertura y el intercambio han sido temas importantes de debate en lo que respecta a la gestión de datos científicos, pero también una motivación para hacer que los datos surjan como un tema relevante dentro de una institución, una disciplina o un marco de políticas.

Para Paul Edwards, la cuestión de si compartir o no los datos, en qué medida deben compartirse y con quién han sido las principales causas de la fricción de datos , que revelaron las infraestructuras de la ciencia que de otro modo estarían ocultas: "La metáfora de Edwards de la fricción de datos describe lo que sucede en las interfaces entre las 'superficies' de los datos: los puntos donde los datos se mueven entre personas, sustratos, organizaciones o máquinas (...) Cada movimiento de datos a través de una interfaz tiene un costo en tiempo, energía y atención humana. Cada interfaz entre grupos y organizaciones, así como entre máquinas, representa un punto de resistencia donde los datos pueden ser distorsionados, malinterpretados o perdidos. En los sistemas sociales, la fricción de datos consume energía y produce turbulencia y calor, es decir, conflictos, desacuerdos y procesos inexactos y rebeldes". [11] La apertura de los datos científicos es a la vez una fricción de datos en sí misma y una forma de gestionar colectivamente las fricciones de datos debilitando las complejas cuestiones de propiedad de los datos. Se ha reconocido que las culturas científicas o epistémicas son factores primarios en la adopción de políticas de datos abiertos: "se esperaría que las prácticas de intercambio de datos estuvieran limitadas a la comunidad y determinadas en gran medida por la cultura epistémica". [12]

En la década de 2010, los científicos y los responsables de las políticas introdujeron nuevos conceptos para definir con mayor precisión qué son los datos científicos abiertos. Desde su introducción en 2016, los datos FAIR se han convertido en un foco importante de las políticas de investigación abierta. El acrónimo describe un tipo ideal de datos que se pueden encontrar, acceder, interoperar y reutilizar . Los datos científicos abiertos se han categorizado como un bien común o público , que se mantiene, enriquece y preserva principalmente mediante la acción colectiva en lugar de la individual: "Lo que hace que la acción colectiva sea útil para comprender el intercambio de datos científicos es su enfoque en cómo se determina la apropiación de las ganancias individuales ajustando los costos y beneficios que se acumulan con las contribuciones a un recurso común" [13].

Historia

Desarrollo de las infraestructuras del conocimiento (1945-1960)

Almacenamiento de tarjetas perforadas en el Centro Nacional de Registros Meteorológicos de Estados Unidos en Asheville (principios de los años 60). El almacenamiento de datos se ha ampliado tanto que el vestíbulo de entrada se ha utilizado como almacén.

La aparición de datos científicos está asociada a un cambio semántico en la forma en que se entienden comúnmente conceptos científicos básicos como datos , información y conocimiento . [14] Tras el desarrollo de las tecnologías informáticas, los datos y la información se describen cada vez más como "cosas": [15] "Al igual que la computación, los datos siempre tienen un aspecto material. Los datos son cosas. No son solo números sino también numerales, con dimensionalidad, peso y textura". [16]

Después de la Segunda Guerra Mundial, los grandes proyectos científicos han recurrido cada vez más a la infraestructura del conocimiento para recopilar, procesar y analizar cantidades importantes de datos. El sistema de tarjetas perforadas se utilizó por primera vez de forma experimental con datos climáticos en la década de 1920 y se aplicó a gran escala en la década siguiente: "En uno de los primeros proyectos de creación de puestos de trabajo del gobierno durante la era de la Depresión, los trabajadores de la Administración de Obras Civiles perforaron unos 2 millones de observaciones de bitácoras de barcos durante el período 1880-1933". [17] En 1960, las colecciones de datos meteorológicos del Centro Nacional de Registros Meteorológicos de los Estados Unidos se habían ampliado a 400 millones de tarjetas y tenían un alcance global. La física de los datos científicos era para entonces plenamente evidente y amenazaba la estabilidad de edificios enteros: "En 1966, las tarjetas ocupaban tanto espacio que el Centro comenzó a llenar su vestíbulo de entrada principal con armarios para guardarlas (figura 5.4). Los funcionarios comenzaron a preocuparse seriamente de que el edificio pudiera derrumbarse bajo su peso". [18]

A finales de los años 60, las infraestructuras de conocimiento se han incorporado a un conjunto variado de disciplinas y comunidades. La primera iniciativa para crear una base de datos de bibliografía electrónica de datos de acceso abierto fue el Educational Resources Information Center (ERIC) en 1966. En el mismo año se creó MEDLINE , una base de datos en línea de acceso libre gestionada por la Biblioteca Nacional de Medicina y el Instituto Nacional de Salud (EE. UU.) con citas bibliográficas de revistas del área biomédica, que más tarde se llamaría PubMed , y que actualmente cuenta con más de 14 millones de artículos completos. [19] También se crearon infraestructuras de conocimiento en ingeniería espacial (con NASA/RECON), búsqueda en bibliotecas (con OCLC Worldcat) o ciencias sociales: "En los años 60 y 70 se establecieron más de una docena de servicios y asociaciones profesionales para coordinar la recopilación de datos cuantitativos". [20]

Apertura y compartición de datos: primeros intentos (1960-1990)

Los primeros discursos y marcos de políticas sobre datos científicos abiertos surgieron inmediatamente después de la creación de la primera gran infraestructura de conocimiento. El sistema del Centro Mundial de Datos (ahora el Sistema Mundial de Datos ), tenía como objetivo hacer que los datos de observación estuvieran más fácilmente disponibles en preparación para el Año Geofísico Internacional de 1957-1958. [21] El Consejo Internacional de Uniones Científicas (ahora el Consejo Internacional para la Ciencia ) estableció varios Centros Mundiales de Datos para minimizar el riesgo de pérdida de datos y maximizar la accesibilidad a los mismos, recomendando además en 1955 que los datos se pusieran a disposición en formato legible por máquina. [22] En 1966, el Consejo Internacional para la Ciencia creó CODATA, una iniciativa para "promover la cooperación en la gestión y el uso de datos". [23]

Estas primeras formas de datos científicos abiertos no se desarrollaron mucho más. Existían demasiadas fricciones de datos y resistencia técnica a la integración de datos externos como para implementar un ecosistema duradero de intercambio de datos. Las infraestructuras de datos eran en su mayoría invisibles para los investigadores, ya que la mayor parte de la investigación la realizaban bibliotecarios profesionales. No sólo los sistemas operativos de búsqueda eran complicados de utilizar, sino que la búsqueda tenía que realizarse de forma muy eficiente dado el coste prohibitivo de las telecomunicaciones de larga distancia. [24] Aunque sus creadores habían previsto originalmente usos directos por parte de los investigadores, esto no pudo realmente surgir debido a impedimentos técnicos y económicos:

Los diseñadores de los primeros sistemas en línea habían dado por sentado que las búsquedas las realizarían los usuarios finales; esa suposición fue la base del diseño del sistema. MEDLINE estaba pensado para que lo utilizaran investigadores médicos y clínicos, mientras que NASA/RECON estaba diseñado para ingenieros y científicos aeroespaciales. Sin embargo, por muchas razones, durante los años setenta la mayoría de los usuarios eran bibliotecarios e intermediarios capacitados que trabajaban en nombre de los usuarios finales. De hecho, algunos buscadores profesionales temían que incluso permitir que los usuarios finales ansiosos accedieran a las terminales fuera una mala idea. [25]

Christine Borgman no recuerda ningún debate político significativo sobre el significado, la producción y la circulación de datos científicos, salvo en el caso de unos pocos campos específicos (como la climatología) después de 1966. [23] Las infraestructuras científicas aisladas apenas podían conectarse antes de la llegada de la web. [26] Los proyectos y las comunidades dependían de sus propias redes desconectadas a nivel nacional o institucional: "Internet era casi invisible en Europa porque allí la gente estaba siguiendo un conjunto separado de protocolos de red". [27] La ​​comunicación entre infraestructuras científicas no sólo era un desafío en el espacio, sino también en el tiempo. Siempre que un protocolo de comunicación dejaba de mantenerse, los datos y el conocimiento que difundía también corrían el riesgo de desaparecer: "la relación entre la investigación histórica y la informática se ha visto afectada de forma duradera por proyectos abortados, pérdida de datos y formatos irrecuperables". [28]

Intercambio de datos científicos en la web (1990-1995)

La World Wide Web fue concebida originalmente como una infraestructura para datos científicos abiertos. El intercambio de datos y la documentación de datos fue un objetivo principal en la comunicación inicial de la World Wide Web cuando el proyecto se dio a conocer por primera vez en agosto de 1991: "El proyecto WWW se inició para permitir que los físicos de alta energía compartieran datos, noticias y documentación. Estamos muy interesados ​​en extender la web a otras áreas y tener servidores de acceso para otros datos". [29]

El proyecto surgió de una infraestructura de conocimiento cercana, ENQUIRE . Se trataba de un software de gestión de información encargado a Tim Berners-Lee por el CERN para las necesidades específicas de la física de alta energía. La estructura de ENQUIRE se parecía más a una red interna de datos: conectaba "nodos" que "podían referirse a una persona, un módulo de software, etc. y que podían interconectarse con varias relaciones como hecho, incluido, describe, etc." [30] Si bien "facilitó algún vínculo aleatorio entre la información", Enquire no pudo "facilitar la colaboración que se deseaba en la comunidad internacional de investigación en física de alta energía". [31] Como cualquier infraestructura científica informática significativa antes de la década de 1990, el desarrollo de ENQUIRE se vio obstaculizado en última instancia por la falta de interoperabilidad y la complejidad de la gestión de las comunicaciones en red: "aunque Enquire proporcionó una forma de vincular documentos y bases de datos, y el hipertexto proporcionó un formato común en el que mostrarlos, aún existía el problema de lograr que diferentes computadoras con diferentes sistemas operativos se comunicaran entre sí". [27]

La Web sustituyó rápidamente a las infraestructuras cerradas preexistentes para los datos científicos, incluso cuando incluían funciones informáticas más avanzadas. Entre 1991 y 1994, los usuarios del Worm Community System , una importante base de datos biológica sobre gusanos, se pasaron a la Web y a Gopher. Aunque la Web no incluía muchas funciones avanzadas para la recuperación y colaboración de datos, era fácilmente accesible. Por el contrario, el Worm Community System sólo podía explorarse en terminales específicos compartidos entre instituciones científicas: "Adoptar el potente WCS (con su cómoda interfaz) diseñado a medida es sufrir inconvenientes en la intersección de los hábitos de trabajo, el uso de la computadora y los recursos de laboratorio (...) La World Wide Web, por otra parte, puede accederse desde una amplia variedad de terminales y conexiones, y el soporte informático de Internet está fácilmente disponible en la mayoría de las instituciones académicas y a través de servicios comerciales relativamente económicos". [32]

La publicación en la web cambió por completo la economía de la publicación de datos. Mientras que en la versión impresa “el costo de reproducir grandes conjuntos de datos es prohibitivo”, los gastos de almacenamiento de la mayoría de los conjuntos de datos son bajos. [33] En este nuevo entorno editorial, los principales factores limitantes para compartir datos ya no son técnicos o económicos, sino sociales y culturales.

Definición de datos científicos abiertos (1995-2010)

El desarrollo y la generalización de la World Wide Web eliminaron numerosas barreras técnicas y fricciones que habían restringido la libre circulación de datos. Sin embargo, los datos científicos aún estaban por definir y era necesario implementar nuevas políticas de investigación para hacer realidad la visión original de Tim Berners-Lee de una red de datos . En este punto, los datos científicos se han definido en gran medida a través del proceso de apertura de datos científicos, ya que la implementación de políticas abiertas creó nuevos incentivos para establecer pautas, principios y terminologías viables.

La investigación climática ha sido un campo pionero en la definición conceptual de datos científicos abiertos, como lo ha sido en la construcción de la primera gran infraestructura de conocimiento en los años 1950 y 1960. En 1995 el GCDIS articuló un compromiso claro sobre el intercambio completo y abierto de datos científicos : "Los programas internacionales para la investigación del cambio global y el monitoreo ambiental dependen crucialmente del principio del intercambio completo y abierto de datos (es decir, los datos y la información se ponen a disposición sin restricciones, sobre una base no discriminatoria, por no más que el costo de reproducción y distribución). [34] La expansión del alcance y la gestión de las infraestructuras de conocimiento también creó incentivos para compartir datos, ya que la "asignación de la propiedad de los datos" entre un gran número de partes interesadas individuales e institucionales se ha vuelto cada vez más compleja. [35] Los datos abiertos crean un marco simplificado para asegurar que todos los contribuyentes y usuarios de los datos tengan acceso a ellos. [35]

Los datos abiertos han sido rápidamente identificados como un objetivo clave del movimiento emergente de la ciencia abierta. Si bien inicialmente se centraron en publicaciones y artículos académicos, las iniciativas internacionales en favor del acceso abierto ampliaron su alcance a todas las principales producciones científicas. [36] En 2003, la Declaración de Berlín apoyó la difusión de "resultados de investigación científica original, datos brutos y metadatos, materiales fuente y representaciones digitales de materiales pictóricos, gráficos y académicos multimedia".

Después de 2000, organizaciones internacionales, como la OCDE (Organización para la Cooperación y el Desarrollo Económico), han desempeñado un papel instrumental en el diseño de definiciones genéricas y transdisciplinarias de datos científicos, ya que las políticas de datos abiertos deben implementarse más allá de la escala específica de una disciplina de un país. [5] Una de las primeras definiciones influyentes de datos científicos fue acuñada en 1999 [5] por un informe de las Academias Nacionales de Ciencias: "Los datos son hechos, números, letras y símbolos que describen un objeto, idea, condición, situación u otros factores". [37] En 2004, los Ministros de Ciencia de todas las naciones de la OCDE firmaron una declaración que esencialmente establece que todos los datos de archivo financiados con fondos públicos deben ponerse a disposición del público. [38] En 2007 la OCDE "codificó los principios para el acceso a los datos de investigación procedentes de financiación pública" [39] a través de los Principios y Directrices para el Acceso a los Datos de Investigación procedentes de Financiación Pública que definían los datos científicos como "registros factuales (puntuaciones numéricas, registros textuales, imágenes y sonidos) utilizados como fuentes primarias para la investigación científica, y que son comúnmente aceptados en la comunidad científica como necesarios para validar los resultados de la investigación". [40] Los Principios actuaron como una recomendación de derecho indicativo y afirmaron que "el acceso a los datos de investigación aumenta los retornos de la inversión pública en esta área; refuerza la investigación científica abierta; fomenta la diversidad de estudios y opiniones; promueve nuevas áreas de trabajo y permite la exploración de temas no previstos por los investigadores iniciales". [41]

Implementación de políticas (2010-…)

Después de 2010, las instituciones nacionales y supranacionales adoptaron una postura más intervencionista. Se han implementado nuevas políticas no sólo para garantizar e incentivar la apertura de datos científicos, por lo general como continuación de los programas de datos abiertos existentes. En Europa, el "Comisario de Investigación, Ciencia e Innovación de la Unión Europea, Carlos Moedas, hizo de los datos de investigación abiertos una de las prioridades de la UE en 2015". [10]

Los Principios Rectores FAIR [2] , publicados por primera vez en 2016, se han convertido en un marco influyente para la apertura de datos científicos. [10] Los principios se diseñaron originalmente dos años antes durante un taller de políticas e investigación en Lorentz , Diseño conjunto de un FAIRport de datos . [42] Durante las deliberaciones del taller, "surgió la noción de que, a través de la definición y el apoyo generalizado a un conjunto mínimo de principios rectores y prácticas acordados por la comunidad" [43]

Los principios no intentan definir los datos científicos, que siguen siendo un concepto relativamente flexible, sino que tratan de describir "qué constituye una 'buena gestión de datos'". [44] Abarcan cuatro principios fundamentales, "que sirven para guiar al productor de datos": facilidad de búsqueda, accesibilidad, interoperabilidad y reutilización. [44] y también apuntan a proporcionar un paso hacia la capacidad de procesamiento por máquina al explicitar la semántica subyacente de los datos. [43] Como reconocen plenamente la complejidad de la gestión de datos, los principios no pretenden introducir un conjunto de recomendaciones rígidas sino más bien "grados de imparcialidad", que se pueden ajustar en función de los costos organizacionales pero también de las restricciones externas en materia de derechos de autor o privacidad. [45]

Los principios FAIR han sido inmediatamente adoptados por importantes organizaciones internacionales: "FAIR ha experimentado un rápido desarrollo, ganando el reconocimiento de la Unión Europea, el G7, el G20 y Big Data to Knowledge (BD2K) con sede en Estados Unidos" [46]. En agosto de 2016, la Comisión Europea creó un grupo de expertos para convertir "los datos FAIR en realidad". [47] A partir de 2020, los principios FAIR siguen siendo "los estándares técnicos más avanzados para los datos científicos abiertos hasta la fecha" [48].

En 2022, el Observatorio Científico Abierto de Francia comenzó a publicar una encuesta experimental sobre publicaciones de datos de investigación a partir de herramientas de minería de texto. Un análisis retrospectivo mostró que la tasa de publicaciones que mencionan el intercambio de sus datos asociados casi se ha duplicado en 10 años, del 13 % (en 2013) al 22 % (en 2021). [49]

A finales de la década de 2010, las políticas de datos abiertos contaban con un amplio respaldo de las comunidades científicas. Dos grandes encuestas encargadas por la Comisión Europea en 2016 y 2018 revelaron un beneficio percibido de forma generalizada: “el 74 % de los investigadores afirman que tener acceso a otros datos les beneficiaría” [50]. Sin embargo, observaciones más cualitativas recogidas en la misma investigación también mostraron que “lo que los científicos proclaman como ideal, en comparación con lo que realmente practican, revela una situación más ambigua”. [50]

Difusión de datos científicos

Publicación y edición

Hasta la década de 2010, la publicación de datos científicos se refería principalmente a "la publicación de conjuntos de datos asociados a un artículo de revista individual" [51]. Esta publicación se documenta mediante una Declaración de Accesibilidad de Datos o DAS. Se han propuesto varias tipologías o declaraciones de accesibilidad de datos. [52] [53] En 2021, Colavizza et al. identificaron tres categorías o niveles de acceso:

Los archivos de datos complementarios han aparecido en la fase inicial de la transición a la publicación científica digital. Si bien el formato de las publicaciones ha mantenido en gran medida las limitaciones del formato impreso, se podrían incluir materiales adicionales en la "información complementaria". [33] Como archivos de datos complementarios de una publicación tienen un estatus ambiguo. En teoría, se supone que son documentos en bruto que brindan acceso a los antecedentes de la investigación. En la práctica, los conjuntos de datos publicados a menudo deben seleccionarse especialmente para su publicación. Por lo general, se centrarán en las fuentes de datos primarias, no en toda la gama de observaciones o mediciones realizadas con el propósito de la investigación: "Identificar cuáles son "los datos" asociados con cualquier artículo, artículo de conferencia, libro u otra publicación individual es a menudo difícil [ya que] los investigadores recopilan datos continuamente". [55] La selección de los datos también está influenciada por el editor. La política editorial de la revista determina en gran medida "qué va en el texto principal y qué en la información complementaria" y los editores son especialmente cautelosos a la hora de incluir grandes conjuntos de datos que pueden ser difíciles de mantener a largo plazo. [55]

Los conjuntos de datos científicos han sido reconocidos cada vez más como una publicación científica autónoma. La asimilación de datos a artículos académicos tenía como objetivo aumentar el prestigio y el reconocimiento de los conjuntos de datos publicados: "en este argumento está implícito que la familiaridad fomentará la publicación de datos". [51] Este enfoque ha sido favorecido por varios editores y repositorios, ya que hizo posible integrar fácilmente los datos en la infraestructura de publicación existente y reutilizar ampliamente los conceptos editoriales creados inicialmente en torno a los artículos. [ 51] Los artículos de datos se introdujeron explícitamente como "un mecanismo para incentivar la publicación de datos en la ciencia de la biodiversidad". [56]

Citación e indexación

Las primeras bases de datos digitales de los años 1950 y 1960 plantearon inmediatamente cuestiones de citabilidad y descripciones bibliográficas. [57] La ​​mutabilidad de la memoria de la computadora fue especialmente desafiante: a diferencia de las publicaciones impresas, no se podía esperar que los datos digitales permanecieran estables a largo plazo. En 1965, Ralph Bisco subrayó que esta incertidumbre afectaba a todos los documentos asociados, como los cuadernos de códigos, que pueden volverse cada vez más obsoletos. La gestión de datos debe encontrar un punto intermedio entre las mejoras continuas y alguna forma de estabilidad genérica: "el concepto de un archivo de datos fluido, cambiante y en constante mejora significa que la limpieza de los estudios y otros procesos deben llevarse a un punto tal que los cambios no afecten significativamente los análisis anteriores" [58].

Los metadatos bibliográficos estructurados para bases de datos han sido un tema de debate desde los años 1960. [57] En 1977, el American Standard for Bibliographic Reference adoptó una definición de "archivo de datos" con un fuerte enfoque en la materialidad y la mutabilidad del conjunto de datos: no se indicaban ni las fechas ni los autores, pero se debía especificar el medio o "método de empaquetado". [59] Dos años después, Sue Dodd introdujo una convención alternativa, que acercó la cita de datos al estándar de referencias de otras publicaciones científicas: [57] La ​​recomendación de Dodd incluía el uso de títulos, autor, ediciones y fecha, así como menciones alternativas para subdocumentaciones como el cuaderno de códigos. [60]

La indexación de conjuntos de datos se ha transformado radicalmente con el desarrollo de la web, ya que las barreras para compartir datos se han reducido sustancialmente. [57] En este proceso, el archivo de datos, la sostenibilidad y la persistencia se han convertido en cuestiones críticas. Se han introducido identificadores de objetos digitales permanentes (o DOI) para artículos científicos con el fin de evitar enlaces rotos, ya que las estructuras de los sitios web evolucionaron continuamente. A principios de la década de 2000, los programas piloto comenzaron a asignar DOI también a los conjuntos de datos [61]. Si bien resuelve problemas concretos de sostenibilidad de enlaces, la creación de DOI de datos y normas de citación de datos también es parte del proceso de legitimación, que asimila los conjuntos de datos a publicaciones científicas estándar y puede aprovechar fuentes similares de motivación (como los índices bibliométricos) [62].

Los conjuntos de datos accesibles y fáciles de encontrar ofrecen una ventaja significativa en cuanto a citas. Un estudio de 2021 de 531.889 artículos publicados por PLOS estimó que existe una "ganancia relativa del 25,36 % en el recuento de citas en general" para un artículo de revista con "un enlace a datos archivados en un repositorio público". [63] La difusión de datos como material complementario no ofrece una ventaja significativa en cuanto a citas, lo que sugiere que "la ventaja en cuanto a citas de la DAS [Declaración de disponibilidad de datos] no está tan relacionada con su mera presencia, sino con su contenido" [64]

A fecha de 2022, el reconocimiento de los datos científicos abiertos sigue siendo un proceso en curso. El software de referencia líder, Zotero, aún no cuenta con un elemento específico para el conjunto de datos.

Reutilización e impacto económico

En el ámbito de la investigación académica, el almacenamiento y la redundancia han demostrado ser un beneficio significativo de los datos científicos abiertos. Por el contrario, los datos científicos no abiertos se conservan de forma deficiente y, si no se pierden por completo, sólo pueden ser recuperados "con un esfuerzo considerable por parte de los autores". [65]

El análisis de los usos de los datos científicos abiertos se enfrenta a los mismos problemas que el de cualquier contenido abierto: si bien el acceso libre, universal e indiscriminado ha ampliado de forma demostrable el alcance, la variedad y la intensidad de la recepción, también ha dificultado su seguimiento, debido a la falta de un proceso de transacción.

Estas cuestiones se complican aún más por la novedad de los datos como publicación científica: "En la práctica, puede ser difícil monitorear la reutilización de los datos, principalmente porque los investigadores rara vez citan el repositorio" [66].

En 2018, un informe de la Comisión Europea estimó el coste de no abrir los datos científicos de acuerdo con los principios FAIR: ascendió a 10.200 millones de dólares anuales en impacto directo y 16.000 millones de dólares en impacto indirecto sobre toda la economía de la innovación. [67] Implementar datos científicos abiertos a escala global "tendría un impacto considerable en el tiempo que pasamos manipulando datos y en la forma en que almacenamos datos". [67]

Prácticas y cultura de datos

El intercambio de datos científicos tiene sus raíces en las culturas científicas o comunidades de práctica . A medida que las herramientas digitales se han generalizado, las infraestructuras, las prácticas y las representaciones comunes de las comunidades de investigación se han basado cada vez más en significados compartidos de qué son los datos y qué se puede hacer con ellos. [12]

Los mecanismos epistémicos preexistentes pueden estar más o menos predispuestos a compartir datos. Entre los factores importantes pueden incluirse los valores compartidos (individualistas o colectivos), la asignación de la propiedad de los datos y las colaboraciones frecuentes con actores externos que pueden ser reacios a compartir datos. [68]

El surgimiento de una cultura de datos abiertos

El desarrollo de datos científicos abiertos no se limita a la investigación científica, sino que involucra a un conjunto diverso de partes interesadas: “Los argumentos a favor de compartir datos provienen de muchos sectores: agencias de financiación, tanto públicas como privadas, organismos de políticas como academias nacionales y consejos de financiación, editoriales de revistas, educadores, el público en general y los propios investigadores”. [69] Como tal, el movimiento por los datos científicos abiertos se cruza en gran medida con movimientos más globales por los datos abiertos. [70] Las definiciones estándar de datos abiertos utilizadas por una amplia gama de actores públicos y privados han sido elaboradas en parte por investigadores en torno a cuestiones científicas concretas. [71] El concepto de transparencia ha contribuido especialmente a crear convergencias entre la ciencia abierta, los datos abiertos y el gobierno abierto. En 2015, la OCDE describe la transparencia como una “razón común para la ciencia abierta y los datos abiertos”. [72]

Christine Borgman ha identificado cuatro razones principales para compartir datos que se utilizan comúnmente en todo el debate regulatorio y público sobre datos científicos abiertos: [69]

Sin embargo, la colaboración entre los diferentes actores y partes interesadas en el ciclo de vida de los datos es parcial. Incluso dentro de la institución académica, la cooperación sigue siendo limitada: "la mayoría de los investigadores realizan [búsquedas relacionadas con los datos] sin consultar a un administrador de datos o bibliotecario". [76]

El movimiento global de datos abiertos ha perdido en parte su cohesión e identidad durante la década de 2010, ya que los debates sobre la disponibilidad y las licencias de los datos han sido superados por cuestiones específicas del dominio: "Cuando el foco cambia de pedir acceso a los datos a crear infraestructura de datos y poner los datos a trabajar, los objetivos divergentes de quienes formaron un movimiento inicial de datos abiertos se hacen claramente visibles y la gestión de las tensiones que surgen puede ser compleja". [77] El alcance muy genérico de la definición de datos abiertos que apunta a abarcar un conjunto muy amplio de culturas de datos preexistentes no tiene bien en cuenta el umbral más alto de accesibilidad y contextualización que requiere la investigación científica: "los datos abiertos en el sentido de ser gratuitos para su reutilización son una condición necesaria pero no suficiente para fines de investigación". [78]

Ideal e implementación: la paradoja del intercambio de datos

Desde los años 2000, las encuestas realizadas a las comunidades científicas han puesto de relieve una discrepancia constante entre los ideales de compartir datos y su implementación en la práctica: "Cuando se pregunta a los investigadores actuales si están dispuestos a compartir sus datos, la mayoría dice que sí, que están dispuestos a hacerlo. Cuando se les pregunta a los mismos investigadores si hacen públicos sus datos, normalmente reconocen que no lo han hecho" [79]. La cultura de los datos abiertos no surge de la nada y tiene que conformarse con una cultura preexistente de datos científicos y una serie de factores sistémicos que pueden desalentar el intercambio de datos: "En algunos campos, se desalienta activamente a los académicos a reutilizar los datos. (...) Las carreras se forjan explorando territorios que antes no se habían explorado". [80]

En 2011, el 67% de 1329 científicos está de acuerdo en que la falta de intercambio de datos es un "impedimento importante para el progreso de la ciencia". [81] y, sin embargo, "solo alrededor de un tercio (36%) de los encuestados está de acuerdo en que otros pueden acceder a sus datos fácilmente" [82]. En 2016, una encuesta de investigadores en ciencias ambientales encontró un apoyo abrumador a los datos abiertos de fácil acceso (el 99% lo considera al menos algo importante) y mandatos institucionales para los datos abiertos (88%). [83] Sin embargo, "incluso con la voluntad de compartir datos, existen discrepancias con las prácticas comunes, por ejemplo, la voluntad de dedicar tiempo y recursos a preparar y cargar datos". [83] Un estudio de 2022 de 1792 declaraciones de intercambio de datos de BioMed Central encontró que menos del 7% de los autores (123) realmente proporcionaron los datos cuando se les solicitó. [84]

La prevalencia de datos accesibles y localizables es incluso menor: "A pesar de varias décadas de movimientos de políticas hacia el acceso abierto a los datos, las pocas estadísticas disponibles reflejan bajas tasas de liberación o depósito de datos" [85] En una encuesta de 2011 para Science , solo el 7,6% de los investigadores compartieron sus datos en repositorios comunitarios, y en su lugar se favoreció a los sitios web locales alojados por universidades o laboratorios. [86] En consecuencia, "muchos lamentaron la falta de metadatos y archivos comunes como un impedimento principal para usar y almacenar datos". [86]

Según Borgmann, la paradoja del intercambio de datos se debe en parte a la limitación de las políticas de datos abiertos, que tienden a centrarse en "obligar o alentar a los investigadores a publicar sus datos" sin satisfacer la "demanda esperada de datos o la infraestructura necesaria para apoyar la publicación y la reutilización" [87].

Incentivos y barreras para los datos científicos abiertos

En 2022, Pujol Priego, Wareham y Romasanta destacaron que los incentivos para compartir datos científicos eran principalmente colectivos e incluían reproducibilidad, eficiencia científica, calidad científica, junto con retribuciones más individuales como el crédito personal [88]. Los beneficios individuales incluyen una mayor visibilidad: los conjuntos de datos abiertos producen una ventaja significativa en cuanto a citas, pero solo cuando se han compartido en un repositorio abierto [63].

Entre las barreras importantes se incluyen la necesidad de publicar primero, las restricciones legales y las preocupaciones por la pérdida de crédito o reconocimiento. [89] Para los investigadores individuales, los conjuntos de datos pueden ser activos importantes para canjear por "nuevos empleos o nuevas colaboraciones" [33] y su publicación puede ser difícil de justificar a menos que "obtengan algo de valor a cambio". [33]

En última instancia, el principal obstáculo es la falta de familiaridad con el intercambio de datos, más que un rechazo directo de los principios de la ciencia abierta. Varias encuestas realizadas a principios de la década de 2010 han demostrado que los investigadores "raramente buscan datos de otros investigadores y (...) rara vez se les piden sus propios datos". [80] Esto crea un círculo vicioso negativo, ya que los investigadores hacen poco esfuerzo por garantizar el intercambio de datos, lo que a su vez desalienta el uso efectivo, mientras que "la mayor demanda de reutilización de datos existe en campos con una alta dependencia mutua". [80] La realidad de la reutilización de datos también puede subestimarse, ya que los datos no se consideran una publicación de datos prestigiosa y no se citan las fuentes originales. [90]

Según un estudio empírico de 2021 de 531.889 artículos publicado por PLOS, los incentivos y estímulos suaves tienen un impacto limitado en el intercambio de datos: "las políticas de las revistas que fomentan en lugar de exigir o imponer la DAS [Declaración de disponibilidad de datos] tienen solo un efecto pequeño". [91]

Estatus legal

La apertura de datos científicos ha planteado una variedad de cuestiones jurídicas en relación con los derechos de propiedad, los derechos de autor, la privacidad y la ética. Si bien se considera comúnmente que los investigadores "son dueños de los datos que recopilan en el curso de su investigación", esta "visión es incorrecta": [92] la creación de un conjunto de datos involucra potencialmente los derechos de numerosos actores adicionales, como instituciones (agencias de investigación, financiadores, organismos públicos), productores de datos asociados y datos personales de ciudadanos privados. [92] La situación jurídica de los datos digitales se ha descrito en consecuencia como un "paquete de derechos" debido al hecho de que la "categoría jurídica de "propiedad" (...) no es un modelo adecuado para abordar la complejidad de los problemas de gobernanza de datos" [93].

Derechos de autor

Hasta la década de 2010, los derechos de autor han sido el tema central de la literatura jurídica sobre datos científicos abiertos. Desde el principio se identificó la legalidad de compartir datos como una cuestión crucial. A diferencia de lo que ocurre con el intercambio de publicaciones científicas, el principal impedimento no eran los derechos de autor, sino la incertidumbre: "el concepto de 'datos' [era] un concepto nuevo, creado en la era informática, mientras que la legislación sobre derechos de autor surgió en la época de las publicaciones impresas". [94] En teoría, las disposiciones sobre derechos de autor y derechos de autor no se aplican a simples recopilaciones de hechos y cifras. En la práctica, la noción de datos es mucho más amplia y podría incluir contenido protegido o la disposición creativa de contenidos no sujetos a derechos de autor.

El estatus de los datos en los convenios internacionales sobre propiedad intelectual es ambiguo. Según el artículo 2 del Convenio de Berna, “todas las producciones en el campo literario, científico y artístico” están protegidas. [95] Sin embargo, los datos de investigación a menudo no son una creación original producida íntegramente por uno o varios autores, sino más bien una “colección de hechos, generalmente recopilados utilizando instrumentos automatizados o semiautomatizados o equipo científico”. [95] En consecuencia, no existe una convención universal sobre derechos de autor de datos y los debates sobre “el grado en que se aplican los derechos de autor” aún prevalecen, con diferentes resultados según la jurisdicción o las particularidades del conjunto de datos. [95] Esta falta de armonización se deriva lógicamente de la novedad de los “datos de investigación” como un concepto clave de la investigación científica: “el concepto de ‘datos’ es un concepto nuevo, creado en la era de la informática, mientras que la ley de derechos de autor surgió en la época de las publicaciones impresas”. [95]

En los Estados Unidos, la Unión Europea y otras jurisdicciones, las leyes de derechos de autor han reconocido una distinción entre los datos en sí (que pueden ser un "hecho" no protegido) y la compilación de los datos (que puede ser un acuerdo creativo). [95] Este principio es en gran medida anterior al debate político contemporáneo sobre los datos científicos, ya que los primeros casos judiciales que fallaron a favor de los derechos de compilación se remontan al siglo XIX.

En los Estados Unidos, los derechos de compilación se han definido en la Ley de Derechos de Autor de 1976 con una mención explícita de los conjuntos de datos: "una obra formada por la recopilación y ensamblaje de materiales preexistentes o de datos" (párrafo 101). [96] En su decisión de 1991, Feist Publications, Inc., v. Rural Telephone Service Co. , la Corte Suprema ha aclarado los alcances y las limitaciones de los derechos de autor de las bases de datos, ya que el "ensamblaje" debe ser demostrablemente original y los "hechos en bruto" contenidos en la compilación aún no están protegidos. [96]

Incluso en la jurisdicción donde la aplicación del derecho de autor a los datos sigue siendo incierta y en parte teórica, ha creado importantes incertidumbres jurídicas. La frontera entre un conjunto de hechos en bruto y una compilación original no está claramente delineada. [97] Aunque las organizaciones científicas suelen conocer bien las leyes de derechos de autor, la complejidad de los derechos de los datos crea desafíos sin precedentes. [98] Después de 2010, la jurisdicción nacional y supranacional ha cambiado en parte su postura con respecto a la protección de los datos de investigación mediante derechos de autor. A medida que se fomenta el intercambio, los datos científicos también se han reconocido como un bien público informal: "los responsables de las políticas, los financiadores y las instituciones académicas están trabajando para aumentar la conciencia de que, si bien las publicaciones y el conocimiento derivados de los datos de investigación pertenecen a los autores, los datos de investigación deben considerarse un bien público para que se pueda realizar su potencial valor social y científico" [12].

Derechos de base de datos

La Unión Europea ofrece uno de los marcos de propiedad intelectual más sólidos para los datos, con una doble capa de derechos: derechos de autor para compilaciones originales (de manera similar a los Estados Unidos) y derechos sui generis para bases de datos. [97] Los criterios para la originalidad de las compilaciones han sido armonizados entre los estados miembros, por la Directiva de Bases de Datos de 1996 y por varias jurisprudencias importantes resueltas por el Tribunal de Justicia Europeo, como Infopaq International A/S v Danske Dagblades Forening c o Football Dataco Ltd et al. v Yahoo! UK Ltd. En general, se ha reconocido que los esfuerzos significativos en la creación del conjunto de datos no son suficientes para reclamar derechos de compilación, ya que la estructura tiene que "expresar su creatividad de una manera original" [99] La Directiva de Bases de Datos también ha introducido un marco original de protección para los conjuntos de datos, los derechos sui generis que se confieren a cualquier conjunto de datos que requiera una "inversión sustancial". [100] Si bien duran 15 años, los derechos sui generis tienen el potencial de volverse permanentes, ya que pueden renovarse con cada actualización del conjunto de datos.

Debido a su gran alcance en cuanto a extensión y protección, los derechos sui generis no han sido reconocidos inicialmente por la jurisprudencia europea, que ha puesto el listón muy alto en su aplicación. Este enfoque cauteloso se ha revertido en la década de 2010, ya que la decisión de 2013 Innoweb BV v Wegener ICT Media BV and Wegener Mediaventions fortaleció las posiciones de los propietarios de bases de datos y condenó la reutilización de datos no protegidos en los motores de búsqueda web. [101] La consolidación y expansión de los derechos de bases de datos sigue siendo un tema controvertido en las regulaciones europeas, ya que está en parte en desacuerdo con el compromiso de la Unión Europea a favor de la economía basada en datos y la ciencia abierta. [101] Si bien existen algunas excepciones para usos científicos y pedagógicos, tienen un alcance limitado (no hay derechos para una reutilización posterior) y no se han activado en todos los estados miembros. [101]

Propiedad

Las cuestiones de derechos de autor relacionadas con los conjuntos de datos científicos se han complicado aún más debido a las incertidumbres en cuanto a la propiedad. La investigación es en gran medida una actividad colaborativa que implica una amplia gama de contribuciones. Iniciativas como CRediT ( Contributor Roles Taxonomy ) han identificado 14 roles diferentes, de los cuales 4 están explícitamente relacionados con la gestión de datos (análisis formal, investigación, curación de datos y visualización). [102]

En los Estados Unidos, la propiedad de los datos de investigación suele estar "determinada por el empleador del investigador", y el investigador principal actúa como custodio de los datos en lugar de como propietario. [103] Hasta el desarrollo de los datos abiertos de investigación, las instituciones estadounidenses solían ser más reticentes a renunciar a los derechos de autor sobre los datos que sobre las publicaciones, ya que se consideran activos estratégicos. [104] En la Unión Europea, no existe un marco ampliamente acordado sobre la propiedad de los datos. [105]

También se han planteado los derechos adicionales de las partes interesadas externas, especialmente en el contexto de la investigación médica. Desde la década de 1970, los pacientes han reivindicado algún tipo de propiedad sobre los datos producidos en el contexto de los ensayos clínicos, en particular con importantes controversias sobre "si los sujetos de investigación y los pacientes son realmente propietarios de su propio tejido o ADN". [104]

Privacidad

Numerosos proyectos científicos dependen de la recopilación de datos de personas, en particular en la investigación médica y en las ciencias sociales. En esos casos, cualquier política de intercambio de datos debe necesariamente estar equilibrada con la preservación y protección de los datos personales. [106]

Los investigadores, y más concretamente los investigadores principales, han estado sujetos a obligaciones de confidencialidad en varias jurisdicciones. [106] Los datos sanitarios han estado cada vez más regulados desde finales del siglo XX, ya sea por ley o por acuerdos sectoriales. En 2014, la Agencia Europea de Medicamentos introdujo cambios importantes en la compartición de datos de ensayos clínicos, con el fin de evitar la divulgación de todos los datos personales y toda la información comercialmente relevante. Es probable que esta evolución de la regulación europea "influya en la práctica mundial de compartir datos de ensayos clínicos como datos abiertos". [107]

Los planes y prácticas de gestión de la investigación deben ser abiertos, transparentes y confidenciales por diseño.

Licencias gratuitas

Las licencias abiertas han sido el marco jurídico preferido para eliminar las restricciones y ambigüedades en la definición legal de los datos científicos. En 2003, la Declaración de Berlín pidió una exención universal de los derechos de reutilización de las contribuciones científicas que incluían explícitamente "datos brutos y metadatos". [108]

En contraste con el desarrollo de licencias abiertas para publicaciones, que se produjo en un corto período de tiempo, la creación de licencias para datos científicos abiertos ha sido un proceso complicado. En un principio no se habían previsto derechos específicos, como los derechos sui generis para bases de datos en la Unión Europea, ni principios jurídicos específicos, como la distinción entre hechos simples y compilación original. Hasta la década de 2010, las licencias libres podían, paradójicamente, añadir más restricciones a la reutilización de conjuntos de datos, especialmente en lo que respecta a las atribuciones (que no se requieren para objetos sin derechos de autor, como los hechos en bruto ): "en esos casos, cuando no hay derechos asociados a los datos de investigación, no hay motivos para conceder licencias sobre los datos" [109].

Para evitar el problema, varias instituciones como el Centro de Datos Harvard-MIT comenzaron a compartir los datos en el Dominio Público . [110] Este enfoque garantiza que no se aplique ningún derecho a los elementos que no están sujetos a derechos de autor. Sin embargo, el dominio público y algunas herramientas asociadas como la Marca de Dominio Público no son un contrato legal adecuadamente definido y varían significativamente de una jurisdicción a otra. [110] Introducida por primera vez en 2009, la licencia Creative Commons Zero (o CC0) se ha contemplado inmediatamente para la concesión de licencias de datos. [111] Desde entonces se ha convertido en "la herramienta recomendada para liberar datos de investigación en el dominio público". [112] De acuerdo con los principios de la Declaración de Berlín, no es una licencia sino una renuncia, ya que el productor de los datos "renuncia, abandona y entrega abierta, completa, permanente, irrevocable e incondicionalmente todos los derechos de autor y derechos conexos de Affirmer".

Entre los enfoques alternativos se ha incluido el diseño de una nueva licencia libre para desenredar la acumulación de atribuciones específica de los derechos de las bases de datos. En 2009, la Open Knowledge Foundation publicó la Open Database License , que ha sido adoptada por importantes proyectos en línea como OpenStreetMap . Desde 2015, todas las diferentes licencias Creative Commons se han actualizado para que sean plenamente efectivas en los conjuntos de datos, ya que los derechos de las bases de datos se han anticipado explícitamente en la versión 4.0. [109]

Gestión abierta de datos científicos

La gestión de datos se ha convertido recientemente en un tema central del debate sobre políticas e investigaciones sobre datos científicos abiertos. Los influyentes principios FAIR se centran voluntariamente en las características clave de una "buena gestión de datos" en un contexto científico. [44] En un contexto de investigación, la gestión de datos se asocia con frecuencia a los ciclos de vida de los datos . Las instituciones, las infraestructuras y las comunidades científicas han teorizado sobre diversos modelos de ciclos de vida en diferentes etapas. Sin embargo, "tales ciclos de vida son una simplificación de la vida real, que es mucho menos lineal y más iterativa en la práctica". [113]

Integración al flujo de trabajo de investigación

En contraste con las amplias incitaciones al intercambio de datos incluidas en las primeras políticas a favor de los datos científicos abiertos, la complejidad y los costos y requisitos subyacentes de la gestión de datos científicos son cada vez más reconocidos: "El intercambio de datos es difícil de hacer y de justificar por el retorno de la inversión". [114] Los datos abiertos no son simplemente una tarea complementaria, sino que deben preverse a lo largo de todo el proceso de investigación, ya que "requieren cambios en los métodos y prácticas de investigación". [114]

La apertura de los datos de investigación crea una nueva relación de costes y beneficios. El intercambio público de datos introduce un nuevo entorno de comunicación que contrasta principalmente con el intercambio privado de datos con colaboradores o socios de investigación. La recopilación, el propósito y la limitación de los datos tienen que ser explícitos, ya que es imposible confiar en el conocimiento informal preexistente: "la documentación y las representaciones son los únicos medios de comunicación entre el creador y el usuario de los datos". [115] La falta de una documentación adecuada significa que la carga de la recontextualización recae sobre los usuarios potenciales y puede hacer que el conjunto de datos sea inútil. [116]

La publicación requiere una verificación adicional sobre la propiedad de los datos y la posible responsabilidad legal en caso de que se haga un uso indebido de los mismos. Esta fase de aclaración se vuelve aún más compleja en proyectos de investigación internacionales que pueden superponerse en varias jurisdicciones. [117] El intercambio de datos y la aplicación de los principios de la ciencia abierta también aportan importantes ventajas a largo plazo que pueden no ser visibles de inmediato. La documentación del conjunto de datos ayuda a aclarar la cadena de procedencia y a garantizar que los datos originales no hayan sido alterados significativamente o que todos los tratamientos posteriores estén completamente documentados si este es el caso. [118] La publicación bajo una licencia libre también permite delegar tareas como la conservación a largo plazo a actores externos.

A finales de la década de 2010, había surgido una nueva literatura especializada sobre gestión de datos para la investigación que codificaba las prácticas y los principios regulatorios existentes. [119] [120] [121]

Almacenamiento y conservación

La disponibilidad de datos científicos no abiertos disminuye rápidamente: en 2014, un estudio retrospectivo de conjuntos de datos biológicos mostró que "las probabilidades de que un conjunto de datos se declarara existente se reducían un 17% al año" [122]. En consecuencia, "la proporción de conjuntos de datos que aún existían se redujo del 100% en 2011 al 33% en 1991". [65] La pérdida de datos también se ha señalado como un problema importante en importantes revistas como Nature o Science [123].

Las encuestas sobre prácticas de investigación han demostrado de manera consistente que las normas, infraestructuras y flujos de trabajo de almacenamiento siguen siendo insatisfactorios en la mayoría de las disciplinas. El almacenamiento y la preservación de datos científicos se han identificado desde el principio como problemas críticos, especialmente en lo que respecta a los datos de observación, que se consideran esenciales para preservar porque son los más difíciles de replicar. [35] Una encuesta de 2017-2018 a 1372 investigadores contactados a través de la American Geophysical Union muestra que solo "una cuarta parte y una quinta parte de los encuestados" informan buenas prácticas de almacenamiento de datos. [124] El almacenamiento a corto plazo e insostenible sigue siendo generalizado, y el 61% de los encuestados almacena la mayoría o la totalidad de sus datos en computadoras personales. [124] Debido a su facilidad de uso a escala individual, las soluciones de almacenamiento insostenibles se ven con buenos ojos en la mayoría de las disciplinas: "Este desajuste entre las buenas prácticas y la satisfacción puede mostrar que el almacenamiento de datos es menos importante para ellos que la recopilación y el análisis de datos". [124]

Publicado por primera vez en 2012, el modelo de referencia del Sistema Abierto de Información Archivística establece que la infraestructura científica debe buscar la preservación a largo plazo, es decir, "lo suficientemente larga como para ser consciente de los impactos de las tecnologías cambiantes, incluido el soporte para nuevos medios y formatos de datos, o con una comunidad de usuarios cambiante". [125] En consecuencia, las buenas prácticas de gestión de datos implican tanto el almacenamiento (para preservar materialmente los datos) como, aún más crucialmente, la curación, "para preservar el conocimiento sobre los datos para facilitar su reutilización". [126]

El intercambio de datos en repositorios públicos ha contribuido a mitigar los riesgos de conservación debido al compromiso a largo plazo de las infraestructuras de datos y la posible redundancia de los datos abiertos. Un estudio de 2021 de 50.000 declaraciones de disponibilidad de datos publicado en PLOS One mostró que el 80% del conjunto de datos se podía recuperar automáticamente y el 98% del conjunto de datos con un DOI de datos se podía recuperar de forma automática o manual. Además, la accesibilidad no decayó significativamente en el caso de las publicaciones más antiguas: "Las URL y los DOI hacen que los datos y el código asociados a los artículos tengan más probabilidades de estar disponibles con el tiempo". [127] No se han encontrado beneficios significativos cuando los datos abiertos no estaban correctamente vinculados o documentados: "El simple hecho de exigir que los datos se compartan de alguna forma puede no tener el impacto deseado de hacer que los datos científicos sean FAIR, ya que los estudios han demostrado repetidamente que muchos conjuntos de datos que aparentemente se comparten pueden no ser realmente accesibles". [128]

Plan y gobernanza

La gestión de datos de investigación se puede implementar en un plan de gestión de datos o DMP .

Los planes de gestión de datos se iniciaron en 1966 para las necesidades específicas de la investigación aeronáutica y de ingeniería, que ya enfrentaba fricciones de datos cada vez más complejas. [129] Estos primeros ejemplos se centraron en cuestiones materiales asociadas con el acceso, la transferencia y el almacenamiento de los datos: "Hasta principios de la década de 2000, los DMP se utilizaban de esta manera: en campos limitados, para proyectos de gran complejidad técnica y para fines limitados de recopilación y procesamiento de datos a mitad de estudio" [130].

Después de 2000, la implementación de una amplia infraestructura de investigación y el desarrollo de la ciencia abierta cambiaron el alcance y el propósito de los planes de gestión de datos. Los responsables de las políticas, más que los científicos, han sido fundamentales en este desarrollo: "Las primeras publicaciones para proporcionar asesoramiento y orientación general a los investigadores sobre la creación de planes de gestión de datos se publicaron a partir de 2009, tras las publicaciones del JISC y la OCDE (...) El uso de los planes de gestión de datos, inferimos, ha sido impuesto a la comunidad de investigación por fuerzas externas" [131].

Los estudios empíricos de las prácticas de datos en la investigación han "destacado la necesidad de que las organizaciones ofrezcan una formación y asistencia más formales en la gestión de datos a los científicos" [132]. En una encuesta internacional de 2017-2018 a 1372 científicos, la mayoría de las solicitudes de ayuda y formalización estaban asociadas con el plan de gestión de datos: "creación de planes de gestión de datos (33,3%); formación sobre las mejores prácticas en gestión de datos (31,3%); asistencia en la creación de metadatos para describir datos o conjuntos de datos (27,6%)" [132]. La expansión de los procesos de recopilación y análisis de datos ha puesto a prueba cada vez más una amplia gama de prácticas de datos no formales y no codificadas.

La participación de accionistas externos en proyectos de investigación genera tensiones potenciales significativas con los principios de compartir datos abiertos. Las contribuciones de actores comerciales pueden depender especialmente de alguna forma de exclusividad y apropiación de los resultados finales de la investigación. En 2022, Pujol Priego, Wareham y Romasanta crearon varias estrategias de adaptación para superar estos problemas, como la modularidad de los datos (con el intercambio limitado a una parte de los datos) y el retraso temporal (con embargos de un año antes de la publicación final de los datos). [133]

Infraestructuras de ciencia abierta

La recomendación de la Unesco sobre Ciencia Abierta aprobada en noviembre de 2021 define las infraestructuras de ciencia abierta como “infraestructuras de investigación compartidas que son necesarias para apoyar la ciencia abierta y atender las necesidades de diferentes comunidades” [134]. Las infraestructuras de ciencia abierta han sido reconocidas como un factor importante en la implementación y el desarrollo de políticas de intercambio de datos. [135]

Las principales infraestructuras para datos científicos abiertos incluyen repositorios de datos , plataformas de análisis de datos, índices, bibliotecas digitalizadas o archivos digitalizados. [136] [137] Las infraestructuras garantizan que los investigadores e instituciones individuales no soporten por completo los costos de publicación, mantenimiento e indexación de conjuntos de datos. También son actores clave en la definición y adopción de estándares de datos abiertos, especialmente en lo que respecta a licencias o documentación.

A finales de los años 1990, la creación de infraestructuras públicas de computación científica se convirtió en un tema de política importante: [138] "La falta de infraestructura para apoyar la liberación y reutilización fue reconocida en algunos de los primeros informes de políticas sobre intercambio de datos". [135] La primera ola de proyectos científicos basados ​​en la web en los años 1990 y principios de los años 2000 reveló cuestiones críticas de sostenibilidad. Como la financiación se asignaba en un período específico, las bases de datos críticas, las herramientas en línea o las plataformas de publicación difícilmente podían mantenerse [28] . Los gerentes de proyectos se enfrentaron a un valle de muerte "entre la financiación de subvenciones y la financiación operativa en curso". [139] Después de 2010, la consolidación y expansión de la infraestructura científica comercial, como la adquisición de los repositorios abiertos Digital Commons y SSRN por Elsevier, implicó aún más llamados a asegurar una "infraestructura controlada por la comunidad". [140] En 2015, Cameron Neylon, Geoffrey Bilder y Jenifer Lin definieron una serie influyente de Principios para la Infraestructura Académica Abierta [141] que ha sido respaldada por infraestructuras líderes como Crossref, [142] OpenCitations [143] o Data Dryad [144] Para 2021, los servicios públicos e infraestructuras para la investigación han respaldado en gran medida la ciencia abierta como parte integral de su actividad e identidad: "la ciencia abierta es el discurso dominante al que se refieren los nuevos servicios en línea para la investigación". [145] Según la Hoja de Ruta de 2021 del Foro Estratégico Europeo sobre Infraestructuras de Investigación (ESFRI), las principales infraestructuras heredadas en Europa han adoptado los principios de la ciencia abierta. "La mayoría de las Infraestructuras de Investigación en la Hoja de Ruta del ESFRI están a la vanguardia del movimiento de Ciencia Abierta y hacen importantes contribuciones a la transformación digital al transformar todo el proceso de investigación de acuerdo con el paradigma de la Ciencia Abierta". [146]

Las infraestructuras de ciencia abierta representan un mayor nivel de compromiso con el intercambio de datos. Se basan en inversiones significativas y recurrentes para garantizar que los datos se mantengan y documenten de manera efectiva y "añadan valor a los datos mediante metadatos, procedencia, clasificación, estándares para estructuras de datos y migración". [147] Además, las infraestructuras deben integrarse en las normas y los usos esperados de las comunidades científicas a las que pretenden servir: "Las más exitosas se convierten en colecciones de referencia que atraen financiación a largo plazo y pueden establecer estándares para sus comunidades" [137]. Mantener estándares abiertos es uno de los principales desafíos identificados por las principales infraestructuras abiertas europeas, ya que implica elegir entre estándares que compiten en algunos casos, así como garantizar que los estándares se actualicen correctamente y sean accesibles a través de API u otros puntos finales. [148]

La definición conceptual de las infraestructuras científicas abiertas ha sido influenciada principalmente por el análisis de Elinor Ostrom sobre los bienes comunes y, más específicamente, sobre los bienes comunes del conocimiento . Siguiendo a Ostrom, Cameron Neylon subraya que las infraestructuras abiertas no sólo se caracterizan por la gestión de un conjunto de recursos compartidos sino también por la elaboración de normas y gobernanza conjuntas. [149] La difusión de datos científicos abiertos también plantea cuestiones de gobernanza estrictas. En lo que respecta a la determinación de la propiedad de los datos, la adopción de licencias libres y la aplicación de regulaciones en materia de privacidad, "es necesaria una negociación continua" e involucra a una amplia gama de partes interesadas. [150]

Más allá de su integración en comunidades científicas específicas, las infraestructuras de ciencia abierta tienen fuertes vínculos con los movimientos de código abierto y datos abiertos. El 82% de las infraestructuras europeas encuestadas por SPARC afirman haber construido parcialmente software de código abierto y el 53% tiene toda su infraestructura tecnológica en código abierto. [151] Las infraestructuras de ciencia abierta integran preferentemente estándares de otras infraestructuras de ciencia abierta. Entre las infraestructuras europeas: "Los sistemas más citados -y por lo tanto infraestructura esencial para muchos- son ORCID , Crossref , DOAJ , BASE , OpenAIRE , Altmetric y Datacite , la mayoría de los cuales no tienen fines de lucro". [152] Las infraestructuras de ciencia abierta son entonces parte de un "bien común de ciencia abierta verdaderamente interoperable" emergente que mantiene la premisa de "herramientas centradas en el investigador, de bajo costo, innovadoras e interoperables para la investigación, superiores al sistema actual, en gran parte cerrado". [153]

Véase también

Referencias

  1. ^ Spiegelhalter, D. Datos abiertos y confianza en la literatura. The Scholarly Kitchen. Consultado el 7 de septiembre de 2018.
  2. ^ desde Wilkinson y otros, 2016.
  3. ^ Lipton 2020, pág. 19.
  4. ^ Borgman 2015, pág. 18.
  5. ^ abcd Lipton 2020, pág. 59.
  6. ^ desde Lipton 2020, pág. 61.
  7. ^ ARTÍCULO 29 — DIFUSIÓN DE RESULTADOS — ACCESO ABIERTO — VISIBILIDAD DE LA FINANCIACIÓN DE LA UE Archivado el 13 de septiembre de 2022 en Wayback Machine , Borrador del Acuerdo Modelo de Subvención H2020
  8. ^ Academias Nacionales 2012, pág. 1.
  9. ^ Borgman 2015, págs. 4-5.
  10. ^ abc Pujol Priego, Wareham & Romasanta 2022, pág. 220.
  11. ^ Edwards y col. 2011, pág. 669.
  12. ^ abc Pujol Priego, Wareham & Romasanta 2022, pág. 224.
  13. ^ Pujol Priego, Wareham & Romasanta 2022, p. 225.
  14. ^ Rosenberg 2018, págs. 557-558
  15. ^ Buckland 1991
  16. ^ Edwards 2010, pág. 84
  17. ^ Edwards 2010, pág. 99
  18. ^ Edwards 2010, pág. 102
  19. ^ Machado, Jorge. "Datos abiertos y ciencia abierta". En Albagli, Maciel, Abdo. "Ciencia abierta, preguntas abiertas", 2015 [ enlace roto ]
  20. ^ Shankar, Eschenfelder y Downey 2016, pág. 63
  21. ^ Comité de logros científicos de las observaciones de la Tierra desde el espacio, Consejo Nacional de Investigación (2008). Observaciones de la Tierra desde el espacio: los primeros 50 años de logros científicos. The National Academies Press. pág. 6. ISBN 978-0-309-11095-2. Consultado el 24 de noviembre de 2010 .
  22. ^ World Data Center System (18 de septiembre de 2009). «Acerca del World Data Center System». NOAA, Centro Nacional de Datos Geofísicos . Consultado el 24 de noviembre de 2010 .
  23. ^ de Borgman 2015, pág. 7
  24. ^ Regazzi 2015, pág. 128
  25. ^ Bourne y Hahn 2003, pág. 397.
  26. ^ Campbell-Kelly y García-Swartz 2013.
  27. ^ desde Berners-Lee y Fischetti 2008, pág. 17.
  28. ^ desde Dacos 2013.
  29. ^ Tim Berners-Lee, "Calificadores de los enlaces de hipertexto", correo enviado el 6 de agosto de 1991 a alt.hypertext
  30. ^ Hogan 2014, pág. 20
  31. ^ Bygrave y Bing 2009, pág. 30.
  32. ^ Star y Ruhleder 1996, pág. 131.
  33. ^ abcd Borgman 2015, pág. 217.
  34. ^ Consejo Nacional de Investigación (1995). Sobre el intercambio completo y abierto de datos científicos. Washington, DC: The National Academies Press. doi :10.17226/18769. ISBN 978-0-309-30427-6.
  35. ^ abc Pujol Priego, Wareham & Romasanta 2022, pág. 223.
  36. ^ Lipton 2020, pág. 16.
  37. ^ Consejo Nacional de Investigación 1999, pág. 16.
  38. ^ Declaración de la OCDE sobre el acceso abierto a los datos financiados con fondos públicos Archivado el 20 de abril de 2010 en Wayback Machine.
  39. ^ Lipton 2020, pág. 17.
  40. ^ OCDE 2007, pág. 13.
  41. ^ OCDE 2007, pág. 4.
  42. ^ Wilkinson y otros. 2016, pág. 8.
  43. ^ desde Wilkinson et al. 2016, pág. 3.
  44. ^ abc Wilkinson y otros, 2016, pág. 1.
  45. ^ Wilkinson y otros. 2016, pág. 4.
  46. ^ van Reisen y otros 2020.
  47. ^ Grupo de expertos de la Comisión Horizonte 2020 sobre cómo hacer realidad los datos FAIR (E03464)
  48. ^ Lipton 2020, pág. 66.
  49. ^ The French Open Science Monitor, última actualización el 1 de diciembre de 2022
  50. ^ ab Pujol Priego, Wareham & Romasanta 2022, p. 241.
  51. ^ abc Borgman 2015, pág. 48.
  52. ^ Federer y otros. 2018.
  53. ^ Colavizza y otros. 2020.
  54. ^ a b C Colavizza et al. 2020, pág. 5.
  55. ^ desde Borgman 2015, pág. 216.
  56. ^ Chavan y Penev 2011.
  57. ^ abcd Crosas 2014, pág. 63.
  58. ^ Bisco 1965, pág. 148.
  59. ^ Dodd 1979, pág. 78.
  60. ^ Dodd 1979.
  61. ^ Brase 2004.
  62. ^ Borgman 2015, pág. 47.
  63. ^ ab Colavizza et al. 2020, pág. 12.
  64. ^ Colavizza y col. 2020, pág. 10.
  65. ^ ab Vines y otros. 2014, pág. 96.
  66. ^ Lipton 2020, pág. 65.
  67. ^ ab Comisión Europea 2018, pág. 31.
  68. ^ Pujol Priego, Wareham y Romasanta 2022, p. 224-225.
  69. ^ desde Borgman 2015, pág. 208.
  70. ^ Davies y otros. 2019, pág. 1.
  71. ^ Borgman 2015, pág. 44.
  72. ^ Lyon, Jeng y Mattern 2017, p. 47.
  73. ^ desde Borgman 2015, pág. 209.
  74. ^ Borgman 2015, pág. 211.
  75. ^ abc Borgman 2015, pág. 212.
  76. ^ Tenopir y col. 2020, pág. 12.
  77. ^ Davies et al. 2019, pág. 6.
  78. ^ Borgman 2015, pág. 283.
  79. ^ Borgman 2015, pág. 205.
  80. ^ abc Borgman 2015, pág. 213.
  81. ^ Tenopir y otros. 2011, pág. 7.
  82. ^ Tenopir y otros. 2011, pág. 9.
  83. ^ ab Schmidt, Gemeinholzer y Treloar 2016.
  84. ^ Gabelica, Bojčić y Puljak 2022.
  85. ^ Borgman 2015, pág. 206.
  86. ^ desde Ciencia 2011.
  87. ^ Borgman 2015, pág. 207.
  88. ^ Pujol Priego, Wareham & Romasanta 2022, p. 226.
  89. ^ Tenopir y col. 2020, pág. 5.
  90. ^ Borgman 2015, pág. 223.
  91. ^ Colavizza y col. 2020, pág. 13.
  92. ^ desde Lipton 2020, pág. 127.
  93. ^ Kerber 2021, pág. 1.
  94. ^ Lipton 2020, pág. 119
  95. ^ abcde Lipton 2020, pág. 119.
  96. ^ desde Lipton 2020, pág. 122.
  97. ^ desde Lipton 2020, pág. 123.
  98. ^ Lipton 2020, pág. 126.
  99. ^ Artículo 6 de la Directiva 2006/116/CE
  100. ^ Lipton 2020, pág. 124.
  101. ^ abc Lipton 2020, pág. 125.
  102. ^ Allen, O'Connell y Kiermer 2019, pag. 73.
  103. ^ Lipton 2020, pág. 129.
  104. ^ desde Lipton 2020, pág. 130.
  105. ^ Lipton 2020, pág. 131.
  106. ^ desde Lipton 2020, pág. 138.
  107. ^ Lipton 2020, pág. 139.
  108. ^ Declaración de Berlín sobre el acceso abierto al conocimiento en las ciencias y las humanidades
  109. ^ desde Lipton 2020, pág. 133.
  110. ^ desde Lipton 2020, pág. 134.
  111. ^ Schofield y otros. 2009.
  112. ^ Lipton 2020, pág. 132.
  113. ^ Cox y Verbaan 2018, pag. 26-27.
  114. ^ desde Borgman 2015, pág. 214.
  115. ^ Borgman 2015, pág. 220.
  116. ^ Borgman 2015, pág. 222.
  117. ^ Borgman 2015, pág. 218.
  118. ^ Borgman 2015, pág. 221.
  119. ^ Briney 2015.
  120. ^ Cox y Verbaan 2018.
  121. ^ Tibor 2021.
  122. ^ Vines y otros 2014.
  123. ^ Tedersoo y otros. 2021.
  124. ^ abc Tenopir y col. 2020, pág. 11.
  125. ^ CCSDS 2012, pág. 1.
  126. ^ Lipton 2020, pág. 73.
  127. ^ Federer 2022, pág. 9.
  128. ^ Federer 2022, pág. 11.
  129. ^ Smale y otros. 2020, pág. 3.
  130. ^ Smale y otros. 2020, pág. 4.
  131. ^ Smale y otros. 2020, pág. 9.
  132. ^ ab Tenopir et al. 2020, pág. 13.
  133. ^ Pujol Priego, Wareham & Romasanta 2022, p. 239-240.
  134. ^ Recomendación de la UNESCO sobre la ciencia abierta, 2021, CL/4363
  135. ^ desde Borgman 2015, pág. 224.
  136. ^ Ficarra et al. 2020, pág. 16.
  137. ^ desde Borgman 2015, pág. 225.
  138. ^ Borgman 2007, pág. 21.
  139. ^ Skinner 2019, pág. 6.
  140. ^ José 2018, pág. 1.
  141. ^ Neylon y otros 2015.
  142. ^ La Junta Directiva de Crossref vota a favor de adoptar los Principios de Infraestructura Académica Abierta
  143. ^ Cumplimiento de OpenCitations con los Principios de Infraestructura Académica Abierta
  144. ^ El compromiso de Dryad con los principios de la infraestructura académica abierta
  145. ^ Fecher y otros, 2021, pág. 505
  146. ^ Hoja de ruta ESFRI 2021, pág. 159.
  147. ^ Borgman 2015, pág. 226.
  148. ^ Ficarra et al. 2020, pág. 23.
  149. ^ Neylon 2017, pág. 7.
  150. ^ Borgman 2015, pág. 229.
  151. ^ Ficarra et al. 2020, pág. 29.
  152. ^ Ficarra et al. 2020, pág. 50.
  153. ^ Ross-Hellauer y col. 2020, pág. 13.

Bibliografía

Informes

Artículos de revistas

Libros y tesis

Otras fuentes

Enlaces externos