stringtranslate.com

Infraestructura de ciencia abierta

La infraestructura de ciencia abierta es uno de los cuatro pilares de la ciencia abierta en la Recomendación de la UNESCO sobre ciencia abierta (2021).

La infraestructura de ciencia abierta (o infraestructura académica abierta ) es una infraestructura de información que apoya el intercambio abierto de producciones científicas como publicaciones, conjuntos de datos, metadatos o código. En noviembre de 2021, la recomendación de la Unesco sobre ciencia abierta la describe como "infraestructuras de investigación compartidas que son necesarias para apoyar la ciencia abierta y atender las necesidades de diferentes comunidades". [1]

Las infraestructuras de ciencia abierta son una forma de infraestructura científica (también llamada ciberinfraestructura , e-Ciencia o e-infraestructura ) que apoyan la producción de conocimiento abierto. Más allá de la gestión de recursos comunes, frecuentemente se estructuran como iniciativas lideradas por la comunidad con un conjunto de normas colectivas y regulaciones de gobernanza, lo que las convierte también en una forma de conocimiento común . La definición de infraestructuras de ciencia abierta generalmente excluye las infraestructuras científicas de propiedad privada administradas por editoriales comerciales líderes. Por el contrario, puede incluir actores no siempre caracterizados como infraestructuras científicas que desempeñan un papel crítico en el ecosistema de la ciencia abierta, como las plataformas de publicación en acceso abierto ( open scholarly communication service ).

Las infraestructuras informáticas y los servicios en línea han desempeñado un papel fundamental en la producción y difusión del conocimiento científico desde la década de 1960. Aunque estas primeras infraestructuras científicas se concibieron inicialmente como iniciativas comunitarias, no se podían utilizar abiertamente debido a la falta de interconectividad y al coste de la conexión a la red. La creación de la World Wide Web hizo posible compartir datos y publicaciones a gran escala. La sostenibilidad de los proyectos y servicios de investigación en línea se convirtió en una cuestión política crítica y supuso el desarrollo de una gran infraestructura en la década de 2000.

El concepto de infraestructura científica abierta surgió después de 2015, tras un debate de política científica sobre la expansión de infraestructuras comerciales y privadas en numerosas actividades de investigación y la publicación de los Principios para Infraestructuras Académicas Abiertas . Desde la década de 2010, han surgido grandes ecosistemas de infraestructuras científicas interconectadas en Europa , América del Sur y del Norte mediante el desarrollo de nuevos proyectos de ciencia abierta y la conversión de infraestructuras heredadas a principios de ciencia abierta.

Definiciones y terminología

La infraestructura de ciencia abierta es una forma de infraestructura de conocimiento que permite crear, publicar y mantener productos científicos abiertos, como publicaciones, datos o software.

La recomendación de la Unesco sobre Ciencia Abierta aprobada en noviembre de 2021 define las infraestructuras de ciencia abierta como «infraestructuras de investigación compartidas que son necesarias para apoyar la ciencia abierta y atender las necesidades de diferentes comunidades». [1] El informe SPARC sobre Infraestructuras Europeas de Ciencia Abierta incluye las siguientes actividades dentro del ámbito de las infraestructuras de ciencia abierta: «Definimos el acceso abierto y la infraestructura de ciencia abierta como conjuntos de servicios, protocolos, estándares y software que contribuyen al ciclo de vida de la investigación, desde la colaboración y la experimentación hasta la recopilación y el almacenamiento de datos, la organización de datos, el análisis y el cálculo de datos, la autoría, el envío, la revisión y la anotación, la edición, la publicación, el archivo, la citación, el descubrimiento y más» [2].

Infraestructura

El uso del término "infraestructura" es una referencia explícita a las infraestructuras físicas y redes como las redes eléctricas, las redes de carreteras o las telecomunicaciones que hicieron posible el funcionamiento de sistemas económicos y sociales complejos después de la revolución industrial: "El término infraestructura se ha utilizado desde la década de 1920 para referirse colectivamente a las carreteras, redes eléctricas, sistemas telefónicos, puentes, líneas ferroviarias y obras públicas similares que se requieren para que funcione una economía industrial (...) Si se requiere infraestructura para una economía industrial, entonces podríamos decir que se requiere ciberinfraestructura para una economía del conocimiento". [3] El concepto de infraestructura se amplió notablemente en 1996 a formas de producción de conocimiento mediada por computadora por Susan Leigh Star y Karen Ruhleder, a través de una observación empírica de una forma temprana de infraestructura de ciencia abierta, el Worm Community System. [4] Esta definición ha seguido siendo influyente durante las siguientes dos décadas en los estudios de ciencia y tecnología [5] y ha afectado el debate político sobre la construcción de infraestructura científica desde principios de la década de 2000 [3].

La infraestructura de ciencia abierta tiene propiedades específicas que la contrastan con otras formas de proyectos o iniciativas de ciencia abierta:

La apertura y los bienes comunes

Las infraestructuras de ciencia abierta son abiertas, lo que las diferencia de otras infraestructuras científicas y de conocimiento y, más específicamente, de las infraestructuras comerciales basadas en suscripciones. La apertura es a la vez un valor central y un principio rector que afecta a los objetivos, la gobernanza y la gestión de la infraestructura. Las infraestructuras de ciencia abierta se enfrentan a problemas similares a los que enfrentan otras instituciones abiertas, como los repositorios de datos abiertos o proyectos colaborativos a gran escala como Wikipedia: "Cuando estudiamos las infraestructuras de conocimiento contemporáneas, encontramos valores de apertura a menudo incorporados en ellas, pero traducir los valores de apertura en el diseño de infraestructuras y las prácticas de infraestructura es un proceso complejo y contingente". [14]

La definición conceptual de las infraestructuras de ciencia abierta ha sido ampliamente influenciada por el análisis de Elinor Ostrom sobre los bienes comunes y más específicamente sobre los bienes comunes del conocimiento . En consonancia con Ostrom, Cameron Neylon subraya que las infraestructuras abiertas no solo se caracterizan por la gestión de un conjunto de recursos comunes, sino también por la elaboración de una gobernanza y normas comunes. [15] La teoría económica de los bienes comunes permite expandirse más allá del ámbito limitado de las asociaciones académicas hacia iniciativas comunitarias a gran escala: "El trabajo de Ostrom (...) proporciona una plantilla (...) para hacer la transición de un club local a una infraestructura de alcance comunitario". [16] Las infraestructuras de ciencia abierta tienden a favorecer un modelo sin fines de lucro, financiado con fondos públicos y con una fuerte participación de las comunidades científicas, lo que las disocia de las infraestructuras cerradas de propiedad privada: "Las infraestructuras abiertas a menudo están dirigidas por académicos y administradas por organizaciones sin fines de lucro, lo que las hace impulsadas por una misión en lugar de estar impulsadas por las ganancias". [17] Este estatus tiene como objetivo garantizar la autonomía de la infraestructura y evitar su incorporación a la infraestructura comercial. [18] Esto tiene amplias implicaciones sobre la forma en que se gestiona la organización: "las diferencias entre los servicios comerciales y los servicios sin fines de lucro permearon casi todos los aspectos de sus respuestas a su entorno". [19]

Las infraestructuras de ciencia abierta no son sólo un subconjunto más específico de las infraestructuras científicas y ciberinfraestructuras, sino que también pueden incluir actores que no entrarían en esta definición. Las "plataformas de publicación de acceso abierto" como Scielo , OpenEdition o la Open Library of Humanities se consideran una parte integral de las infraestructuras de ciencia abierta en la definición de la UNESCO [1] y en varias revisiones bibliográficas [20] e informes de políticas [21] , mientras que normalmente se las consideraba entidades separadas en el debate de políticas sobre ciberinfraestructura y e-infraestructuras. [22] En el informe de 2010 de la Comisión Europea sobre e-infraestructura, las plataformas de publicación científica "no son e-infraestructuras, pero están estrechamente relacionadas con ellas". [23]

Las infraestructuras de ciencia abierta también pueden incorporar valores adicionales y principios éticos. Samuel Moore ha teorizado una forma de bienes comunes académicos cuidadosos que aún no existe pero que incorporaría formas latentes de infraestructura y comunidades de ciencia abierta: “Además de compartir recursos con otros proyectos, la creación de bienes comunes también requiere que los comuneros adopten una actitud generosa y orientada hacia el exterior con respecto a otros proyectos de bienes comunes, redirigiendo su trabajo lejos de lo propietario”. [24] En 2018, Okune et al. introdujeron un concepto similar de “infraestructuras de conocimiento inclusivas” que “permiten deliberadamente múltiples formas de participación entre un conjunto diverso de actores (…) y buscan corregir las relaciones de poder dentro de un contexto determinado”. [9]

Principios para las infraestructuras de ciencia abierta

En 2015, los Principios para una Infraestructura Académica Abierta establecieron una influyente definición prescriptiva de las infraestructuras científicas abiertas. Las definiciones y terminologías posteriores de las infraestructuras científicas abiertas se han elaborado en gran medida sobre esta base. [2] [25] [26] El texto también ha influido en la definición de infraestructura científica abierta adoptada por la UNESCO en noviembre de 2021. [27]

Los Principios intentan hibridar el marco de los estudios de infraestructura con el análisis de los bienes comunes iniciado por Elinor Ostrom . Los principios desarrollan una serie de recomendaciones en tres áreas críticas para el éxito de las infraestructuras abiertas:

El texto finaliza mencionando varias consecuencias potenciales de los principios. Los autores abogan por una centralización responsable, que incorpore un enfoque diferente al de las grandes plataformas comerciales web como Google y Facebook, pero que al mismo tiempo mantenga el importante beneficio de las infraestructuras centralizadas: "seremos capaces de construir organizaciones responsables y confiables que gestionen esta centralización de manera responsable". [12] Entre los ejemplos existentes de grandes infraestructuras abiertas se incluyen ORCID, la Fundación Wikimedia o el CERN.

Una recepción más crítica se ha centrado en la filosofía política subyacente de los Principios . [28] [29] Si bien la comunidad científica es una parte clave de la gobernanza de la infraestructura de ciencia abierta, Samuel Moore subraya que nunca se define con precisión, lo que plantea posibles problemas de subrepresentación de grupos minoritarios:

[Esto] plantea preguntas sobre quién es la comunidad que gobierna y excluye, y qué les da el derecho a decidir las condiciones. Estas preguntas son especialmente relevantes para entender los bienes comunes que abarcan todo o que operan a gran escala, y que tienden a favorecer a las partes interesadas más poderosas, las disciplinas ricas y los países del Norte Global. Estos bienes comunes tratan a los sujetos en un vacío político en lugar de estar insertos en una situación particular y enredados en una serie de relaciones y proyectos diferentes con estructuras de poder asimétricas. [30]

Historia

Primeros desarrollos (1950-1990)

El lanzamiento del Sputnik ha desencadenado uno de los primeros grandes debates sobre infraestructura científica.

Los proyectos científicos han sido uno de los primeros casos de uso de la infraestructura digital. La teorización de la infraestructura del conocimiento científico es incluso anterior al desarrollo de las tecnologías informáticas. La red de conocimiento imaginada por Paul Otlet o Vannevar Bush ya incorporaba numerosas características de las infraestructuras científicas en línea. [31]

Después de la Segunda Guerra Mundial, Estados Unidos se enfrentó a una "crisis de las publicaciones periódicas": las revistas existentes no podían seguir el ritmo de la producción científica en rápido aumento. [32] La cuestión se volvió políticamente relevante después del exitoso lanzamiento de Sputnik : "La crisis de Sputnik convirtió el problema de control bibliográfico de los bibliotecarios en una crisis nacional de información". [33] Las tecnologías informáticas emergentes se consideraron inmediatamente como una solución potencial para hacer que una mayor cantidad de producción científica fuera legible y buscable. El acceso a publicaciones en idiomas extranjeros también fue un problema clave que se esperaba que se resolviera mediante la traducción automática : en la década de 1950, una cantidad significativa de publicaciones científicas no estaban disponibles en inglés , especialmente las que provenían del bloque soviético.

Miembros influyentes de la National Science Foundation, como Joshua Ledeberg, abogaron por la creación de un "sistema de información centralizado", SCITEL, que en un principio coexistiría con las revistas impresas y que gradualmente las reemplazaría por completo debido a su eficiencia. [34] En el plan presentado por Ledeberg a Eugen Garfield en noviembre de 1961, el depósito indexaría hasta 1.000.000 de artículos científicos por año. Más allá de la búsqueda de texto completo, la infraestructura también garantizaría la indexación de citas y otros metadatos, así como la traducción automática de artículos en idiomas extranjeros. [35]

Aunque anticipaba características clave de las plataformas científicas en línea, el plan de SCITEL era técnicamente irreal en ese momento. El primer prototipo funcional de un sistema de recuperación en línea desarrollado en 1963 por Doug Engelhart y Charles Bourne en el Instituto de Investigación de Stanford estaba muy limitado por problemas de memoria: no se podían indexar más de 10.000 palabras de unos pocos documentos. [36]

El proceso de indexación de citas en MEDLARS, una infraestructura científica temprana para publicaciones en medicina

En lugar de una plataforma de publicación de propósito general, las primeras infraestructuras de computación científica se centraron en áreas de investigación específicas, como MEDLINE  para medicina, NASA/RECON para ingeniería espacial u OCLC Worldcat para búsquedas en bibliotecas: "la mayoría de los primeros sistemas de recuperación en línea proporcionaban acceso a una base de datos bibliográfica y el resto utilizaba un archivo que contenía otro tipo de información: artículos de enciclopedia, datos de inventario o compuestos químicos". [37] Este desarrollo temprano de la computación científica afectó a una gran variedad de disciplinas y comunidades, incluidas las ciencias sociales: "En los años 1960 y 1970 se estableció más de una docena de servicios y asociaciones profesionales para coordinar la recopilación de datos cuantitativos". [38] Sin embargo, estas infraestructuras eran en su mayoría invisibles para los investigadores, ya que la mayor parte de la investigación la realizaban bibliotecarios profesionales. No solo era complicado utilizar los sistemas operativos de búsqueda, sino que la búsqueda tenía que realizarse de manera muy eficiente dado el costo prohibitivo de las telecomunicaciones de larga distancia. [39] Para ser técnicamente factible, la infraestructura científica nunca pudo ser abierta y quedó fundamentalmente oculta para sus usuarios finales:

Los diseñadores de los primeros sistemas en línea habían dado por sentado que las búsquedas las realizarían los usuarios finales; esa suposición fue la base del diseño del sistema. MEDLINE estaba pensado para que lo utilizaran investigadores médicos y clínicos, mientras que NASA/RECON estaba diseñado para ingenieros y científicos aeroespaciales. Sin embargo, por muchas razones, la mayoría de los usuarios durante los años setenta eran bibliotecarios e intermediarios capacitados que trabajaban en nombre de los usuarios finales. De hecho, algunos buscadores profesionales temían que incluso permitir que los usuarios finales ansiosos accedieran a las terminales fuera una mala idea. [40]

El desarrollo de la infraestructura digital para la publicación científica estuvo a cargo en gran medida de empresas privadas. En 1963, Eugene Garfield creó el Institute for Scientific Information , cuyo objetivo era transformar los proyectos inicialmente concebidos con Lederberg en un negocio rentable. El Science Citation Index se basaba en un procesamiento computacional de los datos de citas. Tuvo una influencia masiva y duradera en la estructuración de la publicación científica global en las últimas décadas del siglo XX, ya que su métrica más importante, el Factor de Impacto de la Revista, "finalmente llegó a proporcionar la herramienta métrica necesaria para estructurar un mercado competitivo entre revistas". [41] Garfield también lanzó con éxito Current Contents , una compilación periódica de resúmenes científicos que actuó como una versión comercial simplificada del depósito central previsto dentro de SCITEL. En lugar de ser reemplazados por un sistema de información centralizado, los editores científicos líderes han podido desarrollar su propia infraestructura de información que en última instancia reforzó su posición comercial. A fines de la década de 1960, la editorial holandesa Elsevier y la editorial alemana Springer  comenzaron a informatizar sus datos internos, así como la gestión de las revisiones de revistas. [42]

Hasta la llegada de la web, el panorama de las infraestructuras científicas permaneció fragmentado. [43] Los proyectos y las comunidades dependían de sus propias redes desconectadas a nivel nacional o institucional: "Internet era casi invisible en Europa porque la gente allí estaba siguiendo un conjunto separado de protocolos de red". [44] El lugar de nacimiento de la World Wide Web, el CERN, tenía su propia versión de Internet, CERN-Net, y también admitía su propio protocolo para el intercambio de correo electrónico. [45] La Agencia Espacial Europea utilizó su propia iteración del sistema RECON, también utilizado por los ingenieros de la NASA (ESRO/RECON). [46] Las infraestructuras científicas aisladas difícilmente podían conectarse antes de la llegada de la web. La comunicación entre infraestructuras científicas no solo era un desafío a través del espacio, sino también a través del tiempo. Siempre que un protocolo de comunicación ya no se mantenía, los datos y el conocimiento que difundía también probablemente desaparecían: "la relación entre la investigación histórica y la informática se ha visto afectada de forma duradera por proyectos abortados, pérdida de datos y formatos irrecuperables". [22]

La revolución de la Web (1990-1995)

La World Wide Web se concibió originalmente como una infraestructura científica abierta. El proyecto se inspiró en ENQUIRE , un software de gestión de información encargado a Tim Berners-Lee por el CERN para las necesidades específicas de la física de alta energía. La estructura de ENQUIRE se parecía más a una red interna de datos: conectaba "nodos" que "podían hacer referencia a una persona, un módulo de software, etc. y que podían interconectarse con varias relaciones como "hecho", "incluir", "describir", etc.". [47] Si bien "facilitó algunos vínculos aleatorios entre la información", Enquire no pudo "facilitar la colaboración que se deseaba en la comunidad internacional de investigación en física de alta energía". [48] ​​Como cualquier infraestructura científica informática significativa antes de la década de 1990, el desarrollo de ENQUIRE se vio obstaculizado en última instancia por la falta de interoperabilidad y la complejidad de gestionar las comunicaciones en red: "aunque Enquire proporcionaba una forma de vincular documentos y bases de datos, y el hipertexto proporcionaba un formato común en el que mostrarlos, todavía existía el problema de lograr que diferentes computadoras con diferentes sistemas operativos se comunicaran entre sí". [44]

El intercambio de datos y la documentación de datos fue un objetivo principal en la comunicación inicial de la World Wide Web cuando el proyecto se dio a conocer por primera vez en agosto de 1991: "El proyecto WWW se inició para permitir que los físicos de alta energía compartan datos, noticias y documentación. Estamos muy interesados ​​en extender la web a otras áreas y tener servidores de acceso para otros datos". [49]

La Web sustituyó rápidamente a las infraestructuras en línea preexistentes, incluso cuando incluían funciones informáticas más avanzadas. Entre 1991 y 1994, los usuarios del Worm Community System , una importante base de datos biológica sobre gusanos, se pasaron a la Web y a Gopher. Si bien la Web no incluía muchas funciones avanzadas para la recuperación y colaboración de datos, era fácilmente accesible. Por el contrario, el Worm Community System sólo podía explorarse en terminales específicos compartidos entre instituciones científicas: "Adoptar el WCS (con su interfaz conveniente) de diseño personalizado es sufrir inconvenientes en la intersección de los hábitos de trabajo, el uso de la computadora y los recursos de laboratorio (...) La World Wide Web, por otro lado, puede accederse desde una amplia variedad de terminales y conexiones, y el soporte informático de Internet está fácilmente disponible en la mayoría de las instituciones académicas y a través de servicios comerciales relativamente económicos". [50]

La Web y otros protocolos similares desarrollados en esa época han tenido un impacto similar en las publicaciones científicas. Las primeras formas de publicación de acceso abierto no fueron desarrolladas por infraestructuras institucionales de gran escala, sino a través de pequeñas iniciativas. El acceso universal, independientemente del sistema operativo, hizo posible mantener y compartir revistas electrónicas impulsadas por la comunidad un año antes de que las publicaciones científicas comerciales en línea se volvieran viables:

A finales de los años 80 y principios de los 90, aparecieron en los servidores de listas y (más tarde) en la Web una serie de nuevos títulos de revistas. Revistas como Postmodern Cultures , Surfaces , Bryn Mawr Classical Review y Public-Access Computer Systems Review eran administradas por académicos y trabajadores de bibliotecas, en lugar de profesionales de la publicación. [51]

Los primeros repositorios de acceso abierto también fueron iniciativas individuales o comunitarias. En agosto de 1991, Paul Ginsparg creó el primer proyecto arXiv en el Laboratorio Nacional de Los Álamos como respuesta al problema recurrente de almacenamiento de los buzones académicos debido al creciente intercambio de artículos científicos. [52]

Construcción de infraestructuras científicas para la web (1995-2015)

El desarrollo de la World Wide Web había dejado obsoletas numerosas infraestructuras científicas preexistentes. También eliminó numerosas restricciones y obstáculos a la contribución en línea y la gestión de redes, lo que hizo posible intentar proyectos más ambiciosos. A finales de la década de 1990, la creación de infraestructura informática científica pública se convirtió en una cuestión de política importante. [53] La primera ola de proyectos científicos basados ​​en la Web en la década de 1990 y principios de la década de 2000 reveló cuestiones críticas de sostenibilidad. Como la financiación se asignaba en un período de tiempo específico, las bases de datos críticas, las herramientas en línea o las plataformas de publicación difícilmente podían mantenerse; [22] y los gerentes de proyectos se enfrentaban a un valle de muerte "entre la financiación de subvenciones y la financiación operativa en curso". [54]

Varios términos en competencia parecieron satisfacer esta necesidad. En los Estados Unidos, el término ciberinfraestructura fue utilizado en un contexto científico por un comité de expertos de la Fundación Nacional de Ciencias (NSF) de los Estados Unidos en 2003: "El término más nuevo ciberinfraestructura se refiere a la infraestructura basada en tecnología distribuida de computación, información y comunicación. Si la infraestructura es necesaria para una economía industrial, entonces podríamos decir que la ciberinfraestructura es necesaria para una economía del conocimiento". [3] E-infraestructura o e-ciencia se utilizaron con un significado similar en el Reino Unido y los países europeos.

Gracias a "inversiones considerables", [55] se han creado importantes infraestructuras nacionales e internacionales desde el debate político inicial a principios de la década de 2000 hasta la crisis económica de 2007-2008, como Open Science Grid , BioGRID , JISC , DARIAH  [Wikidata] o el Proyecto Bamboo. [22] [56] El software libre especializado para publicaciones científicas como Open Journal Systems estuvo disponible después de 2000. Este desarrollo implicó una expansión significativa de las revistas de acceso abierto no comerciales al facilitar la creación y la administración de sitios web de revistas y la conversión digital de revistas existentes. [57] Entre las revistas no comerciales registradas en el Directorio de Revistas de Acceso Abierto, el número de creación anual pasó de 100 a fines de la década de 1990 a 800 alrededor de 2010, y no evolucionó significativamente desde entonces. [58]

En 2010, las infraestructuras ya no estaban en pañales y, sin embargo, todavía no estaban completamente maduras. [55] Si bien el desarrollo de la web resolvió una amplia gama de problemas técnicos relacionados con la gestión de redes, la construcción de infraestructura científica siguió siendo un desafío. La gobernanza, la comunicación entre todas las partes interesadas y las divergencias estratégicas fueron los principales factores de éxito o fracaso. El Proyecto Bamboo, una de las primeras infraestructuras importantes para las humanidades y las ciencias sociales, finalmente no pudo lograr sus ambiciosos objetivos: "Desde los primeros talleres de planificación hasta el rechazo de la Fundación Mellon al intento de propuesta final del proyecto, Bamboo se vio acosado por su renuencia y/o incapacidad para definirse concretamente". [59] Esta falta de claridad se agravó aún más por los recurrentes errores de comunicación entre los iniciadores del proyecto y la comunidad a la que se pretendía servir. "La comunidad había hablado y dejado en claro que seguir enfatizando la arquitectura orientada a servicios alejaría a los mismos miembros de la comunidad a los que Bamboo pretendía beneficiar más: los propios académicos". [60] Los recortes presupuestarios tras la crisis económica de 2007-2008 pusieron de relieve la fragilidad de los ambiciosos planes de infraestructura que dependían de importantes fondos recurrentes. [61]

Ecosistemas comerciales líderes para la investigación científica

Las editoriales comerciales líderes se distanciaron inicialmente del inesperado auge de la Web para la publicación académica: el consejo ejecutivo de Elsevier "no había comprendido la importancia de la publicación electrónica en su conjunto y, por lo tanto, el peligro mortal que planteaba, es decir, el peligro de que los científicos pudieran arreglárselas sin la revista". [62] La persistencia de altos ingresos por suscripciones y la consolidación del sector permitieron financiar la conversión de los servicios en línea preexistentes a la Web, así como la digitalización de colecciones anteriores. En la década de 2010, las editoriales líderes han estado "pasando de un negocio de provisión de contenido a un negocio de análisis de datos" [63] y han desarrollado o adquirido nuevas infraestructuras clave para la gestión de actividades científicas y pedagógicas: "Elsevier ha adquirido y lanzado productos que extienden su influencia y su propiedad de la infraestructura a todas las etapas del proceso de producción de conocimiento académico". [64] Dado que se ha expandido más allá de la publicación, la integración vertical de infraestructuras de propiedad privada se ha integrado ampliamente a las actividades de investigación diarias.

El control privatizado de las infraestructuras académicas es especialmente notorio en el contexto de la "integración vertical" que editoriales como Elsevier y SpringerNature buscan al controlar todos los aspectos del ciclo de vida de la investigación, desde el envío de los trabajos hasta su publicación y más allá. Por ejemplo, esta integración vertical está representada en varias adquisiciones empresariales de Elsevier, como Mendeley (un gestor de referencias), SSRN (un repositorio de preimpresión) y Bepress (un proveedor de software de repositorio y publicación para universidades). [65]

Hacia infraestructuras científicas abiertas (2015-…)

La consolidación y expansión de la infraestructura científica comercial ha conllevado nuevos llamamientos a la protección de la "infraestructura controlada por la comunidad". [66] La adquisición de los repositorios abiertos Digital Commons y SSRN por parte de Elsevier ha puesto de relieve la falta de fiabilidad de la infraestructura científica crítica para la ciencia abierta. [67] [68] [69] El informe SPARC sobre infraestructuras europeas subraya que "una serie de infraestructuras importantes están en riesgo y, como consecuencia, los productos y servicios que componen la infraestructura abierta se ven cada vez más tentados por ofertas de compra de grandes empresas comerciales. Esta amenaza afecta tanto a la infraestructura abierta sin ánimo de lucro como a la cerrada, y se evidencia en la compra en los últimos años de herramientas y plataformas de confianza común como SSRN, bepress, Mendeley y Github". [2]

En contraste con la consolidación de la infraestructura de propiedad privada, el movimiento de ciencia abierta “ha tendido a pasar por alto la importancia de las estructuras sociales y las limitaciones sistémicas en el diseño de nuevas formas de infraestructuras de conocimiento”. [70] Se mantuvo principalmente centrado en el contenido de la investigación científica, con poca integración de herramientas técnicas y pocas iniciativas comunitarias de gran envergadura. “El fondo común de recursos no está gobernado ni gestionado por la actual iniciativa de bienes comunes académicos. No hay una infraestructura física dedicada y, aunque puede haber una comunidad naciente, no hay una membresía formal”. [71]

Se necesitaban conceptos más precisos para incorporar principios éticos de apertura, servicio comunitario y gobernanza autónoma en la construcción de infraestructura y asegurar la transformación de pequeñas redes académicas localizadas en grandes estructuras "comunitarias". [15] En 2013, Cameron Neylon subrayó que la falta de infraestructura común era una de las principales debilidades del ecosistema de ciencia abierta: "en un mundo donde puede ser más barato rehacer un análisis que almacenar los datos, necesitamos considerar seriamente la infraestructura social, física y material que podría respaldar el intercambio de los resultados materiales de la investigación". [72] Dos años después, Neylon, Geoffrey Bilder y Jenifer Lin definieron una serie de Principios para la Infraestructura Académica Abierta que reaccionaban principalmente a la discrepancia entre la creciente apertura de las publicaciones científicas o los conjuntos de datos y la cercanía de la infraestructura que controla su circulación. [12]

En la última década hemos logrado avances reales para garantizar la disponibilidad de datos que respalden las afirmaciones de las investigaciones. Este trabajo está lejos de haber concluido. Creemos que los datos sobre el proceso de investigación en sí merecen exactamente el mismo nivel de respeto y cuidado. La comunidad académica no posee ni controla la mayor parte de esta información. Por ejemplo, podríamos haber creado o asumido la infraestructura para recopilar datos bibliográficos y citas, pero esa tarea quedó en manos de la empresa privada. [12]

Desde 2015, estos principios se han convertido en la definición más influyente de Infraestructuras de Ciencia Abierta y han sido respaldados por infraestructuras líderes como Crossref, [73] OpenCitations [74] o Data Dryad [75] y se han convertido en una base común para la evaluación institucional de las infraestructuras abiertas existentes. [76] El objetivo principal de los Principios es construir "instituciones confiables" con compromisos significativos en términos de gobernanza, sostenibilidad financiera y eficiencia técnica para que las comunidades científicas puedan confiar en ellas de manera duradera. [15]

En 2021, los servicios públicos y las infraestructuras de investigación han adoptado en gran medida la ciencia abierta como parte integral de su actividad e identidad: "la ciencia abierta es el discurso dominante al que se refieren los nuevos servicios en línea para la investigación". [19] Según la Hoja de Ruta de 2021 del Foro Estratégico Europeo sobre Infraestructuras de Investigación  [Wikidata] (ESFRI), las principales infraestructuras heredadas de Europa han adoptado los principios de la ciencia abierta. "La mayoría de las infraestructuras de investigación de la Hoja de Ruta del ESFRI están a la vanguardia del movimiento de la ciencia abierta y hacen importantes contribuciones a la transformación digital al transformar todo el proceso de investigación de acuerdo con el paradigma de la ciencia abierta". [77] Algunos ejemplos de programas extensivos de intercambio de datos incluyen la Encuesta Social Europea (en ciencias sociales), ECRIN ERIC (para datos clínicos) o el Cherenkov Telescope Array (en astronomía). [77]

De acuerdo con la intención original de los Principios , las infraestructuras de ciencia abierta se consideran "un antídoto a la mayor concentración del mercado observada en el espacio de la comunicación académica". [17] En noviembre de 2021, la Recomendación de la UNESCO para la Ciencia Abierta reconoció la infraestructura de ciencia abierta como uno de los cuatro pilares de la ciencia abierta, junto con el conocimiento científico abierto, la participación abierta de los actores sociales y el diálogo abierto con otros sistemas de conocimiento, y pidió una inversión y financiación sostenidas: "Las infraestructuras de ciencia abierta son a menudo el resultado de esfuerzos de construcción de comunidades, que son cruciales para su sostenibilidad a largo plazo y, por lo tanto, deben ser sin fines de lucro y garantizar el acceso permanente y sin restricciones a todo el público en la mayor medida posible". [1]

El desarrollo de una infraestructura científica abierta se ha convertido en un tema de debate en relación con el futuro de la investigación científica en línea. En enero de 2021, un colectivo de investigadores pidió un Plan I o Plan Infraestructura en respuesta a las deficiencias percibidas de la iniciativa internacional para la ciencia abierta de la cOAlition S, el Plan S. [ 69] En contraste con el enfoque del Plan S en la publicación científica, el Plan I tiene como objetivo integrar todos los resultados de la investigación en grandes infraestructuras interoperables: "la investigación y la erudición dependen fundamentalmente de una infraestructura de información que trate todos los resultados académicos, textos, datos y códigos, por igual y que se base en estándares abiertos y mercados abiertos". [78]

Organización de infraestructuras abiertas

La mayoría de los informes de panorama sobre Infraestructura Abierta se han realizado en Europa y, en menor medida, en América Latina. Para Europa, las principales fuentes incluyen el informe SPARC de 2020, [79] el informe OPERAS sobre infraestructura en ciencias sociales y humanidades, [80] así como el informe de 2019 de Katherine Skinner (que también se extiende a algunas infraestructuras de América del Norte). [81] Los estudios internacionales incluyen el informe de la Comisión Europea de 2010 sobre El papel de la infraestructura electrónica, que recibe principalmente aportes de Europa, América del Sur y América del Norte. [82]

Estos informes subrayan que es posible que ya existan importantes infraestructuras de ciencia abierta y, sin embargo, sigan siendo invisibles para los financiadores y las políticas científicas: "existen prácticas y proyectos alternativos dentro y fuera de Europa, pero estos proyectos son casi invisibles a los ojos de las autoridades públicas". [83]

Tipos y roles

Los repositorios de acceso abierto son la forma más frecuente de infraestructura de ciencia abierta [84] con 5.791 repositorios existentes en diciembre de 2021 según OpenDOAR [85].

Sin embargo, existe una diversificación significativa de los roles y las actividades de la infraestructura de ciencia abierta, al menos entre las infraestructuras más grandes. En la encuesta sobre infraestructura europea realizada por SPARC Europe, el 95% de los encuestados menciona que brindan servicios en al menos tres etapas diferentes de la producción de investigación de seis (creación, evaluación, publicación, alojamiento, descubrimiento y archivo). [86] La agregación, el alojamiento y la indexación son actividades especialmente centrales, comunes a la mayoría de las infraestructuras de ciencia abierta independientemente de su enfoque.

La especialización se produce en un nivel superior. Un análisis de redes identifica "dos grupos principales de actividades":

Normas y tecnologías

La estandarización es una función importante de la infraestructura de ciencia abierta, ya que su objetivo es garantizar que el contenido que comparten y respaldan se distribuya de manera consistente y facilite la reutilización.

Mantener estándares abiertos es uno de los principales retos identificados por las principales infraestructuras abiertas europeas, ya que implica elegir entre estándares en competencia en algunos casos, así como asegurar que los estándares estén correctamente actualizados y sean accesibles a través de API u otros puntos finales. [88] Dos tercios de los encuestados han realizado una evaluación de su entorno tecnológico durante el último año, para asegurar que los componentes clave no se hayan vuelto obsoletos. [89] Como consecuencia de estos esfuerzos sostenidos, la mayoría de las infraestructuras abiertas cumplen con los nuevos estándares establecidos de ciencia abierta, como los datos FAIR o Plan S. [ 89]

Las infraestructuras de ciencia abierta integran preferentemente estándares de otras infraestructuras de ciencia abierta. Entre las infraestructuras europeas: "Los sistemas más citados -y por lo tanto infraestructura esencial para muchos- son ORCID , Crossref , DOAJ , BASE , OpenAIRE , Altmetric y Datacite , la mayoría de los cuales no tienen fines de lucro". [90] Google Scholar es el primer servicio comercial mencionado, mientras que Scopus, el motor de búsqueda académico propietario líder desarrollado por Elsevier , es uno de los servicios líderes menos citados. [91] Las infraestructuras de ciencia abierta son entonces parte de un "bien común de ciencia abierta verdaderamente interoperable" emergente que mantiene la premisa de "herramientas de investigación centradas en el investigador, de bajo costo, innovadoras e interoperables, superiores al sistema actual, en gran medida cerrado". [92]

Las infraestructuras dependen con frecuencia de decisiones tomadas por actores externos, especialmente editores científicos: ellos "no deciden por sí mismos sobre la apertura del contenido ya que dependen de las políticas de los proveedores de contenido". [93] Esto afecta no sólo al contenido sino también a las "políticas de datos de los usuarios [que] son ​​establecidas por los editores y que limitan lo que se puede poner a disposición". [94]

Las infraestructuras de ciencia abierta tienen fuertes vínculos con el movimiento de código abierto . El 82% de las infraestructuras europeas encuestadas por SPARC afirman haber construido parcialmente software de código abierto y el 53% tiene toda su infraestructura tecnológica en código abierto. [89]

Gobernancia

La gobernanza ha sido identificada como una debilidad potencial por la infraestructura europea encuestada por SPARC. [95] Menos de la mitad de los encuestados considera que se encuentran en una etapa "madura" en este sentido y una "buena gobernanza" se cita como el principal desafío. [88] La interacción entre las comunidades a las que se pretende apoyar y las otras partes interesadas y los financiadores es especialmente complicada: "Un desafío específico identificado fue la tensión entre atender las necesidades de la comunidad de usuarios frente a priorizar las necesidades de los clientes que proporcionan apoyo financiero a la OSI". [88]

La tensión entre centralización y diversidad caracteriza en gran medida a la Infraestructura de Ciencia Abierta. Si bien históricamente se la ha definido como un "proyecto [de acceso abierto] centralizado", Redalyc aspira a convertirse en una "infraestructura comunitaria sostenible en América Latina" (Berrecil). Las principales infraestructuras abiertas europeas han señalado "desafíos en torno a garantizar una representación suficiente (y suficientemente diversa)", así como la participación de algunas comunidades profesionales como investigadores y bibliotecarios. [88]

Audiencia

Las infraestructuras de ciencia abierta “están dirigidas y prestan servicios a una amplia gama de partes interesadas”. [96] Los investigadores siguen siendo el objetivo principal, pero las bibliotecas, los profesores y los estudiantes se encuentran entre la audiencia prevista de más de la mitad de las infraestructuras encuestadas por Sparc Europe.

La mayoría de las infraestructuras europeas «operan a escala global» y el inglés es el idioma principal del 82% de los encuestados. [97] Estas infraestructuras también son frecuentemente multilingües e integran un enfoque nacional específico: «ofrecen acceso a una variedad de contenidos lingüísticos de importancia local e internacional». [97]

Distribución de disciplinas entre las infraestructuras estudiadas en el informe de SPARC Scoping the Open Science Infrastructure Landscape in Europe

Las infraestructuras de ciencia abierta benefician a diversas disciplinas y comunidades científicas. En 2020, el 72% de las infraestructuras europeas encuestadas por Sparc Europe afirman apoyar a todas las disciplinas. Las ciencias sociales y las humanidades son las disciplinas más mencionadas, lo que se atribuye en parte al hecho de que la encuesta fue "ampliamente distribuida por la red OPERAS". [98] En 2010, las infraestructuras que apoyaban a las ciencias sociales y las humanidades eran mucho menos frecuentes y la mayoría de los casos de uso provenían de "biociencias, física de altas energías y otros campos de la física, ciencias de la tierra y ambientales, informática, astronomía y astrofísica". [99]

Ciencias económicas

Muchas infraestructuras de ciencia abierta funcionan "a un coste relativamente bajo", ya que las pequeñas infraestructuras son una parte importante del ecosistema de ciencia abierta. [100] En 2020, 21 de las 53 infraestructuras europeas encuestadas "informan que gastan menos de 50.000 euros". [100] En consecuencia, más del 75% de las infraestructuras europeas encuestadas están gestionadas por pequeños equipos de 5 ETP o menos. [101] El tamaño de la infraestructura y el alcance de su financiación están lejos de ser siempre proporcionales al servicio crítico que ofrece: "algunos de los servicios más utilizados llegan a fin de mes con un pequeño equipo central de dos a cinco personas". [102] Las contribuciones de los voluntarios también son significativas y son a la vez "una fortaleza y una debilidad para la sostenibilidad de una OSI". [100] Por tanto, el panorama de las infraestructuras de ciencia abierta se acerca bastante a los ideales de una "red descentralizada de pequeños proyectos" imaginados por los teóricos de los bienes comunes académicos. [103] Una gran mayoría de la infraestructura de ciencia abierta no es comercial [104] y las colaboraciones o el apoyo financiero del sector privado siguen siendo muy limitados. [105]

En general, las infraestructuras europeas eran sostenibles financieramente en 2020 [106], lo que contrasta con la situación de diez años antes: en 2010, las infraestructuras europeas tenían mucha menos visibilidad: por lo general carecían de "una perspectiva a largo plazo" y luchaban "por conseguir financiación durante más de cinco años". [107] En 2020, las infraestructuras europeas dependen con frecuencia de subvenciones de fondos nacionales y de la Comisión Europea. [105] Sin estas subvenciones, la mayoría de estos actores "sólo podrían seguir siendo viables durante menos de un año". [104] Sin embargo, una cuarta parte de las infraestructuras europeas encuestadas no recibió ninguna subvención o subvención y utilizó medios alternativos de ingresos o contribuciones voluntarias. [100] Como pueden ser "difíciles de definir adecuadamente", las infraestructuras de ciencia abierta pueden ser pasadas por alto por los organismos de financiación, lo que "contribuye al desafío de asegurar la financiación". [108]

Referencias

  1. ^abcd UNESCO 2021.
  2. ^ abcFicarra et al. 2020, pág. 7.
  3. ^ abcd Atkins 2003, pág. 5.
  4. ^ desde Star y Ruhleder 1996.
  5. ^ Karasti y col. Yo 2016, pág. 4.
  6. ^ ab Fecher et al. 2021, pág. 500.
  7. ^ Edwards y otros. 2006, pág. 6.
  8. ^ Moore 2019, p. 121: "las infraestructuras no son fácilmente divisibles, reconocibles o compartimentadas"
  9. ^ ab Okune et al. 2018, pág. 3.
  10. ^ Moore 2019, pág. 143.
  11. ^ Neylon 2017, pág. 1.
  12. ^ abcdefg Bilder, Lin y Neylon 2015.
  13. ^ Bos y otros. 2007, pág. 667.
  14. ^ Karasti y col. IV 2016, pág. 5.
  15. ^ abc Neylon 2017, pág. 7.
  16. ^ Neylon 2017, págs. 7–8.
  17. ^ desde Kraker 2021, pág. 2.
  18. ^ Comisión Europea. Dirección General de Investigación e Innovación 2019, p.  [ página necesaria ] .
  19. ^ ab Fecher et al. 2021, pág. 505.
  20. ^ Lewis 2020, pág. 6.
  21. ^ Ficarra et al. 2020, pág. 8.
  22. ^abcd Dacos 2013.
  23. ^ eResearch2020 2010, pág. 222.
  24. ^ Moore 2019, pág. 183.
  25. ^ Ross-Hellauer y col. 2020, pág. 13.
  26. ^ SPARC 2020.
  27. ^ Comité Directivo del Open Science MOOC 2020 2020.
  28. ^ Moore 2019.
  29. ^ Okune y otros. 2018.
  30. ^ Moore 2019, pág. 173.
  31. ^ Borgman 2007, pág. 40.
  32. ^ Wouters 1999, pág. 61.
  33. ^ Wouters 1999, pág. 62.
  34. ^ Wouters 1999, pág. 60.
  35. ^ Wouters 1999, pág. 64.
  36. ^ Bourne y Hahn 2003, pág. 16.
  37. ^ Bourne y Hahn 2003, pág. 12.
  38. ^ Shankar y otros. 2016, pág. 63.
  39. ^ Regazzi 2015, pág. 128.
  40. ^ Bourne y Hahn 2003, pág. 397.
  41. ^ Comisión Europea. Dirección General de Investigación e Innovación 2019, p. 15.
  42. ^ Andriesse 2008, pág. 189.
  43. ^ Campbell-Kelly y García-Swartz 2013.
  44. ^ desde Berners-Lee y Fischetti 2008, pág. 17.
  45. ^ Berners-Lee y Fischetti 2008, pág. 18.
  46. ^ Bourne y Hahn 2003, pág. 304.
  47. ^ Hogan 2014, pág. 20.
  48. ^ Bygrave y Bing 2009, pág. 30.
  49. ^ Berners-Lee 1991.
  50. ^ Star y Ruhleder 1996, pág. 131.
  51. ^ Moore 2020, pág. 7.
  52. ^ Federación 2021.
  53. ^ Borgman 2007, pág. 21.
  54. ^ Skinner 2019, pág. 6.
  55. ^ desde Eccles y otros. 2009.
  56. ^ eResearch2020 2010, p.  [ página necesaria ] .
  57. ^ Bosman y otros, 2021, pág. 93.
  58. ^ Bosman y otros. 2021, pág. 30.
  59. ^ Dombrowski 2014, pág. 334.
  60. ^ Dombrowski 2014, pág. 329.
  61. ^ Dombrowski 2014, pág. 331.
  62. ^ Andriesse 2008, págs. 257–258.
  63. ^ Aspesi y otros, 2019, pág. 5
  64. ^ Posada y Chen 2018, pág. 6.
  65. ^ Moore 2019, pág. 156.
  66. ^ José 2018, pág. 1.
  67. ^ Boston 2021.
  68. ^ José 2018.
  69. ^ por Brembs y col. 2021.
  70. ^ Okune y otros, 2018, pág. 13.
  71. ^ Bosman y otros, 2018, pág. 19.
  72. ^ Neilon 2013.
  73. ^ Imágenes 2020.
  74. ^ Por Giambattista 2021.
  75. ^ El equipo Dryad 2020.
  76. ^ Ficarra et al. 2020, pág. 21.
  77. ^ ab Hoja de ruta de ESFRI 2021, p. 159.
  78. ^ Brembs y col. 2021, pág. 4.
  79. ^ Ficarra y otros. 2020.
  80. ^ Avanço y col. 2021.
  81. ^ Skinner 2019.
  82. ^ Investigación electrónica2020 2010.
  83. ^ Mounier 2018, pág. 305.
  84. ^ Estudio del paisaje de las óperas 2017, p. 15
  85. ^ Estadísticas de OpenDOAR.
  86. ^ ab Ficarra et al. 2020, pág. 13.
  87. ^ abcFicarra et al. 2020, pág. 15.
  88. ^ abcd Ficarra et al. 2020, pág. 23.
  89. ^ abcFicarra et al. 2020, pág. 29.
  90. ^ Ficarra y otros, 2020, pág. 50
  91. ^ Ficarra et al. 2020, pág. 31.
  92. ^ Ross-Hellauer y col. 2020, pág. 13
  93. ^ Ficarra y otros, 2020, pág. 27
  94. ^ Ficarra et al. 2020, pág. 24.
  95. ^ Ficarra y otros, 2020, pág. 22
  96. ^ Ficarra y otros, 2020, pág. 18
  97. ^ ab Ficarra et al. 2020, pág. 20.
  98. ^ Ficarra y otros, 2020, pág. 19
  99. ^ eResearch2020 2010, pág. 106.
  100. ^ abcd Ficarra et al. 2020, pág. 35.
  101. ^ Ficarra y otros, 2020, pág. 41
  102. ^ Kraker 2021, pág. 3
  103. ^ Moore 2019, pág. 176
  104. ^ ab Ficarra et al. 2020, pág. 48.
  105. ^ ab Ficarra et al. 2020, pág. 45.
  106. ^ Ficarra y otros, 2020, pág. 51
  107. ^ eResearch2020 2010, pág. 103.
  108. ^ Neylon 2017, pág. 1

Bibliografía

Definiciones

Informe

Libro y tesis

Artículo

Conferencia

Otros recursos