Discovery Net es uno de los primeros ejemplos de un sistema de flujo de trabajo científico que permite a los usuarios coordinar la ejecución de servicios remotos basados en estándares de servicios web y Grid Services (OGSA y Open Grid Services Architecture ). El sistema fue diseñado e implementado en el Imperial College de Londres como parte del proyecto piloto Discovery Net financiado por el Programa de e-Ciencia del Reino Unido ( E-Science § UK programme ). Muchos de los conceptos iniciados por Discovery Net se han incorporado posteriormente a una variedad de otros sistemas de flujo de trabajo científico.
El sistema Discovery Net se desarrolló como parte del proyecto piloto Discovery Net (2001-2005), un proyecto de investigación de 2 millones de libras financiado por el EPSRC en el marco del Programa de e-Ciencia del Reino Unido ( E-Science § UK programme ). La investigación del proyecto se llevó a cabo en el Imperial College de Londres como una colaboración entre los Departamentos de Informática, Física, Bioquímica y Ciencias de la Tierra e Ingeniería. Al ser un proyecto de una sola institución, el proyecto fue único en comparación con los otros 10 proyectos piloto financiados por el EPSRC, que eran todos multiinstitucionales.
Los objetivos del proyecto Discovery Net eran investigar y abordar las cuestiones clave en el desarrollo de una plataforma de e-ciencia para el descubrimiento científico a partir de los datos generados por una amplia variedad de dispositivos de alto rendimiento. En un principio, se consideraron los requisitos de las aplicaciones en ciencias de la vida, monitoreo de riesgos geológicos, modelado ambiental y energía renovable. El proyecto cumplió con éxito todos sus objetivos, incluido el desarrollo de la plataforma de flujo de trabajo Discovery Net y el sistema de flujo de trabajo. Con el paso de los años, el sistema evolucionó para abordar aplicaciones en muchas otras áreas, incluidas la bioinformática , la quimioinformática , la informática de la salud , la minería de textos y las aplicaciones financieras y comerciales.
El sistema Discovery Net desarrollado en el marco del proyecto es uno de los primeros ejemplos de sistemas de flujo de trabajo científicos . Se trata de una plataforma de e-ciencia basada en un modelo de flujo de trabajo que permite la integración de fuentes de datos distribuidas y herramientas analíticas, lo que permite a los usuarios finales obtener nuevos conocimientos a partir de dispositivos, sensores, bases de datos, componentes de análisis y recursos computacionales que residen en Internet o en la red.
El sistema se basa en una arquitectura de múltiples niveles, con un servidor de flujo de trabajo que proporciona una serie de funciones de apoyo necesarias para la creación y ejecución de flujos de trabajo, como la integración y el acceso a recursos informáticos y de datos remotos, herramientas de colaboración, visualizadores y mecanismos de publicación. La arquitectura en sí misma evolucionó a lo largo de los años centrándose en los aspectos internos del servidor de flujo de trabajo (Ghanem et al. 2009) para admitir la extensibilidad en múltiples dominios de aplicación, así como en diferentes entornos de ejecución.
Los flujos de trabajo de Discovery Net se representan y almacenan utilizando DPML (Discovery Process Markup Language), un lenguaje de representación basado en XML para gráficos de flujo de trabajo que admite tanto un modelo de flujo de datos de computación (para flujos de trabajo analíticos) como un modelo de flujo de control (para orquestar múltiples flujos de trabajo disjuntos).
Al igual que la mayoría de los sistemas de flujo de trabajo modernos, el sistema admitía una interfaz visual de arrastrar y soltar que permitía a los usuarios construir fácilmente sus aplicaciones conectando nodos entre sí.
En DPML, cada nodo de un gráfico de flujo de trabajo representa un componente ejecutable (por ejemplo, una herramienta computacional o un contenedor que puede extraer datos de una fuente de datos en particular). Cada componente tiene una serie de parámetros que el usuario puede configurar y también una serie de puertos de entrada y salida para recibir y transmitir datos.
Cada borde dirigido en el gráfico representa una conexión desde un puerto de salida, es decir, la cola del borde, a un puerto de entrada, es decir, la cabeza del borde. Un puerto está conectado si hay una o más conexiones desde/hacia ese puerto. Además, cada nodo en el gráfico proporciona metadatos que describen los puertos de entrada y salida del componente, incluido el tipo de datos que se pueden pasar al componente y los parámetros del servicio que un usuario podría querer cambiar. Dicha información se utiliza para la verificación de flujos de trabajo y para garantizar un encadenamiento significativo de componentes. Una conexión entre un puerto de entrada y un puerto de salida es válida solo si los tipos son compatibles, lo que se aplica estrictamente.
Una contribución clave del sistema es su clara separación entre los modelos de flujo de datos y flujo de control de los cálculos dentro de los flujos de trabajo científicos. Esto se logra mediante el concepto de incrustación, que permite incrustar fragmentos completos de flujo de datos con fragmentos estructurados en bloques de construcciones de flujo de control. Esto da como resultado gráficos de flujo de trabajo más simples en comparación con otros sistemas de flujo de trabajo científicos, por ejemplo, Taverna Workbench y el sistema de flujo de trabajo científico Kepler , y también brinda la oportunidad de aplicar métodos formales para el análisis de sus propiedades.
Una característica clave del diseño del sistema ha sido su compatibilidad con la gestión de datos dentro del propio motor de flujo de trabajo. Se trata de una característica importante, ya que los experimentos científicos suelen generar y utilizar grandes cantidades de conjuntos de datos heterogéneos y distribuidos. Por tanto, el sistema se diseñó para admitir la persistencia y el almacenamiento en caché de productos de datos intermedios y también para admitir la ejecución escalable del flujo de trabajo sobre conjuntos de datos potencialmente grandes utilizando recursos informáticos remotos.
Un segundo aspecto importante del sistema Discovery Net se basa en un lenguaje de flujo de trabajo tipificado y su extensibilidad para admitir tipos de datos arbitrarios definidos por el usuario. La tipificación de datos simplifica el desarrollo del flujo de trabajo científico, mejora la optimización de los flujos de trabajo y mejora la comprobación de errores para la validación del flujo de trabajo. El sistema incluía una serie de tipos de datos predeterminados con el fin de admitir la minería de datos en una variedad de aplicaciones científicas. Estos incluían un modelo relacional para datos tabulares, un modelo de datos bioinformáticos ( FASTA ) para representar secuencias genéticas y un modelo de marcado independiente para la minería de texto basado en la arquitectura Tipster .
Cada modelo tiene asociado un conjunto de componentes de importación y exportación de datos, así como visualizadores específicos, que se integran con las herramientas genéricas de importación, exportación y visualización ya presentes en el sistema. A modo de ejemplo, los compuestos químicos representados en el formato ampliamente utilizado SMILES ( Simplified molecular input line entry Specification ) se pueden importar dentro de tablas de datos, donde se pueden representar adecuadamente utilizando una representación tridimensional o su fórmula estructural. El modelo relacional también sirve como modelo de datos base para la integración de datos, y se utiliza para la mayoría de las tareas genéricas de limpieza y transformación de datos.
El sistema ganó el premio "Most Innovative Data Intensive Application Award" (Premio a la aplicación más innovadora en el uso intensivo de datos) en la conferencia y exposición ACM SC02 (Supercomputing 2002), gracias a una demostración de un proceso de anotación genómica distribuido totalmente interactivo para un estudio de caso del genoma de la malaria. Muchas de las características del sistema (características de arquitectura, interfaz visual, acceso simplificado a servicios remotos de red y web e inclusión de un almacén de flujo de trabajo) se consideraron novedosas en su momento y, desde entonces, se han incorporado a otros sistemas académicos y comerciales, y especialmente a las características que se encuentran en los sistemas de gestión de flujo de trabajo de bioinformática .
Más allá del proyecto original Discovery Net, el sistema se ha utilizado en un gran número de aplicaciones científicas, por ejemplo, el proyecto BAIR: Atlas biológico de la resistencia a la insulina financiado por el Wellcome Trust y también en un gran número de proyectos financiados tanto por el EPSRC como por el BBSRC en el Reino Unido. La tecnología y el sistema Discovery Net también han evolucionado hasta convertirse en productos comerciales a través de la empresa derivada del Imperial College InforSense Ltd, que amplió y aplicó el sistema en una amplia variedad de aplicaciones comerciales, así como a través de otros proyectos de investigación, incluidos SIMDAT, TOPCOMBI, BRIDGE y ARGUGRID [ cita requerida ] . [1]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )