Red de descubrimiento

Discovery Net es uno de los primeros ejemplos de un sistema de flujo de trabajo científico que permite a los usuarios coordinar la ejecución de servicios remotos basados en estándares de servicios web y Grid Services (OGSA y Open Grid Services Architecture ). El sistema fue diseñado e implementado en el Imperial College de Londres como parte del proyecto piloto Discovery Net financiado por el Programa de e-Ciencia del Reino Unido ( E-Science § UK programme ). Muchos de los conceptos iniciados por Discovery Net se han incorporado posteriormente a una variedad de otros sistemas de flujo de trabajo científico.

Historia

El sistema Discovery Net se desarrolló como parte del proyecto piloto Discovery Net (2001-2005), un proyecto de investigación de 2 millones de libras financiado por el EPSRC en el marco del Programa de e-Ciencia del Reino Unido ( E-Science § UK programme ). La investigación del proyecto se llevó a cabo en el Imperial College de Londres como una colaboración entre los Departamentos de Informática, Física, Bioquímica y Ciencias de la Tierra e Ingeniería. Al ser un proyecto de una sola institución, el proyecto fue único en comparación con los otros 10 proyectos piloto financiados por el EPSRC, que eran todos multiinstitucionales.

Los objetivos del proyecto Discovery Net eran investigar y abordar las cuestiones clave en el desarrollo de una plataforma de e-ciencia para el descubrimiento científico a partir de los datos generados por una amplia variedad de dispositivos de alto rendimiento. En un principio, se consideraron los requisitos de las aplicaciones en ciencias de la vida, monitoreo de riesgos geológicos, modelado ambiental y energía renovable. El proyecto cumplió con éxito todos sus objetivos, incluido el desarrollo de la plataforma de flujo de trabajo Discovery Net y el sistema de flujo de trabajo. Con el paso de los años, el sistema evolucionó para abordar aplicaciones en muchas otras áreas, incluidas la bioinformática , la quimioinformática , la informática de la salud , la minería de textos y las aplicaciones financieras y comerciales.

Sistema de flujo de trabajo científico

El sistema Discovery Net desarrollado en el marco del proyecto es uno de los primeros ejemplos de sistemas de flujo de trabajo científicos . Se trata de una plataforma de e-ciencia basada en un modelo de flujo de trabajo que permite la integración de fuentes de datos distribuidas y herramientas analíticas, lo que permite a los usuarios finales obtener nuevos conocimientos a partir de dispositivos, sensores, bases de datos, componentes de análisis y recursos computacionales que residen en Internet o en la red.

Arquitectura y servidor de flujo de trabajo

El sistema se basa en una arquitectura de múltiples niveles, con un servidor de flujo de trabajo que proporciona una serie de funciones de apoyo necesarias para la creación y ejecución de flujos de trabajo, como la integración y el acceso a recursos informáticos y de datos remotos, herramientas de colaboración, visualizadores y mecanismos de publicación. La arquitectura en sí misma evolucionó a lo largo de los años centrándose en los aspectos internos del servidor de flujo de trabajo (Ghanem et al. 2009) para admitir la extensibilidad en múltiples dominios de aplicación, así como en diferentes entornos de ejecución.

Creación de flujos de trabajo visuales

Los flujos de trabajo de Discovery Net se representan y almacenan utilizando DPML (Discovery Process Markup Language), un lenguaje de representación basado en XML para gráficos de flujo de trabajo que admite tanto un modelo de flujo de datos de computación (para flujos de trabajo analíticos) como un modelo de flujo de control (para orquestar múltiples flujos de trabajo disjuntos).

Al igual que la mayoría de los sistemas de flujo de trabajo modernos, el sistema admitía una interfaz visual de arrastrar y soltar que permitía a los usuarios construir fácilmente sus aplicaciones conectando nodos entre sí.

En DPML, cada nodo de un gráfico de flujo de trabajo representa un componente ejecutable (por ejemplo, una herramienta computacional o un contenedor que puede extraer datos de una fuente de datos en particular). Cada componente tiene una serie de parámetros que el usuario puede configurar y también una serie de puertos de entrada y salida para recibir y transmitir datos.

Cada borde dirigido en el gráfico representa una conexión desde un puerto de salida, es decir, la cola del borde, a un puerto de entrada, es decir, la cabeza del borde. Un puerto está conectado si hay una o más conexiones desde/hacia ese puerto. Además, cada nodo en el gráfico proporciona metadatos que describen los puertos de entrada y salida del componente, incluido el tipo de datos que se pueden pasar al componente y los parámetros del servicio que un usuario podría querer cambiar. Dicha información se utiliza para la verificación de flujos de trabajo y para garantizar un encadenamiento significativo de componentes. Una conexión entre un puerto de entrada y un puerto de salida es válida solo si los tipos son compatibles, lo que se aplica estrictamente.

Separación entre flujos de datos y de control

Una contribución clave del sistema es su clara separación entre los modelos de flujo de datos y flujo de control de los cálculos dentro de los flujos de trabajo científicos. Esto se logra mediante el concepto de incrustación, que permite incrustar fragmentos completos de flujo de datos con fragmentos estructurados en bloques de construcciones de flujo de control. Esto da como resultado gráficos de flujo de trabajo más simples en comparación con otros sistemas de flujo de trabajo científicos, por ejemplo, Taverna Workbench y el sistema de flujo de trabajo científico Kepler , y también brinda la oportunidad de aplicar métodos formales para el análisis de sus propiedades.

Gestión de datos y modelos de datos múltiples

Una característica clave del diseño del sistema ha sido su compatibilidad con la gestión de datos dentro del propio motor de flujo de trabajo. Se trata de una característica importante, ya que los experimentos científicos suelen generar y utilizar grandes cantidades de conjuntos de datos heterogéneos y distribuidos. Por tanto, el sistema se diseñó para admitir la persistencia y el almacenamiento en caché de productos de datos intermedios y también para admitir la ejecución escalable del flujo de trabajo sobre conjuntos de datos potencialmente grandes utilizando recursos informáticos remotos.

Un segundo aspecto importante del sistema Discovery Net se basa en un lenguaje de flujo de trabajo tipificado y su extensibilidad para admitir tipos de datos arbitrarios definidos por el usuario. La tipificación de datos simplifica el desarrollo del flujo de trabajo científico, mejora la optimización de los flujos de trabajo y mejora la comprobación de errores para la validación del flujo de trabajo. El sistema incluía una serie de tipos de datos predeterminados con el fin de admitir la minería de datos en una variedad de aplicaciones científicas. Estos incluían un modelo relacional para datos tabulares, un modelo de datos bioinformáticos ( FASTA ) para representar secuencias genéticas y un modelo de marcado independiente para la minería de texto basado en la arquitectura Tipster .

Cada modelo tiene asociado un conjunto de componentes de importación y exportación de datos, así como visualizadores específicos, que se integran con las herramientas genéricas de importación, exportación y visualización ya presentes en el sistema. A modo de ejemplo, los compuestos químicos representados en el formato ampliamente utilizado SMILES ( Simplified molecular input line entry Specification ) se pueden importar dentro de tablas de datos, donde se pueden representar adecuadamente utilizando una representación tridimensional o su fórmula estructural. El modelo relacional también sirve como modelo de datos base para la integración de datos, y se utiliza para la mayoría de las tareas genéricas de limpieza y transformación de datos.

Aplicaciones

El sistema ganó el premio "Most Innovative Data Intensive Application Award" (Premio a la aplicación más innovadora en el uso intensivo de datos) en la conferencia y exposición ACM SC02 (Supercomputing 2002), gracias a una demostración de un proceso de anotación genómica distribuido totalmente interactivo para un estudio de caso del genoma de la malaria. Muchas de las características del sistema (características de arquitectura, interfaz visual, acceso simplificado a servicios remotos de red y web e inclusión de un almacén de flujo de trabajo) se consideraron novedosas en su momento y, desde entonces, se han incorporado a otros sistemas académicos y comerciales, y especialmente a las características que se encuentran en los sistemas de gestión de flujo de trabajo de bioinformática .

Más allá del proyecto original Discovery Net, el sistema se ha utilizado en un gran número de aplicaciones científicas, por ejemplo, el proyecto BAIR: Atlas biológico de la resistencia a la insulina financiado por el Wellcome Trust y también en un gran número de proyectos financiados tanto por el EPSRC como por el BBSRC en el Reino Unido. La tecnología y el sistema Discovery Net también han evolucionado hasta convertirse en productos comerciales a través de la empresa derivada del Imperial College InforSense Ltd, que amplió y aplicó el sistema en una amplia variedad de aplicaciones comerciales, así como a través de otros proyectos de investigación, incluidos SIMDAT, TOPCOMBI, BRIDGE y ARGUGRID ^{[ cita requerida ]} . ^[1]

Véase también

Taberna Apache

Referencias

^ "Se lanza una nueva alianza para mejorar el análisis de TI | Imperial News | Imperial College London". Imperial News . Consultado el 25 de abril de 2019 .

Ghanem, M; Guo, Y; Rowe, A; Wendel, P (2002). "Servicios de descubrimiento de conocimiento basados en cuadrículas para informática de alto rendimiento". Actas del 11.º Simposio Internacional IEEE sobre Computación Distribuida de Alto Rendimiento . p. 416. doi :10.1109/HPDC.2002.1029946. ISBN 0-7695-1686-6. Número de identificación del sujeto 28782519.
Ćurčin, V; Ghanem, M; Guo, Y; Köhler, M; Rowe, A; Syed, J; Wendel, P (2002). "Discovery net". Actas de la octava conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '02 . págs. 658–63. doi :10.1145/775047.775145. ISBN 1-58113-567-X.S2CID14652611 .
Jameel Syed, Moustafa Ghanem, Yike Guo. Procesos de descubrimiento: representación y reutilización . Actas de la primera conferencia general sobre ciencia electrónica del Reino Unido, Sheffield, Reino Unido. Septiembre de 2002.
Nikolaos Giannadakis, Moustafa Ghanem, Yike Guo. Integración de información para la e-Ciencia . Actas de la primera conferencia de e-ciencia del Reino Unido, Sheffield, Reino Unido. Septiembre de 2002.
Ghanem, Moustafa M; Guo, Yike; Lodhi, Huma; Zhang, Yong (2002). "Clasificación automática de textos científicos utilizando patrones locales". Boletín de exploraciones de la ACM SIGKDD . 4 (2): 95. doi :10.1145/772862.772876. S2CID 6328759.
Rowe, A; Kalaitzopoulos, D; Osmond, M; Ghanem, M; Guo, Y (2003). "El sistema Discovery Net para bioinformática de alto rendimiento". Bioinformática . 19 Suppl 1: i225–31. doi : 10.1093/bioinformatics/btg1031 . PMID 12855463.
Alsairafi, Salman; Emmanouil, Filippia-Sofia; Ghanem, Moustafa; Giannadakis, Nikolaos; Guo, Yike; Kalaitzopoulos, Dimitrios; Osmond, Michelle; Rowe, Anthony; Syed, Jameel; Wendel, Patrick (2016). "El diseño de Discovery Net: hacia servicios de red abierta para el descubrimiento de conocimiento". Revista internacional de aplicaciones informáticas de alto rendimiento . 17 (3): 297. doi :10.1177/1094342003173003. S2CID 15707637.
Giannadakis, Nikolaos; Rowe, Anthony; Ghanem, Moustafa; Guo, Yi-ke (2003). "InfoGrid: Proporcionando integración de información para el descubrimiento de conocimiento". Ciencias de la Información . 155 (3–4): 199–226. doi :10.1016/S0020-0255(03)00170-1.
Moustafa Ghanem, Yike Guo, Anthony Rowe. Minería integrada de datos y textos en apoyo de la bioinformática . Actas de la 3.ª Conferencia de e-Science All-hands del Reino Unido, AHM 2004, Nottingham, Reino Unido. Septiembre de 2004.
Vasa Curcin, Moustafa Ghanem, Yike Guo. Análisis del SARS en la red . Actas de la 3.ª conferencia de e-Science All-hands Conference del Reino Unido AHM 2004, Nottingham, Reino Unido. Septiembre de 2004.
Peter Au, Vasa Curcin, Moustafa Ghanem, Nikolaos Giannadakis, Yike Guo, Mohammad Jafri, Michelle Osmond, Anthony Rowe, Jameel Syed, Patrick Wendel, Yong Zhang. ¿Por qué es importante la minería de datos basada en la red? Lucha contra los desastres naturales en la red: desde el SARS hasta los deslizamientos de tierra . Actas de la 3.ª Conferencia de expertos en ciencia electrónica del Reino Unido AHM 2004. Septiembre de 2004
Curcin, V; Ghanem, M; Yike Guo; Rowe, A; He, W; Hao Pei; Lu Qiang; Yuanyuan Li (2004). "Infraestructura de servicios de TI para la biología de sistemas integradora". IEEE International Conference on Services Computing, 2004. (SCC 2004). Actas. 2004. págs. 123–31. doi :10.1109/SCC.2004.1357998. ISBN . 0-7695-2225-4. Número de identificación del sujeto 28687432.
Moustafa Ghanem, Vasa Curcin, Yike Guo, Neil Davis, Rob Gaizauskas, Yikun Guo, Henk Harkema, Ian Roberts, Jonathan Ratcliffe. GoTag: un estudio de caso sobre el uso de una infraestructura de e-ciencia compartida en el Reino Unido . 4.ª reunión de todos los participantes en e-ciencia del Reino Unido, 2005. Septiembre de 2005
Neil Davis, Henk Harkema, Rob Gaizauskas, Yikun Guo, Moustafa Ghanem, Tom Barnwell, Yike Guo, Jonathan Ratcliffe. "Tres enfoques para el etiquetado GO de resúmenes biomédicos" . Actas del taller CEUR. Abril de 2006.
Ghanem, Moustafa; Azam, Nabeel; Boniface, Mike; Ferris, Justin (2006). "Flujos de trabajo habilitados para red para el diseño de productos industriales" (PDF) . Segunda Conferencia Internacional IEEE de 2006 sobre e-ciencia y computación en red (e-Science'06) . pág. 96. doi :10.1109/E-SCIENCE.2006.261180. ISBN 0-7695-2734-5.
Moustafa Ghanem, Nabeel Azam, Mike Boniface. Interoperabilidad de flujos de trabajo en sistemas basados en redes . Taller sobre redes de Cracovia 2006. Octubre de 2006
Vasa Curcin, Moustafa Ghanem, Yike Guo, Kostas Stathis, Francesca Toni . Building next generation Service-Oriented Architectures using argumentation agents . Tercera Conferencia Internacional sobre Ingeniería y Gestión de Servicios de Red (GSEM 2006). Springer Verlag. Septiembre de 2006.
Patrick Wendel, Arnold Fung, Moustafa Ghanem, Yike Guo. Diseño de un programador de cuadrícula basado en Java utilizando servicios básicos . Actas de la reunión general de e-Science del Reino Unido de 2006. Nottingham, Reino Unido, septiembre de 2006.
Qiang Lu, Xinzhong Li, Moustafa Ghanem, Yike Guo, Haiyan Pan. Integración de R en Discovery Net . Actas de la reunión general de e-Science del Reino Unido de 2006. Septiembre de 2006.
"CSDL | IEEE Computer Society". doi :10.1109/E-SCIENCE.2006.17. S2CID 18097525. {{cite journal}}: Requiere citar revista |journal=( ayuda )
Richards, M; Ghanem, M; Osmond, M; Guo, Y; Hassard, J (2006). "Análisis basado en cuadrículas de datos de contaminación del aire". Modelado ecológico . 194 (1–3): 274–286. doi :10.1016/j.ecolmodel.2005.10.042.
Syed, Jameel; Ghanem, Moustafa; Guo, Yike (2007). "Apoyo a los procesos de descubrimiento científico en Discovery Net". Concurrencia y computación: práctica y experiencia . 19 (2): 167. doi :10.1002/cpe.1049. S2CID 16212949.
Vasa Curcin, Moustafa Ghanem, Yike Guo, John Darlington. Minería de reacciones adversas a medicamentos con flujos de trabajo de ciencia electrónica . Actas de la 4.ª Conferencia Internacional de Ingeniería Biomédica de El Cairo, 2008. CIBEC 2008. Diciembre de 2008.
Curcin, V; Ghanem, M (2008). "Sistemas de flujo de trabajo científico: ¿puede haber uno único que sirva para todos?". Conferencia Internacional de Ingeniería Biomédica de El Cairo de 2008. págs. 1–9. doi :10.1109/CIBEC.2008.4786077. ISBN 978-1-4244-2694-2. Número de identificación del sujeto 1885579.
Ghanem, Moustafa; Curcin, Vasa; Wendel, Patrick; Guo, Yike (2009). "Creación y uso de flujos de trabajo analíticos en Discovery Net". Técnicas de minería de datos en entornos de computación en cuadrícula . págs. 119–39. doi :10.1002/9780470699904.ch8. ISBN . 978-0-470-69990-4.
Curcin, Vasa; Ghanem, Moustafa M; Guo, Yike (2009). "Análisis de flujos de trabajo científicos con lógica de árbol computacional". Computación en clúster . 12 (4): 399. doi :10.1007/s10586-009-0099-6. S2CID 12600641.
Antje Wolf, Martin Hofmann-Apitius, Moustafa Ghanem, Nabeel Azam, Dimitrios Kalaitzopoulos, Kunqian Yu, Vinod Kasam. DockFlow: un prototipo de PharmaGrid para la detección virtual que integra cuatro herramientas de acoplamiento diferentes . En Proceedings of HealthGrid 2009, volumen 147, págs. 3-12 Estudios en tecnología e informática de la salud, mayo de 2009

Enlaces externos

Lista de proyectos piloto de e-ciencia financiados por el EPSRC "https://web.archive.org/web/20100723012926/http://www.epsrc.ac.uk/about/progs/rii/escience/Pages/fundedprojects.aspx"
SIMDAT "http://www.simdat.org/".
El proyecto BRIDGE "http://www.bridge-grid.eu/ Archivado el 20 de febrero de 2008 en Wayback Machine . "
El proyecto ARGUGRID "http://www.argugrid.eu/ Archivado el 6 de septiembre de 2010 en Wayback Machine . "
Proyecto BAIR: "https://web.archive.org/web/20100430111119/http://www.bair.org.uk/"
InforSense Ltd. "https://web.archive.org/web/20100328015758/http://www.inforsense.com/"