Un sistema de gestión de flujo de trabajo bioinformático es una forma especializada de sistema de gestión de flujo de trabajo diseñado específicamente para componer y ejecutar una serie de pasos computacionales o de manipulación de datos, o un flujo de trabajo , que se relacionan con la bioinformática .
Actualmente existen muchos sistemas de flujo de trabajo diferentes. Algunos se han desarrollado de manera más general como sistemas de flujo de trabajo científico para uso de científicos de muchas disciplinas diferentes, como la astronomía y las ciencias de la tierra . Todos estos sistemas se basan en una representación abstracta de cómo procede un cálculo en forma de un gráfico dirigido, donde cada nodo representa una tarea a ejecutar y los bordes representan el flujo de datos o las dependencias de ejecución entre diferentes tareas. Normalmente, cada sistema proporciona una interfaz visual que permite al usuario crear y modificar aplicaciones complejas con poca o ninguna experiencia en programación. [1] [2] [3]
Ejemplos
En orden alfabético, algunos ejemplos de sistemas de gestión de flujo de trabajo bioinformático incluyen:
- Anduril bioinformática y análisis de imágenes [4] [5]
- BioBIKE : una base de conocimientos biológicos integrada, programable y basada en la web [6]
- CLC bio , una plataforma de gestión de flujo de trabajo y análisis bioinformático de QIAGEN Digital Insights .
- Administrador de clones de Sci-Ed.
- Cuneiforme : un lenguaje de flujo de trabajo funcional para análisis de datos a gran escala [7]
- Discovery Net : uno de los primeros ejemplos de un sistema de flujo de trabajo científico, posteriormente comercializado como InforSense, que luego fue adquirido por IDBS. [ cita necesaria ]
- Galaxy : inicialmente dirigido a la genómica [8]
- GenePattern : un potente sistema de flujo de trabajo científico que brinda acceso a cientos de herramientas de análisis genómico. [9]
- KNIME, el minero de información de Konstanz [10]
- OnlineHPC Diseñador de flujo de trabajo en línea basado en Taverna [ cita necesaria ]
- Playbook Workflow Builder Generador de flujo de trabajo flexible para aplicaciones bioinformáticas basadas en servicios API. Desarrollado inicialmente para el programa del Fondo Común NIH CFDE [ cita necesaria ]
- UGENE proporciona un sistema de gestión de flujo de trabajo que se instala en una computadora local [11]
- VisTrails [12]
Comparaciones entre sistemas de flujo de trabajo
Con una gran cantidad de sistemas de flujo de trabajo bioinformáticos para elegir, [13] resulta difícil comprender y comparar las características de los diferentes sistemas de flujo de trabajo. Se ha realizado poco trabajo para evaluar y comparar los sistemas desde la perspectiva de un bioinformático, especialmente cuando se trata de comparar los tipos de datos que pueden manejar, las funcionalidades integradas que se proporcionan al usuario o incluso su rendimiento o usabilidad. Ejemplos de comparaciones existentes incluyen:
- El artículo "Sistemas de flujo de trabajo científicos: ¿puede haber una solución única para todos?", [3] que proporciona un marco de alto nivel para comparar sistemas de flujo de trabajo en función de sus propiedades de flujo de control y flujo de datos. Los sistemas comparados incluyen Discovery Net , Taverna , Triana, Kepler , así como Yawl y BPEL .
- El artículo "Meta-workflows: interoperabilidad basada en patrones entre Galaxy y Taverna" [14] que proporciona una comparación más orientada al usuario entre Taverna y Galaxy en el contexto de permitir la interoperabilidad entre ambos sistemas.
- El documento sobre infraestructura "Delivering ICT Infrastructure for Biomedical Research" [15] compara dos sistemas de flujo de trabajo, Anduril y Chipster, [16] en términos de requisitos de infraestructura en un modelo de entrega en la nube.
- El artículo "A review of bioinformatic pipeline frameworks" [17] intenta clasificar los sistemas de gestión de flujos de trabajo basándose en tres dimensiones: "utilizando una sintaxis implícita o explícita, utilizando una configuración, convención o paradigma de diseño basado en clases y ofreciendo una línea de comandos o banco de trabajo". interfaz".
Referencias
- ^ Oinn, T.; Greenwood, M.; Addis, M.; Alpdemir, Minnesota; Ferris, J.; Glover, K.; Goble, C .; Goderis, A.; casco, D.; Marvin, D.; Li, P.; Señor, P.; Pocock, señor; Senger, M.; Stevens, R.; Wipat, A.; Wroe, C. (2006). "Taverna: lecciones sobre la creación de un entorno de flujo de trabajo para las ciencias biológicas" (PDF) . Concurrencia y Computación: Práctica y Experiencia . 18 (10): 1067-1100. doi :10.1002/cpe.993. S2CID 10219281.
- ^ Yu, J.; Buyya, R. (2005). "Una taxonomía de sistemas de flujo de trabajo científicos para computación grid". Registro ACM SIGMOD . 34 (3): 44. CiteSeerX 10.1.1.63.3176 . doi :10.1145/1084805.1084814. S2CID 538714.
- ^ ab Curcin, V.; Ghanem, M. (2008). "Sistemas de flujo de trabajo científicos: ¿puede haber una solución única para todos?". Conferencia Internacional de Ingeniería Biomédica de El Cairo 2008 . págs. 1–9. doi :10.1109/CIBEC.2008.4786077. ISBN 978-1-4244-2694-2. S2CID 1885579.
- ^ "Sitio web de flujo de trabajo de Anduril".
- ^ Ovaska, Kristian; Laakso, Marko; Haapa-Paananen, Saija; Louhimo, Riku; Chen, Ping; Aittomäki, Viljami; Valo, Erkka; Núñez-Fontarnau, Javier; Rantanen, Ville (7 de septiembre de 2010). "El marco de integración de datos a gran escala proporciona una visión integral del glioblastoma multiforme". Medicina del genoma . 2 (9): 65. doi : 10.1186/gm186 . ISSN 1756-994X. PMC 3092116 . PMID 20822536.
- ^ Elhai, J.; Tatón, A.; Massar, J.; Myers, JK; Travers, M.; Casey, J.; Slupesky, M.; Shrager, J. (2009). "BioBIKE: una base de conocimientos biológicos integrada, programable y basada en la web". Investigación de ácidos nucleicos . 37 (problema del servidor web): W28–W32. doi :10.1093/nar/gkp354. PMC 2703918 . PMID 19433511.
- ^ Brandt, Jörgen; Bux, Marc N.; Leser, Ulf (2015). "Cuneiforme: un lenguaje funcional para el análisis de datos científicos a gran escala" (PDF) . Actas de los Talleres de la EDBT/ICDT . 1330 : 17-26.
- ^ Goecks, J.; Nekrutenko, A.; Taylor, J.; Equipo Galaxy, T. (2010). "Galaxy: un enfoque integral para respaldar la investigación computacional accesible, reproducible y transparente en las ciencias biológicas". Biología del genoma . 11 (8): R86. doi : 10.1186/gb-2010-11-8-r86 . PMC 2945788 . PMID 20738864.
- ^ Reich, Michael; et al. (2006). "Patrón genético 2.0". Genética de la Naturaleza . 38 (1): 500–5001. doi :10.1038/ng0506-500. PMID 16642009. S2CID 5503897.
- ^ Tiwari, Abhishek; Sekhar, Arvind KT (2007). "Marco basado en flujo de trabajo para la informática de las ciencias biológicas". Biología y Química Computacional . 31 (5–6): 305–319. doi :10.1016/j.compbiolchem.2007.08.009. PMID 17931570.
- ^ Okónechnikov, K; Golosova, O; Fursov, M; Ugene, equipo (2012). "Unipro UGENE: un conjunto de herramientas de bioinformática unificada". Bioinformática . 28 (8): 1166–7. doi : 10.1093/bioinformática/bts091 . PMID 22368248.
- ^ Bavoil, L.; Callahan, SP; Crossno, PJ; Freire, J.; Scheidegger, CE; Silva, CT; Vo, HT (2005). "VisTrails: habilitación de visualizaciones interactivas de múltiples vistas". VIS 05. Visualización IEEE, 2005 . págs. 135-142. doi :10.1109/VISUAL.2005.1532788. ISBN 978-0-7803-9462-9.
- ^ "Sistemas de flujo de trabajo existentes". Wiki de lenguaje de flujo de trabajo común . Archivado desde el original el 17 de octubre de 2019 . Consultado el 17 de octubre de 2019 .
- ^ Abouelhoda, M.; Alaa, S.; Ghanem, M. (2010). "Meta-flujos de trabajo". Actas del primer taller internacional sobre enfoques de flujo de trabajo para la nueva ciencia centrada en datos: Wands '10 . pag. 1. doi : 10.1145/1833398.1833400. ISBN 9781450301886. S2CID 17343728.
- ^ Nyrönen, TH; Laitinen, J; et al. (2012), Entrega de infraestructura de TIC para la investigación biomédica , Actas del volumen complementario de WICSA/ECSA 2012 (WICSA/ECSA '12), ACM, págs. 37–44, doi :10.1145/2361999.2362006, ISBN 9781450315685, S2CID 18199745
- ^ Kallio, MA; Tuimala, JT; Hupponen, T; Klemelä, P; Gentil, M; Scheinin, yo; Koski, M; Käki, J; Korpelainen, IE (2011). "Chipster: software de análisis fácil de usar para microarrays y otros datos de alto rendimiento". Genómica BMC . 12 : 507. doi : 10.1186/1471-2164-12-507 . PMC 3215701 . PMID 21999641.
- ^ Leipzig J (2016). "Una revisión de los marcos de la canalización bioinformática". Sesiones informativas en Bioinformática . 18 (3): 530–536. doi :10.1093/babero/bbw020. PMC 5429012 . PMID 27013646.