Proyecto de software para el análisis de datos genómicos
Bioconductor es un proyecto de software gratuito , de código abierto y de desarrollo abierto para el análisis y la comprensión de datos genómicos generados por experimentos de laboratorio en biología molecular .
Bioconductor se basa principalmente en el lenguaje de programación estadístico R , pero contiene contribuciones en otros lenguajes de programación. Tiene dos versiones cada año que siguen a las versiones semestrales de R. En cualquier momento hay una versión de lanzamiento , que corresponde a la versión lanzada de R, y una versión de desarrollo , que corresponde a la versión de desarrollo de R. La mayoría de los usuarios encontrarán la versión de lanzamiento adecuada para sus necesidades. Además, hay muchos paquetes de anotación de genoma disponibles que están orientados principalmente, pero no exclusivamente, a diferentes tipos de microarrays .
Mientras se siguen desarrollando métodos computacionales para interpretar datos biológicos, el proyecto Bioconductor es un repositorio de software de código abierto que alberga una amplia gama de herramientas estadísticas desarrolladas en el entorno de programación R. Utilizando una amplia gama de características estadísticas y gráficas en R, se han desarrollado muchos paquetes Bioconductor para satisfacer diversas necesidades de análisis de datos. El uso de estos paquetes proporciona una comprensión básica del lenguaje de programación/comandos R. Como resultado, los paquetes R y Bioconductor, que tienen una sólida base informática, son utilizados por la mayoría de los biólogos que se beneficiarán significativamente de su capacidad para analizar conjuntos de datos. Todos estos resultados proporcionan a los biólogos un fácil acceso al análisis de datos genómicos sin necesidad de conocimientos de programación.
El proyecto se inició en el otoño de 2001 y está supervisado por el equipo central de Bioconductor, con sede principalmente en el Centro de Investigación del Cáncer Fred Hutchinson , con otros miembros provenientes de instituciones internacionales.
Paquetes
La mayoría de los componentes de Bioconductor se distribuyen como paquetes R , que son módulos complementarios para R. Inicialmente, la mayoría de los paquetes de software de Bioconductor se centraban en el análisis de microarrays de ADNc / oligo de Affymetrix de un solo canal y de dos o más canales . A medida que el proyecto fue madurando, el alcance funcional de los paquetes de software se amplió para incluir el análisis de todo tipo de datos genómicos, como datos de SAGE, secuencias o SNP .
Objetivos
Los objetivos generales de los proyectos son:
Características principales
- Documentación e investigación reproducible . Cada paquete Bioconductor contiene al menos una viñeta, que es un documento que proporciona una descripción textual y orientada a tareas de la funcionalidad del paquete. Estas viñetas vienen en varias formas. Muchas son simples instrucciones prácticas diseñadas para demostrar cómo se puede realizar una tarea en particular con el software de ese paquete. Otras proporcionan una descripción general más completa del paquete o incluso pueden tratar cuestiones generales relacionadas con el paquete. En el futuro, el proyecto Bioconductor busca proporcionar viñetas que no estén específicamente vinculadas a un paquete, sino que demuestren conceptos más complejos. Como ocurre con todos los aspectos del proyecto Bioconductor, se anima a los usuarios a participar en este esfuerzo.
- Métodos estadísticos y gráficos . El proyecto Bioconductor tiene como objetivo proporcionar acceso a una amplia gama de potentes métodos estadísticos y gráficos para el análisis de datos genómicos. Hay paquetes de análisis disponibles para: preprocesamientode datos de matrices de ADNc de Affymetrix e Illumina ; identificación de genes expresados diferencialmente ; análisis teóricos de gráficos; representación gráfica de datos genómicos. Además, el propio sistema de paquetes R proporciona implementaciones para una amplia gama de técnicas estadísticas y gráficas de última generación , incluidos el modelado lineal y no lineal , el análisis de conglomerados , la predicción , el remuestreo , el análisis de supervivencia y el análisis de series temporales .
- Anotación de genomas . El proyecto Bioconductor proporciona software para asociar microarrays y otros datos genómicos en tiempo real a metadatos biológicos de bases de datos web como GenBank , LocusLink y PubMed (paquete annotate). También se proporcionan funciones para incorporar los resultados del análisis estadístico en informes HTML con enlaces a recursos WWW de anotación. Hay herramientas de software disponibles para ensamblar y procesar datos de anotación genómica, de bases de datos como GenBank , Gene Ontology Consortium , LocusLink, UniGene , UCSC Human Genome Project y otras con el paquete AnnotationDbi. Se distribuyen paquetes de datos para proporcionar asignaciones entre diferentes identificadores de sonda (p. ej. Affy IDs, LocusLink, PubMed ). También se pueden ensamblar bibliotecas de anotación personalizadas. Este proyecto también contiene varias funciones para análisis genómico y filogenético (p. ej. ggtree, paquetes phytools...).
- Código abierto . El proyecto Bioconductor tiene el compromiso de utilizar una disciplina de código abierto, con distribución a través de una plataforma similar a SourceForge.net . Se espera que todas las contribuciones existan bajo una licencia de código abierto , como Artistic 2.0 , GPL2 o BSD . Existen muchas razones diferentes por las que el software de código abierto es beneficioso para el análisis de datos de microarrays y para la biología computacional en general. Las razones incluyen:
- Desarrollo abierto . Se anima a los usuarios a convertirse en desarrolladores , ya sea aportando paquetes o documentación compatibles con Bioconductor. Además, Bioconductor proporciona un mecanismo para vincular a diferentes grupos con objetivos comunes para fomentar la colaboración en el software, posiblemente a nivel de desarrollo compartido.
Hitos
Cada versión de Bioconductor se desarrolla para funcionar mejor con una versión seleccionada de R. [1] Además de correcciones de errores y actualizaciones, una nueva versión generalmente agrega paquetes. La siguiente tabla asigna una versión de Bioconductor a una versión de R y muestra la cantidad de paquetes de software de Bioconductor disponibles para esa versión.
Recursos
- Gentleman, R .; Carey, V.; Huber, W .; Irizarry, R.; Dudoit , S. (2005). Soluciones de bioinformática y biología computacional utilizando R y Bioconductor . Springer. ISBN 978-0-387-25146-2.
- Gentleman, R. (2008). Programación R para bioinformática. Chapman & Hall/CRC. ISBN 978-1-4200-6367-7.
- Hahne, F.; Huber, W .; Gentleman, R .; Falcon, S. (2008). Estudios de casos de bioconductores. Springer. ISBN 978-0-387-77239-4.
- Caballero, Robert C .; Carey, Vincent J.; Bates, Douglas M.; Bolstad, Ben; Dettling, Marcel ; Dudoit, Sandrine ; Ellis, Byron; Gautier, Laurent; Ge, Yongchao; Gentry, Jeff; Hornik, Kurt; Hothorn, Torsten; Huber, Wolfgang ; Iacus, Stefano; Irizarry, Rafael ; Leisch, Friedrich; Li, Cheng; Maechler, Martin; Rossini, Anthony J.; Sawitzki, Gunther; Smith, Colin; Smyth, Gordon; Tierney, Luke ; Yang, Jean YH ; Zhang, Jianhua (2004). "Bioconductor: desarrollo de software abierto para biología computacional y bioinformática". Genome Biology . 5 (10): R80. doi : 10.1186/gb-2004-5-10-r80 . PMC 545600 . Número de modelo: PMID15461798.
Véase también
Referencias
- ^ "Bioconductor – Anuncios de lanzamiento". bioconductor.org . Bioconductor . Consultado el 28 de mayo de 2019 .
Enlaces externos
- Sitio web oficial
- El Proyecto R GNU R es un lenguaje de programación para el cálculo estadístico.
- Comunicados de bioconductores
- La comunidad de la distribución Debian GNU/Linux se esfuerza por lograr una construcción automatizada de paquetes BioConductor para su distribución. BioKnoppix y Quantian son proyectos que extienden Knoppix y que han contribuido con CD de arranque de Debian GNU/Linux que proporcionan instalaciones de BioConductor.