Genómica computacional

La genómica computacional se refiere al uso de análisis computacional y estadístico para descifrar la biología a partir de secuencias genómicas y datos relacionados, ^[1] incluyendo tanto secuencias de ADN y ARN como otros datos "postgenómicos" (es decir, datos experimentales obtenidos con tecnologías que requieren la secuencia genómica, como microarreglos de ADN genómico ). Estos, en combinación con enfoques computacionales y estadísticos para comprender la función de los genes y el análisis de asociación estadística, este campo también se conoce a menudo como Genética/genómica computacional y estadística. Como tal, la genómica computacional puede considerarse un subconjunto de la bioinformática y la biología computacional , pero con un enfoque en el uso de genomas completos (en lugar de genes individuales) para comprender los principios de cómo el ADN de una especie controla su biología a nivel molecular y más allá. Con la abundancia actual de conjuntos de datos biológicos masivos, los estudios computacionales se han convertido en uno de los medios más importantes para el descubrimiento biológico. ^[2]

Historia

Las raíces de la genómica computacional son compartidas con las de la bioinformática . Durante la década de 1960, Margaret Dayhoff y otros en la Fundación Nacional de Investigación Biomédica reunieron bases de datos de secuencias de proteínas homólogas para el estudio evolutivo. ^[3] Su investigación desarrolló un árbol filogenético que determinaba los cambios evolutivos necesarios para que una proteína en particular se transformara en otra proteína en función de las secuencias de aminoácidos subyacentes . Esto los llevó a crear una matriz de puntuación que evaluaba la probabilidad de que una proteína estuviera relacionada con otra.

A partir de la década de 1980, se empezaron a registrar bases de datos de secuencias genómicas, pero esto presentó nuevos desafíos en forma de búsqueda y comparación de bases de datos de información genética. A diferencia de los algoritmos de búsqueda de texto que se utilizan en sitios web como Google o Wikipedia, la búsqueda de secciones de similitud genética requiere que uno encuentre cadenas que no sean simplemente idénticas, sino similares. Esto condujo al desarrollo del algoritmo Needleman-Wunsch , que es un algoritmo de programación dinámica para comparar conjuntos de secuencias de aminoácidos entre sí mediante el uso de matrices de puntuación derivadas de la investigación anterior de Dayhoff. Más tarde, se desarrolló el algoritmo BLAST para realizar búsquedas rápidas y optimizadas de bases de datos de secuencias genéticas. BLAST y sus derivados son probablemente los algoritmos más utilizados para este propósito. ^[4]

La aparición de la frase "genómica computacional" coincide con la disponibilidad de genomas secuenciados completos a mediados y fines de la década de 1990. La primera reunión de la Conferencia Anual sobre Genómica Computacional fue organizada por científicos del Instituto de Investigación Genómica (TIGR) en 1998, proporcionando un foro para esta especialidad y distinguiendo efectivamente esta área de la ciencia de los campos más generales de la genómica o la biología computacional . ^{[ cita requerida ]} El primer uso de este término en la literatura científica, según los resúmenes de MEDLINE , fue solo un año antes en Nucleic Acids Research . ^{[ 5 ]} La conferencia final de Genómica Computacional se celebró en 2006, con una charla inaugural del Premio Nobel Barry Marshall , codescubridor del vínculo entre Helicobacter pylori y las úlceras de estómago. A partir de 2014, las conferencias líderes en el campo incluyen Sistemas Inteligentes para Biología Molecular (ISMB) e Investigación en Biología Molecular Computacional (RECOMB).

El desarrollo de las matemáticas asistidas por ordenador (utilizando productos como Mathematica o Matlab ) ha ayudado a ingenieros, matemáticos y científicos informáticos a empezar a operar en este dominio, y está creciendo una colección pública de estudios de casos y demostraciones, que abarcan desde comparaciones de genomas completos hasta análisis de expresión genética . ^[6] Esto ha aumentado la introducción de diferentes ideas, incluidos conceptos de sistemas y control, teoría de la información, análisis de cadenas y minería de datos. Se prevé que los enfoques computacionales se convertirán y seguirán siendo un tema estándar para la investigación y la enseñanza, mientras que los estudiantes con fluidez en ambos temas comienzan a formarse en los múltiples cursos creados en los últimos años.

Contribuciones de la investigación en genómica computacional a la biología

Las contribuciones de la investigación en genómica computacional a la biología incluyen: ^[2]

Proponiendo redes de señalización celular
Proponiendo mecanismos de evolución del genoma
Predecir la ubicación precisa de todos los genes humanos utilizando técnicas de genómica comparativa con varias especies de mamíferos y vertebrados.
Predecir regiones genómicas conservadas que están relacionadas con el desarrollo embrionario temprano
Descubrir vínculos potenciales entre motivos de secuencias repetidas y la expresión genética específica de tejidos
medir regiones de genomas que han experimentado una evolución inusualmente rápida

Comparación de genomas

Se han desarrollado herramientas computacionales para evaluar la similitud de secuencias genómicas. Algunas de ellas son distancias basadas en alineamiento , como la identidad de nucleótidos promedio. ^[7] Estos métodos son altamente específicos, aunque computacionalmente lentos. Otros métodos sin alineamiento incluyen enfoques estadísticos y probabilísticos. Un ejemplo es Mash, ^[8] un enfoque probabilístico que utiliza minhash . En este método, dado un número k, una secuencia genómica se transforma en un boceto más corto a través de una función hash aleatoria sobre los posibles k-meros . Por ejemplo, si se construyen bocetos de tamaño 4 y se da la siguiente función hash ${\estilo de visualización k=2}$

El boceto de la secuencia

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

es {0,1,1,2} que son los valores hash más pequeños de sus k-meros de tamaño 2. Estos bocetos se comparan luego para estimar la fracción de k-meros compartidos ( índice de Jaccard ) de las secuencias correspondientes. Vale la pena notar que un valor hash es un número binario. En un entorno genómico real, un tamaño útil de k-meros varía de 14 a 21, y el tamaño de los bocetos sería de alrededor de 1000. ^[8]

Al reducir el tamaño de las secuencias, incluso cientos de veces, y compararlas de forma libre de alineamiento, este método reduce significativamente el tiempo de estimación de la similitud de las secuencias.

Agrupamiento de datos genómicos

La agrupación de datos es una herramienta que se utiliza para simplificar el análisis estadístico de una muestra genómica. Por ejemplo, en ^[9] los autores desarrollaron una herramienta (BiG-SCAPE) para analizar redes de similitud de secuencias de agrupaciones de genes biosintéticos (BGC). En ^[10] se utilizan capas sucesivas de agrupación de agrupaciones de genes biosintéticos en la herramienta automatizada BiG-MAP, tanto para filtrar datos redundantes como para identificar familias de agrupaciones de genes. Esta herramienta perfila la abundancia y los niveles de expresión de BGC en muestras de microbioma.

Agrupaciones de genes biosintéticos

Se han desarrollado herramientas bioinformáticas para predecir y determinar la abundancia y expresión de este tipo de agrupaciones de genes en muestras de microbioma, a partir de datos metagenómicos. ^[11] Dado que el tamaño de los datos metagenómicos es considerable, el filtrado y la agrupación de los mismos son partes importantes de estas herramientas. Estos procesos pueden consistir en técnicas de reducción de dimensionalidad, como Minhash , ^[8] y algoritmos de agrupación como k-medoides y propagación de afinidad . También se han desarrollado varias métricas y similitudes para compararlos.

La minería de genomas para grupos de genes biosintéticos (BGC, por sus siglas en inglés) se ha convertido en una parte integral del descubrimiento de productos naturales. Los más de 200.000 genomas microbianos que ahora están disponibles públicamente contienen información sobre una abundante química novedosa. Una forma de explorar esta vasta diversidad genómica es mediante el análisis comparativo de BGC homólogos, que permite la identificación de patrones entre especies que pueden coincidir con la presencia de metabolitos o actividades biológicas. Sin embargo, las herramientas actuales se ven obstaculizadas por un cuello de botella causado por el costoso enfoque basado en redes que se utiliza para agrupar estos BGC en familias de grupos de genes (GCF, por sus siglas en inglés). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), una herramienta diseñada para agrupar cantidades masivas de BGC. Al representarlos en el espacio euclidiano, BiG-SLiCE puede agrupar los BGC en GCF de una manera casi lineal y no por pares.

Satria et. al, 2021 ^[12] en BiG-SLiCE demuestran la utilidad de dichos análisis al reconstruir un mapa global de diversidad metabólica secundaria en toda la taxonomía para identificar un potencial biosintético inexplorado, abre nuevas posibilidades para acelerar el descubrimiento de productos naturales y ofrece un primer paso hacia la construcción de una red interconectada global y con capacidad de búsqueda de BGC. A medida que se secuencian más genomas de taxones poco estudiados, se puede extraer más información para resaltar su química potencialmente novedosa. ^[12]

Algoritmos de compresión

Los algoritmos de compresión genética son la última generación de algoritmos sin pérdida que comprimen datos (normalmente secuencias de nucleótidos) utilizando tanto algoritmos de compresión convencionales como algoritmos genéticos adaptados al tipo de datos específico. En 2012, un equipo de científicos de la Universidad Johns Hopkins publicó un algoritmo de compresión genética que no utiliza un genoma de referencia para la compresión. HAPZIPPER fue diseñado para datos de HapMap y logra una compresión de más de 20 veces (reducción del 95 % en el tamaño del archivo), lo que proporciona una compresión de 2 a 4 veces mejor y es menos intensivo en términos computacionales que las principales utilidades de compresión de propósito general. Para esto, Chanda, Elhaik y Bader introdujeron la codificación basada en MAF (MAFE), que reduce la heterogeneidad del conjunto de datos al ordenar los SNP por su frecuencia de alelo menor, homogeneizando así el conjunto de datos. ^[13] Otros algoritmos desarrollados en 2009 y 2013 (DNAZip y GenomeZip) tienen índices de compresión de hasta 1200 veces, lo que permite almacenar 6 mil millones de genomas humanos diploides de pares de bases en 2,5 megabytes (en relación con un genoma de referencia o promediado sobre muchos genomas). ^[14]^[15] Para un punto de referencia en compresores de datos genéticos/genómicos, consulte ^[16]

Véase también

Referencias

^ Koonin EV (marzo de 2001). "Genómica computacional". Current Biology . 11 (5): R155–8. doi : 10.1016/S0960-9822(01)00081-1 . PMID 11267880. S2CID 17202180.
^ ab "Genómica computacional y proteómica en el MIT". Archivado desde el original el 22 de marzo de 2018. Consultado el 29 de diciembre de 2006 .
^ Mount D (2000). Bioinformática, análisis de secuencias y genomas . Cold Spring Harbor Laboratory Press. págs. 2-3. ISBN 978-0-87969-597-2.
^ Brown TA (1999). Genomas . Wiley. ISBN. 978-0-471-31618-3.
^ Wagner A (septiembre de 1997). "Un enfoque de genómica computacional para la identificación de redes genéticas". Nucleic Acids Research . 25 (18): 3594–604. doi :10.1093/nar/25.18.3594. PMC 146952 . PMID 9278479.
^ Cristianini N, Hahn M (2006). Introducción a la genómica computacional. Cambridge University Press. ISBN 978-0-521-67191-0.
^ Konstantinidis KT, Tiedje JM (2005). "Información genómica que hace avanzar la definición de especie para procariotas". Proc Natl Acad Sci USA . 102 (7): 2567–72. Bibcode :2005PNAS..102.2567K. doi : 10.1073/pnas.0409727102 . PMC 549018 . PMID 15701695.
^ abc Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). "Mash: estimación rápida de la distancia entre el genoma y el metagenoma utilizando MinHash". Genome Biology . 17 (32): 14. doi : 10.1186/s13059-016-0997-x . PMC 4915045 . PMID 27323842.
^ Navarro-Muñoz J, Selem-Mojica N, Mullowney M, Kautsar S, Tryon J, Parkinson E, De Los Santos E, Yeong M, Cruz-Morales P, Abubucker S, Roeters A, Lokhorst W, Fernandez-Guerra A, Dias-Cappelini L, Goering A, Thomson R, Metcalf W, Kelleher N, Barona-Gomez F, Medema M (2020). "Un marco computacional para explorar la diversidad biosintética a gran escala". Nat Chem Biol . 16 (1): 60–68. doi :10.1038/s41589-019-0400-9. PMC 6917865 . PMID 31768033.
^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: un proceso automatizado para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas". mSistemas . 6 (5): e00937-21. bioRxiv 10.1101/2020.12.14.422671 . doi :10.1128/msystems.00937-21. PMC 8547482 . PMID 34581602.
^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: un proceso automatizado para perfilar la abundancia y expresión de grupos de genes metabólicos en microbiomas". bioRxiv . 6 (5): e00937-21. doi : 10.1101/2020.12.14.422671. PMC 8547482 . PMID 34581602.
^ ab Kautsar, Satria A; van der Hooft, Justin JJ; de Ridder, Dick; Medema, Marnix H (13 de enero de 2021). "BiG-SLiCE: una herramienta altamente escalable que mapea la diversidad de 1,2 millones de grupos de genes biosintéticos". GigaScience . 10 (1): giaa154. doi : 10.1093/gigascience/giaa154 . PMC 7804863 . PMID 33438731.
^ Chanda P, Bader JS, Elhaik E (27 de julio de 2012). "HapZipper: compartir poblaciones de HapMap ahora es más fácil". Nucleic Acids Research . 40 (20): e159. doi :10.1093/nar/gks709. PMC 3488212 . PMID 22844100.
^ Christley S, Lu Y, Li C, Xie X (15 de enero de 2009). "Genomas humanos como archivos adjuntos de correo electrónico". Bioinformática . 25 (2): 274–5. doi : 10.1093/bioinformatics/btn582 . PMID 18996942.
^ Pavlichin DS, Weissman T, Yona G (septiembre de 2013). "El genoma humano se contrae de nuevo". Bioinformática . 29 (17): 2199–202. doi : 10.1093/bioinformatics/btt362 . PMID 23793748.
^ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "Una encuesta sobre métodos de compresión de datos para secuencias biológicas". Información . 7 (4): 56. doi : 10.3390/info7040056 .

Enlaces externos

Biofísica 101, Genómica y Biología Computacional de la Escuela de Extensión de Harvard, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
Curso de Genómica Computacional de la Universidad de Bristol, http://www.computational-genomics.net/