La genómica computacional se refiere al uso de análisis computacional y estadístico para descifrar la biología a partir de secuencias genómicas y datos relacionados, [1] incluyendo tanto secuencias de ADN y ARN como otros datos "postgenómicos" (es decir, datos experimentales obtenidos con tecnologías que requieren la secuencia genómica, como microarreglos de ADN genómico ). Estos, en combinación con enfoques computacionales y estadísticos para comprender la función de los genes y el análisis de asociación estadística, este campo también se conoce a menudo como Genética/genómica computacional y estadística. Como tal, la genómica computacional puede considerarse un subconjunto de la bioinformática y la biología computacional , pero con un enfoque en el uso de genomas completos (en lugar de genes individuales) para comprender los principios de cómo el ADN de una especie controla su biología a nivel molecular y más allá. Con la abundancia actual de conjuntos de datos biológicos masivos, los estudios computacionales se han convertido en uno de los medios más importantes para el descubrimiento biológico. [2]
Las raíces de la genómica computacional son compartidas con las de la bioinformática . Durante la década de 1960, Margaret Dayhoff y otros en la Fundación Nacional de Investigación Biomédica reunieron bases de datos de secuencias de proteínas homólogas para el estudio evolutivo. [3] Su investigación desarrolló un árbol filogenético que determinaba los cambios evolutivos necesarios para que una proteína en particular se transformara en otra proteína en función de las secuencias de aminoácidos subyacentes . Esto los llevó a crear una matriz de puntuación que evaluaba la probabilidad de que una proteína estuviera relacionada con otra.
A partir de la década de 1980, se empezaron a registrar bases de datos de secuencias genómicas, pero esto presentó nuevos desafíos en forma de búsqueda y comparación de bases de datos de información genética. A diferencia de los algoritmos de búsqueda de texto que se utilizan en sitios web como Google o Wikipedia, la búsqueda de secciones de similitud genética requiere que uno encuentre cadenas que no sean simplemente idénticas, sino similares. Esto condujo al desarrollo del algoritmo Needleman-Wunsch , que es un algoritmo de programación dinámica para comparar conjuntos de secuencias de aminoácidos entre sí mediante el uso de matrices de puntuación derivadas de la investigación anterior de Dayhoff. Más tarde, se desarrolló el algoritmo BLAST para realizar búsquedas rápidas y optimizadas de bases de datos de secuencias genéticas. BLAST y sus derivados son probablemente los algoritmos más utilizados para este propósito. [4]
La aparición de la frase "genómica computacional" coincide con la disponibilidad de genomas secuenciados completos a mediados y fines de la década de 1990. La primera reunión de la Conferencia Anual sobre Genómica Computacional fue organizada por científicos del Instituto de Investigación Genómica (TIGR) en 1998, proporcionando un foro para esta especialidad y distinguiendo efectivamente esta área de la ciencia de los campos más generales de la genómica o la biología computacional . [ cita requerida ] El primer uso de este término en la literatura científica, según los resúmenes de MEDLINE , fue solo un año antes en Nucleic Acids Research . [ 5 ] La conferencia final de Genómica Computacional se celebró en 2006, con una charla inaugural del Premio Nobel Barry Marshall , codescubridor del vínculo entre Helicobacter pylori y las úlceras de estómago. A partir de 2014, las conferencias líderes en el campo incluyen Sistemas Inteligentes para Biología Molecular (ISMB) y Investigación en Biología Molecular Computacional (RECOMB).
El desarrollo de las matemáticas asistidas por ordenador (utilizando productos como Mathematica o Matlab ) ha ayudado a ingenieros, matemáticos y científicos informáticos a empezar a operar en este dominio, y está creciendo una colección pública de estudios de casos y demostraciones, que abarcan desde comparaciones de genomas completos hasta análisis de expresión genética . [6] Esto ha aumentado la introducción de diferentes ideas, incluidos conceptos de sistemas y control, teoría de la información, análisis de cadenas y minería de datos. Se prevé que los enfoques computacionales se convertirán y seguirán siendo un tema estándar para la investigación y la enseñanza, mientras que los estudiantes con fluidez en ambos temas comienzan a formarse en los múltiples cursos creados en los últimos años.
Las contribuciones de la investigación en genómica computacional a la biología incluyen: [2]
Se han desarrollado herramientas computacionales para evaluar la similitud de secuencias genómicas. Algunas de ellas son distancias basadas en alineamiento , como la identidad de nucleótidos promedio. [7] Estos métodos son altamente específicos, aunque computacionalmente lentos. Otros métodos sin alineamiento incluyen enfoques estadísticos y probabilísticos. Un ejemplo es Mash, [8] un enfoque probabilístico que utiliza minhash . En este método, dado un número k, una secuencia genómica se transforma en un boceto más corto a través de una función hash aleatoria sobre los posibles k-meros . Por ejemplo, si se construyen bocetos de tamaño 4 y se da la siguiente función hash
El boceto de la secuencia
CTGACCTTAACGGGAGACTATGATGACGACCGCAT
es {0,1,1,2} que son los valores hash más pequeños de sus k-meros de tamaño 2. Estos bocetos se comparan luego para estimar la fracción de k-meros compartidos ( índice de Jaccard ) de las secuencias correspondientes. Vale la pena notar que un valor hash es un número binario. En un entorno genómico real, un tamaño útil de k-meros varía de 14 a 21, y el tamaño de los bocetos sería de alrededor de 1000. [8]
Al reducir el tamaño de las secuencias, incluso cientos de veces, y compararlas de forma libre de alineamiento, este método reduce significativamente el tiempo de estimación de la similitud de las secuencias.
La agrupación de datos es una herramienta que se utiliza para simplificar el análisis estadístico de una muestra genómica. Por ejemplo, en [9] los autores desarrollaron una herramienta (BiG-SCAPE) para analizar redes de similitud de secuencias de agrupaciones de genes biosintéticos (BGC). En [10] se utilizan capas sucesivas de agrupación de agrupaciones de genes biosintéticos en la herramienta automatizada BiG-MAP, tanto para filtrar datos redundantes como para identificar familias de agrupaciones de genes. Esta herramienta perfila la abundancia y los niveles de expresión de BGC en muestras de microbioma.
Se han desarrollado herramientas bioinformáticas para predecir y determinar la abundancia y expresión de este tipo de agrupaciones de genes en muestras de microbioma, a partir de datos metagenómicos. [11] Dado que el tamaño de los datos metagenómicos es considerable, el filtrado y la agrupación de los mismos son partes importantes de estas herramientas. Estos procesos pueden consistir en técnicas de reducción de dimensionalidad, como Minhash , [8] y algoritmos de agrupación como k-medoides y propagación de afinidad . También se han desarrollado varias métricas y similitudes para compararlos.
La minería de genomas para grupos de genes biosintéticos (BGC, por sus siglas en inglés) se ha convertido en una parte integral del descubrimiento de productos naturales. Los más de 200.000 genomas microbianos que ahora están disponibles públicamente contienen información sobre una abundante química novedosa. Una forma de explorar esta vasta diversidad genómica es mediante el análisis comparativo de BGC homólogos, que permite la identificación de patrones entre especies que pueden coincidir con la presencia de metabolitos o actividades biológicas. Sin embargo, las herramientas actuales se ven obstaculizadas por un cuello de botella causado por el costoso enfoque basado en redes que se utiliza para agrupar estos BGC en familias de grupos de genes (GCF, por sus siglas en inglés). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), una herramienta diseñada para agrupar cantidades masivas de BGC. Al representarlos en el espacio euclidiano, BiG-SLiCE puede agrupar los BGC en GCF de una manera casi lineal y no por pares.
Satria et. al, 2021 [12] en BiG-SLiCE demuestran la utilidad de dichos análisis al reconstruir un mapa global de diversidad metabólica secundaria en toda la taxonomía para identificar un potencial biosintético inexplorado, abre nuevas posibilidades para acelerar el descubrimiento de productos naturales y ofrece un primer paso hacia la construcción de una red interconectada global y con capacidad de búsqueda de BGC. A medida que se secuencian más genomas de taxones poco estudiados, se puede extraer más información para resaltar su química potencialmente novedosa. [12]