En biología computacional , la predicción o búsqueda de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como regiones reguladoras . La búsqueda de genes es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que ha sido secuenciado .
En sus inicios, la "búsqueda de genes" se basaba en una experimentación minuciosa con células y organismos vivos. El análisis estadístico de las tasas de recombinación homóloga de varios genes diferentes podría determinar su orden en un determinado cromosoma , y la información de muchos de estos experimentos podría combinarse para crear un mapa genético que especifique la ubicación aproximada de genes conocidos entre sí. Hoy en día, con una secuencia completa del genoma y potentes recursos computacionales a disposición de la comunidad investigadora, la búsqueda de genes se ha redefinido como un problema en gran medida computacional.
Determinar que una secuencia es funcional debe distinguirse de determinar la función del gen o su producto. Predecir la función de un gen y confirmar que la predicción del gen es precisa todavía exige experimentación in vivo [1] mediante la eliminación de genes y otros ensayos, aunque las fronteras de la investigación bioinformática [2] hacen cada vez más posible predecir la función de un gen basándose en sólo en su secuencia.
La predicción de genes es uno de los pasos clave en la anotación del genoma , después del ensamblaje de secuencias , el filtrado de regiones no codificantes y el enmascaramiento repetido. [3]
La predicción de genes está estrechamente relacionada con el llamado "problema de búsqueda de objetivos", que investiga cómo las proteínas de unión al ADN ( factores de transcripción ) localizan sitios de unión específicos dentro del genoma . [4] [5] Muchos aspectos de la predicción de genes estructurales se basan en la comprensión actual de los procesos bioquímicos subyacentes en la célula , como la transcripción y traducción de genes , las interacciones proteína-proteína y los procesos de regulación , que son objeto de investigación activa en los diversos campos de la ómica. tales como transcriptómica , proteómica , metabolómica y, más generalmente, genómica estructural y funcional .
En los sistemas de búsqueda de genes empíricos (similitud, homología o basados en evidencia), se busca en el genoma objetivo secuencias que sean similares a la evidencia extrínseca en forma de etiquetas de secuencia expresadas conocidas , ARN mensajero (ARNm), productos proteicos y homólogos o secuencias ortólogas. Dada una secuencia de ARNm, es trivial derivar una secuencia de ADN genómico única a partir de la cual tuvo que haber sido transcrita . Dada una secuencia de proteína, se puede derivar una familia de posibles secuencias de ADN codificantes mediante traducción inversa del código genético . Una vez que se han determinado las secuencias de ADN candidatas, es un problema algorítmico relativamente sencillo buscar de manera eficiente un genoma objetivo en busca de coincidencias, completas o parciales, exactas o inexactas. Dada una secuencia, los algoritmos de alineación local como BLAST , FASTA y Smith-Waterman buscan regiones de similitud entre la secuencia objetivo y posibles coincidencias candidatas. Las coincidencias pueden ser completas o parciales, exactas o inexactas. El éxito de este enfoque está limitado por el contenido y la precisión de la base de datos de secuencias.
Un alto grado de similitud con un ARN mensajero conocido o un producto proteico es una fuerte evidencia de que una región de un genoma objetivo es un gen codificante de proteínas. Sin embargo, para aplicar este enfoque sistémicamente se requiere una secuenciación extensa de ARNm y productos proteicos. Esto no sólo es caro, sino que en organismos complejos, sólo un subconjunto de todos los genes del genoma del organismo se expresa en un momento dado, lo que significa que la evidencia extrínseca de muchos genes no es fácilmente accesible en ningún cultivo celular individual. Por lo tanto, para recolectar evidencia extrínseca de la mayoría o de todos los genes en un organismo complejo se requiere el estudio de muchos cientos o miles de tipos de células , lo que presenta mayores dificultades. Por ejemplo, algunos genes humanos pueden expresarse sólo durante el desarrollo como embrión o feto, lo que podría resultar difícil de estudiar por razones éticas.
A pesar de estas dificultades, se han generado extensas bases de datos de secuencias de proteínas y transcripciones para humanos y otros organismos modelo importantes en biología, como ratones y levaduras. Por ejemplo, la base de datos RefSeq contiene transcripciones y secuencias de proteínas de muchas especies diferentes, y el sistema Ensembl mapea de manera integral esta evidencia en genomas humanos y varios otros. Sin embargo, es probable que estas bases de datos estén incompletas y contengan cantidades pequeñas pero significativas de datos erróneos.
Las nuevas tecnologías de secuenciación de transcriptomas de alto rendimiento , como la secuenciación de RNA-Seq y ChIP, abren oportunidades para incorporar evidencia extrínseca adicional en la predicción y validación de genes, y permiten una alternativa estructuralmente rica y más precisa a los métodos anteriores de medición de la expresión génica , como la etiqueta de secuencia expresada o Microarrays de ADN .
Los principales desafíos involucrados en la predicción de genes implican lidiar con errores de secuenciación en datos de ADN sin procesar, dependencia de la calidad del ensamblaje de la secuencia , manejo de lecturas cortas, mutaciones de cambio de marco , genes superpuestos y genes incompletos.
En procariotas es esencial considerar la transferencia horizontal de genes cuando se busca homología de secuencia genética . Un factor importante adicional infrautilizado en las herramientas actuales de detección de genes es la existencia de grupos de genes: operones (que son unidades funcionales de ADN que contienen un grupo de genes bajo el control de un único promotor ) tanto en procariotas como en eucariotas. Los detectores de genes más populares tratan cada gen de forma aislada, independientemente de los demás, lo que no es biológicamente exacto.
La predicción de genes Ab Initio es un método intrínseco basado en el contenido de genes y la detección de señales. Debido al costo inherente y la dificultad de obtener evidencia extrínseca de muchos genes, también es necesario recurrir a la búsqueda de genes ab initio , en la que la secuencia de ADN genómico por sí sola se busca sistemáticamente en busca de ciertos signos reveladores de genes codificadores de proteínas. Estos signos se pueden clasificar en términos generales como señales , secuencias específicas que indican la presencia de un gen cercano, o contenido , propiedades estadísticas de la propia secuencia codificante de proteínas. El hallazgo de genes ab initio podría caracterizarse con mayor precisión como predicción de genes , ya que generalmente se requiere evidencia extrínseca para establecer de manera concluyente que un gen putativo es funcional.
En los genomas de los procariotas , los genes tienen secuencias promotoras (señales) específicas y relativamente bien comprendidas , como la caja de Pribnow y los sitios de unión del factor de transcripción , que son fáciles de identificar sistemáticamente. Además, la secuencia que codifica una proteína se produce como un marco de lectura abierto (ORF) contiguo, que normalmente tiene una longitud de cientos o miles de pares de bases . Las estadísticas de codones de terminación son tales que incluso encontrar un marco de lectura abierto de esta longitud es una señal bastante informativa. (Dado que 3 de los 64 codones posibles en el código genético son codones de terminación, uno esperaría un codón de terminación aproximadamente cada 20 a 25 codones, o 60 a 75 pares de bases, en una secuencia aleatoria ). Además, el ADN que codifica proteínas tiene ciertos periodicidades y otras propiedades estadísticas que son fáciles de detectar en una secuencia de esta longitud. Estas características hacen que la búsqueda de genes procarióticos sea relativamente sencilla y los sistemas bien diseñados pueden alcanzar altos niveles de precisión.
La búsqueda de genes ab initio en eucariotas , especialmente en organismos complejos como los humanos, es considerablemente más desafiante por varias razones. En primer lugar, el promotor y otras señales reguladoras en estos genomas son más complejos y menos comprendidos que en los procariotas, lo que los hace más difíciles de reconocer de manera confiable. Dos ejemplos clásicos de señales identificadas por los buscadores de genes eucariotas son las islas CpG y los sitios de unión para una cola poli(A) .
En segundo lugar, los mecanismos de empalme empleados por las células eucariotas significan que una secuencia codificante de proteínas particular en el genoma se divide en varias partes ( exones ), separadas por secuencias no codificantes ( intrones ). (Los sitios de empalme son en sí mismos otra señal que los buscadores de genes eucarióticos a menudo están diseñados para identificar). Un gen codificador de proteínas típico en humanos podría dividirse en una docena de exones, cada uno de menos de doscientos pares de bases de longitud, y algunos tan cortos como veinte. a treinta. Por tanto, es mucho más difícil detectar periodicidades y otras propiedades de contenido conocidas del ADN que codifica proteínas en eucariotas.
Los buscadores de genes avanzados para genomas procarióticos y eucariotas suelen utilizar modelos probabilísticos complejos , como los modelos ocultos de Markov (HMM), para combinar información de una variedad de diferentes mediciones de señal y contenido. El sistema GLIMMER es un buscador de genes para procariotas ampliamente utilizado y de gran precisión. GeneMark es otro enfoque popular. En comparación, los buscadores de genes eucariotas ab initio sólo han logrado un éxito limitado; ejemplos notables son los programas GENSCAN y geneid. Los buscadores de genes GeneMark-ES y SNAP están basados en GHMM como GENSCAN. Intentan abordar los problemas relacionados con el uso de un buscador de genes en una secuencia del genoma para la que no fue entrenado. [7] [8] Algunos enfoques recientes como mSplicer, [9] CONTRAST, [10] o mGene [11] también utilizan técnicas de aprendizaje automático , como máquinas de vectores de soporte, para una predicción genética exitosa. Construyen un modelo discriminativo utilizando máquinas de vectores de soporte de Markov ocultas o campos aleatorios condicionales para aprender una función de puntuación de predicción genética precisa.
Los métodos Ab Initio se han evaluado y algunos se acercan al 100 % de sensibilidad; sin embargo , a medida que aumenta la sensibilidad, la precisión se ve afectada como resultado del aumento de los falsos positivos .
Entre las señales derivadas utilizadas para la predicción se encuentran las estadísticas resultantes de las estadísticas de la subsecuencia, como estadísticas de k-mer , isócora (genética) o composición/uniformidad/entropía de GC del dominio de composición , longitud de secuencia y marco, intrón/exón/donante/aceptor/promotor. y vocabulario del sitio de unión ribosomal , dimensión fractal , transformada de Fourier de un ADN codificado con pseudonúmeros, parámetros de la curva Z y ciertas características de ejecución. [12]
Se ha sugerido que otras señales además de las directamente detectables en las secuencias pueden mejorar la predicción de genes. Por ejemplo, se ha informado del papel de la estructura secundaria en la identificación de motivos reguladores. [13] Además, se ha sugerido que la predicción de la estructura secundaria del ARN ayuda a la predicción del sitio de empalme. [14] [15] [16] [17]
Las redes neuronales artificiales son modelos computacionales que destacan en el aprendizaje automático y el reconocimiento de patrones . Las redes neuronales deben entrenarse con datos de ejemplo antes de poder generalizarlas para datos experimentales y probarse con datos de referencia. Las redes neuronales pueden encontrar soluciones aproximadas a problemas que son difíciles de resolver algorítmicamente, siempre que existan suficientes datos de entrenamiento. Cuando se aplican a la predicción de genes, las redes neuronales se pueden utilizar junto con otros métodos ab initio para predecir o identificar características biológicas como los sitios de empalme. [18] Un enfoque [19] implica el uso de una ventana deslizante, que atraviesa los datos de la secuencia de manera superpuesta. El resultado en cada posición es una puntuación basada en si la red cree que la ventana contiene un sitio de empalme donante o un sitio de empalme aceptor. Las ventanas más grandes ofrecen más precisión pero también requieren más potencia computacional. Una red neuronal es un ejemplo de sensor de señales, ya que su objetivo es identificar un sitio funcional en el genoma.
Programas como Maker combinan enfoques extrínsecos y ab initio mediante el mapeo de datos de proteínas y EST en el genoma para validar las predicciones ab initio . Augustus, que puede usarse como parte del proyecto Maker, también puede incorporar sugerencias en forma de alineaciones EST o perfiles de proteínas para aumentar la precisión de la predicción genética.
Dado que se secuencian los genomas completos de muchas especies diferentes, una dirección prometedora en la investigación actual sobre la búsqueda de genes es un enfoque de genómica comparada .
Esto se basa en el principio de que las fuerzas de la selección natural hacen que los genes y otros elementos funcionales sufran mutaciones a un ritmo más lento que el resto del genoma, ya que es más probable que las mutaciones en elementos funcionales afecten negativamente al organismo que las mutaciones en otros lugares. Por lo tanto, los genes pueden detectarse comparando los genomas de especies relacionadas para detectar esta presión evolutiva para la conservación. Este enfoque se aplicó por primera vez a los genomas humanos y de ratón, utilizando programas como SLAM, SGP y TWINSCAN/N-SCAN y CONTRAST. [20]
TWINSCAN examinó únicamente la síntesis humano-ratón para buscar genes ortólogos. Programas como N-SCAN y CONTRAST permitieron la incorporación de alineamientos de múltiples organismos o, en el caso de N-SCAN, un único organismo alternativo del objetivo. El uso de múltiples informantes puede conducir a mejoras significativas en la precisión. [20]
CONTRASTE se compone de dos elementos. El primero es un clasificador más pequeño, que identifica sitios de empalme donantes y sitios de empalme aceptores, así como codones de inicio y parada. El segundo elemento implica la construcción de un modelo completo utilizando el aprendizaje automático. Dividir el problema en dos significa que se pueden usar conjuntos de datos específicos más pequeños para entrenar a los clasificadores, y que el clasificador puede operar de forma independiente y entrenarse con ventanas más pequeñas. El modelo completo puede utilizar el clasificador independiente y no tener que perder tiempo de cálculo ni complejidad del modelo reclasificando los límites intrón-exón. El artículo en el que se presenta CONTRAST propone que su método (y los de TWINSCAN, etc.) se clasifiquen como ensamblaje de genes de novo , utilizando genomas alternativos e identificándolos como distintos de ab initio , que utiliza un genoma "informante" objetivo. [20]
La búsqueda comparativa de genes también se puede utilizar para proyectar anotaciones de alta calidad de un genoma a otro. Ejemplos notables incluyen Proyector, GeneWise, GeneMapper y GeMoMa. Estas técnicas desempeñan ahora un papel central en la anotación de todos los genomas.
Los pseudogenes son parientes cercanos de los genes, comparten una homología de secuencia muy alta, pero no pueden codificar el mismo producto proteico . Si bien alguna vez fueron relegados como subproductos de la secuenciación de genes , cada vez más, a medida que se descubren funciones reguladoras, se están convirtiendo en objetivos predictivos por derecho propio. [21] La predicción de pseudogenes utiliza métodos ab initio y de similitud de secuencia existentes, al tiempo que agrega filtrado adicional y métodos para identificar características de pseudogenes.
Los métodos de similitud de secuencia se pueden personalizar para la predicción de pseudogenes mediante filtrado adicional para encontrar pseudogenes candidatos. Esto podría utilizar la detección de desactivación, que busca mutaciones sin sentido o de cambio de marco que truncarían o colapsarían una secuencia codificante que de otro modo sería funcional. [22] Además, traducir el ADN en secuencias de proteínas puede ser más eficaz que simplemente la homología directa del ADN. [21]
Los sensores de contenido se pueden filtrar según las diferencias en las propiedades estadísticas entre pseudogenes y genes, como un recuento reducido de islas CpG en pseudogenes o las diferencias en el contenido de GC entre pseudogenes y sus vecinos. Los sensores de señal también se pueden adaptar a pseudogenes, buscando la ausencia de intrones o colas de poliadenina. [23]
La metagenómica es el estudio del material genético recuperado del medio ambiente, lo que da como resultado información de secuencia de un conjunto de organismos. Predecir genes es útil para la metagenómica comparada .
Las herramientas de metagenómica también se incluyen en las categorías básicas de uso de enfoques de similitud de secuencia (MEGAN4) y técnicas ab initio (GLIMMER-MG).
Glimmer-MG [24] es una extensión de GLIMMER que se basa principalmente en un enfoque ab initio para la búsqueda de genes y el uso de conjuntos de entrenamiento de organismos relacionados. La estrategia de predicción se ve reforzada por la clasificación y agrupación de conjuntos de datos de genes antes de aplicar métodos de predicción de genes ab initio. Los datos están agrupados por especies. Este método de clasificación aprovecha técnicas de clasificación filogenética metagenómica. Un ejemplo de software para este propósito es Phymm, que utiliza modelos de Markov interpolados, y PhymmBL, que integra BLAST en las rutinas de clasificación.
MEGAN4 [25] utiliza un enfoque de similitud de secuencia, utilizando alineación local con bases de datos de secuencias conocidas, pero también intenta clasificar utilizando información adicional sobre funciones funcionales, vías biológicas y enzimas. Al igual que en la predicción de genes de un solo organismo, los enfoques de similitud de secuencia están limitados por el tamaño de la base de datos.
FragGeneScan y MetaGeneAnnotator son programas populares de predicción de genes basados en el modelo oculto de Markov . Estos predictores tienen en cuenta errores de secuenciación, genes parciales y funcionan para lecturas cortas.
Otra herramienta rápida y precisa para la predicción de genes en metagenomas es MetaGeneMark. [26] Esta herramienta es utilizada por el DOE Joint Genome Institute para anotar IMG/M, la colección de metagenomas más grande hasta la fecha.