En biología computacional , la predicción o hallazgo de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas , así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como las regiones reguladoras . El hallazgo de genes es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que se ha secuenciado .
En sus inicios, la "búsqueda de genes" se basaba en una experimentación minuciosa con células y organismos vivos. El análisis estadístico de las tasas de recombinación homóloga de varios genes diferentes podía determinar su orden en un cromosoma determinado , y la información de muchos de esos experimentos podía combinarse para crear un mapa genético que especificara la ubicación aproximada de los genes conocidos entre sí. Hoy, con una secuencia genómica completa y poderosos recursos computacionales a disposición de la comunidad de investigación, la búsqueda de genes se ha redefinido como un problema en gran medida computacional.
La determinación de la funcionalidad de una secuencia debe distinguirse de la determinación de la función del gen o su producto. Predecir la función de un gen y confirmar que la predicción del gen es precisa aún exige experimentación in vivo [1] mediante la eliminación de genes y otros ensayos, aunque las fronteras de la investigación bioinformática [2] están haciendo cada vez más posible predecir la función de un gen basándose únicamente en su secuencia.
La predicción genética es uno de los pasos clave en la anotación del genoma , después del ensamblaje de secuencias , el filtrado de regiones no codificantes y el enmascaramiento de repeticiones. [3]
La predicción genética está estrechamente relacionada con el llamado "problema de búsqueda de objetivos", que investiga cómo las proteínas de unión al ADN ( factores de transcripción ) localizan sitios de unión específicos dentro del genoma . [4] [5] Muchos aspectos de la predicción genética estructural se basan en la comprensión actual de los procesos bioquímicos subyacentes en la célula, como la transcripción genética , la traducción , las interacciones proteína-proteína y los procesos de regulación , que son objeto de investigación activa en los diversos campos ómicos , como la transcriptómica , la proteómica , la metabolómica y, de manera más general, la genómica estructural y funcional .
En los sistemas de búsqueda de genes empíricos (basados en similitud, homología o evidencia), se busca en el genoma objetivo secuencias que sean similares a la evidencia extrínseca en forma de las etiquetas de secuencia expresadas conocidas , ARN mensajero (ARNm), productos proteicos y secuencias homólogas u ortólogas. Dada una secuencia de ARNm, es trivial derivar una secuencia de ADN genómico única de la cual tuvo que haber sido transcrita . Dada una secuencia de proteína, se puede derivar una familia de posibles secuencias de ADN codificante mediante la traducción inversa del código genético . Una vez que se han determinado las secuencias de ADN candidatas, es un problema algorítmico relativamente sencillo buscar eficientemente coincidencias en un genoma objetivo, completas o parciales, y exactas o inexactas. Dada una secuencia, los algoritmos de alineamiento local como BLAST , FASTA y Smith-Waterman buscan regiones de similitud entre la secuencia objetivo y posibles coincidencias candidatas. Las coincidencias pueden ser completas o parciales, y exactas o inexactas. El éxito de este enfoque está limitado por el contenido y la precisión de la base de datos de secuencias.
Un alto grado de similitud con un ARN mensajero o un producto proteico conocido es una prueba contundente de que una región de un genoma diana es un gen codificador de proteínas. Sin embargo, para aplicar este enfoque de forma sistemática se requiere una secuenciación extensa de ARN mensajero y productos proteicos. Esto no solo es costoso, sino que en organismos complejos, solo se expresa un subconjunto de todos los genes del genoma del organismo en un momento dado, lo que significa que la evidencia extrínseca de muchos genes no es fácilmente accesible en ningún cultivo de células individuales. Por lo tanto, para recopilar evidencia extrínseca de la mayoría o la totalidad de los genes en un organismo complejo se requiere el estudio de muchos cientos o miles de tipos de células , lo que presenta más dificultades. Por ejemplo, algunos genes humanos pueden expresarse solo durante el desarrollo como embrión o feto, lo que podría ser difícil de estudiar por razones éticas.
A pesar de estas dificultades, se han generado extensas bases de datos de secuencias de proteínas y transcripciones de seres humanos y de otros organismos modelo importantes en biología, como los ratones y las levaduras. Por ejemplo, la base de datos RefSeq contiene secuencias de proteínas y transcripciones de muchas especies diferentes, y el sistema Ensembl mapea de manera exhaustiva esta evidencia en el genoma humano y en varios otros. Sin embargo, es probable que estas bases de datos estén incompletas y contengan pequeñas pero significativas cantidades de datos erróneos.
Las nuevas tecnologías de secuenciación del transcriptoma de alto rendimiento, como RNA-Seq y la secuenciación ChIP, abren oportunidades para incorporar evidencia extrínseca adicional a la predicción y validación de genes, y permiten una alternativa estructuralmente rica y más precisa a los métodos anteriores de medición de la expresión genética , como la etiqueta de secuencia expresada o la micromatriz de ADN .
Los principales desafíos que implica la predicción genética incluyen el manejo de errores de secuenciación en datos de ADN sin procesar, la dependencia de la calidad del ensamblaje de la secuencia , el manejo de lecturas cortas, mutaciones por cambio de marco , genes superpuestos y genes incompletos.
En los procariotas, es esencial considerar la transferencia horizontal de genes cuando se busca la homología de secuencias genéticas . Otro factor importante que no se utiliza lo suficiente en las herramientas actuales de detección de genes es la existencia de grupos de genes, operones (que son unidades funcionales de ADN que contienen un grupo de genes bajo el control de un único promotor ) tanto en procariotas como en eucariotas. La mayoría de los detectores de genes más populares tratan cada gen de forma aislada, independientemente de los demás, lo que no es biológicamente preciso.
La predicción de genes ab initio es un método intrínseco basado en el contenido de los genes y la detección de señales. Debido al gasto y la dificultad inherentes a la obtención de evidencia extrínseca para muchos genes, también es necesario recurrir a la búsqueda de genes ab initio , en la que se busca sistemáticamente en la secuencia de ADN genómico únicamente ciertos signos reveladores de genes codificadores de proteínas. Estos signos se pueden clasificar en términos generales como señales , secuencias específicas que indican la presencia de un gen cercano, o contenido , propiedades estadísticas de la propia secuencia codificadora de proteínas. La búsqueda de genes ab initio podría caracterizarse con mayor precisión como predicción de genes , ya que generalmente se requiere evidencia extrínseca para establecer de manera concluyente que un gen putativo es funcional.
En los genomas de los procariotas , los genes tienen secuencias promotoras específicas y relativamente bien entendidas (señales), como la caja Pribnow y los sitios de unión de factores de transcripción , que son fáciles de identificar sistemáticamente. Además, la secuencia que codifica una proteína se presenta como un marco de lectura abierto (ORF) contiguo, que normalmente tiene muchos cientos o miles de pares de bases de longitud. Las estadísticas de los codones de terminación son tales que incluso encontrar un marco de lectura abierto de esta longitud es una señal bastante informativa. (Dado que 3 de los 64 codones posibles en el código genético son codones de terminación, uno esperaría un codón de terminación aproximadamente cada 20-25 codones, o 60-75 pares de bases, en una secuencia aleatoria ). Además, el ADN codificador de proteínas tiene ciertas periodicidades y otras propiedades estadísticas que son fáciles de detectar en una secuencia de esta longitud. Estas características hacen que la búsqueda de genes procariotas sea relativamente sencilla, y los sistemas bien diseñados pueden lograr altos niveles de precisión.
Encontrar genes ab initio en eucariotas , especialmente en organismos complejos como los humanos, es considerablemente más difícil por varias razones. En primer lugar, el promotor y otras señales reguladoras en estos genomas son más complejos y menos comprendidos que en los procariotas, lo que hace que sea más difícil reconocerlos de manera confiable. Dos ejemplos clásicos de señales identificadas por los buscadores de genes eucariotas son las islas CpG y los sitios de unión para una cola de poli(A) .
En segundo lugar, los mecanismos de empalme que emplean las células eucariotas implican que una secuencia codificante de proteínas particular en el genoma se divide en varias partes ( exones ), separadas por secuencias no codificantes ( intrones ). (Los sitios de empalme son en sí mismos otra señal que los buscadores de genes eucariotas suelen estar diseñados para identificar). Un gen codificante de proteínas típico en humanos puede dividirse en una docena de exones, cada uno de menos de doscientos pares de bases de longitud, y algunos tan cortos como de veinte a treinta. Por lo tanto, es mucho más difícil detectar periodicidades y otras propiedades de contenido conocidas del ADN codificante de proteínas en eucariotas.
Los buscadores de genes avanzados para genomas procariotas y eucariotas suelen utilizar modelos probabilísticos complejos , como los modelos ocultos de Markov (HMM) para combinar información de una variedad de diferentes mediciones de señales y contenido. El sistema GLIMMER es un buscador de genes ampliamente utilizado y muy preciso para procariotas. GeneMark es otro enfoque popular. Los buscadores de genes eucariotas ab initio , en comparación, han logrado solo un éxito limitado; ejemplos notables son los programas GENSCAN y geneid. Los buscadores de genes GeneMark-ES y SNAP se basan en GHMM como GENSCAN. Intentan abordar los problemas relacionados con el uso de un buscador de genes en una secuencia de genoma contra la que no fue entrenado. [7] [8] Algunos enfoques recientes como mSplicer, [9] CONTRAST, [10] o mGene [11] también utilizan técnicas de aprendizaje automático como máquinas de vectores de soporte para una predicción genética exitosa. Construyen un modelo discriminativo utilizando máquinas de vectores de soporte de Markov ocultas o campos aleatorios condicionales para aprender una función de puntuación de predicción genética precisa.
Se han evaluado los métodos ab initio y algunos se acercan al 100 % de sensibilidad, [3] sin embargo, a medida que aumenta la sensibilidad, la precisión se ve afectada como resultado del aumento de falsos positivos .
Entre las señales derivadas utilizadas para la predicción se encuentran las estadísticas resultantes de las estadísticas de subsecuencia como las estadísticas de k-mer , la composición/uniformidad/entropía del GC del dominio composicional o isócoro (genética) , la secuencia y la longitud del marco, el vocabulario de sitios de unión de intrones/exones/donantes/aceptores/promotores y ribosómicos , la dimensión fractal , la transformada de Fourier de un ADN codificado por pseudonúmeros, los parámetros de la curva Z y ciertas características de ejecución. [12]
Se ha sugerido que señales distintas a las directamente detectables en secuencias pueden mejorar la predicción de genes. Por ejemplo, se ha informado sobre el papel de la estructura secundaria en la identificación de motivos reguladores. [13] Además, se ha sugerido que la predicción de la estructura secundaria del ARN ayuda a la predicción del sitio de empalme. [14] [15] [16] [17]
Las redes neuronales artificiales son modelos computacionales que se destacan en el aprendizaje automático y el reconocimiento de patrones . Las redes neuronales deben entrenarse con datos de ejemplo antes de poder generalizar para datos experimentales y probarse con datos de referencia. Las redes neuronales pueden llegar a soluciones aproximadas a problemas que son difíciles de resolver algorítmicamente, siempre que haya suficientes datos de entrenamiento. Cuando se aplican a la predicción de genes, las redes neuronales se pueden utilizar junto con otros métodos ab initio para predecir o identificar características biológicas como sitios de empalme. [18] Un enfoque [19] implica el uso de una ventana deslizante, que atraviesa los datos de la secuencia de manera superpuesta. La salida en cada posición es una puntuación basada en si la red cree que la ventana contiene un sitio de empalme donante o un sitio de empalme aceptor. Las ventanas más grandes ofrecen más precisión, pero también requieren más potencia computacional. Una red neuronal es un ejemplo de un sensor de señal, ya que su objetivo es identificar un sitio funcional en el genoma.
Programas como Maker combinan métodos extrínsecos y ab initio mediante el mapeo de datos de proteínas y EST al genoma para validar predicciones ab initio . Augustus, que puede utilizarse como parte del proceso Maker, también puede incorporar pistas en forma de alineaciones de EST o perfiles de proteínas para aumentar la precisión de la predicción genética.
Como se han secuenciado los genomas completos de muchas especies diferentes, una dirección prometedora en la investigación actual sobre el descubrimiento de genes es un enfoque de genómica comparativa .
Este enfoque se basa en el principio de que las fuerzas de la selección natural hacen que los genes y otros elementos funcionales sufran mutaciones a un ritmo más lento que el resto del genoma, ya que las mutaciones en elementos funcionales tienen más probabilidades de afectar negativamente al organismo que las mutaciones en otras partes. Por lo tanto, los genes se pueden detectar comparando los genomas de especies relacionadas para detectar esta presión evolutiva a favor de la conservación. Este enfoque se aplicó por primera vez a los genomas del ratón y del ser humano, utilizando programas como SLAM, SGP y TWINSCAN/N-SCAN y CONTRAST. [20]
TWINSCAN examinó únicamente la sintenia entre humanos y ratones para buscar genes ortólogos. Programas como N-SCAN y CONTRAST permitieron la incorporación de alineaciones de múltiples organismos o, en el caso de N-SCAN, un único organismo alternativo al objetivo. El uso de múltiples informantes puede conducir a mejoras significativas en la precisión. [20]
CONTRAST se compone de dos elementos. El primero es un clasificador más pequeño, que identifica los sitios de empalme de donantes y de aceptores, así como los codones de inicio y de parada. El segundo elemento implica la construcción de un modelo completo mediante aprendizaje automático. Dividir el problema en dos significa que se pueden utilizar conjuntos de datos específicos más pequeños para entrenar a los clasificadores, y que el clasificador puede funcionar de forma independiente y entrenarse con ventanas más pequeñas. El modelo completo puede utilizar el clasificador independiente y no tener que perder tiempo computacional o complejidad del modelo reclasificando los límites intrón-exón. El artículo en el que se presenta CONTRAST propone que su método (y los de TWINSCAN, etc.) se clasifiquen como ensamblaje de genes de novo , utilizando genomas alternativos e identificándolo como distinto del ab initio , que utiliza genomas "informantes" objetivo. [20]
La búsqueda comparativa de genes también se puede utilizar para proyectar anotaciones de alta calidad de un genoma a otro. Entre los ejemplos más destacados se incluyen Projector, GeneWise, GeneMapper y GeMoMa. Estas técnicas desempeñan ahora un papel central en la anotación de todos los genomas.
Los pseudogenes son parientes cercanos de los genes, que comparten una homología de secuencia muy alta, pero no pueden codificar el mismo producto proteico . Si bien alguna vez se los relegó como subproductos de la secuenciación genética , cada vez más, a medida que se descubren funciones reguladoras, se están convirtiendo en objetivos predictivos por derecho propio. [21] La predicción de pseudogenes utiliza la similitud de secuencias existentes y los métodos ab initio, al tiempo que agrega filtros adicionales y métodos de identificación de características de pseudogenes.
Los métodos de similitud de secuencias se pueden personalizar para la predicción de pseudogenes utilizando un filtrado adicional para encontrar pseudogenes candidatos. Esto podría utilizar la detección de desactivación, que busca mutaciones sin sentido o de cambio de marco que truncarían o colapsarían una secuencia codificante que de otro modo sería funcional. [22] Además, traducir el ADN en secuencias de proteínas puede ser más eficaz que la homología de ADN directa. [21]
Los sensores de contenido se pueden filtrar según las diferencias en las propiedades estadísticas entre pseudogenes y genes, como un recuento reducido de islas CpG en pseudogenes, o las diferencias en el contenido de GC entre pseudogenes y sus vecinos. Los sensores de señal también se pueden ajustar a pseudogenes, buscando la ausencia de intrones o colas de poliadenina. [23]
La metagenómica es el estudio del material genético recuperado del medio ambiente, lo que da como resultado información secuencial de un conjunto de organismos. La predicción de genes es útil para la metagenómica comparativa .
Las herramientas de metagenómica también entran en las categorías básicas de uso de enfoques de similitud de secuencia (MEGAN4) y técnicas ab initio (GLIMMER-MG).
Glimmer-MG [24] es una extensión de GLIMMER que se basa principalmente en un enfoque ab initio para la búsqueda de genes y en el uso de conjuntos de entrenamiento de organismos relacionados. La estrategia de predicción se complementa con la clasificación y agrupación de conjuntos de datos genéticos antes de aplicar métodos de predicción de genes ab initio. Los datos se agrupan por especie. Este método de clasificación aprovecha las técnicas de la clasificación filogenética metagenómica. Un ejemplo de software para este propósito es Phymm, que utiliza modelos de Markov interpolados, y PhymmBL, que integra BLAST en las rutinas de clasificación.
MEGAN4 [25] utiliza un enfoque de similitud de secuencias, utilizando la alineación local con bases de datos de secuencias conocidas, pero también intenta clasificar utilizando información adicional sobre roles funcionales, vías biológicas y enzimas. Al igual que en la predicción de genes de un solo organismo, los enfoques de similitud de secuencias están limitados por el tamaño de la base de datos.
FragGeneScan y MetaGeneAnnotator son programas populares de predicción de genes basados en el modelo oculto de Markov . Estos predictores tienen en cuenta errores de secuenciación, genes parciales y funcionan para lecturas cortas.
Otra herramienta rápida y precisa para la predicción de genes en metagenomas es MetaGeneMark. [26] Esta herramienta es utilizada por el DOE Joint Genome Institute para anotar IMG/M, la colección de metagenomas más grande hasta la fecha.