stringtranslate.com

Predicción genética

Estructura de un gen eucariota .

En biología computacional , la predicción o búsqueda de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como regiones reguladoras . La búsqueda de genes es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que ha sido secuenciado .

En sus inicios, la "búsqueda de genes" se basaba en una experimentación minuciosa con células y organismos vivos. El análisis estadístico de las tasas de recombinación homóloga de varios genes diferentes podría determinar su orden en un determinado cromosoma , y ​​la información de muchos de estos experimentos podría combinarse para crear un mapa genético que especifique la ubicación aproximada de genes conocidos entre sí. Hoy en día, con una secuencia completa del genoma y potentes recursos computacionales a disposición de la comunidad investigadora, la búsqueda de genes se ha redefinido como un problema en gran medida computacional.

Determinar que una secuencia es funcional debe distinguirse de determinar la función del gen o su producto. Predecir la función de un gen y confirmar que la predicción del gen es precisa todavía exige experimentación in vivo [1] mediante la eliminación de genes y otros ensayos, aunque las fronteras de la investigación bioinformática [2] hacen cada vez más posible predecir la función de un gen basándose en sólo en su secuencia.

La predicción de genes es uno de los pasos clave en la anotación del genoma , después del ensamblaje de secuencias , el filtrado de regiones no codificantes y el enmascaramiento repetido. [3]

La predicción de genes está estrechamente relacionada con el llamado "problema de búsqueda de objetivos", que investiga cómo las proteínas de unión al ADN ( factores de transcripción ) localizan sitios de unión específicos dentro del genoma . [4] [5] Muchos aspectos de la predicción de genes estructurales se basan en la comprensión actual de los procesos bioquímicos subyacentes en la célula , como la transcripción y traducción de genes , las interacciones proteína-proteína y los procesos de regulación , que son objeto de investigación activa en los diversos campos de la ómica. tales como transcriptómica , proteómica , metabolómica y, más generalmente, genómica estructural y funcional .

Métodos empíricos

En los sistemas de búsqueda de genes empíricos (similitud, homología o basados ​​en evidencia), se busca en el genoma objetivo secuencias que sean similares a la evidencia extrínseca en forma de etiquetas de secuencia expresadas conocidas , ARN mensajero (ARNm), productos proteicos y homólogos o secuencias ortólogas. Dada una secuencia de ARNm, es trivial derivar una secuencia de ADN genómico única a partir de la cual tuvo que haber sido transcrita . Dada una secuencia de proteína, se puede derivar una familia de posibles secuencias de ADN codificantes mediante traducción inversa del código genético . Una vez que se han determinado las secuencias de ADN candidatas, es un problema algorítmico relativamente sencillo buscar de manera eficiente un genoma objetivo en busca de coincidencias, completas o parciales, exactas o inexactas. Dada una secuencia, los algoritmos de alineación local como BLAST , FASTA y Smith-Waterman buscan regiones de similitud entre la secuencia objetivo y posibles coincidencias candidatas. Las coincidencias pueden ser completas o parciales, exactas o inexactas. El éxito de este enfoque está limitado por el contenido y la precisión de la base de datos de secuencias.

Un alto grado de similitud con un ARN mensajero conocido o un producto proteico es una fuerte evidencia de que una región de un genoma objetivo es un gen codificante de proteínas. Sin embargo, para aplicar este enfoque sistémicamente se requiere una secuenciación extensa de ARNm y productos proteicos. Esto no sólo es caro, sino que en organismos complejos, sólo un subconjunto de todos los genes del genoma del organismo se expresa en un momento dado, lo que significa que la evidencia extrínseca de muchos genes no es fácilmente accesible en ningún cultivo celular individual. Por lo tanto, para recolectar evidencia extrínseca de la mayoría o de todos los genes en un organismo complejo se requiere el estudio de muchos cientos o miles de tipos de células , lo que presenta mayores dificultades. Por ejemplo, algunos genes humanos pueden expresarse sólo durante el desarrollo como embrión o feto, lo que podría resultar difícil de estudiar por razones éticas.

A pesar de estas dificultades, se han generado extensas bases de datos de secuencias de proteínas y transcripciones para humanos y otros organismos modelo importantes en biología, como ratones y levaduras. Por ejemplo, la base de datos RefSeq contiene transcripciones y secuencias de proteínas de muchas especies diferentes, y el sistema Ensembl mapea de manera integral esta evidencia en genomas humanos y varios otros. Sin embargo, es probable que estas bases de datos estén incompletas y contengan cantidades pequeñas pero significativas de datos erróneos.

Las nuevas tecnologías de secuenciación de transcriptomas de alto rendimiento , como la secuenciación de RNA-Seq y ChIP, abren oportunidades para incorporar evidencia extrínseca adicional en la predicción y validación de genes, y permiten una alternativa estructuralmente rica y más precisa a los métodos anteriores de medición de la expresión génica , como la etiqueta de secuencia expresada o Microarrays de ADN .

Los principales desafíos involucrados en la predicción de genes implican lidiar con errores de secuenciación en datos de ADN sin procesar, dependencia de la calidad del ensamblaje de la secuencia , manejo de lecturas cortas, mutaciones de cambio de marco , genes superpuestos y genes incompletos.

En procariotas es esencial considerar la transferencia horizontal de genes cuando se busca homología de secuencia genética . Un factor importante adicional infrautilizado en las herramientas actuales de detección de genes es la existencia de grupos de genes: operones (que son unidades funcionales de ADN que contienen un grupo de genes bajo el control de un único promotor ) tanto en procariotas como en eucariotas. Los detectores de genes más populares tratan cada gen de forma aislada, independientemente de los demás, lo que no es biológicamente exacto.

Métodos ab initio

La predicción de genes Ab Initio es un método intrínseco basado en el contenido de genes y la detección de señales. Debido al costo inherente y la dificultad de obtener evidencia extrínseca de muchos genes, también es necesario recurrir a la búsqueda de genes ab initio , en la que la secuencia de ADN genómico por sí sola se busca sistemáticamente en busca de ciertos signos reveladores de genes codificadores de proteínas. Estos signos se pueden clasificar en términos generales como señales , secuencias específicas que indican la presencia de un gen cercano, o contenido , propiedades estadísticas de la propia secuencia codificante de proteínas. El hallazgo de genes ab initio podría caracterizarse con mayor precisión como predicción de genes , ya que generalmente se requiere evidencia extrínseca para establecer de manera concluyente que un gen putativo es funcional.

Esta imagen muestra cómo se pueden utilizar los marcos de lectura abiertos (ORF) para la predicción de genes. La predicción de genes es el proceso de determinar dónde podría estar un gen codificante en una secuencia genómica. Las proteínas funcionales deben comenzar con un codón de inicio (donde comienza la transcripción del ADN) y terminar con un codón de parada (donde termina la transcripción). Al observar dónde podrían ubicarse esos codones en una secuencia de ADN, se puede ver dónde podría ubicarse una proteína funcional. Esto es importante en la predicción de genes porque puede revelar dónde se encuentran los genes codificantes en una secuencia genómica completa. En este ejemplo, se puede descubrir una proteína funcional usando ORF3 porque comienza con un codón de inicio, tiene múltiples aminoácidos y luego termina con un codón de parada, todo dentro del mismo marco de lectura. [6]

En los genomas de los procariotas , los genes tienen secuencias promotoras (señales) específicas y relativamente bien comprendidas , como la caja de Pribnow y los sitios de unión del factor de transcripción , que son fáciles de identificar sistemáticamente. Además, la secuencia que codifica una proteína se produce como un marco de lectura abierto (ORF) contiguo, que normalmente tiene una longitud de cientos o miles de pares de bases . Las estadísticas de codones de terminación son tales que incluso encontrar un marco de lectura abierto de esta longitud es una señal bastante informativa. (Dado que 3 de los 64 codones posibles en el código genético son codones de terminación, uno esperaría un codón de terminación aproximadamente cada 20 a 25 codones, o 60 a 75 pares de bases, en una secuencia aleatoria ). Además, el ADN que codifica proteínas tiene ciertos periodicidades y otras propiedades estadísticas que son fáciles de detectar en una secuencia de esta longitud. Estas características hacen que la búsqueda de genes procarióticos sea relativamente sencilla y los sistemas bien diseñados pueden alcanzar altos niveles de precisión.

La búsqueda de genes ab initio en eucariotas , especialmente en organismos complejos como los humanos, es considerablemente más desafiante por varias razones. En primer lugar, el promotor y otras señales reguladoras en estos genomas son más complejos y menos comprendidos que en los procariotas, lo que los hace más difíciles de reconocer de manera confiable. Dos ejemplos clásicos de señales identificadas por los buscadores de genes eucariotas son las islas CpG y los sitios de unión para una cola poli(A) .

En segundo lugar, los mecanismos de empalme empleados por las células eucariotas significan que una secuencia codificante de proteínas particular en el genoma se divide en varias partes ( exones ), separadas por secuencias no codificantes ( intrones ). (Los sitios de empalme son en sí mismos otra señal que los buscadores de genes eucarióticos a menudo están diseñados para identificar). Un gen codificador de proteínas típico en humanos podría dividirse en una docena de exones, cada uno de menos de doscientos pares de bases de longitud, y algunos tan cortos como veinte. a treinta. Por tanto, es mucho más difícil detectar periodicidades y otras propiedades de contenido conocidas del ADN que codifica proteínas en eucariotas.

Los buscadores de genes avanzados para genomas procarióticos y eucariotas suelen utilizar modelos probabilísticos complejos , como los modelos ocultos de Markov (HMM), para combinar información de una variedad de diferentes mediciones de señal y contenido. El sistema GLIMMER es un buscador de genes para procariotas ampliamente utilizado y de gran precisión. GeneMark es otro enfoque popular. En comparación, los buscadores de genes eucariotas ab initio sólo han logrado un éxito limitado; ejemplos notables son los programas GENSCAN y geneid. Los buscadores de genes GeneMark-ES y SNAP están basados ​​en GHMM como GENSCAN. Intentan abordar los problemas relacionados con el uso de un buscador de genes en una secuencia del genoma para la que no fue entrenado. [7] [8] Algunos enfoques recientes como mSplicer, [9] CONTRAST, [10] o mGene [11] también utilizan técnicas de aprendizaje automático , como máquinas de vectores de soporte, para una predicción genética exitosa. Construyen un modelo discriminativo utilizando máquinas de vectores de soporte de Markov ocultas o campos aleatorios condicionales para aprender una función de puntuación de predicción genética precisa.

Los métodos Ab Initio se han evaluado y algunos se acercan al 100 % de sensibilidad; sin embargo , a medida que aumenta la sensibilidad, la precisión se ve afectada como resultado del aumento de los falsos positivos .

Otras señales

Entre las señales derivadas utilizadas para la predicción se encuentran las estadísticas resultantes de las estadísticas de la subsecuencia, como estadísticas de k-mer , isócora (genética) o composición/uniformidad/entropía de GC del dominio de composición , longitud de secuencia y marco, intrón/exón/donante/aceptor/promotor. y vocabulario del sitio de unión ribosomal , dimensión fractal , transformada de Fourier de un ADN codificado con pseudonúmeros, parámetros de la curva Z y ciertas características de ejecución. [12]

Se ha sugerido que otras señales además de las directamente detectables en las secuencias pueden mejorar la predicción de genes. Por ejemplo, se ha informado del papel de la estructura secundaria en la identificación de motivos reguladores. [13] Además, se ha sugerido que la predicción de la estructura secundaria del ARN ayuda a la predicción del sitio de empalme. [14] [15] [16] [17]

Redes neuronales

Las redes neuronales artificiales son modelos computacionales que destacan en el aprendizaje automático y el reconocimiento de patrones . Las redes neuronales deben entrenarse con datos de ejemplo antes de poder generalizarlas para datos experimentales y probarse con datos de referencia. Las redes neuronales pueden encontrar soluciones aproximadas a problemas que son difíciles de resolver algorítmicamente, siempre que existan suficientes datos de entrenamiento. Cuando se aplican a la predicción de genes, las redes neuronales se pueden utilizar junto con otros métodos ab initio para predecir o identificar características biológicas como los sitios de empalme. [18] Un enfoque [19] implica el uso de una ventana deslizante, que atraviesa los datos de la secuencia de manera superpuesta. El resultado en cada posición es una puntuación basada en si la red cree que la ventana contiene un sitio de empalme donante o un sitio de empalme aceptor. Las ventanas más grandes ofrecen más precisión pero también requieren más potencia computacional. Una red neuronal es un ejemplo de sensor de señales, ya que su objetivo es identificar un sitio funcional en el genoma.

Enfoques combinados

Programas como Maker combinan enfoques extrínsecos y ab initio mediante el mapeo de datos de proteínas y EST en el genoma para validar las predicciones ab initio . Augustus, que puede usarse como parte del proyecto Maker, también puede incorporar sugerencias en forma de alineaciones EST o perfiles de proteínas para aumentar la precisión de la predicción genética.

Enfoques de genómica comparada

Dado que se secuencian los genomas completos de muchas especies diferentes, una dirección prometedora en la investigación actual sobre la búsqueda de genes es un enfoque de genómica comparada .

Esto se basa en el principio de que las fuerzas de la selección natural hacen que los genes y otros elementos funcionales sufran mutaciones a un ritmo más lento que el resto del genoma, ya que es más probable que las mutaciones en elementos funcionales afecten negativamente al organismo que las mutaciones en otros lugares. Por lo tanto, los genes pueden detectarse comparando los genomas de especies relacionadas para detectar esta presión evolutiva para la conservación. Este enfoque se aplicó por primera vez a los genomas humanos y de ratón, utilizando programas como SLAM, SGP y TWINSCAN/N-SCAN y CONTRAST. [20]

Múltiples informantes

TWINSCAN examinó únicamente la síntesis humano-ratón para buscar genes ortólogos. Programas como N-SCAN y CONTRAST permitieron la incorporación de alineamientos de múltiples organismos o, en el caso de N-SCAN, un único organismo alternativo del objetivo. El uso de múltiples informantes puede conducir a mejoras significativas en la precisión. [20]

CONTRASTE se compone de dos elementos. El primero es un clasificador más pequeño, que identifica sitios de empalme donantes y sitios de empalme aceptores, así como codones de inicio y parada. El segundo elemento implica la construcción de un modelo completo utilizando el aprendizaje automático. Dividir el problema en dos significa que se pueden usar conjuntos de datos específicos más pequeños para entrenar a los clasificadores, y que el clasificador puede operar de forma independiente y entrenarse con ventanas más pequeñas. El modelo completo puede utilizar el clasificador independiente y no tener que perder tiempo de cálculo ni complejidad del modelo reclasificando los límites intrón-exón. El artículo en el que se presenta CONTRAST propone que su método (y los de TWINSCAN, etc.) se clasifiquen como ensamblaje de genes de novo , utilizando genomas alternativos e identificándolos como distintos de ab initio , que utiliza un genoma "informante" objetivo. [20]

La búsqueda comparativa de genes también se puede utilizar para proyectar anotaciones de alta calidad de un genoma a otro. Ejemplos notables incluyen Proyector, GeneWise, GeneMapper y GeMoMa. Estas técnicas desempeñan ahora un papel central en la anotación de todos los genomas.

Predicción de pseudogenes

Los pseudogenes son parientes cercanos de los genes, comparten una homología de secuencia muy alta, pero no pueden codificar el mismo producto proteico . Si bien alguna vez fueron relegados como subproductos de la secuenciación de genes , cada vez más, a medida que se descubren funciones reguladoras, se están convirtiendo en objetivos predictivos por derecho propio. [21] La predicción de pseudogenes utiliza métodos ab initio y de similitud de secuencia existentes, al tiempo que agrega filtrado adicional y métodos para identificar características de pseudogenes.

Los métodos de similitud de secuencia se pueden personalizar para la predicción de pseudogenes mediante filtrado adicional para encontrar pseudogenes candidatos. Esto podría utilizar la detección de desactivación, que busca mutaciones sin sentido o de cambio de marco que truncarían o colapsarían una secuencia codificante que de otro modo sería funcional. [22] Además, traducir el ADN en secuencias de proteínas puede ser más eficaz que simplemente la homología directa del ADN. [21]

Los sensores de contenido se pueden filtrar según las diferencias en las propiedades estadísticas entre pseudogenes y genes, como un recuento reducido de islas CpG en pseudogenes o las diferencias en el contenido de GC entre pseudogenes y sus vecinos. Los sensores de señal también se pueden adaptar a pseudogenes, buscando la ausencia de intrones o colas de poliadenina. [23]

Predicción de genes metagenómicos.

La metagenómica es el estudio del material genético recuperado del medio ambiente, lo que da como resultado información de secuencia de un conjunto de organismos. Predecir genes es útil para la metagenómica comparada .

Las herramientas de metagenómica también se incluyen en las categorías básicas de uso de enfoques de similitud de secuencia (MEGAN4) y técnicas ab initio (GLIMMER-MG).

Glimmer-MG [24] es una extensión de GLIMMER que se basa principalmente en un enfoque ab initio para la búsqueda de genes y el uso de conjuntos de entrenamiento de organismos relacionados. La estrategia de predicción se ve reforzada por la clasificación y agrupación de conjuntos de datos de genes antes de aplicar métodos de predicción de genes ab initio. Los datos están agrupados por especies. Este método de clasificación aprovecha técnicas de clasificación filogenética metagenómica. Un ejemplo de software para este propósito es Phymm, que utiliza modelos de Markov interpolados, y PhymmBL, que integra BLAST en las rutinas de clasificación.

MEGAN4 [25] utiliza un enfoque de similitud de secuencia, utilizando alineación local con bases de datos de secuencias conocidas, pero también intenta clasificar utilizando información adicional sobre funciones funcionales, vías biológicas y enzimas. Al igual que en la predicción de genes de un solo organismo, los enfoques de similitud de secuencia están limitados por el tamaño de la base de datos.

FragGeneScan y MetaGeneAnnotator son programas populares de predicción de genes basados ​​en el modelo oculto de Markov . Estos predictores tienen en cuenta errores de secuenciación, genes parciales y funcionan para lecturas cortas.

Otra herramienta rápida y precisa para la predicción de genes en metagenomas es MetaGeneMark. [26] Esta herramienta es utilizada por el DOE Joint Genome Institute para anotar IMG/M, la colección de metagenomas más grande hasta la fecha.

Ver también

Referencias

  1. ^ Sleator RD (agosto de 2010). "Una descripción general del estado actual de las estrategias de predicción de genes eucariotas". Gen.461 (1–2): 1–4. doi :10.1016/j.gene.2010.04.008. PMID  20430068.
  2. ^ Ejigu, Girum Fitihamlak; Jung, Jaehee (18 de septiembre de 2020). "Revisión sobre la anotación computacional del genoma de secuencias obtenidas mediante secuenciación de próxima generación". Biología . 9 (9): 295. doi : 10.3390/biología9090295 . ISSN  2079-7737. PMC 7565776 . PMID  32962098. 
  3. ^ ab Yandell M, Ence D (abril de 2012). "Una guía para principiantes sobre la anotación del genoma eucariota". Reseñas de la naturaleza. Genética . 13 (5): 329–42. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.
  4. ^ Redding S, Greene EC (mayo de 2013). "¿Cómo localizan las proteínas objetivos específicos en el ADN?". Letras de Física Química . 570 : 1–11. Código Bib : 2013CPL...570....1R. doi :10.1016/j.cplett.2013.03.035. PMC 3810971 . PMID  24187380. 
  5. ^ Sokolov IM, Metzler R, Pant K, Williams MC (agosto de 2005). "Búsqueda de objetivos de N proteínas deslizantes en un ADN". Revista Biofísica . 89 (2): 895–902. Código Bib : 2005BpJ....89..895S. doi : 10.1529/biophysj.104.057612. PMC 1366639 . PMID  15908574. 
  6. ^ Madigan MT, Martinko JM, Bender KS, Buckley DH, Stahl D (2015). Brock Biología de los microorganismos (14ª ed.). Boston: Pearson. ISBN 9780321897398.
  7. ^ "GeneMark-ES".
  8. ^ Korf I (mayo de 2004). "Búsqueda de genes en genomas novedosos". Bioinformática BMC . 5 : 59. doi : 10.1186/1471-2105-5-59 . PMC 421630 . PMID  15144565. 
  9. ^ Rätsch G, Sonnenburg S, Srinivasan J, Witte H, Müller KR , Sommer RJ, Schölkopf B (febrero de 2007). "Mejora de la anotación del genoma de Caenorhabditis elegans mediante aprendizaje automático". PLOS Biología Computacional . 3 (2): e20. Código Bib : 2007PLSCB...3...20R. doi : 10.1371/journal.pcbi.0030020 . PMC 1808025 . PMID  17319737. 
  10. ^ Bruto SS, Do CB, Sirota M, Batzoglou S (20 de diciembre de 2007). "CONTRASTE: un enfoque discriminativo y libre de filogenia para la predicción de genes de novo de múltiples informantes". Biología del genoma . 8 (12): R269. doi : 10.1186/gb-2007-8-12-r269 . PMC 2246271 . PMID  18096039. 
  11. ^ Schweikert G, Behr J, Zien A, Zeller G, Ong CS, Sonnenburg S, Rätsch G (julio de 2009). "mGene.web: un servicio web para la búsqueda computacional precisa de genes". Investigación de ácidos nucleicos . 37 (problema del servidor web): W312–6. doi :10.1093/nar/gkp479. PMC 2703990 . PMID  19494180. 
  12. ^ Saeys Y, Rouzé P, Van de Peer Y (febrero de 2007). "En busca de los pequeños: predicción mejorada de exones cortos en vertebrados, plantas, hongos y protistas". Bioinformática . 23 (4): 414–20. doi : 10.1093/bioinformática/btl639 . PMID  17204465.
  13. ^ Hiller M, Pudimat R, Busch A, Backofen R (2006). "Uso de estructuras secundarias de ARN para guiar la búsqueda de motivos de secuencia hacia regiones monocatenarias". Investigación de ácidos nucleicos . 34 (17): e117. doi :10.1093/nar/gkl544. PMC 1903381 . PMID  16987907. 
  14. ^ Patterson DJ, Yasuhara K, Ruzzo WL (2002). "La predicción de la estructura secundaria previa al ARNm ayuda a la predicción del sitio de empalme". Simposio del Pacífico sobre biocomputación. Simposio del Pacífico sobre biocomputación : 223–34. PMID  11928478.
  15. ^ Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (febrero de 2006). "Importancia de la información de la estructura secundaria del ARN para las predicciones del sitio de empalme del donante y aceptor de levadura mediante redes neuronales". Biología y Química Computacional . 30 (1): 50–7. doi :10.1016/j.compbiolchem.2005.10.009. PMID  16386465.
  16. ^ Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (junio de 2006). "Impacto de la estructura del ARN en la predicción de sitios de empalme donantes y aceptores". Bioinformática BMC . 7 : 297. doi : 10.1186/1471-2105-7-297 . PMC 1526458 . PMID  16772025. 
  17. ^ Rogic, S (2006). El papel de la estructura secundaria del pre-ARNm en el empalme de genes en Saccharomyces cerevisiae (PDF) (tesis doctoral). Universidad de Columbia Britanica. Archivado desde el original (PDF) el 30 de mayo de 2009 . Consultado el 1 de abril de 2007 .
  18. ^ Goel N, Singh S, Aseri TC (julio de 2013). "Un análisis comparativo de técnicas de computación blanda para la predicción de genes". Bioquímica Analítica . 438 (1): 14-21. doi :10.1016/j.ab.2013.03.015. PMID  23529114.
  19. ^ Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). "Predicción del sitio de empalme mediante redes neuronales artificiales". Métodos de Inteligencia Computacional para Bioinformática y Bioestadística . Lec no ciencia ficción. vol. 5488. págs. 102-113. doi :10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.
  20. ^ abc Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRASTE: un enfoque discriminativo y libre de filogenia para la predicción de genes de novo de múltiples informantes". Biología del genoma . 8 (12): R269. doi : 10.1186/gb-2007-8-12-r269 . PMC 2246271 . PMID  18096039. 
  21. ^ ab Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (agosto de 2010). "Anotar regiones no codificantes del genoma". Reseñas de la naturaleza. Genética . 11 (8): 559–71. doi :10.1038/nrg2814. PMID  20628352. S2CID  6617359.
  22. ^ Svensson O, Arvestad L, Lagergren J (mayo de 2006). "Estudio de todo el genoma en busca de pseudogenes biológicamente funcionales". PLOS Biología Computacional . 2 (5): e46. Código Bib : 2006PLSCB...2...46S. doi : 10.1371/journal.pcbi.0020046 . PMC 1456316 . PMID  16680195. 
  23. ^ Zhang Z, Gerstein M (agosto de 2004). "Análisis a gran escala de pseudogenes en el genoma humano". Opinión actual en genética y desarrollo . 14 (4): 328–35. doi :10.1016/j.gde.2004.06.003. PMID  15261647.
  24. ^ Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (enero de 2012). "Predicción de genes con Glimmer para secuencias metagenómicas aumentadas mediante clasificación y agrupación". Investigación de ácidos nucleicos . 40 (1): e9. doi : 10.1093/nar/gkr1067. PMC 3245904 . PMID  22102569. 
  25. ^ Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (septiembre de 2011). "Análisis integrativo de secuencias ambientales utilizando MEGAN4". Investigación del genoma . 21 (9): 1552–60. doi :10.1101/gr.120618.111. PMC 3166839 . PMID  21690186. 
  26. ^ Zhu W, Lomsadze A, Borodovsky M (julio de 2010). "Identificación de genes ab initio en secuencias metagenómicas". Investigación de ácidos nucleicos . 38 (12): e132. doi :10.1093/nar/gkq275. PMC 2896542 . PMID  20403810. 

enlaces externos