stringtranslate.com

Predicción genética

Estructura de un gen eucariota

En biología computacional , la predicción o hallazgo de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas , así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como las regiones reguladoras . El hallazgo de genes es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que se ha secuenciado .

En sus inicios, la "búsqueda de genes" se basaba en una experimentación minuciosa con células y organismos vivos. El análisis estadístico de las tasas de recombinación homóloga de varios genes diferentes podía determinar su orden en un cromosoma determinado , y la información de muchos de esos experimentos podía combinarse para crear un mapa genético que especificara la ubicación aproximada de los genes conocidos entre sí. Hoy, con una secuencia genómica completa y poderosos recursos computacionales a disposición de la comunidad de investigación, la búsqueda de genes se ha redefinido como un problema en gran medida computacional.

La determinación de la funcionalidad de una secuencia debe distinguirse de la determinación de la función del gen o su producto. Predecir la función de un gen y confirmar que la predicción del gen es precisa aún exige experimentación in vivo [1] mediante la eliminación de genes y otros ensayos, aunque las fronteras de la investigación bioinformática [2] están haciendo cada vez más posible predecir la función de un gen basándose únicamente en su secuencia.

La predicción genética es uno de los pasos clave en la anotación del genoma , después del ensamblaje de secuencias , el filtrado de regiones no codificantes y el enmascaramiento de repeticiones. [3]

La predicción genética está estrechamente relacionada con el llamado "problema de búsqueda de objetivos", que investiga cómo las proteínas de unión al ADN ( factores de transcripción ) localizan sitios de unión específicos dentro del genoma . [4] [5] Muchos aspectos de la predicción genética estructural se basan en la comprensión actual de los procesos bioquímicos subyacentes en la célula, como la transcripción genética , la traducción , las interacciones proteína-proteína y los procesos de regulación , que son objeto de investigación activa en los diversos campos ómicos , como la transcriptómica , la proteómica , la metabolómica y, de manera más general, la genómica estructural y funcional .

Métodos empíricos

En los sistemas de búsqueda de genes empíricos (basados ​​en similitud, homología o evidencia), se busca en el genoma objetivo secuencias que sean similares a la evidencia extrínseca en forma de las etiquetas de secuencia expresadas conocidas , ARN mensajero (ARNm), productos proteicos y secuencias homólogas u ortólogas. Dada una secuencia de ARNm, es trivial derivar una secuencia de ADN genómico única de la cual tuvo que haber sido transcrita . Dada una secuencia de proteína, se puede derivar una familia de posibles secuencias de ADN codificante mediante la traducción inversa del código genético . Una vez que se han determinado las secuencias de ADN candidatas, es un problema algorítmico relativamente sencillo buscar eficientemente coincidencias en un genoma objetivo, completas o parciales, y exactas o inexactas. Dada una secuencia, los algoritmos de alineamiento local como BLAST , FASTA y Smith-Waterman buscan regiones de similitud entre la secuencia objetivo y posibles coincidencias candidatas. Las coincidencias pueden ser completas o parciales, y exactas o inexactas. El éxito de este enfoque está limitado por el contenido y la precisión de la base de datos de secuencias.

Un alto grado de similitud con un ARN mensajero o un producto proteico conocido es una prueba contundente de que una región de un genoma diana es un gen codificador de proteínas. Sin embargo, para aplicar este enfoque de forma sistemática se requiere una secuenciación extensa de ARN mensajero y productos proteicos. Esto no solo es costoso, sino que en organismos complejos, solo se expresa un subconjunto de todos los genes del genoma del organismo en un momento dado, lo que significa que la evidencia extrínseca de muchos genes no es fácilmente accesible en ningún cultivo de células individuales. Por lo tanto, para recopilar evidencia extrínseca de la mayoría o la totalidad de los genes en un organismo complejo se requiere el estudio de muchos cientos o miles de tipos de células , lo que presenta más dificultades. Por ejemplo, algunos genes humanos pueden expresarse solo durante el desarrollo como embrión o feto, lo que podría ser difícil de estudiar por razones éticas.

A pesar de estas dificultades, se han generado extensas bases de datos de secuencias de proteínas y transcripciones de seres humanos y de otros organismos modelo importantes en biología, como los ratones y las levaduras. Por ejemplo, la base de datos RefSeq contiene secuencias de proteínas y transcripciones de muchas especies diferentes, y el sistema Ensembl mapea de manera exhaustiva esta evidencia en el genoma humano y en varios otros. Sin embargo, es probable que estas bases de datos estén incompletas y contengan pequeñas pero significativas cantidades de datos erróneos.

Las nuevas tecnologías de secuenciación del transcriptoma de alto rendimiento, como RNA-Seq y la secuenciación ChIP, abren oportunidades para incorporar evidencia extrínseca adicional a la predicción y validación de genes, y permiten una alternativa estructuralmente rica y más precisa a los métodos anteriores de medición de la expresión genética , como la etiqueta de secuencia expresada o la micromatriz de ADN .

Los principales desafíos que implica la predicción genética incluyen el manejo de errores de secuenciación en datos de ADN sin procesar, la dependencia de la calidad del ensamblaje de la secuencia , el manejo de lecturas cortas, mutaciones por cambio de marco , genes superpuestos y genes incompletos.

En los procariotas, es esencial considerar la transferencia horizontal de genes cuando se busca la homología de secuencias genéticas . Otro factor importante que no se utiliza lo suficiente en las herramientas actuales de detección de genes es la existencia de grupos de genes, operones (que son unidades funcionales de ADN que contienen un grupo de genes bajo el control de un único promotor ) tanto en procariotas como en eucariotas. La mayoría de los detectores de genes más populares tratan cada gen de forma aislada, independientemente de los demás, lo que no es biológicamente preciso.

Desde el principiométodos

La predicción de genes ab initio es un método intrínseco basado en el contenido de los genes y la detección de señales. Debido al gasto y la dificultad inherentes a la obtención de evidencia extrínseca para muchos genes, también es necesario recurrir a la búsqueda de genes ab initio , en la que se busca sistemáticamente en la secuencia de ADN genómico únicamente ciertos signos reveladores de genes codificadores de proteínas. Estos signos se pueden clasificar en términos generales como señales , secuencias específicas que indican la presencia de un gen cercano, o contenido , propiedades estadísticas de la propia secuencia codificadora de proteínas. La búsqueda de genes ab initio podría caracterizarse con mayor precisión como predicción de genes , ya que generalmente se requiere evidencia extrínseca para establecer de manera concluyente que un gen putativo es funcional.

Esta imagen muestra cómo se pueden utilizar los marcos de lectura abiertos (ORF) para la predicción de genes. La predicción de genes es el proceso de determinar dónde podría estar un gen codificante en una secuencia genómica. Las proteínas funcionales deben comenzar con un codón de inicio (donde comienza la transcripción del ADN) y terminar con un codón de terminación (donde termina la transcripción). Al observar dónde podrían ubicarse esos codones en una secuencia de ADN, se puede ver dónde podría ubicarse una proteína funcional. Esto es importante en la predicción de genes porque puede revelar dónde están los genes codificantes en una secuencia genómica completa. En este ejemplo, se puede descubrir una proteína funcional utilizando ORF3 porque comienza con un codón de inicio, tiene múltiples aminoácidos y luego termina con un codón de terminación, todo dentro del mismo marco de lectura. [6]

En los genomas de los procariotas , los genes tienen secuencias promotoras específicas y relativamente bien entendidas (señales), como la caja Pribnow y los sitios de unión de factores de transcripción , que son fáciles de identificar sistemáticamente. Además, la secuencia que codifica una proteína se presenta como un marco de lectura abierto (ORF) contiguo, que normalmente tiene muchos cientos o miles de pares de bases de longitud. Las estadísticas de los codones de terminación son tales que incluso encontrar un marco de lectura abierto de esta longitud es una señal bastante informativa. (Dado que 3 de los 64 codones posibles en el código genético son codones de terminación, uno esperaría un codón de terminación aproximadamente cada 20-25 codones, o 60-75 pares de bases, en una secuencia aleatoria ). Además, el ADN codificador de proteínas tiene ciertas periodicidades y otras propiedades estadísticas que son fáciles de detectar en una secuencia de esta longitud. Estas características hacen que la búsqueda de genes procariotas sea relativamente sencilla, y los sistemas bien diseñados pueden lograr altos niveles de precisión.

Encontrar genes ab initio en eucariotas , especialmente en organismos complejos como los humanos, es considerablemente más difícil por varias razones. En primer lugar, el promotor y otras señales reguladoras en estos genomas son más complejos y menos comprendidos que en los procariotas, lo que hace que sea más difícil reconocerlos de manera confiable. Dos ejemplos clásicos de señales identificadas por los buscadores de genes eucariotas son las islas CpG y los sitios de unión para una cola de poli(A) .

En segundo lugar, los mecanismos de empalme que emplean las células eucariotas implican que una secuencia codificante de proteínas particular en el genoma se divide en varias partes ( exones ), separadas por secuencias no codificantes ( intrones ). (Los sitios de empalme son en sí mismos otra señal que los buscadores de genes eucariotas suelen estar diseñados para identificar). Un gen codificante de proteínas típico en humanos puede dividirse en una docena de exones, cada uno de menos de doscientos pares de bases de longitud, y algunos tan cortos como de veinte a treinta. Por lo tanto, es mucho más difícil detectar periodicidades y otras propiedades de contenido conocidas del ADN codificante de proteínas en eucariotas.

Los buscadores de genes avanzados para genomas procariotas y eucariotas suelen utilizar modelos probabilísticos complejos , como los modelos ocultos de Markov (HMM) para combinar información de una variedad de diferentes mediciones de señales y contenido. El sistema GLIMMER es un buscador de genes ampliamente utilizado y muy preciso para procariotas. GeneMark es otro enfoque popular. Los buscadores de genes eucariotas ab initio , en comparación, han logrado solo un éxito limitado; ejemplos notables son los programas GENSCAN y geneid. Los buscadores de genes GeneMark-ES y SNAP se basan en GHMM como GENSCAN. Intentan abordar los problemas relacionados con el uso de un buscador de genes en una secuencia de genoma contra la que no fue entrenado. [7] [8] Algunos enfoques recientes como mSplicer, [9] CONTRAST, [10] o mGene [11] también utilizan técnicas de aprendizaje automático como máquinas de vectores de soporte para una predicción genética exitosa. Construyen un modelo discriminativo utilizando máquinas de vectores de soporte de Markov ocultas o campos aleatorios condicionales para aprender una función de puntuación de predicción genética precisa.

Se han evaluado los métodos ab initio y algunos se acercan al 100 % de sensibilidad, [3] sin embargo, a medida que aumenta la sensibilidad, la precisión se ve afectada como resultado del aumento de falsos positivos .

Otras señales

Entre las señales derivadas utilizadas para la predicción se encuentran las estadísticas resultantes de las estadísticas de subsecuencia como las estadísticas de k-mer , la composición/uniformidad/entropía del GC del dominio composicional o isócoro (genética) , la secuencia y la longitud del marco, el vocabulario de sitios de unión de intrones/exones/donantes/aceptores/promotores y ribosómicos , la dimensión fractal , la transformada de Fourier de un ADN codificado por pseudonúmeros, los parámetros de la curva Z y ciertas características de ejecución. [12]

Se ha sugerido que señales distintas a las directamente detectables en secuencias pueden mejorar la predicción de genes. Por ejemplo, se ha informado sobre el papel de la estructura secundaria en la identificación de motivos reguladores. [13] Además, se ha sugerido que la predicción de la estructura secundaria del ARN ayuda a la predicción del sitio de empalme. [14] [15] [16] [17]

Redes neuronales

Las redes neuronales artificiales son modelos computacionales que se destacan en el aprendizaje automático y el reconocimiento de patrones . Las redes neuronales deben entrenarse con datos de ejemplo antes de poder generalizar para datos experimentales y probarse con datos de referencia. Las redes neuronales pueden llegar a soluciones aproximadas a problemas que son difíciles de resolver algorítmicamente, siempre que haya suficientes datos de entrenamiento. Cuando se aplican a la predicción de genes, las redes neuronales se pueden utilizar junto con otros métodos ab initio para predecir o identificar características biológicas como sitios de empalme. [18] Un enfoque [19] implica el uso de una ventana deslizante, que atraviesa los datos de la secuencia de manera superpuesta. La salida en cada posición es una puntuación basada en si la red cree que la ventana contiene un sitio de empalme donante o un sitio de empalme aceptor. Las ventanas más grandes ofrecen más precisión, pero también requieren más potencia computacional. Una red neuronal es un ejemplo de un sensor de señal, ya que su objetivo es identificar un sitio funcional en el genoma.

Enfoques combinados

Programas como Maker combinan métodos extrínsecos y ab initio mediante el mapeo de datos de proteínas y EST al genoma para validar predicciones ab initio . Augustus, que puede utilizarse como parte del proceso Maker, también puede incorporar pistas en forma de alineaciones de EST o perfiles de proteínas para aumentar la precisión de la predicción genética.

Enfoques de genómica comparativa

Como se han secuenciado los genomas completos de muchas especies diferentes, una dirección prometedora en la investigación actual sobre el descubrimiento de genes es un enfoque de genómica comparativa .

Este enfoque se basa en el principio de que las fuerzas de la selección natural hacen que los genes y otros elementos funcionales sufran mutaciones a un ritmo más lento que el resto del genoma, ya que las mutaciones en elementos funcionales tienen más probabilidades de afectar negativamente al organismo que las mutaciones en otras partes. Por lo tanto, los genes se pueden detectar comparando los genomas de especies relacionadas para detectar esta presión evolutiva a favor de la conservación. Este enfoque se aplicó por primera vez a los genomas del ratón y del ser humano, utilizando programas como SLAM, SGP y TWINSCAN/N-SCAN y CONTRAST. [20]

Múltiples informantes

TWINSCAN examinó únicamente la sintenia entre humanos y ratones para buscar genes ortólogos. Programas como N-SCAN y CONTRAST permitieron la incorporación de alineaciones de múltiples organismos o, en el caso de N-SCAN, un único organismo alternativo al objetivo. El uso de múltiples informantes puede conducir a mejoras significativas en la precisión. [20]

CONTRAST se compone de dos elementos. El primero es un clasificador más pequeño, que identifica los sitios de empalme de donantes y de aceptores, así como los codones de inicio y de parada. El segundo elemento implica la construcción de un modelo completo mediante aprendizaje automático. Dividir el problema en dos significa que se pueden utilizar conjuntos de datos específicos más pequeños para entrenar a los clasificadores, y que el clasificador puede funcionar de forma independiente y entrenarse con ventanas más pequeñas. El modelo completo puede utilizar el clasificador independiente y no tener que perder tiempo computacional o complejidad del modelo reclasificando los límites intrón-exón. El artículo en el que se presenta CONTRAST propone que su método (y los de TWINSCAN, etc.) se clasifiquen como ensamblaje de genes de novo , utilizando genomas alternativos e identificándolo como distinto del ab initio , que utiliza genomas "informantes" objetivo. [20]

La búsqueda comparativa de genes también se puede utilizar para proyectar anotaciones de alta calidad de un genoma a otro. Entre los ejemplos más destacados se incluyen Projector, GeneWise, GeneMapper y GeMoMa. Estas técnicas desempeñan ahora un papel central en la anotación de todos los genomas.

Predicción de pseudogenes

Los pseudogenes son parientes cercanos de los genes, que comparten una homología de secuencia muy alta, pero no pueden codificar el mismo producto proteico . Si bien alguna vez se los relegó como subproductos de la secuenciación genética , cada vez más, a medida que se descubren funciones reguladoras, se están convirtiendo en objetivos predictivos por derecho propio. [21] La predicción de pseudogenes utiliza la similitud de secuencias existentes y los métodos ab initio, al tiempo que agrega filtros adicionales y métodos de identificación de características de pseudogenes.

Los métodos de similitud de secuencias se pueden personalizar para la predicción de pseudogenes utilizando un filtrado adicional para encontrar pseudogenes candidatos. Esto podría utilizar la detección de desactivación, que busca mutaciones sin sentido o de cambio de marco que truncarían o colapsarían una secuencia codificante que de otro modo sería funcional. [22] Además, traducir el ADN en secuencias de proteínas puede ser más eficaz que la homología de ADN directa. [21]

Los sensores de contenido se pueden filtrar según las diferencias en las propiedades estadísticas entre pseudogenes y genes, como un recuento reducido de islas CpG en pseudogenes, o las diferencias en el contenido de GC entre pseudogenes y sus vecinos. Los sensores de señal también se pueden ajustar a pseudogenes, buscando la ausencia de intrones o colas de poliadenina. [23]

Predicción de genes metagenómicos

La metagenómica es el estudio del material genético recuperado del medio ambiente, lo que da como resultado información secuencial de un conjunto de organismos. La predicción de genes es útil para la metagenómica comparativa .

Las herramientas de metagenómica también entran en las categorías básicas de uso de enfoques de similitud de secuencia (MEGAN4) y técnicas ab initio (GLIMMER-MG).

Glimmer-MG [24] es una extensión de GLIMMER que se basa principalmente en un enfoque ab initio para la búsqueda de genes y en el uso de conjuntos de entrenamiento de organismos relacionados. La estrategia de predicción se complementa con la clasificación y agrupación de conjuntos de datos genéticos antes de aplicar métodos de predicción de genes ab initio. Los datos se agrupan por especie. Este método de clasificación aprovecha las técnicas de la clasificación filogenética metagenómica. Un ejemplo de software para este propósito es Phymm, que utiliza modelos de Markov interpolados, y PhymmBL, que integra BLAST en las rutinas de clasificación.

MEGAN4 [25] utiliza un enfoque de similitud de secuencias, utilizando la alineación local con bases de datos de secuencias conocidas, pero también intenta clasificar utilizando información adicional sobre roles funcionales, vías biológicas y enzimas. Al igual que en la predicción de genes de un solo organismo, los enfoques de similitud de secuencias están limitados por el tamaño de la base de datos.

FragGeneScan y MetaGeneAnnotator son programas populares de predicción de genes basados ​​en el modelo oculto de Markov . Estos predictores tienen en cuenta errores de secuenciación, genes parciales y funcionan para lecturas cortas.

Otra herramienta rápida y precisa para la predicción de genes en metagenomas es MetaGeneMark. [26] Esta herramienta es utilizada por el DOE Joint Genome Institute para anotar IMG/M, la colección de metagenomas más grande hasta la fecha.

Véase también

Referencias

  1. ^ Sleator RD (agosto de 2010). "Una visión general del estado actual de las estrategias de predicción de genes eucariotas". Gene . 461 (1–2): 1–4. doi :10.1016/j.gene.2010.04.008. PMID  20430068.
  2. ^ Ejigu, Girum Fitihamlak; Jung, Jaehee (18 de septiembre de 2020). "Revisión de la anotación computacional del genoma de secuencias obtenidas mediante secuenciación de próxima generación". Biology . 9 (9): 295. doi : 10.3390/biology9090295 . ISSN  2079-7737. PMC 7565776 . PMID  32962098. 
  3. ^ ab Yandell M, Ence D (abril de 2012). "Una guía para principiantes sobre la anotación del genoma eucariota". Nature Reviews. Genética . 13 (5): 329–42. doi :10.1038/nrg3174. PMID  22510764. S2CID  3352427.
  4. ^ Redding S, Greene EC (mayo de 2013). "¿Cómo localizan las proteínas objetivos específicos en el ADN?". Chemical Physics Letters . 570 : 1–11. Bibcode :2013CPL...570....1R. doi :10.1016/j.cplett.2013.03.035. PMC 3810971 . PMID  24187380. 
  5. ^ Sokolov IM, Metzler R, Pant K, Williams MC (agosto de 2005). "Búsqueda de objetivos de N proteínas deslizantes en un ADN". Biophysical Journal . 89 (2): 895–902. Bibcode :2005BpJ....89..895S. doi :10.1529/biophysj.104.057612. PMC 1366639 . PMID  15908574. 
  6. ^ Madigan MT, Martinko JM, Bender KS, Buckley DH, Stahl D (2015). Brock Biología de microorganismos (14.ª ed.). Boston: Pearson. ISBN 9780321897398.
  7. ^ "GeneMark-ES".
  8. ^ Korf I (mayo de 2004). "Descubrimiento de genes en genomas novedosos". BMC Bioinformatics . 5 : 59. doi : 10.1186/1471-2105-5-59 . PMC 421630 . PMID  15144565. 
  9. ^ Rätsch G, Sonnenburg S, Srinivasan J, Witte H, Müller KR , Sommer RJ, Schölkopf B (febrero de 2007). "Mejora de la anotación del genoma de Caenorhabditis elegans mediante aprendizaje automático". PLOS Computational Biology . 3 (2): e20. Bibcode :2007PLSCB...3...20R. doi : 10.1371/journal.pcbi.0030020 . PMC 1808025 . PMID  17319737. 
  10. ^ Gross SS, Do CB, Sirota M, Batzoglou S (20 de diciembre de 2007). "CONTRAST: un enfoque discriminativo y libre de filogenia para la predicción de genes de novo con múltiples informantes". Genome Biology . 8 (12): R269. doi : 10.1186/gb-2007-8-12-r269 . PMC 2246271 . PMID  18096039. 
  11. ^ Schweikert G, Behr J, Zien A, Zeller G, Ong CS, Sonnenburg S, Rätsch G (julio de 2009). "mGene.web: un servicio web para la búsqueda computacional precisa de genes". Nucleic Acids Research . 37 (edición del servidor web): W312–6. doi :10.1093/nar/gkp479. PMC 2703990 . PMID  19494180. 
  12. ^ Saeys Y, Rouzé P, Van de Peer Y (febrero de 2007). "En busca de los pequeños: predicción mejorada de exones cortos en vertebrados, plantas, hongos y protistas". Bioinformática . 23 (4): 414–20. doi : 10.1093/bioinformatics/btl639 . PMID  17204465.
  13. ^ Hiller M, Pudimat R, Busch A, Backofen R (2006). "Uso de estructuras secundarias de ARN para guiar la búsqueda de motivos de secuencia hacia regiones monocatenarias". Nucleic Acids Research . 34 (17): e117. doi :10.1093/nar/gkl544. PMC 1903381 . PMID  16987907. 
  14. ^ Patterson DJ, Yasuhara K, Ruzzo WL (2002). "La predicción de la estructura secundaria del pre-ARNm ayuda a la predicción del sitio de empalme". Simposio del Pacífico sobre Bioinformática. Simposio del Pacífico sobre Bioinformática : 223–34. PMID  11928478.
  15. ^ Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (febrero de 2006). "Importancia de la información de la estructura secundaria del ARN para las predicciones de sitios de empalme de donantes y aceptores de levadura mediante redes neuronales". Computational Biology and Chemistry . 30 (1): 50–7. doi :10.1016/j.compbiolchem.2005.10.009. PMID  16386465.
  16. ^ Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (junio de 2006). "Impacto de la estructura del ARN en la predicción de sitios de empalme donantes y aceptores". BMC Bioinformatics . 7 : 297. doi : 10.1186/1471-2105-7-297 . PMC 1526458 . PMID  16772025. 
  17. ^ Rogic, S (2006). El papel de la estructura secundaria del pre-ARNm en el empalme génico en Saccharomyces cerevisiae (PDF) (tesis doctoral). Universidad de Columbia Británica. Archivado desde el original (PDF) el 2009-05-30 . Consultado el 2007-04-01 .
  18. ^ Goel N, Singh S, Aseri TC (julio de 2013). "Un análisis comparativo de técnicas de computación blanda para la predicción de genes". Analytical Biochemistry . 438 (1): 14–21. doi :10.1016/j.ab.2013.03.015. PMID  23529114.
  19. ^ Johansen, ∅Ystein; Ryen, Tom; Eftes∅l, Trygve; Kjosmoen, Thomas; Ruoff, Peter (2009). "Predicción del sitio de empalme utilizando redes neuronales artificiales". Métodos de inteligencia computacional para bioinformática y bioestadística . Lec Not Comp Sci. Vol. 5488. págs. 102–113. doi :10.1007/978-3-642-02504-4_9. ISBN 978-3-642-02503-7.
  20. ^ abc Gross SS, Do CB, Sirota M, Batzoglou S (2007). "CONTRAST: un enfoque discriminativo, libre de filogenia, para la predicción de genes de novo con múltiples informantes". Genome Biology . 8 (12): R269. doi : 10.1186/gb-2007-8-12-r269 . PMC 2246271 . PMID  18096039. 
  21. ^ ab Alexander RP, Fang G, Rozowsky J, Snyder M, Gerstein MB (agosto de 2010). "Anotación de regiones no codificantes del genoma". Nature Reviews. Genetics . 11 (8): 559–71. doi :10.1038/nrg2814. PMID  20628352. S2CID  6617359.
  22. ^ Svensson O, Arvestad L, Lagergren J (mayo de 2006). "Estudio de todo el genoma en busca de pseudogenes biológicamente funcionales". PLOS Computational Biology . 2 (5): e46. Bibcode :2006PLSCB...2...46S. doi : 10.1371/journal.pcbi.0020046 . PMC 1456316 . PMID  16680195. 
  23. ^ Zhang Z, Gerstein M (agosto de 2004). "Análisis a gran escala de pseudogenes en el genoma humano". Current Opinion in Genetics & Development . 14 (4): 328–35. doi :10.1016/j.gde.2004.06.003. PMID  15261647.
  24. ^ Kelley DR, Liu B, Delcher AL, Pop M, Salzberg SL (enero de 2012). "Predicción de genes con Glimmer para secuencias metagenómicas aumentadas por clasificación y agrupamiento". Nucleic Acids Research . 40 (1): e9. doi :10.1093/nar/gkr1067. PMC 3245904 . PMID  22102569. 
  25. ^ Huson DH, Mitra S, Ruscheweyh HJ, Weber N, Schuster SC (septiembre de 2011). "Análisis integrativo de secuencias ambientales utilizando MEGAN4". Genome Research . 21 (9): 1552–60. doi :10.1101/gr.120618.111. PMC 3166839 . PMID  21690186. 
  26. ^ Zhu W, Lomsadze A, Borodovsky M (julio de 2010). "Identificación de genes ab initio en secuencias metagenómicas". Nucleic Acids Research . 38 (12): e132. doi :10.1093/nar/gkq275. PMC 2896542 . PMID  20403810. 

Enlaces externos