stringtranslate.com

Marca genética

GeneMark es un nombre genérico para una familia de algoritmos de predicción de genes ab initio y programas de software desarrollados en el Instituto de Tecnología de Georgia en Atlanta . Desarrollado en 1993, el GeneMark original se utilizó en 1995 como una herramienta primaria de predicción de genes para la anotación del primer genoma bacteriano completamente secuenciado de Haemophilus influenzae , y en 1996 para el primer genoma arqueológico de Methanococcus jannaschii . El algoritmo introdujo modelos de cadena de Markov triperiódicos no homogéneos de secuencia de ADN codificante de proteínas que se convirtieron en estándar en la predicción de genes, así como el enfoque bayesiano para la predicción de genes en dos cadenas de ADN simultáneamente. Los parámetros específicos de especie de los modelos se estimaron a partir de conjuntos de entrenamiento de secuencias de tipo conocido (codificante de proteínas y no codificante). El paso principal del algoritmo calcula para un fragmento de ADN dado las probabilidades posteriores de ser "codificante de proteínas" (portador de código genético ) en cada uno de los seis marcos de lectura posibles (incluidos tres marcos en la cadena de ADN complementaria ) o ser "no codificante". El GeneMark original (desarrollado antes del advenimiento de las aplicaciones HMM en bioinformática) era un algoritmo similar a HMM; podría verse como una aproximación al algoritmo de decodificación posterior conocido en la teoría HMM para un modelo HMM adecuadamente definido de secuencia de ADN.

Nuevas mejoras en los algoritmos de predicción de genes en genomas procariotas

El algoritmo GeneMark.hmm (1998) fue diseñado para mejorar la precisión de la predicción de genes cortos y comienzos de genes. La idea era utilizar los modelos de cadena de Markov no homogéneos introducidos en GeneMark para calcular las probabilidades de las secuencias emitidas por los estados de un modelo de Markov oculto , o más bien HMM semi-Markov, o HMM generalizado que describe la secuencia genómica. Los límites entre las regiones codificantes y no codificantes se interpretaron formalmente como transiciones entre estados ocultos. Además, el modelo del sitio de unión del ribosoma se agregó al modelo GHMM para mejorar la precisión de la predicción del comienzo de genes. El siguiente paso importante en el desarrollo del algoritmo fue la introducción del autoentrenamiento o el entrenamiento no supervisado de los parámetros del modelo en la nueva herramienta de predicción de genes GeneMarkS (2001). La rápida acumulación de genomas procariotas en los años siguientes ha demostrado que la estructura de los patrones de secuencia relacionados con las señales de regulación de la expresión génica cerca de los comienzos de genes puede variar. Además, se observó que el genoma procariota puede exhibir variabilidad del contenido de GC debido a la transferencia lateral de genes. El nuevo algoritmo, GeneMarkS-2, fue diseñado para realizar ajustes automáticos a los tipos de patrones de expresión génica y a los cambios en el contenido de GC a lo largo de la secuencia genómica. GeneMarkS y, posteriormente, GeneMarkS-2 se han utilizado en el proceso de anotación de genomas procariotas (PGAP) del NCBI ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Modelos heurísticos y predicción genética en metagenomas y metatransciptomas

La identificación precisa de los parámetros específicos de la especie de un algoritmo de búsqueda de genes es una condición necesaria para realizar predicciones genéticas precisas. Sin embargo, en los estudios de genomas virales es necesario estimar los parámetros a partir de una secuencia bastante corta que no tiene un contexto genómico amplio. Es importante destacar que, a partir de 2004, se tuvo que abordar la misma cuestión para la predicción de genes en secuencias metagenómicas cortas. Se encontró una respuesta sorprendentemente precisa mediante la introducción de funciones generadoras de parámetros que dependen de una sola variable, el contenido de G+C de la secuencia ("método heurístico" 1999). Posteriormente, el análisis de varios cientos de genomas procariotas condujo al desarrollo de un método heurístico más avanzado en 2010 (implementado en MetaGeneMark). Más adelante, la necesidad de predecir genes en transcripciones de ARN condujo al desarrollo de GeneMarkS-T (2015), una herramienta que identifica genes sin intrones en secuencias de transcripciones largas ensambladas a partir de lecturas de ARN-Seq.

Predicción de genes eucariotas

En los genomas eucariotas, el modelado de los límites de los exones con intrones y regiones intergénicas presenta un gran desafío. La arquitectura GHMM de GeneMark.hmm eucariota incluye estados ocultos para exones iniciales, internos y terminales, intrones , regiones intergénicas y genes de un solo exón ubicados en ambas cadenas de ADN. La versión inicial de GeneMark.hmm eucariota necesitaba la compilación manual de conjuntos de entrenamiento de secuencias codificantes de proteínas para la estimación de los parámetros del algoritmo. Sin embargo, en 2005, se desarrolló el primer buscador de genes eucariotas de autoentrenamiento, GeneMark-ES. Una versión fúngica de GeneMark-ES desarrollada en 2008 presenta un modelo de intrones más complejo y una estrategia jerárquica de autoentrenamiento. En 2014, en GeneMark-ET, el autoentrenamiento de los parámetros fue ayudado por pistas extrínsecas generadas al mapear las lecturas cortas de RNA-Seq del genoma. La evidencia extrínseca no se limita a las secuencias de ARN "nativas". Las proteínas de especies cruzadas recopiladas en las vastas bases de datos de proteínas podrían ser una fuente de pistas externas, si se establecen las relaciones homólogas entre las proteínas ya conocidas y las proteínas codificadas por genes aún desconocidos en el nuevo genoma. Esta tarea se resolvió al desarrollar el nuevo algoritmo, GeneMark-EP+ (2020). La integración de las fuentes de ARN y proteínas de las pistas intrínsecas se realizó en GeneMark-ETP (2023). La versatilidad y precisión de los buscadores de genes eucariotas de la familia GeneMark han llevado a su incorporación en varios procesos de anotación del genoma. Además, desde 2016, se desarrollaron los procesos BRAKER1, BRAKER2, BRAKER3 para combinar las características más sólidas de GeneMark y AUGUSTUS.

Cabe destacar que la predicción de genes en transcripciones eucariotas se puede realizar mediante el nuevo algoritmo GeneMarkS-T (2015).

Familia de programas de predicción genética GeneMark

Bacterias, arqueas

Metagenomas y metatranscriptomas

Eucariotas

Virus, fagos y plásmidos

Transcripciones ensambladas a partir de la lectura de RNA-Seq

Véase también

Referencias

  1. ^ "GeneMark.HMM eucariota".
  2. ^ "GeneMark-ES".
  3. ^ "GeneMark-ET – algoritmo de búsqueda de genes para genomas eucariotas | Blog de RNA-Seq". 9 de julio de 2014.

Enlaces externos