stringtranslate.com

LUZ TENUE

En bioinformática , GLIMMER (Gene Locator and Interpolated Markov ModelER) se utiliza para encontrar genes en el ADN procariótico . [1] "Es eficaz para encontrar genes en bacterias , arqueas y virus , y normalmente encuentra entre el 98 y el 99 % de todos los genes codificadores de proteínas relativamente largos ". [1] GLIMMER fue el primer sistema que utilizó el modelo interpolado de Markov [2] para identificar regiones codificantes. El software GLIMMER es de código abierto y lo mantienen Steven Salzberg , Art Delcher y sus colegas del Centro de Biología Computacional [3] de la Universidad Johns Hopkins . Los algoritmos y el software originales de GLIMMER fueron diseñados por Art Delcher, Simon Kasif y Steven Salzberg y se aplicaron a la anotación del genoma bacteriano en colaboración con Owen White .

Versiones

BRILLO 1.0

La primera versión de GLIMMER "es decir, GLIMMER 1.0" se lanzó en 1998 y se publicó en el artículo Identificación de genes microbianos utilizando el modelo interpolado de Markov . [1] Se utilizaron modelos de Markov para identificar genes microbianos en GLIMMER 1.0. GLIMMER considera las dependencias de secuencia de composición local, lo que hace que GLIMMER sea más flexible y potente en comparación con el modelo de Markov de orden fijo .

Se realizó una comparación entre el modelo de Markov interpolado utilizado por GLIMMER y el modelo de Markov de quinto orden en el artículo Identificación de genes microbianos utilizando modelos de Markov interpolados . [1] "El algoritmo GLIMMER encontró 1680 genes de 1717 genes anotados en Haemophilus influenzae donde el modelo de Markov de quinto orden encontró 1574 genes. GLIMMER encontró 209 genes adicionales que no estaban incluidos en 1717 genes anotados donde el modelo de Markov de quinto orden encontró 104 genes". [1]

BRILLO 2.0

La segunda versión de GLIMMER, es decir, GLIMMER 2.0, se lanzó en 1999 y se publicó en el artículo Identificación microbiana mejorada con GLIMMER . [4] Este artículo [4] proporciona mejoras técnicas significativas, como el uso de un modelo de contexto interpolado en lugar del modelo de Markov interpolado y la resolución de genes superpuestos, lo que mejora la precisión de GLIMMER.

Se utilizan modelos de contexto interpolados en lugar del modelo de Markov interpolado , lo que brinda la flexibilidad de seleccionar cualquier base. En el modelo interpolado de Markov, la distribución de probabilidad de una base se determina a partir de las bases inmediatamente anteriores. Si la base inmediatamente anterior es una traducción de aminoácidos irrelevante , el modelo de Markov interpolado todavía considera la base anterior para determinar la probabilidad de una base dada, mientras que el modelo de contexto interpolado que se usó en GLIMMER 2.0 puede ignorar las bases irrelevantes. Las predicciones falsas positivas se incrementaron en GLIMMER 2.0 para reducir la cantidad de predicciones falsas negativas. Los genes superpuestos también se resuelven en GLIMMER 2.0.

En el artículo se realizaron varias comparaciones entre GLIMMER 1.0 y GLIMMER 2.0. Mejorada identificación microbiana con GLIMMER [4], que muestra una mejora en la versión posterior. "La sensibilidad de GLIMMER 1.0 oscila entre 98,4 y 99,7% con un promedio de 99,1%, mientras que GLIMMER 2.0 tiene un rango de sensibilidad de 98,6 a 99,8% con un promedio de 99,3%. GLIMMER 2.0 es muy eficaz para encontrar genes de alta densidad. GLIMMER 2.0 está identificando el parásito Trypanosoma brucei , responsable de causar la enfermedad del sueño en África " ​​[4]

BRILLO 3.0

La tercera versión de GLIMMER, "GLIMMER 3.0", se lanzó en 2007 y se publicó en el artículo Identificando genes bacterianos y ADN endosimbionte con Glimmer . [5] Este artículo describe varios cambios importantes realizados en el sistema GLIMMER, incluidos métodos mejorados para identificar regiones codificantes y codón de inicio . La puntuación de ORF en GLIMMER 3.0 se realiza en orden inverso, es decir, comenzando desde el codón de parada y retrocediendo hacia el codón de inicio. El escaneo inverso ayuda a identificar con mayor precisión la porción codificante del gen que está contenida en la ventana contextual de IMM. GLIMMER 3.0 también mejora los datos del conjunto de entrenamiento generado al comparar el ORF largo con la distribución universal de aminoácidos de genomas bacterianos muy dispares. "GLIMMER 3.0 tiene un resultado promedio de ORF largo del 57% para varios organismos, mientras que GLIMMER 2.0 tiene un rendimiento promedio largo -Producción ORF del 39%." [5]

GLIMMER 3.0 reduce la tasa de predicciones falsas positivas que se incrementaron en GLIMMER 2.0 para reducir la cantidad de predicciones falsas negativas. "GLIMMER 3.0 tiene una precisión de predicción del sitio de inicio del 99,5% para coincidencias de 3'5', mientras que GLIMMER 2.0 tiene 99,1% para coincidencias de 3'5'. GLIMMER 3.0 utiliza un nuevo algoritmo para escanear regiones de codificación, un nuevo módulo de detección de sitio de inicio , y una arquitectura que integra todas las predicciones genéticas en todo un genoma". [5]

Longitud mínima de la descripción

Fundamento teórico y biológico.

El proyecto GLIMMER ayudó a introducir y popularizar el uso de modelos de longitud variable en biología computacional y bioinformática que posteriormente se han aplicado a numerosos problemas como la clasificación de proteínas y otros. El modelado de longitud variable fue iniciado originalmente por los teóricos de la información y posteriormente se aplicó y popularizó ingeniosamente en la compresión de datos (por ejemplo, la compresión Ziv-Lempel). La predicción y la compresión están íntimamente vinculadas mediante los principios de longitud mínima de descripción . La idea básica es crear un diccionario de palabras frecuentes (motivos en secuencias biológicas). La intuición es que los motivos que aparecen con frecuencia probablemente sean más predictivos e informativos. En GLIMMER, el modelo interpolado es un modelo mixto de las probabilidades de estos motivos relativamente comunes. De manera similar al desarrollo de los HMM en biología computacional, los autores de GLIMMER estuvieron conceptualmente influenciados por la aplicación previa de otra variante de modelos interpolados de Markov al reconocimiento de voz por parte de investigadores como Fred Jelinek (IBM) y Eric Ristad (Princeton). El algoritmo de aprendizaje en GLIMMER es diferente de estos enfoques anteriores.

Acceso

GLIMMER se puede descargar desde la página de inicio de The Glimmer (requiere un compilador de C++ ). Alternativamente, NCBI aloja una versión en línea [1].

Cómo funciona

  1. GLIMMER busca principalmente ORFS largos . Un marco de lectura abierto puede superponerse con cualquier otro marco de lectura abierto que se resolverá utilizando la técnica descrita en la subsección. Usando estos ORFS largos y siguiendo cierta distribución de aminoácidos, GLIMMER genera datos del conjunto de entrenamiento .
  2. Utilizando estos datos de entrenamiento, GLIMMER entrena los seis modelos de Markov de ADN codificante del orden cero al octavo y también entrena el modelo para ADN no codificante.
  3. GLIMMER intenta calcular las probabilidades a partir de los datos. Según el número de observaciones, GLIMMER determina si se utiliza el modelo de Markov de orden fijo o el modelo de Markov interpolado .
    1. Si el número de observaciones es mayor que 400, GLIMMER utiliza el modelo de Markov de orden fijo para obtener sus probabilidades.
    2. Si el número de observaciones es inferior a 400, GLIMMER utiliza el modelo de Markov interpolado que se explica brevemente en la siguiente subsección.
  4. GLIMMER obtiene una puntuación por cada ORF largo generado utilizando los seis modelos de ADN codificante y también utilizando el modelo de ADN no codificante.
  5. Si la puntuación obtenida en el paso anterior es mayor que un cierto umbral, GLIMMER predice que se trata de un gen.

Los pasos explicados anteriormente describen la funcionalidad básica de GLIMMER. Se han realizado varias mejoras en GLIMMER y algunas de ellas se describen en las siguientes subsecciones.

El sistema GLIMMER

El sistema GLIMMER consta de dos programas. El primer programa llamado build-imm, que toma un conjunto de secuencias de entrada y genera el modelo de Markov interpolado de la siguiente manera.

Se calcula la probabilidad para cada base, es decir, A,C,G,T para todos los k-meros para 0 ≤ k ≤ 8. Luego, para cada k-mer , GLIMMER calcula el peso. La probabilidad de una nueva secuencia se calcula de la siguiente manera.

donde n es la longitud de la secuencia es el oligómero en la posición x. , la puntuación del modelo de Markov interpolado en orden se calcula como

"donde es el peso del k-mer en la posición x-1 en la secuencia S y es la estimación obtenida a partir de los datos de entrenamiento de la probabilidad de la base ubicada en la posición x en el modelo de orden". [1]

La probabilidad de base dadas las i bases anteriores se calcula de la siguiente manera.

"El valor de asociado con puede considerarse como una medida de confianza en la precisión de este valor como estimación de la probabilidad real. GLIMMER utiliza dos criterios para determinarlo . El primero de ellos es la frecuencia simple de ocurrencia en la que el número de ocurrencias de La cadena de contexto en los datos de entrenamiento excede un valor de umbral específico, luego se establece en 1,0. El valor predeterminado actual para el umbral es 400, lo que proporciona un 95 % de confianza. Cuando no hay suficientes apariciones de muestra de una cadena de contexto, build-imm emplea criterios adicionales. Para determinar el valor para una cadena de contexto dada de longitud i, build-imm compara las frecuencias observadas de la siguiente base ,,, con las probabilidades interpoladas del modelo de Markov previamente calculadas utilizando el siguiente contexto más corto,,,,, usando una prueba . -imm determina la probabilidad de que las cuatro frecuencias observadas sean consistentes con los valores IMM del siguiente contexto más corto". [1]

El segundo programa, llamado glimmer, utiliza este IMM para identificar un gen putativo en un genoma completo. GLIMMER identifica todos los marcos de lectura abiertos que obtienen una puntuación superior al umbral y comprueba si hay genes superpuestos. La resolución de genes superpuestos se explica en la siguiente subsección.

Las ecuaciones y la explicación de los términos utilizados anteriormente se han tomado del artículo 'Identificación de genes microbianos mediante modelos interpolados de Markov [1]

Resolver genes superpuestos

En GLIMMER 1.0, cuando dos genes A y B se superponen, se puntúa la región de superposición. Si A es más largo que B, y si A obtiene una puntuación más alta en la región de superposición, y si mover el sitio de inicio de B no resuelve la superposición, entonces B es rechazado.

GLIMMER 2.0 proporcionó una mejor solución para resolver la superposición. En GLIMMER 2.0, cuando dos genes potenciales A y B se superponen, se puntúa la región de superposición. Supongamos que el gen A obtiene una puntuación más alta y se consideran cuatro orientaciones diferentes.

Caso 1

En el caso anterior, mover los sitios de inicio no elimina la superposición. Si A es significativamente más largo que B, entonces B se rechaza o, en caso contrario, tanto A como B se denominan genes, con una dudosa superposición.

Caso 2

En el caso anterior, mover B puede resolver la superposición, A y B pueden denominarse genes no superpuestos, pero si B es significativamente más corto que A, entonces B se rechaza.

Caso 3

En el caso anterior, mover A puede resolver la superposición. A solo se mueve si la superposición es una pequeña fracción de A o si B se rechaza.

Caso 4

En el caso anterior, tanto A como B se pueden mover. Primero movemos el inicio de B hasta que la región de superposición obtenga una puntuación más alta para B. Luego, movemos el inicio de A hasta que obtenga una puntuación más alta. Luego B nuevamente, y así sucesivamente, hasta que se elimine la superposición o no se puedan realizar más movimientos.

El ejemplo anterior ha sido tomado del artículo 'Identificación de genes bacterianos y ADN endosimbionte con Glimmer' [5]

Sitios de unión a ribosomas

La señal del sitio de unión al ribosoma (RBS) se puede utilizar para encontrar la verdadera posición del sitio de inicio. Los resultados de GLIMMER se pasan como entrada para el programa RBSfinder para predecir los sitios de unión de ribosomas. GLIMMER 3.0 integra el programa RBSfinder en la propia función de predicción de genes.

El software ELPH (que se determinó como altamente efectivo para identificar RBS en el artículo [5] ) se utiliza para identificar RBS y está disponible en este sitio web Archivado el 27 de noviembre de 2013 en Wayback Machine . El algoritmo de muestreo de Gibbs se utiliza para identificar motivos compartidos en cualquier conjunto de secuencias. Estas secuencias de motivos compartidos y su longitud se proporcionan como entrada a ELPH. Luego, ELPH calcula la matriz de ponderación de posición (PWM) que utilizará GLIMMER 3 para calificar cualquier RBS potencial encontrado por RBSfinder. El proceso anterior se realiza cuando tenemos una cantidad sustancial de genes de entrenamiento. Si hay una cantidad inadecuada de genes de entrenamiento, GLIMMER 3 puede iniciarse para generar un conjunto de predicciones genéticas que pueden usarse como entrada para ELPH. ELPH ahora calcula PWM y este PWM se puede usar nuevamente en el mismo conjunto de genes para obtener resultados más precisos para los sitios de inicio. Este proceso se puede repetir durante muchas iteraciones para obtener resultados de predicción de genes y PWM más consistentes.

Actuación

Glimmer apoya los esfuerzos de anotación genómica en una amplia gama de especies bacterianas, arqueológicas y virales. En un esfuerzo de reanotación a gran escala en el Banco de Datos de ADN de Japón (DDBJ, que refleja Genbank ). Kosuge et al. (2006) [6] examinaron los métodos de búsqueda de genes utilizados para 183 genomas. Informaron que de estos proyectos, Glimmer fue el buscador de genes en el 49%, seguido de GeneMark con el 12%, y se utilizaron otros algoritmos en el 3% o menos de los proyectos. (También informaron que el 33% de los genomas usaban "otros" programas, lo que en muchos casos significaba que no podían identificar el método. Excluyendo esos casos, Glimmer se usó para el 73% de los genomas para los cuales los métodos podían identificarse sin ambigüedades. ) La DDBJ utilizó Glimmer para volver a anotar todos los genomas bacterianos en las bases de datos internacionales de secuencias de nucleótidos. [7] Este grupo también lo utiliza para anotar virus. [8] Glimmer es parte del proceso de anotación bacteriana en el Centro Nacional de Información Biotecnológica (NCBI), [9] que también mantiene un servidor web para Glimmer, [10] al igual que los sitios en Alemania, [11] Canadá. [12]

Según Google Scholar, a principios de 2011 el artículo original de Glimmer (Salzberg et al., 1998) [1] ha sido citado 581 veces, y el artículo de Glimmer 2.0 (Delcher et al., 1999) [4] ha sido citado 950 veces. veces.

Referencias

  1. ^ abcdefghi Salzberg, SL; Delcher, AL; Kasif, S.; Blanco, O. (1998). "Identificación de genes microbianos mediante modelos de Markov interpolados". Investigación de ácidos nucleicos . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC  147303 . PMID  9421513.
  2. ^ Salzberg, SL; Por equipo.; Delcher, AL; Gardner, MJ; Tettelin, H. (1999). "Modelos de Markov interpolados para la búsqueda de genes eucarióticos". Genómica . 59 (1): 24–31. CiteSeerX 10.1.1.126.431 . doi :10.1006/geno.1999.5854. PMID  10395796. 
  3. ^ "Centro de Biología Computacional". Universidad Johns Hopkins . Consultado el 23 de marzo de 2013 .
  4. ^ ABCDE Delcher, A.; Armon, D.; Kasif, S.; Blanco, O.; Salzberg, S. (1999). "Identificación de genes microbianos mejorada con GLIMMER". Investigación de ácidos nucleicos . 27 (23): 4636–4641. doi : 10.1093/nar/27.23.4636. PMC 148753 . PMID  10556321. 
  5. ^ abcde Delcher, AL; Bratke, KA; Poderes, CE; Salzberg, SL (2007). "Identificación de genes bacterianos y ADN endosimbionte con Glimmer". Bioinformática . 23 (6): 673–679. doi : 10.1093/bioinformática/btm009. PMC 2387122 . PMID  17237039. 
  6. ^ Kosuge, T.; Abe, T.; Okido, T.; Tanaka, N.; Hirahata, M.; Maruyama, Y.; Mashima, J.; Tomiki, A.; Kurokawa, M.; Himeno, R.; Fukuchi, S.; Miyazaki, S.; Gojobori, T.; Tateno, Y.; Sugawara, H. (2006). "Exploración y clasificación de posibles genes de 183 cepas bacterianas mediante un protocolo común para la identificación de nuevos genes: Gene Trek en el espacio procariota (GTPS)". Investigación del ADN . 13 (6): 245–254. doi : 10.1093/dnares/dsl014 . PMID  17166861.
  7. ^ Sugawara, H.; Abe, T.; Gojobori, T.; Tateno, Y. (2007). "DDBJ trabajando en la evaluación y clasificación de genes bacterianos en INSDC". Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D13 – D15. doi :10.1093/nar/gkl908. PMC 1669713 . PMID  17108353. 
  8. ^ Hirahata, M.; Abe, T.; Tanaka, N.; Kuwana, Y.; Shigemoto, Y.; Miyazaki, S.; Suzuki, Y.; Sugawara, H. (2007). "Agente de información genómica para virus (GIB-V): base de datos para análisis comparativo de genomas de virus". Investigación de ácidos nucleicos . 35 (Problema de base de datos): D339 – D342. doi :10.1093/nar/gkl1004. PMC 1781101 . PMID  17158166. 
  9. ^ "Tubería de anotación automática de genomas procarióticos del NCBI (PGAAP)". Centro de Bioinformática y Biología Computacional . Consultado el 23 de marzo de 2012 .
  10. ^ "Herramientas de anotación del genoma microbiano". Centro de Bioinformática y Biología Computacional . Consultado el 23 de marzo de 2012 .
  11. ^ "TiCo". Institut für Mikrobiologie und Genetik, Universität Göttingen. 2005-02-11. Archivado desde el original el 31 de marzo de 2022 . Consultado el 23 de marzo de 2012 .
  12. ^ "Sistema de anotación bacteriana BASys". Archivado desde el original el 24 de julio de 2012 . Consultado el 23 de marzo de 2012 .

enlaces externos