LUZ TENUE

En bioinformática , GLIMMER (Gene Locator and Interpolated Markov ModelER) se utiliza para encontrar genes en ADN procariota . ^[1] "Es eficaz para encontrar genes en bacterias , arqueas y virus , y normalmente encuentra el 98-99% de todos los genes codificantes de proteínas relativamente largos ". ^[1] GLIMMER fue el primer sistema que utilizó el modelo interpolado de Markov ^[2] para identificar regiones codificantes. El software GLIMMER es de código abierto y lo mantienen Steven Salzberg , Art Delcher y sus colegas del Centro de Biología Computacional ^[3] de la Universidad Johns Hopkins . Los algoritmos y el software GLIMMER originales fueron diseñados por Art Delcher, Simon Kasif y Steven Salzberg y se aplicaron a la anotación del genoma bacteriano en colaboración con Owen White .

Versiones

DESTELLO 1.0

La primera versión de GLIMMER, "es decir, GLIMMER 1.0", se lanzó en 1998 y se publicó en el artículo Microbial gene identity using interpolated Markov model . ^{[1] Los modelos de Markov se utilizaron para identificar genes microbianos en GLIMMER 1.0. GLIMMER considera las dependencias de la secuencia de composición local, lo que hace que GLIMMER sea más flexible y más potente en comparación con}el modelo de Markov de orden fijo .

En el artículo Microbial gene identity using interpolated Markov models (Identificación de genes microbianos mediante modelos interpolados de Markov) se hizo una comparación entre el modelo de Markov interpolado utilizado por GLIMMER y el modelo de Markov de quinto orden . ^[1] "El algoritmo GLIMMER encontró 1680 genes de 1717 genes anotados en Haemophilus influenzae , donde el modelo de Markov de quinto orden encontró 1574 genes. GLIMMER encontró 209 genes adicionales que no estaban incluidos en los 1717 genes anotados, donde el modelo de Markov de quinto orden encontró 104 genes". ^[1]

DESTELLO 2.0

La segunda versión de GLIMMER, es decir, GLIMMER 2.0, se lanzó en 1999 y se publicó en el artículo Identificación microbiana mejorada con GLIMMER . ^[4] Este artículo ^[4] proporciona mejoras técnicas significativas, como el uso del modelo de contexto interpolado en lugar del modelo de Markov interpolado y la resolución de genes superpuestos que mejoran la precisión de GLIMMER.

Se utilizan modelos de contexto interpolados en lugar del modelo de Markov interpolado , lo que brinda la flexibilidad de seleccionar cualquier base. En el modelo de Markov interpolado, la distribución de probabilidad de una base se determina a partir de las bases inmediatamente anteriores. Si la base inmediatamente anterior es una traducción de aminoácidos irrelevante , el modelo de Markov interpolado aún considera la base anterior para determinar la probabilidad de la base dada, mientras que el modelo de contexto interpolado que se utilizó en GLIMMER 2.0 puede ignorar las bases irrelevantes. Las predicciones de falsos positivos se incrementaron en GLIMMER 2.0 para reducir la cantidad de predicciones de falsos negativos. Los genes superpuestos también se resuelven en GLIMMER 2.0.

En el artículo Improved microbial identity with GLIMMER ^[4] se han realizado varias comparaciones entre GLIMMER 1.0 y GLIMMER 2.0 , que muestra mejoras en la versión posterior. "La sensibilidad de GLIMMER 1.0 oscila entre el 98,4 y el 99,7 %, con una media del 99,1 %, mientras que GLIMMER 2.0 tiene una sensibilidad del 98,6 al 99,8 %, con una media del 99,3 %. GLIMMER 2.0 es muy eficaz para encontrar genes de alta densidad. El parásito Trypanosoma brucei , responsable de causar la enfermedad del sueño africana , está siendo identificado por GLIMMER 2.0" ^[4]

DESTELLO 3.0

La tercera versión de GLIMMER, "GLIMMER 3.0", se lanzó en 2007 y se publicó en el artículo Identifying organisms and endosymbiont DNA with Glimmer [Identificación de genes bacterianos y ADN endosimbionte con Glimmer] . ^[5] Este artículo describe varios cambios importantes realizados en el sistema GLIMMER, incluidos métodos mejorados para identificar regiones codificantes y codones de inicio . La puntuación de ORF en GLIMMER 3.0 se realiza en orden inverso, es decir, comienza desde el codón de terminación y retrocede hacia el codón de inicio. El escaneo inverso ayuda a identificar la porción codificante del gen con mayor precisión, que está contenida en la ventana de contexto de IMM. GLIMMER 3.0 también mejora los datos del conjunto de entrenamiento generados al comparar el ORF largo con la distribución universal de aminoácidos de genomas bacterianos muy dispares. "GLIMMER 3.0 tiene un resultado promedio de ORF largo del 57 % para varios organismos, mientras que GLIMMER 2.0 tiene un resultado promedio de ORF largo del 39 %". ^[5]

GLIMMER 3.0 reduce la tasa de predicciones de falsos positivos, que se incrementó en GLIMMER 2.0 para reducir la cantidad de predicciones de falsos negativos. "GLIMMER 3.0 tiene una precisión de predicción del sitio de inicio del 99,5 % para coincidencias de 3'5', mientras que GLIMMER 2.0 tiene un 99,1 % para coincidencias de 3'5'. GLIMMER 3.0 utiliza un nuevo algoritmo para escanear regiones codificantes, un nuevo módulo de detección del sitio de inicio y una arquitectura que integra todas las predicciones de genes en un genoma completo". ^[5]

Longitud mínima de descripción

Fundamentación teórica y biológica

El proyecto GLIMMER ayudó a introducir y popularizar el uso de modelos de longitud variable en biología computacional y bioinformática, que posteriormente se han aplicado a numerosos problemas, como la clasificación de proteínas y otros. El modelado de longitud variable fue iniciado originalmente por teóricos de la información y posteriormente aplicado ingeniosamente y popularizado en la compresión de datos (por ejemplo, la compresión Ziv-Lempel). La predicción y la compresión están íntimamente vinculadas mediante el uso de principios de longitud mínima de descripción . La idea básica es crear un diccionario de palabras frecuentes (motivos en secuencias biológicas). La intuición es que los motivos que aparecen con frecuencia tienen más probabilidades de ser más predictivos e informativos. En GLIMMER, el modelo interpolado es un modelo de mezcla de las probabilidades de estos motivos relativamente comunes. De manera similar al desarrollo de los HMM en biología computacional, los autores de GLIMMER se vieron conceptualmente influenciados por la aplicación previa de otra variante de modelos de Markov interpolados al reconocimiento de voz por parte de investigadores como Fred Jelinek (IBM) y Eric Ristad (Princeton). El algoritmo de aprendizaje en GLIMMER es diferente de estos enfoques anteriores.

Acceso

GLIMMER se puede descargar desde la página de inicio de Glimmer (requiere un compilador de C++). Alternativamente, NCBI aloja una versión en línea [1].

Cómo funciona

GLIMMER busca principalmente ORFS largos . Un marco de lectura abierto puede superponerse con cualquier otro marco de lectura abierto, lo que se resolverá utilizando la técnica descrita en la subsección. Al utilizar estos ORFS largos y seguir una determinada distribución de aminoácidos, GLIMMER genera datos del conjunto de entrenamiento .
Utilizando estos datos de entrenamiento, GLIMMER entrena los seis modelos de Markov de ADN codificante desde el orden cero hasta el octavo y también entrena el modelo para ADN no codificante.
GLIMMER intenta calcular las probabilidades a partir de los datos. En función de la cantidad de observaciones, GLIMMER determina si se debe utilizar un modelo de Markov de orden fijo o un modelo de Markov interpolado .
1. Si el número de observaciones es mayor a 400, GLIMMER utiliza un modelo de Markov de orden fijo para obtener sus probabilidades.
2. Si el número de observaciones es menor a 400, GLIMMER utiliza el modelo de Markov interpolado que se explica brevemente en la siguiente subsección.
GLIMMER obtiene puntuación para cada ORF largo generado utilizando los seis modelos de ADN codificantes y también utilizando el modelo de ADN no codificante.
Si la puntuación obtenida en el paso anterior es mayor que un cierto umbral entonces GLIMMER predice que es un gen.

Los pasos explicados anteriormente describen la funcionalidad básica de GLIMMER. Se han realizado varias mejoras en GLIMMER y algunas de ellas se describen en las siguientes subsecciones.

El sistema GLIMMER

El sistema GLIMMER consta de dos programas. El primer programa, llamado build-imm, toma un conjunto de secuencias de entrada y genera el modelo de Markov interpolado de la siguiente manera.

Se calcula la probabilidad de cada base, es decir, A, C, G, T para todos los k-meros para 0 ≤ k ≤ 8. Luego, para cada k-mero , GLIMMER calcula el peso. La probabilidad de la nueva secuencia se calcula de la siguiente manera.

\operatorname {P(S|M)=\sum _{x=1}^{n}{IMM_{8}(S_{x})}}

donde n es la longitud de la secuencia es el oligómero en la posición x. , la puntuación del modelo de Markov interpolado de orden se calcula como $S_{x}$ $IMM_{8}(S_{x})$ $8^{th}$

\operatorname {IMM_{k}(S_{x})=Y_{k}(S_{x-1})\cdot P_{k}(S_{x})+[1-{Y_{k}(S_{x-1})]\cdot IMM_{k-1}(S_{x})}}

"donde es el peso del k-mero en la posición x-1 en la secuencia S y es la estimación obtenida a partir de los datos de entrenamiento de la probabilidad de la base ubicada en la posición x en el modelo de orden x". ^[1] $Y_{k}(S_{x-1})$ $P_{k}(S_{x})$ $k^{th}$

La probabilidad de base dadas las i bases anteriores se calcula de la siguiente manera. $S_{x}$

\operatorname {P_{i}(S_{x})=P(s_{x}|S_{x,j})={\frac {f(S_{x,j})}{\sum _{b\in {[acgt]}}\operatorname {f(S_{x,i},b)} }}}

"El valor de asociado con puede considerarse como una medida de confianza en la precisión de este valor como una estimación de la probabilidad verdadera. GLIMMER utiliza dos criterios para determinar . El primero de ellos es la frecuencia de ocurrencia simple en la que el número de ocurrencias de la cadena de contexto en los datos de entrenamiento excede un valor de umbral específico, luego se establece en 1.0. El valor predeterminado actual para el umbral es 400, lo que brinda una confianza del 95%. Cuando no hay suficientes ocurrencias de muestra de una cadena de contexto, build-imm emplea criterios adicionales para determinar el valor. Para una cadena de contexto dada de longitud i, build-imm compara las frecuencias observadas de la siguiente base , , , con las probabilidades del modelo de Markov interpoladas calculadas previamente utilizando el siguiente contexto más corto, , , , . Utilizando una prueba, build-imm determina qué tan probable es que las cuatro frecuencias observadas sean consistentes con los valores IMM del siguiente contexto más corto". ^[1] $Y_{i}(S_{x})$ $P_{i}(S_{x})$ $Y_{i}(S_{x})$ $S_{x,i}$ $Y_{i}(S_{x})$ $Y$ $S_{x,i}$ $f(S_{x,i},a)$ $f(S_{x,i},c)$ $f(S_{x,i},g)$ $f(S_{x,i},t)$ $IMM_{i-1}(S_{x,{i-1}},a)$ $IMM_{i-1}(S_{x,{i-1}},c)$ $IMM_{i-1}(S_{x,{i-1}},g)$ $IMM_{i-1}(S_{x,{i-1}},t)$ $X^{2}$

El segundo programa, llamado glimmer, utiliza este IMM para identificar genes putativos en un genoma completo. GLIMMER identifica todos los marcos de lectura abiertos que tienen una puntuación superior al umbral y comprueba si hay genes superpuestos. La resolución de genes superpuestos se explica en la siguiente subsección.

Las ecuaciones y la explicación de los términos utilizados anteriormente se tomaron del artículo 'Identificación de genes microbianos utilizando modelos de Markov interpolados ^[1]'

Resolución de genes superpuestos

En GLIMMER 1.0, cuando dos genes A y B se superponen, se puntúa la región de superposición. Si A es más largo que B, si A tiene una puntuación más alta en la región de superposición y si mover el sitio de inicio de B no resuelve la superposición, entonces se rechaza B.

GLIMMER 2.0 proporcionó una mejor solución para resolver la superposición. En GLIMMER 2.0, cuando dos genes potenciales A y B se superponen, se puntúa la región de superposición. Supongamos que el gen A tiene una puntuación más alta, se consideran cuatro orientaciones diferentes.

En el caso anterior, el desplazamiento de los sitios de inicio no elimina la superposición. Si A es significativamente más largo que B, entonces se rechaza B o, de lo contrario, tanto A como B se consideran genes, con una superposición dudosa.

En el caso anterior, mover B puede resolver la superposición; A y B pueden considerarse genes no superpuestos, pero si B es significativamente más corto que A, entonces B se rechaza.

En el caso anterior, mover A puede resolver la superposición. A solo se mueve si la superposición es una fracción pequeña de A o, de lo contrario, B se rechaza.

En el caso anterior, se pueden mover tanto A como B. Primero movemos el inicio de B hasta que la región de superposición tenga una puntuación más alta para B. Luego movemos el inicio de A hasta que tenga una puntuación más alta. Luego movemos B nuevamente, y así sucesivamente, hasta que se elimine la superposición o no se puedan hacer más movimientos.

El ejemplo anterior se ha tomado del artículo 'Identificación de genes bacterianos y ADN endosimbionte con Glimmer' ^[5]

Sitios de unión de ribosomas

La señal del sitio de unión del ribosoma (RBS) se puede utilizar para encontrar la verdadera posición del sitio de inicio. Los resultados de GLIMMER se pasan como entrada al programa RBSfinder para predecir los sitios de unión del ribosoma. GLIMMER 3.0 integra el programa RBSfinder en la función de predicción de genes.

El software ELPH (que se determinó como altamente efectivo para identificar RBS en el artículo ^[5] ) se utiliza para identificar RBS y está disponible en este sitio web Archivado el 27 de noviembre de 2013 en Wayback Machine . El algoritmo de muestreo de Gibbs se utiliza para identificar motivos compartidos en cualquier conjunto de secuencias. Estas secuencias de motivos compartidos y su longitud se proporcionan como entrada a ELPH. Luego, ELPH calcula la matriz de peso de posición (PWM) que será utilizada por GLIMMER 3 para puntuar cualquier RBS potencial encontrado por RBSfinder. El proceso anterior se realiza cuando tenemos una cantidad sustancial de genes de entrenamiento. Si hay una cantidad inadecuada de genes de entrenamiento, GLIMMER 3 puede autoarrancarse para generar un conjunto de predicciones de genes que se pueden usar como entrada para ELPH. ELPH ahora calcula PWM y este PWM se puede volver a utilizar en el mismo conjunto de genes para obtener resultados más precisos para los sitios de inicio. Este proceso se puede repetir durante muchas iteraciones para obtener resultados de predicción de genes y PWM más consistentes.

Actuación

Glimmer apoya los esfuerzos de anotación de genomas en una amplia gama de especies bacterianas, arqueales y virales. En un esfuerzo de reanotación a gran escala en el Banco de Datos de ADN de Japón (DDBJ, que refleja Genbank ), Kosuge et al. (2006) ^[6] examinaron los métodos de búsqueda de genes utilizados para 183 genomas. Informaron que de estos proyectos, Glimmer fue el buscador de genes para el 49%, seguido de GeneMark con el 12%, con otros algoritmos utilizados en el 3% o menos de los proyectos. (También informaron que el 33% de los genomas utilizaron "otros" programas, lo que en muchos casos significaba que no podían identificar el método. Excluyendo esos casos, Glimmer se utilizó para el 73% de los genomas para los que los métodos pudieron identificarse de manera inequívoca). Glimmer fue utilizado por el DDBJ para volver a anotar todos los genomas bacterianos en las Bases de Datos Internacionales de Secuencias de Nucleótidos. ^[7] Este grupo también lo está utilizando para anotar virus. ^[8] Glimmer es parte del proceso de anotación bacteriana en el Centro Nacional de Información Biotecnológica (NCBI), ^[9] que también mantiene un servidor web para Glimmer, ^[10] al igual que sitios en Alemania, ^[11] Canadá. ^[12]

Según Google Scholar, a principios de 2011, el artículo original de Glimmer (Salzberg et al., 1998) ^[1] ha sido citado 581 veces, y el artículo de Glimmer 2.0 (Delcher et al., 1999) ^[4] ha sido citado 950 veces.

Referencias

^ abcdefghi Salzberg, SL; Delcher, AL; Kasif, S.; White, O. (1998). "Identificación de genes microbianos utilizando modelos interpolados de Markov". Nucleic Acids Research . 26 (2): 544–548. doi :10.1093/nar/26.2.544. PMC 147303 . PMID 9421513.
^ Salzberg, SL; Pertea, M.; Delcher, AL; Gardner, MJ; Tettelin, H. (1999). "Modelos interpolados de Markov para la detección de genes eucariotas". Genómica . 59 (1): 24–31. CiteSeerX 10.1.1.126.431 . doi :10.1006/geno.1999.5854. PMID 10395796.
^ "Centro de Biología Computacional". Universidad Johns Hopkins . Consultado el 23 de marzo de 2013 .
^ abcde Delcher, A.; Harmon, D.; Kasif, S.; White, O.; Salzberg, S. (1999). "Identificación mejorada de genes microbianos con GLIMMER". Nucleic Acids Research . 27 (23): 4636–4641. doi :10.1093/nar/27.23.4636. PMC 148753 . PMID 10556321.
^ abcde Delcher, AL; Bratke, KA; Powers, EC; Salzberg, SL (2007). "Identificación de genes bacterianos y ADN endosimbionte con Glimmer". Bioinformática . 23 (6): 673–679. doi :10.1093/bioinformatics/btm009. PMC 2387122 . PMID 17237039.
^ Kosuge, T.; Abe, T.; Okido, T.; Tanaka, N.; Hirahata, M.; Maruyama, Y.; Mashima, J.; Tomiki, A.; Kurokawa, M.; Himeno, R.; Fukuchi, S.; Miyazaki, S.; Gojobori, T.; Tateno, Y.; Sugawara, H. (2006). "Exploración y clasificación de posibles genes de 183 cepas bacterianas mediante un protocolo común para la identificación de nuevos genes: Gene Trek en el espacio procariota (GTPS)". Investigación de ADN . 13 (6): 245–254. doi : 10.1093/dnares/dsl014 . PMID 17166861.
^ Sugawara, H.; Abe, T.; Gojobori, T.; Tateno, Y. (2007). "DDBJ trabajando en la evaluación y clasificación de genes bacterianos en INSDC". Nucleic Acids Research . 35 (número de la base de datos): D13–D15. doi :10.1093/nar/gkl908. PMC 1669713 . PMID 17108353.
^ Hirahata, M.; Abe, T.; Tanaka, N.; Kuwana, Y.; Shigemoto, Y.; Miyazaki, S.; Suzuki, Y.; Sugawara, H. (2007). "Genome Information Broker for Viruses (GIB-V): Base de datos para análisis comparativo de genomas de virus". Nucleic Acids Research . 35 (Número de base de datos): D339–D342. doi :10.1093/nar/gkl1004. PMC 1781101 . PMID 17158166.
^ "NCBI Prokaryotic Genomes Automatic Annotation Pipeline (PGAAP)" (Proceso de anotación automática de genomas procariotas del NCBI). Centro de bioinformática y biología computacional . Consultado el 23 de marzo de 2012 .
^ "Herramientas de anotación del genoma microbiano". Centro de Bioinformática y Biología Computacional . Consultado el 23 de marzo de 2012 .
^ "TiCo". Institut für Mikrobiologie und Genetik, Universität Göttingen. 2005-02-11. Archivado desde el original el 31 de marzo de 2022 . Consultado el 23 de marzo de 2012 .
^ "Sistema de anotación bacteriana BASys". Archivado desde el original el 24 de julio de 2012. Consultado el 23 de marzo de 2012 .

Enlaces externos

La página de inicio de Glimmer en CCB, Universidad Johns Hopkins, desde donde se puede descargar el software.