stringtranslate.com

Penalización por brecha

Una penalización de brecha es un método para calificar alineaciones de dos o más secuencias. Al alinear secuencias, la introducción de espacios en las secuencias puede permitir que un algoritmo de alineación coincida con más términos que una alineación sin espacios. Sin embargo, minimizar las brechas en una alineación es importante para crear una alineación útil. Demasiadas brechas pueden hacer que una alineación pierda sentido. Las penalizaciones por espacios se utilizan para ajustar las puntuaciones de alineación en función del número y la duración de los espacios. Los cinco tipos principales de penalizaciones por brecha son constantes, lineales, afines, convexas y basadas en perfiles. [1]

Aplicaciones

Aplicaciones bioinformáticas

Alineación global

Una alineación global realiza una alineación de un extremo a otro de la secuencia de consulta con la secuencia de referencia. Idealmente, esta técnica de alineación es más adecuada para secuencias estrechamente relacionadas de longitudes similares. El algoritmo Needleman-Wunsch es una técnica de programación dinámica que se utiliza para realizar una alineación global. Básicamente, el algoritmo divide el problema en un conjunto de subproblemas y luego utiliza los resultados de los subproblemas para reconstruir una solución a la consulta original. [4]

Alineación semiglobal

El uso de alineación semiglobal existe para encontrar una coincidencia particular dentro de una secuencia grande. Un ejemplo incluye la búsqueda de promotores dentro de una secuencia de ADN. A diferencia del alineamiento global, se compromete a no tener espacios finales en una o ambas secuencias. Si los espacios finales se penalizan en una secuencia 1 pero no en la secuencia 2, se produce una alineación que contiene la secuencia 2 dentro de la secuencia 1.

Alineación local

texto
Ejemplo de alineación de secuencia de proteínas

Una alineación de secuencia local hace coincidir una subsección contigua de una secuencia con una subsección contigua de otra. [5] El algoritmo de Smith-Waterman está motivado por dar puntuaciones a coincidencias y discrepancias. Las coincidencias aumentan la puntuación general de una alineación, mientras que las discrepancias disminuyen la puntuación. Una buena alineación tiene entonces una puntuación positiva y una mala alineación tiene una puntuación negativa. El algoritmo local encuentra una alineación con la puntuación más alta considerando solo las alineaciones que obtienen puntuaciones positivas y seleccionando la mejor de ellas. El algoritmo es un algoritmo de programación dinámica . Al comparar proteínas, se utiliza una matriz de similitud que asigna una puntuación a cada posible par de residuos. La puntuación debe ser positiva para residuos similares y negativa para pares de residuos diferentes. Los espacios generalmente se penalizan utilizando una función de espacio lineal que asigna una penalización inicial por una apertura de espacio y una penalización adicional por extensiones de espacio, lo que aumenta la longitud del espacio.

Matriz de puntuación

texto
Matriz Blosum-62

Matrices de sustitución como BLOSUM se utilizan para el alineamiento de secuencias de proteínas. [6] Una matriz de sustitución asigna una puntuación para alinear cualquier posible par de residuos. [6] En general, se adaptan diferentes matrices de sustitución para detectar similitudes entre secuencias que divergen en diferentes grados. Una única matriz puede ser razonablemente eficiente en un rango relativamente amplio de cambios evolutivos. [6] La matriz BLOSUM-62 es una de las mejores matrices de sustitución para detectar similitudes de proteínas débiles. [6] Las matrices BLOSUM con números altos están diseñadas para comparar secuencias estrechamente relacionadas, mientras que aquellas con números bajos están diseñadas para comparar secuencias relacionadas distantes. Por ejemplo, BLOSUM-80 se usa para alineamientos que son más similares en secuencia, y BLOSUM-45 se usa para alineamientos que han divergido entre sí. [6] Para alineaciones particularmente largas y débiles, la matriz BLOSUM-45 puede proporcionar los mejores resultados. Las alineaciones cortas se detectan más fácilmente utilizando una matriz con una "entropía relativa" más alta que la de BLOSUM-62. La serie BLOSUM no incluye matrices con entropías relativas adecuadas para las consultas más cortas. [6]

Indeles

Durante la replicación del ADN , la maquinaria de replicación celular es propensa a cometer dos tipos de errores al duplicar el ADN. Estos dos errores de replicación son inserciones y eliminaciones de bases de ADN individuales de la cadena de ADN (indeles). [7] Los indeles pueden tener graves consecuencias biológicas al causar mutaciones en la cadena de ADN que podrían provocar la inactivación o sobreactivación de la proteína objetivo. Por ejemplo, si aparece un indel de uno o dos nucleótidos en una secuencia codificante, el resultado será un cambio en el marco de lectura o una mutación por desplazamiento del marco que puede inactivar la proteína. [7] Las consecuencias biológicas de los indeles suelen ser nocivas y frecuentemente se asocian con patologías como el cáncer . Sin embargo, no todos los indeles son mutaciones por cambio de marco. Si los indeles aparecen en los trinucleótidos, el resultado es una extensión de la secuencia de la proteína que también puede tener implicaciones en la función de la proteína. [7]

Tipos

Este gráfico muestra la diferencia entre los tipos de penalizaciones por brecha. Los números exactos cambiarán para diferentes aplicaciones, pero esto muestra la forma relativa de cada función.

Constante

Este es el tipo más simple de penalización por brecha: se otorga una puntuación negativa fija a cada brecha, independientemente de su duración. [3] [8] Esto anima al algoritmo a crear menos espacios y espacios más grandes, dejando secciones contiguas más grandes.

ATTGACCTGA|| |||||EN---CCTGA

Alineación de dos secuencias cortas de ADN, donde '-' representa un espacio de un par de bases. Si cada partido valiera 1 punto y toda la brecha -1, la puntuación total: 7 − 1 = 6.

Lineal

En comparación con la penalización por espacio constante, la penalización por espacio lineal tiene en cuenta la longitud (L) de cada inserción/eliminación en el espacio. Por lo tanto, si la penalización por cada elemento insertado/eliminado es B y la longitud del espacio L; la penalización total por diferencia sería el producto de los dos BL. [9] Este método favorece las brechas más cortas, con una puntuación total que disminuye con cada brecha adicional.

ATTGACCTGA|| |||||EN---CCTGA

A diferencia de la penalización por brecha constante, se considera el tamaño de la brecha. Con un partido con puntuación 1 y cada brecha -1, la puntuación aquí es (7 − 3 = 4).

afín

La función de penalización por brecha más utilizada es la penalización por brecha afín. La penalización de brecha afín combina los componentes de la penalización de brecha constante y lineal, tomando la forma . Esto introduce nuevos términos, A se conoce como penalización por apertura de brecha, B, penalización por extensión de brecha y L, longitud de la brecha. La apertura de la brecha se refiere al costo requerido para abrir una brecha de cualquier longitud, y la extensión de la brecha es el costo de extender la longitud de una brecha existente en 1. [10] A menudo no está claro cuáles deberían ser los valores A y B, ya que difiere según el propósito. En general, si el interés es encontrar coincidencias estrechamente relacionadas (por ejemplo, eliminación de la secuencia del vector durante la secuenciación del genoma), se debe utilizar una penalización de brecha más alta para reducir las brechas abiertas. Por otro lado, la penalización por brecha deberá reducirse cuando se esté interesado en encontrar un partido más lejano. [9] La relación entre A y B también tiene un efecto sobre el tamaño de la brecha. Si el tamaño del espacio es importante, se utiliza una A pequeña y una B grande (más costosa para ampliar el espacio) y viceversa. Sólo la relación A/B es importante, ya que multiplicar ambas por la misma constante positiva aumentará todas las penalizaciones en : lo que no cambia la penalización relativa entre diferentes alineamientos.

Convexo

El uso de la penalización de brecha afín requiere la asignación de valores de penalización fijos tanto para abrir como para extender una brecha. Esto puede ser demasiado rígido para su uso en un contexto biológico. [11]

La brecha logarítmica toma la forma y se propuso porque los estudios habían demostrado que la distribución de tamaños indel obedece a una ley de potencia. [12] Otro problema propuesto con el uso de espacios afines es el favoritismo de alinear secuencias con espacios más cortos. La penalización de brecha logarítmica se inventó para modificar la brecha afín de modo que sean deseables brechas largas. [11] Sin embargo, en contraste con esto, se ha descubierto que el uso de modelos logaritmáticos había producido alineamientos deficientes en comparación con los modelos afines. [12]

Basado en perfil

Los algoritmos de alineación perfil-perfil son herramientas poderosas para detectar relaciones de homología de proteínas con una precisión de alineación mejorada. [13] Las alineaciones perfil-perfil se basan en los perfiles estadísticos de frecuencia indel de múltiples alineaciones de secuencias generadas por búsquedas PSI-BLAST. [13] En lugar de utilizar matrices de sustitución para medir la similitud de los pares de aminoácidos, los métodos de alineación perfil-perfil requieren una función de puntuación basada en el perfil para medir la similitud de los pares de vectores de perfil. [13] Las alineaciones perfil-perfil emplean funciones de penalización de brechas. La información de brecha se usa generalmente en forma de perfiles de frecuencia indel, que son más específicos para las secuencias que se van a alinear. ClustalW y MAFFT adoptaron este tipo de determinación de penalización por brecha para sus múltiples alineamientos de secuencias. [13] La precisión de la alineación se puede mejorar utilizando este modelo, especialmente para proteínas con baja identidad de secuencia. Algunos algoritmos de alineación perfil-perfil también ejecutan la información de la estructura secundaria como un término en sus funciones de puntuación, lo que mejora la precisión de la alineación. [13]

Comparando las complejidades del tiempo

El uso de alineación en biología computacional a menudo implica secuencias de diferentes longitudes. Es importante elegir un modelo que se ejecute de manera eficiente con un tamaño de entrada conocido. El tiempo necesario para ejecutar el algoritmo se conoce como complejidad temporal.

Desafíos

Hay algunos desafíos cuando se trata de trabajar con brechas. Cuando se trabaja con algoritmos populares parece haber poca base teórica para la forma de las funciones de penalización de brecha. [14] En consecuencia, para cualquier situación de alineación, la ubicación del espacio debe determinarse empíricamente. [14] Además, las penalizaciones por espacios de alineación por pares, como la penalización por espacios afines, a menudo se implementan independientemente de los tipos de aminoácidos en el fragmento insertado o eliminado o en los extremos rotos, a pesar de la evidencia de que se prefieren tipos de residuos específicos en las regiones de espacios. [14] Finalmente, la alineación de secuencias implica la alineación de las estructuras correspondientes, pero las relaciones entre las características estructurales de los huecos en las proteínas y sus secuencias correspondientes sólo se conocen de forma imperfecta. Debido a esto, es difícil incorporar información estructural en las sanciones por brecha. [14] Algunos algoritmos utilizan información estructural real o prevista para sesgar la ubicación de los espacios. Sin embargo, sólo una minoría de secuencias tiene estructuras conocidas y la mayoría de los problemas de alineación involucran secuencias de estructura secundaria y terciaria desconocida. [14]

Referencias

  1. ^ ab "Glosario". Rosalinda . Equipo Rosalinda . Consultado el 20 de mayo de 2021 .
  2. ^ Carroll, Ridge, Clement, Snell, Hyrum, Perry, Mark, Quinn (1 de enero de 2007). "Efectos de las sanciones por apertura y extensión de brecha" (PDF) . Revista internacional de investigación y aplicaciones de bioinformática . Consultado el 9 de septiembre de 2014 .{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  3. ^ abc "Penalización por brecha" (PDF) . Algoritmos para Biología Molecular . 2006-01-01. Archivado desde el original (PDF) el 26 de junio de 2013 . Consultado el 13 de septiembre de 2014 .
  4. ^ Lesk, Arthur M (26 de julio de 2013). "bioinformática". Enciclopedia Británica . Consultado el 12 de septiembre de 2014 .
  5. ^ Vingrón, M.; Waterman, MS (1994). "Alineación de secuencias y elección de penalizaciones. Revisión de conceptos, estudios de casos e implicaciones". Revista de biología molecular . 235 (1): 1–12. doi :10.1016/S0022-2836(05)80006-3. PMID  8289235.
  6. ^ abcdef "matrices de sustitución BLAST". NCBI . Consultado el 27 de noviembre de 2012 .
  7. ^ abc García-Díaz, Miguel (2006). "Mecanismo de un glissando genético: biología estructural de mutaciones indel". Tendencias en Ciencias Bioquímicas . 31 (4): 206–214. doi :10.1016/j.tibs.2006.02.004. PMID  16545956.
  8. ^ "Glosario: penalización por brecha constante". Rosalinda . Equipo Rosalinda. 12 de agosto de 2014 . Consultado el 12 de agosto de 2014 .
  9. ^ ab Hodgman C, francés A, Westhead D (2009). Notas instantáneas de BIOS en bioinformática . Ciencia de la guirnalda. págs. 143-144. ISBN 978-0203967249.
  10. ^ "Alineación global con matriz de puntuación y penalización por brecha afín". Rosalinda . Equipo Rosalinda. 2012-07-02 . Consultado el 12 de septiembre de 2014 .
  11. ^ ab Sung, Wing-Kin (2011). Algoritmos en bioinformática: una introducción práctica . Prensa CRC. págs. 42–47. ISBN 978-1420070347.
  12. ^ ab Cartwright, Reed (5 de diciembre de 2006). "Los costos de la brecha logarítmica disminuyen la precisión de la alineación". Bioinformática BMC . 7 : 527. doi : 10.1186/1471-2105-7-527 . PMC 1770940 . PMID  17147805. 
  13. ^ abcde Wang C, Yan RX, Wang XF, Si JN, Zhang Z (12 de octubre de 2011). "Comparación de penalizaciones por espacios lineales y penalizaciones por espacios variables basadas en perfiles en alineaciones perfil-perfil". Computación Bioquímica . 35 (5): 308–318. doi :10.1016/j.compbiolchem.2011.07.006. PMID  22000802.
  14. ^ abcde Wrabl JO, Grishin NV (1 de enero de 2004). "Brechas en proteínas estructuralmente similares: hacia la mejora del alineamiento de secuencias múltiples". Proteínas . 54 (1): 71–87. doi :10.1002/prot.10508. PMID  14705025. S2CID  20474119.

Otras lecturas