Penalización por brecha

Una penalización de brecha es un método para calificar alineaciones de dos o más secuencias. Al alinear secuencias, la introducción de espacios en las secuencias puede permitir que un algoritmo de alineación coincida con más términos que una alineación sin espacios. Sin embargo, minimizar las brechas en una alineación es importante para crear una alineación útil. Demasiadas brechas pueden hacer que una alineación pierda sentido. Las penalizaciones por espacios se utilizan para ajustar las puntuaciones de alineación en función del número y la duración de los espacios. Los cinco tipos principales de penalizaciones por brecha son constantes, lineales, afines, convexas y basadas en perfiles. ^[1]

Aplicaciones

Alineamiento de secuencia genética : en bioinformática, los espacios se utilizan para tener en cuenta las mutaciones genéticas que se producen a partir de inserciones o eliminaciones en la secuencia, a veces denominadas indeles . Las inserciones o eliminaciones pueden ocurrir debido a mutaciones únicas, cruce desequilibrado en la meiosis , desacoplamiento de hebras deslizadas y translocación cromosómica . ^[2] La noción de una brecha en una alineación es importante en muchas aplicaciones biológicas, ya que las inserciones o eliminaciones comprenden una subsecuencia completa y a menudo ocurren a partir de un solo evento mutacional. ^[3] Además, eventos mutacionales únicos pueden crear brechas de diferentes tamaños. Por lo tanto, al calificar, los espacios deben calificarse en su conjunto al alinear dos secuencias de ADN. Considerar múltiples espacios en una secuencia como un único espacio más grande reducirá la asignación de un alto costo a las mutaciones. Por ejemplo, dos secuencias de proteínas pueden ser relativamente similares pero diferir en ciertos intervalos, ya que una proteína puede tener una subunidad diferente en comparación con la otra. Representar estas diferentes subsecuencias como espacios nos permitirá tratar estos casos como "buenas coincidencias" incluso aunque haya largas ejecuciones consecutivas con operaciones indel en la secuencia. Por lo tanto, utilizar un buen modelo de penalización por brecha evitará puntuaciones bajas en las alineaciones y mejorará las posibilidades de encontrar una verdadera alineación. ^[3] En los alineamientos de secuencias genéticas, los espacios se representan como guiones (-) en un alineamiento de secuencias de proteína/ADN. ^[1]
Función de diferenciación de Unix : calcula la diferencia mínima entre dos archivos de manera similar a la detección de plagio.
Revisión ortográfica : las penalizaciones por espacios pueden ayudar a encontrar palabras escritas correctamente con la distancia de edición más corta hasta una palabra mal escrita. Los espacios en blanco pueden indicar que falta una letra en una palabra escrita incorrectamente.
Detección de plagio : las sanciones por espacios permiten que los algoritmos detecten dónde se plagian secciones de un documento colocando espacios en las secciones originales y haciendo coincidir lo que es idéntico. La penalización por brecha para un determinado documento cuantifica qué parte de un documento determinado es probablemente original o plagiado.

Aplicaciones bioinformáticas

Alineación global

Una alineación global realiza una alineación de un extremo a otro de la secuencia de consulta con la secuencia de referencia. Idealmente, esta técnica de alineación es más adecuada para secuencias estrechamente relacionadas de longitudes similares. El algoritmo Needleman-Wunsch es una técnica de programación dinámica que se utiliza para realizar una alineación global. Básicamente, el algoritmo divide el problema en un conjunto de subproblemas y luego utiliza los resultados de los subproblemas para reconstruir una solución a la consulta original. ^[4]

Alineación semiglobal

El uso de alineación semiglobal existe para encontrar una coincidencia particular dentro de una secuencia grande. Un ejemplo incluye la búsqueda de promotores dentro de una secuencia de ADN. A diferencia del alineamiento global, se compromete a no tener espacios finales en una o ambas secuencias. Si los espacios finales se penalizan en una secuencia 1 pero no en la secuencia 2, se produce una alineación que contiene la secuencia 2 dentro de la secuencia 1.

Alineación local

Una alineación de secuencia local hace coincidir una subsección contigua de una secuencia con una subsección contigua de otra. ^[5] El algoritmo de Smith-Waterman está motivado por dar puntuaciones a coincidencias y discrepancias. Las coincidencias aumentan la puntuación general de una alineación, mientras que las discrepancias disminuyen la puntuación. Una buena alineación tiene entonces una puntuación positiva y una mala alineación tiene una puntuación negativa. El algoritmo local encuentra una alineación con la puntuación más alta considerando solo las alineaciones que obtienen puntuaciones positivas y seleccionando la mejor de ellas. El algoritmo es un algoritmo de programación dinámica . Al comparar proteínas, se utiliza una matriz de similitud que asigna una puntuación a cada posible par de residuos. La puntuación debe ser positiva para residuos similares y negativa para pares de residuos diferentes. Los espacios generalmente se penalizan utilizando una función de espacio lineal que asigna una penalización inicial por una apertura de espacio y una penalización adicional por extensiones de espacio, lo que aumenta la longitud del espacio.

Matriz de puntuación

Matrices de sustitución como BLOSUM se utilizan para el alineamiento de secuencias de proteínas. ^[6] Una matriz de sustitución asigna una puntuación para alinear cualquier posible par de residuos. ^[6] En general, se adaptan diferentes matrices de sustitución para detectar similitudes entre secuencias que divergen en diferentes grados. Una única matriz puede ser razonablemente eficiente en un rango relativamente amplio de cambios evolutivos. ^[6] La matriz BLOSUM-62 es una de las mejores matrices de sustitución para detectar similitudes de proteínas débiles. ^[6] Las matrices BLOSUM con números altos están diseñadas para comparar secuencias estrechamente relacionadas, mientras que aquellas con números bajos están diseñadas para comparar secuencias relacionadas distantes. Por ejemplo, BLOSUM-80 se usa para alineamientos que son más similares en secuencia, y BLOSUM-45 se usa para alineamientos que han divergido entre sí. ^[6] Para alineaciones particularmente largas y débiles, la matriz BLOSUM-45 puede proporcionar los mejores resultados. Las alineaciones cortas se detectan más fácilmente utilizando una matriz con una "entropía relativa" más alta que la de BLOSUM-62. La serie BLOSUM no incluye matrices con entropías relativas adecuadas para las consultas más cortas. ^[6]

Indeles

Durante la replicación del ADN , la maquinaria de replicación celular es propensa a cometer dos tipos de errores al duplicar el ADN. Estos dos errores de replicación son inserciones y eliminaciones de bases de ADN individuales de la cadena de ADN (indeles). ^[7] Los indeles pueden tener graves consecuencias biológicas al causar mutaciones en la cadena de ADN que podrían provocar la inactivación o sobreactivación de la proteína objetivo. Por ejemplo, si aparece un indel de uno o dos nucleótidos en una secuencia codificante, el resultado será un cambio en el marco de lectura o una mutación por desplazamiento del marco que puede inactivar la proteína. ^[7] Las consecuencias biológicas de los indeles suelen ser nocivas y frecuentemente se asocian con patologías como el cáncer . Sin embargo, no todos los indeles son mutaciones por cambio de marco. Si los indeles aparecen en los trinucleótidos, el resultado es una extensión de la secuencia de la proteína que también puede tener implicaciones en la función de la proteína. ^[7]

Tipos

Constante

Este es el tipo más simple de penalización por brecha: se otorga una puntuación negativa fija a cada brecha, independientemente de su duración. ^[3]^[8] Esto anima al algoritmo a crear menos espacios y espacios más grandes, dejando secciones contiguas más grandes.

ATTGACCTGA|| |||||EN---CCTGA

Alineación de dos secuencias cortas de ADN, donde '-' representa un espacio de un par de bases. Si cada partido valiera 1 punto y toda la brecha -1, la puntuación total: 7 − 1 = 6.

Lineal

En comparación con la penalización por espacio constante, la penalización por espacio lineal tiene en cuenta la longitud (L) de cada inserción/eliminación en el espacio. Por lo tanto, si la penalización por cada elemento insertado/eliminado es B y la longitud del espacio L; la penalización total por diferencia sería el producto de los dos BL. ^[9] Este método favorece las brechas más cortas, con una puntuación total que disminuye con cada brecha adicional.

ATTGACCTGA|| |||||EN---CCTGA

A diferencia de la penalización por brecha constante, se considera el tamaño de la brecha. Con un partido con puntuación 1 y cada brecha -1, la puntuación aquí es (7 − 3 = 4).

afín

La función de penalización por brecha más utilizada es la penalización por brecha afín. La penalización de brecha afín combina los componentes de la penalización de brecha constante y lineal, tomando la forma . Esto introduce nuevos términos, A se conoce como penalización por apertura de brecha, B, penalización por extensión de brecha y L, longitud de la brecha. La apertura de la brecha se refiere al costo requerido para abrir una brecha de cualquier longitud, y la extensión de la brecha es el costo de extender la longitud de una brecha existente en 1. ^[10] A menudo no está claro cuáles deberían ser los valores A y B, ya que difiere según el propósito. En general, si el interés es encontrar coincidencias estrechamente relacionadas (por ejemplo, eliminación de la secuencia del vector durante la secuenciación del genoma), se debe utilizar una penalización de brecha más alta para reducir las brechas abiertas. Por otro lado, la penalización por brecha deberá reducirse cuando se esté interesado en encontrar un partido más lejano. ^[9] La relación entre A y B también tiene un efecto sobre el tamaño de la brecha. Si el tamaño del espacio es importante, se utiliza una A pequeña y una B grande (más costosa para ampliar el espacio) y viceversa. Sólo la relación A/B es importante, ya que multiplicar ambas por la misma constante positiva aumentará todas las penalizaciones en : lo que no cambia la penalización relativa entre diferentes alineamientos. $A+B\cdot (L-1)$ $k$ $k$ $kA+kB(L-1)=k(A+B(L-1))$

Convexo

El uso de la penalización de brecha afín requiere la asignación de valores de penalización fijos tanto para abrir como para extender una brecha. Esto puede ser demasiado rígido para su uso en un contexto biológico. ^[11]

La brecha logarítmica toma la forma y se propuso porque los estudios habían demostrado que la distribución de tamaños indel obedece a una ley de potencia. ^[12] Otro problema propuesto con el uso de espacios afines es el favoritismo de alinear secuencias con espacios más cortos. La penalización de brecha logarítmica se inventó para modificar la brecha afín de modo que sean deseables brechas largas. ^[11] Sin embargo, en contraste con esto, se ha descubierto que el uso de modelos logaritmáticos había producido alineamientos deficientes en comparación con los modelos afines. ^[12] $G(L)=A+C\lnL$

Basado en perfil

Los algoritmos de alineación perfil-perfil son herramientas poderosas para detectar relaciones de homología de proteínas con una precisión de alineación mejorada. ^[13] Las alineaciones perfil-perfil se basan en los perfiles estadísticos de frecuencia indel de múltiples alineaciones de secuencias generadas por búsquedas PSI-BLAST. ^[13] En lugar de utilizar matrices de sustitución para medir la similitud de los pares de aminoácidos, los métodos de alineación perfil-perfil requieren una función de puntuación basada en el perfil para medir la similitud de los pares de vectores de perfil. ^[13] Las alineaciones perfil-perfil emplean funciones de penalización de brechas. La información de brecha se usa generalmente en forma de perfiles de frecuencia indel, que son más específicos para las secuencias que se van a alinear. ClustalW y MAFFT adoptaron este tipo de determinación de penalización por brecha para sus múltiples alineamientos de secuencias. ^[13] La precisión de la alineación se puede mejorar utilizando este modelo, especialmente para proteínas con baja identidad de secuencia. Algunos algoritmos de alineación perfil-perfil también ejecutan la información de la estructura secundaria como un término en sus funciones de puntuación, lo que mejora la precisión de la alineación. ^[13]

Comparando las complejidades del tiempo

El uso de alineación en biología computacional a menudo implica secuencias de diferentes longitudes. Es importante elegir un modelo que se ejecute de manera eficiente con un tamaño de entrada conocido. El tiempo necesario para ejecutar el algoritmo se conoce como complejidad temporal.

Desafíos

Hay algunos desafíos cuando se trata de trabajar con brechas. Cuando se trabaja con algoritmos populares parece haber poca base teórica para la forma de las funciones de penalización de brecha. ^[14] En consecuencia, para cualquier situación de alineación, la ubicación del espacio debe determinarse empíricamente. ^[14] Además, las penalizaciones por espacios de alineación por pares, como la penalización por espacios afines, a menudo se implementan independientemente de los tipos de aminoácidos en el fragmento insertado o eliminado o en los extremos rotos, a pesar de la evidencia de que se prefieren tipos de residuos específicos en las regiones de espacios. ^[14] Finalmente, la alineación de secuencias implica la alineación de las estructuras correspondientes, pero las relaciones entre las características estructurales de los huecos en las proteínas y sus secuencias correspondientes sólo se conocen de forma imperfecta. Debido a esto, es difícil incorporar información estructural en las sanciones por brecha. ^[14] Algunos algoritmos utilizan información estructural real o prevista para sesgar la ubicación de los espacios. Sin embargo, sólo una minoría de secuencias tiene estructuras conocidas y la mayoría de los problemas de alineación involucran secuencias de estructura secundaria y terciaria desconocida. ^[14]

Referencias

^ ab "Glosario". Rosalinda . Equipo Rosalinda . Consultado el 20 de mayo de 2021 .
^ Carroll, Ridge, Clement, Snell, Hyrum, Perry, Mark, Quinn (1 de enero de 2007). "Efectos de las sanciones por apertura y extensión de brecha" (PDF) . Revista internacional de investigación y aplicaciones de bioinformática . Consultado el 9 de septiembre de 2014 .{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ abc "Penalización por brecha" (PDF) . Algoritmos para Biología Molecular . 2006-01-01. Archivado desde el original (PDF) el 26 de junio de 2013 . Consultado el 13 de septiembre de 2014 .
^ Lesk, Arthur M (26 de julio de 2013). "bioinformática". Enciclopedia Británica . Consultado el 12 de septiembre de 2014 .
^ Vingrón, M.; Waterman, MS (1994). "Alineación de secuencias y elección de penalizaciones. Revisión de conceptos, estudios de casos e implicaciones". Revista de biología molecular . 235 (1): 1–12. doi :10.1016/S0022-2836(05)80006-3. PMID 8289235.
^ abcdef "matrices de sustitución BLAST". NCBI . Consultado el 27 de noviembre de 2012 .
^ abc García-Díaz, Miguel (2006). "Mecanismo de un glissando genético: biología estructural de mutaciones indel". Tendencias en Ciencias Bioquímicas . 31 (4): 206–214. doi :10.1016/j.tibs.2006.02.004. PMID 16545956.
^ "Glosario: penalización por brecha constante". Rosalinda . Equipo Rosalinda. 12 de agosto de 2014 . Consultado el 12 de agosto de 2014 .
^ ab Hodgman C, francés A, Westhead D (2009). Notas instantáneas de BIOS en bioinformática . Ciencia de la guirnalda. págs. 143-144. ISBN 978-0203967249.
^ "Alineación global con matriz de puntuación y penalización por brecha afín". Rosalinda . Equipo Rosalinda. 2012-07-02 . Consultado el 12 de septiembre de 2014 .
^ ab Sung, Wing-Kin (2011). Algoritmos en bioinformática: una introducción práctica . Prensa CRC. págs. 42–47. ISBN 978-1420070347.
^ ab Cartwright, Reed (5 de diciembre de 2006). "Los costos de la brecha logarítmica disminuyen la precisión de la alineación". Bioinformática BMC . 7 : 527. doi : 10.1186/1471-2105-7-527 . PMC 1770940 . PMID 17147805.
^ abcde Wang C, Yan RX, Wang XF, Si JN, Zhang Z (12 de octubre de 2011). "Comparación de penalizaciones por espacios lineales y penalizaciones por espacios variables basadas en perfiles en alineaciones perfil-perfil". Computación Bioquímica . 35 (5): 308–318. doi :10.1016/j.compbiolchem.2011.07.006. PMID 22000802.
^ abcde Wrabl JO, Grishin NV (1 de enero de 2004). "Brechas en proteínas estructuralmente similares: hacia la mejora del alineamiento de secuencias múltiples". Proteínas . 54 (1): 71–87. doi :10.1002/prot.10508. PMID 14705025. S2CID 20474119.

Otras lecturas

Taylor WR, Munro RE (1997). "Enhebrado de secuencias múltiples: colocación de espacios condicionales". Doblar Des . 2 (4): T33-9. doi : 10.1016/S1359-0278(97)00061-8 . PMID 9269566.
Taylor WR (1996). "Una penalización por brecha no local por la alineación del perfil". Toro Matemáticas Biol . 58 (1): 1–18. doi :10.1007/BF02458279. PMID 8819751. S2CID 189884646.
Vingron M, Waterman MS (1994). "Alineación de secuencias y elección de penalizaciones. Revisión de conceptos, estudios de casos e implicaciones". J Mol Biol . 235 (1): 1–12. doi :10.1016/S0022-2836(05)80006-3. PMID 8289235.
Panjukov VV (1993). "Encontrar alineaciones estables: similitud y distancia". Comput Appl Biosci . 9 (3): 285–90. doi : 10.1093/bioinformática/9.3.285. PMID 8324629.
Alexándrov NN (1992). "Alineación múltiple local por matriz de consenso". Comput Appl Biosci . 8 (4): 339–45. doi : 10.1093/bioinformática/8.4.339. PMID 1498689.
Hein J (1989). "Un nuevo método que alinea y reconstruye simultáneamente secuencias ancestrales para cualquier número de secuencias homólogas, cuando se da la filogenia". Mol Biol Evol . 6 (6): 649–68. doi : 10.1093/oxfordjournals.molbev.a040577 . PMID 2488477.
Henneke CM (1989). "Un algoritmo de alineación de secuencias múltiples para proteínas homólogas que utiliza información de estructura secundaria y, opcionalmente, codifica alineaciones con sitios funcionalmente importantes". Comput Appl Biosci . 5 (2): 141–50. doi : 10.1093/bioinformática/5.2.141. PMID 2751764.
Reich JG, Drabsch H, Daumler A (1984). "Sobre la evaluación estadística de similitudes en secuencias de ADN". Ácidos nucleicos Res . 12 (13): 5529–43. doi : 10.1093/nar/12.13.5529. PMC 318937 . PMID 6462914.