En biología molecular y bioinformática , la secuencia de consenso (o secuencia canónica ) es la secuencia calculada de los residuos más frecuentes, ya sean nucleótidos o aminoácidos , que se encuentran en cada posición en una alineación de secuencias . Representa los resultados de múltiples alineaciones de secuencias en las que se comparan secuencias relacionadas entre sí y se calculan motivos de secuencia similares . Dicha información es importante cuando se consideran enzimas dependientes de la secuencia, como la ARN polimerasa . [1]
Un sitio de unión de proteínas, representado por una secuencia consenso, puede ser una secuencia corta de nucleótidos que se encuentra varias veces en el genoma y se cree que desempeña el mismo papel en sus diferentes ubicaciones. Por ejemplo, muchos factores de transcripción reconocen patrones particulares en los promotores de los genes que regulan. De la misma manera, las enzimas de restricción suelen tener secuencias consenso palindrómicas , que normalmente corresponden al sitio donde cortan el ADN. Los transposones actúan de manera muy similar en su identificación de secuencias diana para la transposición. Finalmente, los sitios de empalme (secuencias que rodean inmediatamente los límites exón - intrón ) también pueden considerarse secuencias consenso.
Por lo tanto, una secuencia de consenso es un modelo para un supuesto sitio de unión del ADN : se obtiene alineando todos los ejemplos conocidos de un determinado sitio de reconocimiento y se define como la secuencia idealizada que representa la base predominante en cada posición. Todos los ejemplos reales no deberían diferir del consenso en más de unas pocas sustituciones, pero contar los desajustes de esta manera puede dar lugar a inconsistencias. [2]
Cualquier mutación que permita que un nucleótido mutado en la secuencia promotora central se parezca más a la secuencia consenso se conoce como mutación ascendente . Este tipo de mutación generalmente hará que el promotor sea más fuerte y, por lo tanto, la ARN polimerasa forma una unión más estrecha con el ADN que desea transcribir y la transcripción se regula al alza. Por el contrario, las mutaciones que destruyen nucleótidos conservados en la secuencia consenso se conocen como mutaciones descendentes . Este tipo de mutaciones regulan a la baja la transcripción, ya que la ARN polimerasa ya no puede unirse con tanta fuerza a la secuencia promotora central.
El desarrollo de software para el reconocimiento de patrones es un tema importante en genética , biología molecular y bioinformática . Los motivos de secuencia específicos pueden funcionar como secuencias reguladoras que controlan la biosíntesis o como secuencias señal que dirigen una molécula a un sitio específico dentro de la célula o regulan su maduración. Dado que la función reguladora de estas secuencias es importante, se cree que se conservan a lo largo de largos períodos de evolución . En algunos casos, la relación evolutiva se puede estimar por la cantidad de conservación de estos sitios.
Los motivos de secuencia conservados se denominan secuencias de consenso y muestran qué residuos se conservan y cuáles son variables. Consideremos la siguiente secuencia de ADN de ejemplo:
En esta notación , A significa que siempre se encuentra una A en esa posición; [CT] significa C o T; N significa cualquier base; y {A} significa cualquier base excepto A. Y representa cualquier pirimidina y R indica cualquier purina . En este ejemplo, la notación [CT] no da ninguna indicación de la frecuencia relativa de aparición de C o T en esa posición. Y no es posible escribirlo como una única secuencia de consenso, p. ej., ACNCCA. Un método alternativo para representar una secuencia de consenso utiliza un logotipo de secuencia . Esta es una representación gráfica de la secuencia de consenso, en la que el tamaño de un símbolo está relacionado con la frecuencia con la que un nucleótido (o aminoácido) dado aparece en una determinada posición. En los logotipos de secuencia, cuanto más conservado sea el residuo, más grande se dibuja el símbolo para ese residuo; cuanto menos frecuente, más pequeño es el símbolo. Los logotipos de secuencia se pueden generar utilizando WebLogo o utilizando Gestalt Workbench, una herramienta de visualización disponible públicamente escrita por Gustavo Glusman en el Instituto de Biología de Sistemas. [2]
Las herramientas bioinformáticas permiten calcular y visualizar secuencias de consenso. Algunos ejemplos de estas herramientas son JalView y UGENE .