En bioinformática , un logotipo de secuencia es una representación gráfica de la conservación de la secuencia de nucleótidos (en una cadena de ADN / ARN ) o aminoácidos (en secuencias de proteínas ). [1] Un logotipo de secuencia se crea a partir de una colección de secuencias alineadas y representa la secuencia de consenso y la diversidad de las secuencias. Los logotipos de secuencia se utilizan con frecuencia para representar características de secuencia, como sitios de unión de proteínas en el ADN o unidades funcionales en proteínas.
Un logotipo de secuencia consta de una pila de letras en cada posición. Los tamaños relativos de las letras indican su frecuencia en las secuencias. La altura total de las letras representa el contenido de información de la posición, en bits.
Para crear logotipos de secuencias, se alinean secuencias de ADN, ARN o proteínas relacionadas, o secuencias de ADN que tienen sitios de unión conservados comunes, de modo que las partes más conservadas creen buenas alineaciones. Luego, se puede crear un logotipo de secuencia a partir de la alineación de secuencias múltiples conservadas . El logotipo de secuencia mostrará qué tan bien se conservan los residuos en cada posición: cuanto mayor sea el número de residuos, más altas serán las letras, porque mejor es la conservación en esa posición. Los diferentes residuos en la misma posición se escalan de acuerdo con su frecuencia. La altura de toda la pila de residuos es la información medida en bits . Los logotipos de secuencias se pueden usar para representar sitios de unión de ADN conservados , donde se unen los factores de transcripción .
El contenido de información (eje y) de la posición viene dado por: [2]
¿Dónde está la incertidumbre (a veces llamada entropía de Shannon ) de la posición?
Aquí, es la frecuencia relativa de la base o aminoácido en la posición , y es la corrección de muestra pequeña para una alineación de letras. [2] [3] La altura de la letra en la columna está dada por
La aproximación para la corrección de muestra pequeña, , viene dada por:
donde es 4 para nucleótidos, 20 para aminoácidos y es el número de secuencias en la alineación.
Un logotipo de consenso es una variación simplificada de un logotipo de secuencia que se puede incrustar en formato de texto. Al igual que un logotipo de secuencia, un logotipo de consenso se crea a partir de una colección de secuencias de proteínas o ADN/ARN alineadas y transmite información sobre la conservación de cada posición de un motivo de secuencia o alineación de secuencia [1] [4] . Sin embargo, un logotipo de consenso muestra solo información de conservación, y no explícitamente la información de frecuencia de cada nucleótido o aminoácido en cada posición. En lugar de una pila formada por varios caracteres, que denota la frecuencia relativa de cada carácter, el logotipo de consenso representa el grado de conservación de cada posición utilizando la altura del carácter de consenso en esa posición.
La principal y obvia ventaja de los logotipos de consenso sobre los logotipos de secuencia es su capacidad de ser incrustados como texto en cualquier editor/visor compatible con Rich Text Format y, por lo tanto, en manuscritos científicos. Como se describió anteriormente, el logotipo de consenso es un cruce entre logotipos de secuencia y secuencias de consenso . Como resultado, en comparación con un logotipo de secuencia, el logotipo de consenso omite información (la contribución relativa de cada carácter a la conservación de esa posición en el motivo/alineamiento). Por lo tanto, se debe utilizar preferentemente un logotipo de secuencia siempre que sea posible. Dicho esto, la necesidad de incluir figuras gráficas para mostrar logotipos de secuencia ha perpetuado el uso de secuencias de consenso en manuscritos científicos, aunque no transmitan información sobre la conservación y la frecuencia. [5] Los logotipos de consenso representan, por lo tanto, una mejora con respecto a las secuencias de consenso siempre que la información del motivo/alineamiento se deba restringir al texto.
Los modelos ocultos de Markov (HMM) no solo consideran el contenido de información de las posiciones alineadas en una alineación, sino también de las inserciones y eliminaciones. En un logotipo de secuencia HMM utilizado por Pfam , se agregan tres filas para indicar las frecuencias de ocupación (presencia) e inserción, así como la longitud de inserción esperada. [6]