En bioinformática , un logotipo de secuencia es una representación gráfica de la conservación de la secuencia de nucleótidos (en una hebra de ADN / ARN ) o aminoácidos (en secuencias de proteínas ). [1] Un logotipo de secuencia se crea a partir de una colección de secuencias alineadas y representa la secuencia consenso y la diversidad de las secuencias. Los logotipos de secuencia se utilizan con frecuencia para representar características de secuencia, como sitios de unión a proteínas en el ADN o unidades funcionales en proteínas.
Un logotipo de secuencia consta de una pila de letras en cada posición. Los tamaños relativos de las letras indican su frecuencia en las secuencias. La altura total de las letras representa el contenido de información de la posición, en bits.
Para crear logotipos de secuencia, se alinean secuencias de ADN, ARN o proteínas relacionadas, o secuencias de ADN que tienen sitios de unión conservados comunes, de modo que las partes más conservadas creen buenas alineaciones. Luego se puede crear un logotipo de secuencia a partir del alineamiento de secuencia múltiple conservado . El logotipo de la secuencia mostrará qué tan bien se conservan los residuos en cada posición: cuanto mayor sea el número de residuos, más altas serán las letras, porque mejor será la conservación en esa posición. Los diferentes residuos en la misma posición se escalan según su frecuencia. La altura de toda la pila de residuos es la información medida en bits . Los logotipos de secuencia se pueden utilizar para representar sitios de unión de ADN conservados , donde se unen los factores de transcripción .
El contenido de información (eje y) de la posición viene dado por: [2]
¿Dónde está la incertidumbre (a veces llamada entropía de Shannon ) de la posición?
Aquí, está la frecuencia relativa de la base o aminoácido en la posición y es la corrección de muestra pequeña para una alineación de letras. [2] [3] La altura de la letra en la columna viene dada por
La aproximación para la corrección de muestra pequeña, , viene dada por:
donde es 4 para nucleótidos, 20 para aminoácidos y es el número de secuencias en la alineación.
Un logotipo de consenso es una variación simplificada de un logotipo de secuencia que se puede incrustar en formato de texto. Al igual que un logotipo de secuencia, un logotipo de consenso se crea a partir de una colección de secuencias de proteínas o de ADN/ARN alineadas y transmite información sobre la conservación de cada posición de un motivo de secuencia o alineación de secuencia [1] [4] . Sin embargo, un logotipo de consenso muestra sólo información de conservación y no explícitamente la información de frecuencia de cada nucleótido o aminoácido en cada posición. En lugar de una pila formada por varios caracteres, que indica la frecuencia relativa de cada carácter, el logotipo de consenso representa el grado de conservación de cada posición utilizando la altura del carácter de consenso en esa posición.
La principal y obvia ventaja de los logotipos de consenso sobre los logotipos de secuencia es su capacidad de incrustarse como texto en cualquier editor/visor compatible con formato de texto enriquecido y, por lo tanto, en manuscritos científicos. Como se describió anteriormente, el logotipo de consenso es un cruce entre logotipos de secuencia y secuencias de consenso . Como resultado, en comparación con un logotipo de secuencia, el logotipo de consenso omite información (la contribución relativa de cada carácter a la conservación de esa posición en el motivo/alineación). Por lo tanto, siempre que sea posible se debe utilizar preferentemente un logotipo de secuencia. Dicho esto, la necesidad de incluir figuras gráficas para mostrar logotipos de secuencias ha perpetuado el uso de secuencias de consenso en manuscritos científicos, aunque no transmiten información ni sobre conservación ni sobre frecuencia. [5] Los logotipos de consenso representan, por lo tanto, una mejora con respecto a las secuencias de consenso siempre que la información del motivo/alineación deba limitarse al texto.
Los modelos ocultos de Markov (HMM) no sólo consideran el contenido de información de las posiciones alineadas en una alineación, sino también de las inserciones y eliminaciones. En un logotipo de secuencia HMM utilizado por Pfam , se agregan tres filas para indicar las frecuencias de ocupación (presencia) e inserción, así como la duración de inserción esperada. [6]