stringtranslate.com

Logotipo de secuencia

Un logotipo de secuencia que muestra las bases más conservadas alrededor del codón de iniciación de todos los ARNm humanos ( secuencia de consenso de Kozak ). Tenga en cuenta que el codón de iniciación no está dibujado a escala; de lo contrario, las letras AUG tendrían cada una una altura de 2 bits.

En bioinformática , un logotipo de secuencia es una representación gráfica de la conservación de la secuencia de nucleótidos (en una hebra de ADN / ARN ) o aminoácidos (en secuencias de proteínas ). [1] Un logotipo de secuencia se crea a partir de una colección de secuencias alineadas y representa la secuencia consenso y la diversidad de las secuencias. Los logotipos de secuencia se utilizan con frecuencia para representar características de secuencia, como sitios de unión a proteínas en el ADN o unidades funcionales en proteínas.

Descripción general

Un logotipo de secuencia consta de una pila de letras en cada posición. Los tamaños relativos de las letras indican su frecuencia en las secuencias. La altura total de las letras representa el contenido de información de la posición, en bits.

Creación de logotipo

Para crear logotipos de secuencia, se alinean secuencias de ADN, ARN o proteínas relacionadas, o secuencias de ADN que tienen sitios de unión conservados comunes, de modo que las partes más conservadas creen buenas alineaciones. Luego se puede crear un logotipo de secuencia a partir del alineamiento de secuencia múltiple conservado . El logotipo de la secuencia mostrará qué tan bien se conservan los residuos en cada posición: cuanto mayor sea el número de residuos, más altas serán las letras, porque mejor será la conservación en esa posición. Los diferentes residuos en la misma posición se escalan según su frecuencia. La altura de toda la pila de residuos es la información medida en bits . Los logotipos de secuencia se pueden utilizar para representar sitios de unión de ADN conservados , donde se unen los factores de transcripción .

El contenido de información (eje y) de la posición viene dado por: [2]

para aminoácidos,
para ácidos nucleicos,

¿Dónde está la incertidumbre (a veces llamada entropía de Shannon ) de la posición?

Aquí, está la frecuencia relativa de la base o aminoácido en la posición y es la corrección de muestra pequeña para una alineación de letras. [2] [3] La altura de la letra en la columna viene dada por

La aproximación para la corrección de muestra pequeña, , viene dada por:

donde es 4 para nucleótidos, 20 para aminoácidos y es el número de secuencias en la alineación.

Logotipo de consenso

Un logotipo de consenso es una variación simplificada de un logotipo de secuencia que se puede incrustar en formato de texto. Al igual que un logotipo de secuencia, un logotipo de consenso se crea a partir de una colección de secuencias de proteínas o de ADN/ARN alineadas y transmite información sobre la conservación de cada posición de un motivo de secuencia o alineación de secuencia [1] [4] . Sin embargo, un logotipo de consenso muestra sólo información de conservación y no explícitamente la información de frecuencia de cada nucleótido o aminoácido en cada posición. En lugar de una pila formada por varios caracteres, que indica la frecuencia relativa de cada carácter, el logotipo de consenso representa el grado de conservación de cada posición utilizando la altura del carácter de consenso en esa posición.

Un logotipo de secuencia para el motivo de unión a LexA de varias especies Gram positivas.
Un logotipo de consenso para el motivo de unión a LexA de varias especies Gram positivas.

Ventajas y desventajas

La principal y obvia ventaja de los logotipos de consenso sobre los logotipos de secuencia es su capacidad de incrustarse como texto en cualquier editor/visor compatible con formato de texto enriquecido y, por lo tanto, en manuscritos científicos. Como se describió anteriormente, el logotipo de consenso es un cruce entre logotipos de secuencia y secuencias de consenso . Como resultado, en comparación con un logotipo de secuencia, el logotipo de consenso omite información (la contribución relativa de cada carácter a la conservación de esa posición en el motivo/alineación). Por lo tanto, siempre que sea posible se debe utilizar preferentemente un logotipo de secuencia. Dicho esto, la necesidad de incluir figuras gráficas para mostrar logotipos de secuencias ha perpetuado el uso de secuencias de consenso en manuscritos científicos, aunque no transmiten información ni sobre conservación ni sobre frecuencia. [5] Los logotipos de consenso representan, por lo tanto, una mejora con respecto a las secuencias de consenso siempre que la información del motivo/alineación deba limitarse al texto.

Extensiones

Los modelos ocultos de Markov (HMM) no sólo consideran el contenido de información de las posiciones alineadas en una alineación, sino también de las inserciones y eliminaciones. En un logotipo de secuencia HMM utilizado por Pfam , se agregan tres filas para indicar las frecuencias de ocupación (presencia) e inserción, así como la duración de inserción esperada. [6]

Un logotipo de secuencia para me gusta de TALE . Tenga en cuenta la ocupación reducida (azul) en la posición uno y la inserción ocasional en la posición 19 (rojo).

Ver también

Referencias

  1. ^ ab Schneider TD; Stephens RM (1990). "Logotipos de secuencias: una nueva forma de mostrar secuencias de consenso". Ácidos nucleicos Res . 18 (20): 6097–6100. doi :10.1093/nar/18.20.6097. PMC  332411 . PMID  2172928.
  2. ^ ab Schneider TD; Stormo GD (1986). "Contenido informativo de los sitios de unión en secuencias de nucleótidos" (PDF) . Revista de biología molecular . 188 (3): 415–431. doi :10.1016/0022-2836(86)90165-8. PMID  3525846.
  3. ^ Basharin GP (1959). "Sobre una estimación estadística de la entropía de una secuencia de variables aleatorias independientes". Teoría de la probabilidad y sus aplicaciones . 4 (3): 333–336. doi :10.1137/1104033.
  4. ^ Anzaldi LJ; Muñoz-Fernández D; Erill I. (2012). "BioWord: un paquete de manipulación de secuencias para Microsoft Word". Bioinformática BMC . 13 (124): 124. doi : 10.1186/1471-2105-13-124 . PMC 3546851 . PMID  22676326. 
  5. ^ Schneider TD (2002). "Secuencia de consenso Zen". Appl Bioinform . 1 (3): 111-119. PMC 1852464 . PMID  15130839. 
  6. ^ Wheeler, Travis J; Clementos, Jody; Finn, Robert D (13 de enero de 2014). "Skylign: una herramienta para crear logotipos informativos e interactivos que representan alineaciones de secuencias y modelos de Markov ocultos de perfiles". Bioinformática BMC . 15 (1): 7. doi : 10.1186/1471-2105-15-7 . PMC 3893531 . PMID  24410852. 

enlaces externos