Motivo de secuencia

Estas secuencias pueden ser codificantes o no codificantes, y suelen estar implicadas en la regulación de procesos biológicos como la transcripción, el procesamiento del ARN mensajero y la traducción a proteína.[2]​ Los motivos de secuencia encapsulan funciones biológicas esenciales para la vida.En el año 1975, David Pribnow realizó experimentos aislando un fragmento protegido de la RNA polimerasa del bacteriófago T7.Con estos experimentos, Pribnow descubrió una secuencia específica dentro de los promotores que participaba en la unión de la ADN polimerasa y que estaba conservada entre especies.El descubrimiento de esta secuencia fue un hito en la biología molecular del momento.Las expresiones regulares son grafías una amplían el alfabeto original de ADN formado por A, C, T y G útiles para representar que en una determinada posición del genoma, se produce una co-ocurrencia de nucleótidos.Estas variaciones permiten modular la afinidad con la que se unen complejos proteicos y demás proteínas reguladoras, y otorgan de esta manera versatilidad a los procesos biológicos.Las expresiones regulares más utilizadas en la representación de secuencias de ADN son las letras mayúsculas " Y " y " R " , que se utilizan para representar posiciones en las que se encuentran 2 nucleótidos distintos.Asimismo, existen expresiones regulares para indicar que en una determinada posición puede aparecer cualquiera de los 4 nucleótidos canónicos, representado con un punto " .Asimismo, existen expresiones regulares para representar aminoácidos en secuencias de proteínas.En esta encontramos una notación que lleva el mismo nombre (notación PROSITE) y que se caracteriza por utilizar los códigos de una letra de establecidos por la IUPAC.Este sistema de grafía incorpora distintas letras del alfabeto para nombrar aminoácidos y utiliza el guion ' - ' como símbolo de concatenación.(1,...,l), k es una de las letras del alfabeto (A,C,T,G) e I(a=k) es una función indicatriz en la cual I(a=k) es 1 si a=k; y 0 en caso contrario.Cuando se obtienen los resultados del a PWM mediante el uso de probabilidades logarítmicas, la puntuación de la secuencia se obtiene sumando (y no multiplicando) los valores relevantes en cada posición en el PWM.La puntuación nos dirá cómo se ha de considerar una secuencia en cuanto a su aleatoriedad.Si la puntuación es 0, la secuencia tiene la misma probabilidad de ser un lugar aleatorio que funcional.Si es mayor a 0, tiene más probabilidad de ser un lugar funcional que aleatorio.Si por contra, la puntuación es menor a 0, tendrá más probabilidades de ser un lugar aleatorio que funcional.Las probabilidades observadas pueden ser representadas gráficamente utilizando logos de secuencias.Consiste en representar para cada posición del motivo, las letras de los nucleótidos que aparecen.El nombre de esta secuencia fue asignado en reconocimiento a sus descubridores, David Pribnow y Heinz Schaller, en 1975.[7]​ Es precisamente debido a su conservación evolutiva que se puede establecer un logo de secuencia para describir los nucleótidos más frecuentes que la conforman, siendo su secuencia canónica: 5'-TATAAA-3'.Este proceso es muy común en eucariotas, pudiéndose dar en cualquier tipo de ARN (ARNt, ARNr, etc.) aunque es más típico en el ARNm, y también se ha descrito en procariotas y bacteriófagos.Normalmente, el splicing consiste en descartar los intrones (regiones no codificantes) del ARN inmaduro y unir los exones (regiones codificantes), pero también existe un proceso mediante el cual se pueden descartar exones (splicing alternativo).[11]​ Estos procesos de descarte y unión son posibles gracias a reacciones catalizadas por un complejo molecular llamado espliceosoma, que realiza dos reacciones de transesterificación secuenciales.[12]​ Para que sucedan estas reacciones, es necesario que los intrones empiecen y acaben con unos nucleótidos concretos, con lo cual se han podido describir 2 secuencias consenso: 5'-GT-3' y 5'-AG-3' para el extremo 5' (sitio dador de splicing 5')[13]​ y 3' (sitio aceptor de splicing 3')[14]​ respectivamente.[15]​ Este codón no sólo es usado por la célula como señal para empezar la traducción, sino que además es el primer codón traducido, por lo que formará parte del extremo amino terminal de las proteínas eucariotas hasta su procesamiento proteolítico como el aminoácido metionina.En cambio, los procariotas tienen N-formilmetionina en su lugar, consitituyendo una diferencia fundamental entre los códigos genéticos de ambos dominios biológicos.Los lugares de N-glicosilación presentan un patrón de consenso: Asn, seguida por cualquier aminoácido excepto Pro, seguida por Ser o Thr, seguida por cualquier aminoácido excepto Pro, donde las abreviaturas de las letras siguen las nomenclaturas convencionales.
Logo secuencia del motivo aceptor de splicing 3'.
Logo secuencia del motivo dador de splicing 5'.
Logo de secuencia que representa la frecuencia de aparición de los nucleótidos T y A en el motivo Caja TATA que indica el inicio de la transcripción.
Logos de secuencias de motivos de los sitios dador (5') y aceptor (3') de splicing en eucariotas.
Logo de secuencia del motivo de unión del ribosoma: el codón ATG.