En biología, un motivo de secuencia es un patrón de secuencia de nucleótidos o aminoácidos que está muy extendido y que, por lo general, se supone que está relacionado con la función biológica de la macromolécula. Por ejemplo, un motivo de sitio de N -glicosilación se puede definir como Asn, seguido de cualquier residuo excepto Pro, seguido de Ser o Thr, seguido de cualquier residuo excepto Pro .
Cuando un motivo de secuencia aparece en el exón de un gen , puede codificar el " motivo estructural " de una proteína ; es decir, un elemento estereotipado de la estructura general de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva . Las secuencias " no codificantes " no se traducen en proteínas, y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la doble hélice del ADN en "forma B" ).
Además de los exones de los genes, existen motivos de secuencias reguladoras y motivos dentro de la " basura ", como el ADN satélite . Se cree que algunos de ellos afectan la forma de los ácidos nucleicos [1] (véase, por ejemplo, el autoempalme del ARN ), pero esto solo es así en algunas ocasiones. Por ejemplo, muchas proteínas de unión al ADN que tienen afinidad por sitios de unión específicos del ADN se unen al ADN solo en su forma de doble hélice. Son capaces de reconocer motivos a través del contacto con el surco mayor o menor de la doble hélice.
Los motivos de codificación cortos, que parecen carecer de estructura secundaria, incluyen aquellos que marcan las proteínas para su entrega a partes particulares de una célula , o las marcan para su fosforilación .
Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas informáticas de análisis de secuencias , como BLAST . Dichas técnicas pertenecen a la disciplina de la bioinformática . Véase también secuencia de consenso .
Consideremos el motivo del sitio de N -glicosilación mencionado anteriormente:
Este patrón puede escribirse como N{P}[ST]{P}
donde N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
significa cualquier aminoácido excepto X
; y [XY]
significa cualquiera de los dos X
o Y
.
La notación [XY]
no da ninguna indicación de la probabilidad de que se dé X
o Y
se dé el patrón. Las probabilidades observadas se pueden representar gráficamente mediante el uso de logotipos de secuencias . A veces, los patrones se definen en términos de un modelo probabilístico, como un modelo oculto de Markov .
La notación [XYZ]
significa X
o Y
o Z
, pero no indica la probabilidad de una coincidencia en particular. Por este motivo, dos o más patrones suelen estar asociados con un único motivo: el patrón definitorio y varios patrones típicos.
Por ejemplo, la secuencia definitoria del motivo CI puede tomarse como:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
donde x
significa cualquier aminoácido y los corchetes indican una alternativa (ver más abajo para más detalles sobre la notación).
Sin embargo, por lo general, la primera letra es I
, y ambas [RK]
opciones se resuelven en R
. Dado que la última opción es tan amplia, el patrón IQxxxRGxxxR
a veces se equipara con el motivo de CI en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo de CI .
Se utilizan varias notaciones para describir motivos, pero la mayoría son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:
[abc]
coincide con cualquiera de los aminoácidos representados por a
o b
o c
.La idea fundamental detrás de todas estas notaciones es el principio de correspondencia, que asigna un significado a una secuencia de elementos de la notación de patrones:
Por lo tanto, el patrón [AB] [CDE] F
coincide con las seis secuencias de aminoácidos correspondientes a ACF
, ADF
, AEF
, BCF
, BDF
y BEF
.
Las distintas notaciones de descripción de patrones tienen otras formas de formar elementos de patrón. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.
La notación PROSITE utiliza los códigos de una letra de la IUPAC-
y se ajusta a la descripción anterior con la excepción de que se utiliza un símbolo de concatenación, ' ', entre los elementos del patrón, pero a menudo se omite entre las letras del alfabeto del patrón.
PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:
x
' se puede utilizar como elemento de patrón para indicar cualquier aminoácido.{ST}
denota cualquier aminoácido que no sea S
o T
.<
'.>
'.>
' también puede aparecer dentro de un patrón de corchete de terminación, de modo que S[T>]
coincida tanto con " ST
" como con " S>
".e
es un elemento de patrón, y m
y n
son dos enteros decimales con m
<= n
, entonces:e(m)
es equivalente a la repetición de veces e
exactamente ;m
e(m,n)
es equivalente a la repetición de e
exactamente k
veces para cualquier entero k
que satisfaga: m
<= k
<= n
.Algunos ejemplos:
x(3)
es equivalente a x-x-x
.x(2,4)
coincide con cualquier secuencia que coincida con x-x
o x-x-x
o x-x-x-x
.La firma del dominio de dedo de zinc tipo C2H2 es:
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Existen dos tipos de matrices de ponderación.
Un ejemplo de un PFM de la base de datos TRANSFAC para el factor de transcripción AP-1:
La primera columna especifica la posición, la segunda columna contiene el número de ocurrencias de A en esa posición, la tercera columna contiene el número de ocurrencias de C en esa posición, la cuarta columna contiene el número de ocurrencias de G en esa posición, la quinta columna contiene el número de ocurrencias de T en esa posición y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de ocurrencias para A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de la agregación de varias secuencias de consenso.
El proceso de descubrimiento de motivos de secuencias se ha desarrollado bien desde la década de 1990. En particular, la mayor parte de la investigación de descubrimiento de motivos existente se centra en los motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se enfrentan tanto a problemas de degeneración de patrones de secuencias como a problemas de escalabilidad computacional con uso intensivo de datos.
Proceso de descubrimiento
El descubrimiento de motivos se produce en tres fases principales. Una etapa de preprocesamiento en la que las secuencias se preparan meticulosamente en pasos de ensamblaje y limpieza. El ensamblaje implica la selección de secuencias que contienen el motivo deseado en grandes cantidades y la extracción de secuencias no deseadas mediante agrupamiento. Luego, la limpieza garantiza la eliminación de cualquier elemento de confusión. A continuación, está la etapa de descubrimiento. En esta fase, las secuencias se representan utilizando cadenas de consenso o matrices de peso específicas de posición (PWM) . Después de la representación del motivo, se elige una función objetivo y se aplica un algoritmo de búsqueda adecuado para descubrir los motivos. Finalmente, la etapa de posprocesamiento implica la evaluación de los motivos descubiertos. [2]
Existen programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo Multiple EM for Motif Elicitation (MEME), que genera información estadística para cada candidato. [3] Existen más de 100 publicaciones que detallan algoritmos de descubrimiento de motivos; Weirauch et al . evaluaron muchos algoritmos relacionados en un benchmark de 2013. [4] La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.
También se han descubierto motivos mediante un enfoque filogenético y el estudio de genes similares en diferentes especies. Por ejemplo, al alinear las secuencias de aminoácidos especificadas por el gen GCM ( glial cells missing ) en el hombre, el ratón y D. melanogaster , Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. [5] Abarca unos 150 residuos de aminoácidos y comienza de la siguiente manera:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Aquí, cada uno de ellos .
representa un solo aminoácido o un espacio vacío, y cada uno de ellos *
indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.
Las bases de datos de dominios de proteínas modernas , como Pfam , suelen utilizar un enfoque similar : los curadores humanos seleccionarían un grupo de secuencias que se sabe que están relacionadas y utilizarían programas informáticos para alinearlas y producir el perfil del motivo (Pfam utiliza HMM , que se pueden utilizar para identificar otras proteínas relacionadas). [6] También se puede utilizar un enfoque filogenético para mejorar el algoritmo MEME de novo , siendo PhyloGibbs un ejemplo. [7]
En 2017, se desarrolló MotifHyades como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas. [8]
En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de unión al ADN de las proteínas. [9]
Algoritmos de descubrimiento de motivos
Los algoritmos de descubrimiento de motivos utilizan diversas estrategias para descubrir patrones en secuencias de ADN. La integración de enfoques enumerativos, probabilísticos e inspirados en la naturaleza demuestra su adaptabilidad, y el uso de múltiples métodos resulta eficaz para mejorar la precisión de la identificación.
Enfoque enumerativo: [2]
Al iniciar el proceso de descubrimiento de motivos, el enfoque enumerativo es testigo de algoritmos que generan y evalúan meticulosamente motivos potenciales. Las técnicas de enumeración de palabras simples, como YMF y DREME, que recorren sistemáticamente la secuencia en busca de motivos cortos, son pioneras en este campo. Como complemento, los métodos basados en agrupamiento, como CisFinder, emplean matrices de sustitución de nucleótidos para el agrupamiento de motivos, mitigando eficazmente la redundancia. Al mismo tiempo, los métodos basados en árboles, como Weeder y FMotif, explotan las estructuras de árboles, y los métodos basados en la teoría de grafos (por ejemplo, WINNOWER) emplean representaciones de grafos, lo que demuestra la riqueza de las estrategias de enumeración.
Enfoque probabilístico: [2]
Este enfoque, que se adentra en el ámbito probabilístico, aprovecha los modelos de probabilidad para discernir motivos dentro de las secuencias. MEME, un ejemplo determinista, emplea la maximización de expectativas para optimizar las matrices de ponderación de posición (PWM) y desentrañar regiones conservadas en secuencias de ADN no alineadas. En contraste, las metodologías estocásticas como el muestreo de Gibbs inician el descubrimiento de motivos con asignaciones aleatorias de posiciones de motivos, refinando iterativamente las predicciones. Este marco probabilístico captura hábilmente la incertidumbre inherente asociada con el descubrimiento de motivos.
Enfoque avanzado: [2]
En una evolución más profunda, el descubrimiento avanzado de motivos adopta técnicas sofisticadas, en las que el modelado bayesiano [10] ocupa un lugar central. LOGOS y BaMM, que ejemplifican esta cohorte, entrelazan intrincadamente los enfoques bayesianos y los modelos de Markov en su tejido para la identificación de motivos. La incorporación de métodos de agrupamiento bayesiano mejora la base probabilística, proporcionando un marco holístico para el reconocimiento de patrones en secuencias de ADN.
Algoritmos heurísticos e inspirados en la naturaleza: [2]
Se desarrolla una categoría distinta, en la que los algoritmos se inspiran en el ámbito biológico. Los algoritmos genéticos (GA) , ejemplificados por FMGA y MDGA, [11] navegan en la búsqueda de motivos a través de operadores genéticos y estrategias especializadas. Aprovechando los principios de inteligencia de enjambre, los algoritmos de optimización de enjambre de partículas (PSO) , colonias de abejas artificiales (ABC) y búsqueda de cucos (CS) , incluidos en GAEM, GARP y MACS, se aventuran en la exploración basada en feromonas. Estos algoritmos, que reflejan la adaptabilidad y la dinámica cooperativa de la naturaleza, sirven como estrategias de vanguardia para la identificación de motivos. La síntesis de técnicas heurísticas en enfoques híbridos subraya la adaptabilidad de estos algoritmos en el intrincado dominio del descubrimiento de motivos.
El represor del operón de la lactosa de E. coli LacI ( PDB : cadena A de 1lcc) y el activador del gen del catabolito de E. coli ( PDB : cadena A de 3gap) tienen ambos un motivo hélice-giro-hélice , pero sus secuencias de aminoácidos no muestran mucha similitud, como se muestra en la siguiente tabla. En 1997, Matsuda et al. idearon un código que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): [12] El código codifica los ángulos de torsión entre los carbonos alfa de la estructura principal de la proteína . "W" siempre corresponde a una hélice alfa.