En biología, un motivo de secuencia es un patrón de secuencia de nucleótidos o aminoácidos que está muy extendido y generalmente se supone que está relacionado con la función biológica de la macromolécula. Por ejemplo, un motivo del sitio de N- glicosilación se puede definir como Asn, seguido de cualquier residuo menos Pro, seguido de Ser o Thr, seguido de cualquier residuo menos Pro .
Cuando un motivo de secuencia aparece en el exón de un gen , puede codificar el " motivo estructural " de una proteína ; ese es un elemento estereotipado de la estructura general de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva . Las secuencias " no codificantes " no se traducen en proteínas, y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la doble hélice de ADN en "forma B" ).
Fuera de los exones de genes, existen motivos de secuencia reguladora y motivos dentro de la " basura ", como el ADN satélite . Se cree que algunos de estos afectan la forma de los ácidos nucleicos [1] (ver, por ejemplo, el autoempalme del ARN ), pero esto sólo es así en ocasiones. Por ejemplo, muchas proteínas de unión al ADN que tienen afinidad por sitios de unión al ADN específicos se unen al ADN sólo en su forma de doble hélice. Son capaces de reconocer motivos a través del contacto con el surco mayor o menor de la doble hélice.
Los motivos de codificación cortos, que parecen carecer de estructura secundaria, incluyen aquellos que marcan proteínas para su entrega a partes particulares de una célula , o las marcan para su fosforilación .
Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas informáticas de análisis de secuencias , como BLAST . Estas técnicas pertenecen a la disciplina de la bioinformática . Véase también secuencia de consenso .
Considere el motivo del sitio de N -glicosilación mencionado anteriormente:
Este patrón se puede escribir como N{P}[ST]{P}
donde N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
significa cualquier aminoácido excepto X
; y [XY]
significa o X
o Y
.
La notación [XY]
no da ninguna indicación de la probabilidad de que X
ocurra Y
el patrón. Las probabilidades observadas se pueden representar gráficamente mediante logotipos de secuencia . A veces los patrones se definen en términos de un modelo probabilístico como un modelo oculto de Markov .
La notación [XYZ]
significa X
o Y
o Z
, pero no indica la probabilidad de ninguna coincidencia en particular. Por esta razón, dos o más patrones suelen asociarse a un solo motivo: el patrón definitorio y varios patrones típicos.
Por ejemplo, se puede considerar que la secuencia definitoria del motivo IQ es:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
donde x
significa cualquier aminoácido y los corchetes indican una alternativa (consulte a continuación para obtener más detalles sobre la notación).
Sin embargo, normalmente la primera letra es I
y ambas [RK]
opciones se resuelven en R
. Dado que la última opción es tan amplia, el patrón IQxxxRGxxxR
a veces se equipara con el motivo IQ en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo IQ .
Se utilizan varias notaciones para describir motivos, pero la mayoría de ellas son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:
[abc]
coincide con cualquiera de los aminoácidos representados por a
o b
o c
.La idea fundamental detrás de todas estas notaciones es el principio de correspondencia, que asigna un significado a una secuencia de elementos de la notación de patrón:
Por tanto, el patrón [AB] [CDE] F
coincide con las seis secuencias de aminoácidos correspondientes a ACF
, ADF
, AEF
, BCF
, BDF
y BEF
.
Las diferentes notaciones de descripción de patrones tienen otras formas de formar elementos de patrón. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.
La notación PROSITE utiliza los códigos de una letra de la IUPAC y se ajusta a la descripción anterior con la excepción de que se utiliza un símbolo de concatenación, ' -
', entre los elementos del patrón, pero a menudo se omite entre las letras del alfabeto del patrón.
PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:
x
' se puede utilizar como elemento de patrón para indicar cualquier aminoácido.{ST}
denota cualquier aminoácido distinto de S
o T
.<
'.>
'.>
' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que S[T>]
coincida tanto con " ST
" como con " S>
".e
es un elemento de patrón y m
y n
son dos números enteros decimales con m
<= n
, entonces:e(m)
equivale a la repetición de tiempos e
exactos ;m
e(m,n)
es equivalente a la repetición e
exacta de k
tiempos para cualquier número entero k
que satisfaga: m
<= k
<= n
.Algunos ejemplos:
x(3)
es equivalente a x-x-x
.x(2,4)
coincide con cualquier secuencia que coincida x-x
con o x-x-x
o x-x-x-x
.La firma del dominio de dedos de zinc tipo C2H2 es:
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.
Un ejemplo de PFM de la base de datos TRANSFAC para el factor de transcripción AP-1:
La primera columna especifica la posición, la segunda columna contiene el número de apariciones de A en esa posición, la tercera columna contiene el número de apariciones de C en esa posición, la cuarta columna contiene el número de apariciones de G en esa posición, la la quinta columna contiene el número de apariciones de T en esa posición, y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de ocurrencias de A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de agregar varias secuencias de consenso.
El proceso de descubrimiento de motivos secuenciales ha estado bien desarrollado desde la década de 1990. En particular, la mayor parte de la investigación existente sobre descubrimiento de motivos se centra en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional con uso intensivo de datos.
Proceso de descubrimiento
El descubrimiento de motivos ocurre en tres fases principales. Una etapa de preprocesamiento donde se preparan minuciosamente las secuencias en los pasos de montaje y limpieza. El ensamblaje implica seleccionar secuencias que contienen el motivo deseado en grandes cantidades y extraer secuencias no deseadas mediante agrupación. Luego, la limpieza garantiza la eliminación de cualquier elemento confuso. Luego está la etapa de descubrimiento. En esta fase, las secuencias se representan mediante cadenas de consenso o matrices de peso específicas de posición (PWM ). Después de la representación del motivo, se elige una función objetivo y se aplica un algoritmo de búsqueda adecuado para descubrir los motivos. Finalmente, la etapa de posprocesamiento consiste en evaluar los motivos descubiertos. [2]
Hay programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo EM múltiple para obtención de motivos (MEME), que genera información estadística para cada candidato. [3] Hay más de 100 publicaciones que detallan algoritmos de descubrimiento de motivos; Weirauch et al . evaluó muchos algoritmos relacionados en un punto de referencia de 2013. [4] La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.
También se han descubierto motivos adoptando un enfoque filogenético y estudiando genes similares en diferentes especies. Por ejemplo, al alinear las secuencias de aminoácidos especificadas por el gen GCM ( células gliales faltantes ) en el hombre, el ratón y D. melanogaster , Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. [5] Abarca alrededor de 150 residuos de aminoácidos, y comienza de la siguiente manera:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Aquí cada uno .
significa un único aminoácido o una brecha, y cada uno *
indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.
Las bases de datos modernas de dominios de proteínas , como Pfam , suelen utilizar un enfoque similar : los curadores humanos seleccionarían un conjunto de secuencias que se sabe que están relacionadas y utilizarían programas informáticos para alinearlas y producir el perfil del motivo (Pfam utiliza HMM , que pueden utilizarse para identificar otras proteínas relacionadas. [6] También se puede utilizar un enfoque filogénico para mejorar el algoritmo MEME de novo , siendo PhyloGibbs un ejemplo. [7]
En 2017, MotifHyades se desarrolló como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas. [8]
En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de proteínas de unión al ADN . [9]
Algoritmos de descubrimiento de motivos
Los algoritmos de descubrimiento de motivos utilizan diversas estrategias para descubrir patrones en secuencias de ADN. La integración de enfoques enumerativos, probabilísticos e inspirados en la naturaleza demuestra su adaptabilidad, y el uso de múltiples métodos resulta eficaz para mejorar la precisión de la identificación.
Enfoque enumerativo: [2]
Al iniciar el viaje de descubrimiento de motivos, el enfoque enumerativo es testigo de cómo los algoritmos generan y evalúan meticulosamente motivos potenciales. Pioneras en este ámbito son las técnicas de enumeración de palabras simples, como YMF y DREME, que recorren sistemáticamente la secuencia en busca de motivos breves. Como complemento a estos, los métodos basados en agrupaciones, como CisFinder, emplean matrices de sustitución de nucleótidos para la agrupación de motivos, lo que mitiga eficazmente la redundancia. Al mismo tiempo, los métodos basados en árboles como Weeder y FMotif explotan estructuras de árboles, y los métodos basados en la teoría de gráficos (por ejemplo, WINNOWER) emplean representaciones gráficas, lo que demuestra la riqueza de las estrategias de enumeración.
Enfoque probabilístico: [2]
Este enfoque, que se adentra en el ámbito probabilístico, aprovecha los modelos de probabilidad para discernir motivos dentro de las secuencias. MEME, un ejemplo determinista, emplea la maximización de expectativas para optimizar las matrices de peso de posición (PWM) y desentrañar regiones conservadas en secuencias de ADN no alineadas. En contraste con esto, las metodologías estocásticas como Gibbs Sampling inician el descubrimiento de motivos con asignaciones aleatorias de posiciones de motivos, refinando iterativamente las predicciones. Este marco probabilístico captura hábilmente la incertidumbre inherente asociada con el descubrimiento de motivos.
Enfoque avanzado: [2]
Evolucionando aún más, el descubrimiento avanzado de motivos abarca técnicas sofisticadas, con el modelado bayesiano [10] ocupando un lugar central. LOGOS y BaMM, que ejemplifican esta cohorte, entrelazan intrincadamente enfoques bayesianos y modelos de Markov en su tejido para la identificación de motivos. La incorporación de métodos de agrupamiento bayesiano mejora la base probabilística, proporcionando un marco holístico para el reconocimiento de patrones en secuencias de ADN.
Algoritmos heurísticos e inspirados en la naturaleza: [2]
Se desarrolla una categoría distinta, en la que los algoritmos se inspiran en el ámbito biológico. Los algoritmos genéticos (GA) , personificados por FMGA y MDGA, [11] navegan en la búsqueda de motivos a través de operadores genéticos y estrategias especializadas. Aprovechando los principios de inteligencia de enjambre, los algoritmos de optimización de enjambre de partículas (PSO) , colonia de abejas artificiales (ABC) y algoritmos de búsqueda de cuco (CS) , incluidos en GAEM, GARP y MACS, se aventuran en la exploración basada en feromonas. Estos algoritmos, que reflejan la adaptabilidad y la dinámica cooperativa de la naturaleza, sirven como estrategias de vanguardia para la identificación de motivos. La síntesis de técnicas heurísticas en enfoques híbridos subraya la adaptabilidad de estos algoritmos en el intrincado dominio del descubrimiento de motivos.
El represor del operón lactosa de E. coli LacI ( PDB : 1lcc cadena A) y el activador del gen catabolito de E. coli ( PDB : 3gap cadena A) tienen un motivo de hélice-giro-hélice , pero sus secuencias de aminoácidos no muestran mucho. similitud, como se muestra en la siguiente tabla. En 1997, Matsuda y cols. idearon un código al que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): [12] El código codifica los ángulos de torsión entre los carbonos alfa de la columna vertebral de la proteína . "W" siempre corresponde a una hélice alfa.