Motivo de secuencia

Un motivo de secuencia de ADN representado como un logotipo de secuencia para el motivo de unión a LexA.

En biología, un motivo de secuencia es un patrón de secuencia de nucleótidos o aminoácidos que está muy extendido y que, por lo general, se supone que está relacionado con la función biológica de la macromolécula. Por ejemplo, un motivo de sitio de N -glicosilación se puede definir como Asn, seguido de cualquier residuo excepto Pro, seguido de Ser o Thr, seguido de cualquier residuo excepto Pro .

Descripción general

Cuando un motivo de secuencia aparece en el exón de un gen , puede codificar el " motivo estructural " de una proteína ; es decir, un elemento estereotipado de la estructura general de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva . Las secuencias " no codificantes " no se traducen en proteínas, y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la doble hélice del ADN en "forma B" ).

Además de los exones de los genes, existen motivos de secuencias reguladoras y motivos dentro de la " basura ", como el ADN satélite . Se cree que algunos de ellos afectan la forma de los ácidos nucleicos ^[1] (véase, por ejemplo, el autoempalme del ARN ), pero esto solo es así en algunas ocasiones. Por ejemplo, muchas proteínas de unión al ADN que tienen afinidad por sitios de unión específicos del ADN se unen al ADN solo en su forma de doble hélice. Son capaces de reconocer motivos a través del contacto con el surco mayor o menor de la doble hélice.

Los motivos de codificación cortos, que parecen carecer de estructura secundaria, incluyen aquellos que marcan las proteínas para su entrega a partes particulares de una célula , o las marcan para su fosforilación .

Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas informáticas de análisis de secuencias , como BLAST . Dichas técnicas pertenecen a la disciplina de la bioinformática . Véase también secuencia de consenso .

Representación de motivos

Consideremos el motivo del sitio de N -glicosilación mencionado anteriormente:

Asn, seguido de cualquier cosa excepto Pro, seguido de Ser o Thr, seguido de cualquier cosa excepto Pro

Este patrón puede escribirse como N{P}[ST]{P}donde N= Asn, P= Pro, S= Ser, T= Thr; {X}significa cualquier aminoácido excepto X; y [XY]significa cualquiera de los dos Xo Y.

La notación [XY]no da ninguna indicación de la probabilidad de que se dé Xo Yse dé el patrón. Las probabilidades observadas se pueden representar gráficamente mediante el uso de logotipos de secuencias . A veces, los patrones se definen en términos de un modelo probabilístico, como un modelo oculto de Markov .

Motivos y secuencias de consenso

La notación [XYZ]significa Xo Yo Z, pero no indica la probabilidad de una coincidencia en particular. Por este motivo, dos o más patrones suelen estar asociados con un único motivo: el patrón definitorio y varios patrones típicos.

Por ejemplo, la secuencia definitoria del motivo CI puede tomarse como:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

donde xsignifica cualquier aminoácido y los corchetes indican una alternativa (ver más abajo para más detalles sobre la notación).

Sin embargo, por lo general, la primera letra es I, y ambas [RK]opciones se resuelven en R. Dado que la última opción es tan amplia, el patrón IQxxxRGxxxRa veces se equipara con el motivo de CI en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo de CI .

Anotaciones de descripción de patrones

Se utilizan varias notaciones para describir motivos, pero la mayoría son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:

Hay un alfabeto de caracteres individuales, cada uno de los cuales denota un aminoácido específico o un conjunto de aminoácidos;
una cadena de caracteres extraídos del alfabeto denota una secuencia de los aminoácidos correspondientes;
cualquier cadena de caracteres extraídos del alfabeto entre corchetes coincide con cualquiera de los aminoácidos correspondientes; por ejemplo, [abc]coincide con cualquiera de los aminoácidos representados por ao bo c.

La idea fundamental detrás de todas estas notaciones es el principio de correspondencia, que asigna un significado a una secuencia de elementos de la notación de patrones:

una secuencia de elementos de la notación de patrón coincide con una secuencia de aminoácidos si y solo si esta última secuencia se puede dividir en subsecuencias de tal manera que cada elemento de patrón coincida con la subsecuencia correspondiente a su vez.

Por lo tanto, el patrón [AB] [CDE] Fcoincide con las seis secuencias de aminoácidos correspondientes a ACF, ADF, AEF, BCF, BDFy BEF.

Las distintas notaciones de descripción de patrones tienen otras formas de formar elementos de patrón. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.

Notación de patrones PROSITE

La notación PROSITE utiliza los códigos de una letra de la IUPAC- y se ajusta a la descripción anterior con la excepción de que se utiliza un símbolo de concatenación, ' ', entre los elementos del patrón, pero a menudo se omite entre las letras del alfabeto del patrón.

PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:

La letra minúscula ' x' se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
Una cadena de caracteres extraídos del alfabeto y encerrados entre llaves (corchetes) denota cualquier aminoácido excepto aquellos que están en la cadena. Por ejemplo, {ST}denota cualquier aminoácido que no sea So T.
Si un patrón está restringido al extremo N de una secuencia, el patrón tiene como prefijo ' <'.
Si un patrón está restringido al extremo C de una secuencia, se le añade el sufijo ' >'.
El carácter ' >' también puede aparecer dentro de un patrón de corchete de terminación, de modo que S[T>]coincida tanto con " ST" como con " S>".
Si ees un elemento de patrón, y my nson dos enteros decimales con m<= n, entonces:
- e(m)es equivalente a la repetición de veces eexactamente ;m
- e(m,n)es equivalente a la repetición de eexactamente kveces para cualquier entero kque satisfaga: m<= k<= n.

Algunos ejemplos:

x(3)es equivalente a x-x-x.
x(2,4)coincide con cualquier secuencia que coincida con x-xo x-x-xo x-x-x-x.

La firma del dominio de dedo de zinc tipo C2H2 es:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Matrices

Matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Existen dos tipos de matrices de ponderación.

Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Las PFM se pueden determinar experimentalmente a partir de experimentos SELEX o se pueden descubrir computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
Una matriz de ponderación de posición (PWM) contiene ponderaciones de probabilidades logarítmicas para calcular una puntuación de coincidencia. Se necesita un valor de corte para especificar si una secuencia de entrada coincide con el motivo o no. Las PWM se calculan a partir de las PFM. Las PWM también se conocen como PSSM.

Un ejemplo de un PFM de la base de datos TRANSFAC para el factor de transcripción AP-1:

La primera columna especifica la posición, la segunda columna contiene el número de ocurrencias de A en esa posición, la tercera columna contiene el número de ocurrencias de C en esa posición, la cuarta columna contiene el número de ocurrencias de G en esa posición, la quinta columna contiene el número de ocurrencias de T en esa posición y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de ocurrencias para A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de la agregación de varias secuencias de consenso.

Descubrimiento de motivos

Descripción general

El proceso de descubrimiento de motivos de secuencias se ha desarrollado bien desde la década de 1990. En particular, la mayor parte de la investigación de descubrimiento de motivos existente se centra en los motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se enfrentan tanto a problemas de degeneración de patrones de secuencias como a problemas de escalabilidad computacional con uso intensivo de datos.

Proceso de descubrimiento

El descubrimiento de motivos se produce en tres fases principales. Una etapa de preprocesamiento en la que las secuencias se preparan meticulosamente en pasos de ensamblaje y limpieza. El ensamblaje implica la selección de secuencias que contienen el motivo deseado en grandes cantidades y la extracción de secuencias no deseadas mediante agrupamiento. Luego, la limpieza garantiza la eliminación de cualquier elemento de confusión. A continuación, está la etapa de descubrimiento. En esta fase, las secuencias se representan utilizando cadenas de consenso o matrices de peso específicas de posición (PWM) . Después de la representación del motivo, se elige una función objetivo y se aplica un algoritmo de búsqueda adecuado para descubrir los motivos. Finalmente, la etapa de posprocesamiento implica la evaluación de los motivos descubiertos. ^[2]

De nuevodescubrimiento de motivos

Existen programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo Multiple EM for Motif Elicitation (MEME), que genera información estadística para cada candidato. ^[3] Existen más de 100 publicaciones que detallan algoritmos de descubrimiento de motivos; Weirauch et al . evaluaron muchos algoritmos relacionados en un benchmark de 2013. ^[4] La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.

Descubrimiento de motivos filogenéticos

También se han descubierto motivos mediante un enfoque filogenético y el estudio de genes similares en diferentes especies. Por ejemplo, al alinear las secuencias de aminoácidos especificadas por el gen GCM ( glial cells missing ) en el hombre, el ratón y D. melanogaster , Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. ^[5] Abarca unos 150 residuos de aminoácidos y comienza de la siguiente manera:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Aquí, cada uno de ellos .representa un solo aminoácido o un espacio vacío, y cada uno de ellos *indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.

Las bases de datos de dominios de proteínas modernas , como Pfam , suelen utilizar un enfoque similar : los curadores humanos seleccionarían un grupo de secuencias que se sabe que están relacionadas y utilizarían programas informáticos para alinearlas y producir el perfil del motivo (Pfam utiliza HMM , que se pueden utilizar para identificar otras proteínas relacionadas). ^[6] También se puede utilizar un enfoque filogenético para mejorar el algoritmo MEME de novo , siendo PhyloGibbs un ejemplo. ^[7]

De nuevodescubrimiento de pares de motivos

En 2017, se desarrolló MotifHyades como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas. ^[8]

De nuevoReconocimiento de motivos a partir de proteínas

En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de unión al ADN de las proteínas. ^[9]

Algoritmos de descubrimiento de motivos

Los algoritmos de descubrimiento de motivos utilizan diversas estrategias para descubrir patrones en secuencias de ADN. La integración de enfoques enumerativos, probabilísticos e inspirados en la naturaleza demuestra su adaptabilidad, y el uso de múltiples métodos resulta eficaz para mejorar la precisión de la identificación.

Enfoque enumerativo: ^[2]

Al iniciar el proceso de descubrimiento de motivos, el enfoque enumerativo es testigo de algoritmos que generan y evalúan meticulosamente motivos potenciales. Las técnicas de enumeración de palabras simples, como YMF y DREME, que recorren sistemáticamente la secuencia en busca de motivos cortos, son pioneras en este campo. Como complemento, los métodos basados en agrupamiento, como CisFinder, emplean matrices de sustitución de nucleótidos para el agrupamiento de motivos, mitigando eficazmente la redundancia. Al mismo tiempo, los métodos basados en árboles, como Weeder y FMotif, explotan las estructuras de árboles, y los métodos basados en la teoría de grafos (por ejemplo, WINNOWER) emplean representaciones de grafos, lo que demuestra la riqueza de las estrategias de enumeración.

Enfoque probabilístico: ^[2]

Este enfoque, que se adentra en el ámbito probabilístico, aprovecha los modelos de probabilidad para discernir motivos dentro de las secuencias. MEME, un ejemplo determinista, emplea la maximización de expectativas para optimizar las matrices de ponderación de posición (PWM) y desentrañar regiones conservadas en secuencias de ADN no alineadas. En contraste, las metodologías estocásticas como el muestreo de Gibbs inician el descubrimiento de motivos con asignaciones aleatorias de posiciones de motivos, refinando iterativamente las predicciones. Este marco probabilístico captura hábilmente la incertidumbre inherente asociada con el descubrimiento de motivos.

Enfoque avanzado: ^[2]

En una evolución más profunda, el descubrimiento avanzado de motivos adopta técnicas sofisticadas, en las que el modelado bayesiano ^[10] ocupa un lugar central. LOGOS y BaMM, que ejemplifican esta cohorte, entrelazan intrincadamente los enfoques bayesianos y los modelos de Markov en su tejido para la identificación de motivos. La incorporación de métodos de agrupamiento bayesiano mejora la base probabilística, proporcionando un marco holístico para el reconocimiento de patrones en secuencias de ADN.

Algoritmos heurísticos e inspirados en la naturaleza: ^[2]

Se desarrolla una categoría distinta, en la que los algoritmos se inspiran en el ámbito biológico. Los algoritmos genéticos (GA) , ejemplificados por FMGA y MDGA, ^[11] navegan en la búsqueda de motivos a través de operadores genéticos y estrategias especializadas. Aprovechando los principios de inteligencia de enjambre, los algoritmos de optimización de enjambre de partículas (PSO) , colonias de abejas artificiales (ABC) y búsqueda de cucos (CS) , incluidos en GAEM, GARP y MACS, se aventuran en la exploración basada en feromonas. Estos algoritmos, que reflejan la adaptabilidad y la dinámica cooperativa de la naturaleza, sirven como estrategias de vanguardia para la identificación de motivos. La síntesis de técnicas heurísticas en enfoques híbridos subraya la adaptabilidad de estos algoritmos en el intrincado dominio del descubrimiento de motivos.

Casos de motivos

Códigos de cadena tridimensionales

El represor del operón de la lactosa de E. coli LacI ( PDB : cadena A de 1lcc) y el activador del gen del catabolito de E. coli ( PDB : cadena A de 3gap) tienen ambos un motivo hélice-giro-hélice , pero sus secuencias de aminoácidos no muestran mucha similitud, como se muestra en la siguiente tabla. En 1997, Matsuda et al. idearon un código que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): ^[12] El código codifica los ángulos de torsión entre los carbonos alfa de la estructura principal de la proteína . "W" siempre corresponde a una hélice alfa.

Véase también

Referencias

Fuentes primarias

^ Dlakić, Mensur; Harrington, Rodney E. (1996). "Los efectos del contexto de la secuencia en la curvatura del ADN". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 93 (9): 3847–3852. Bibcode :1996PNAS...93.3847D. doi : 10.1073/pnas.93.9.3847 . ISSN 0027-8424. JSTOR 39155. PMC 39447 . PMID 8632978.
^ abcde Hashim, Fatma A.; Mabrouk, Mai S.; Al-Atabany, Walid (2019). "Revisión de diferentes algoritmos de búsqueda de motivos de secuencia". Revista Avicenna de biotecnología médica . 11 (2): 130–148. ISSN 2008-2835. PMC 6490410 . PMID 31057715.
^ Bailey TL, Williams N, Misleh C, Li WW (julio de 2006). "MEME: descubrimiento y análisis de motivos de secuencias de ADN y proteínas". Nucleic Acids Research . 34 (edición del servidor web): W369-73. doi :10.1093/nar/gkl198. PMC 1538909 . PMID 16845028.
^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (febrero de 2013). "Evaluación de métodos para modelar la especificidad de la secuencia del factor de transcripción". Nature Biotechnology . 31 (2): 126–34. doi :10.1038/nbt.2486. PMC 3687085 . PMID 23354101.
^ Akiyama Y, Hosoya T, Poole AM, Hotta Y (diciembre de 1996). "El motivo gcm: un nuevo motivo de unión al ADN conservado en Drosophila y mamíferos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 93 (25): 14912–6. Bibcode :1996PNAS...9314912A. doi : 10.1073/pnas.93.25.14912 . PMC 26236 . PMID 8962155.
^ "Modelado en Pfam". Pfam . Consultado el 14 de diciembre de 2023 .
^ Siddharthan R, Siggia ED, van Nimwegen E (diciembre de 2005). "PhyloGibbs: un buscador de motivos de muestreo de Gibbs que incorpora filogenia". PLOS Computational Biology . 1 (7): e67. Bibcode :2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704 . PMID 16477324.
^ Wong KC (octubre de 2017). "MotifHyades: maximización de expectativas para el descubrimiento de pares de motivos de ADN de novo en secuencias pareadas". Bioinformática . 33 (19): 3028–3035. doi : 10.1093/bioinformatics/btx381 . PMID 28633280.
^ Wong KC (septiembre de 2018). "Modelado de reconocimiento de motivos de ADN a partir de secuencias de proteínas". iScience . 7 : 198–211. Bibcode :2018iSci....7..198W. doi :10.1016/j.isci.2018.09.003. PMC 6153143 . PMID 30267681.
^ Miller, Andrew K.; Print, Cristin G.; Nielsen, Poul MF; Crampin, Edmund J. (18 de noviembre de 2010). "Una búsqueda bayesiana de motivos transcripcionales". PLOS ONE . 5 (11): e13897. Bibcode :2010PLoSO...513897M. doi : 10.1371/journal.pone.0013897 . ISSN 1932-6203. PMC 2987817 . PMID 21124986.
^ Che, Dongsheng; Song, Yinglei; Rasheed, Khaled (25 de junio de 2005). "MDGA: descubrimiento de motivos mediante un algoritmo genético". Actas de la 7.ª conferencia anual sobre computación genética y evolutiva . GECCO '05. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 447–452. doi :10.1145/1068009.1068080. ISBN . 978-1-59593-010-1. Número de identificación del sujeto 7892935.
^ Matsuda H, Taniguchi F, Hashimoto A (1997). "Un enfoque para la detección de motivos estructurales de proteínas utilizando un esquema de codificación de conformaciones de la cadena principal" (PDF) . Simposio del Pacífico sobre Bioinformática. Simposio del Pacífico sobre Bioinformática : 280–91. PMID 9390299.

Lectura adicional

Kadaveru K, Vyas J, Schiller MR (mayo de 2008). "Infección viral y enfermedad humana: perspectivas a partir de minimotivos". Frontiers in Bioscience . 13 (13): 6455–71. doi :10.2741/3166. PMC 2628544 . PMID 18508672.
Stormo GD (enero de 2000). «Sitios de unión del ADN: representación y descubrimiento». Bioinformática . 16 (1): 16–23. doi :10.1093/bioinformatics/16.1.16. PMID 10812473.

Fuentes primarias

Altarawy D, Ismail MA, Ghanem S (2009). "MProfiler: un método basado en perfiles para el descubrimiento de motivos de ADN". Reconocimiento de patrones en bioinformática . Apuntes de clase en informática. Vol. 5780. págs. 13-23. doi :10.1007/978-3-642-04031-3_2. ISBN 978-3-642-04030-6.
Schiller MR (2007). "Minimotif miner: una herramienta computacional para investigar la función de las proteínas, las enfermedades y la diversidad genética". Protocolos actuales en la ciencia de las proteínas . 48 (1). Wiley: 2.12.1–2.12.14. doi :10.1002/0471140864.ps0212s48. ISBN . 978-0471140863. Número de identificación personal 18429315. Número de identificación personal 10406520.
Balla S, Thapar V, Verma S, Luong T, Faghri T, Huang CH, et al. (marzo de 2006). "Minimotif Miner: una herramienta para investigar la función de las proteínas" . Nature Methods . 3 (3): 175–7. doi :10.1038/nmeth856. PMID 16489333. S2CID 15571142.